Programing

Scikit 학습의 RandomForestClassifier 대 ExtraTreesClassifier

lottogame 2020. 9. 19. 11:52
반응형

Scikit 학습의 RandomForestClassifier 대 ExtraTreesClassifier


누구든지 scikit에서 RandomForestClassifier와 ExtraTreesClassifier의 차이점을 설명 할 수 있습니까? 나는 논문을 읽는 데 상당한 시간을 보냈다.

P. Geurts, D. Ernst. 및 L. Wehenkel, "매우 무작위 트리", 기계 학습, 63 (1), 3-42, 2006

ET의 차이점은 다음과 같습니다.

1) 분할에서 변수를 선택할 때 훈련 세트의 부트 스트랩 샘플 대신 전체 훈련 세트에서 샘플을 추출합니다.

2) 분할은 각 분할에서 샘플의 값 범위에서 완전히 무작위로 선택됩니다.

이 두 가지의 결과는 더 많은 "잎"입니다.


예, scikit-learn의 Random Forest 구현을 통해 부트 스트랩 리샘플링을 활성화 또는 비활성화 할 수 있지만 두 결론이 모두 정확합니다.

실제로 RF는 종종 ET보다 더 간결합니다. ET는 일반적으로 계산 관점에서 훈련하는 데 더 저렴하지만 훨씬 더 커질 수 있습니다. 외계인은 언젠가 RF를보다 더 일반화 할 수 있지만 그것은 모두 첫 번째 시도가없는 경우 (그리고 튜닝 할 때 추측하기 어려운 n_estimators, max_features그리고 min_samples_split교차 검증 그리드 검색에 의해).


ExtraTrees 분류기는 항상 기능의 일부에 대해 무작위 분할을 테스트합니다 (기능의 일부에 대해 가능한 모든 분할을 테스트하는 RandomForest와는 달리).

참고 URL : https://stackoverflow.com/questions/22409855/randomforestclassifier-vs-extratreesclassifier-in-scikit-learn

반응형