Programing

weka 분류를 해석하는 방법?

즐거운 cyworld 2021. 1. 11. 07:31
반응형

weka 분류를 해석하는 방법?


나이브 베이를 사용하여 weka의 분류 결과를 어떻게 해석 할 수 있습니까?

평균, 표준 편차, 가중치 합계 및 정밀도는 어떻게 계산됩니까?

카파 통계, 평균 절대 오차, 제곱 평균 오차 등은 어떻게 계산됩니까?

혼동 행렬의 해석은 무엇입니까?


다음은 10 겹 교차 검증을 사용한 naive Bayes 분류기의 샘플 출력입니다. 여기에는 많은 정보가 있으며 집중해야 할 사항은 애플리케이션에 따라 다릅니다. 시작하기 위해 아래 결과 중 일부를 설명하겠습니다.

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances          71               71      %
Incorrectly Classified Instances        29               29      %
Kappa statistic                          0.3108
Mean absolute error                      0.3333
Root mean squared error                  0.4662
Relative absolute error                 69.9453 %
Root relative squared error             95.5466 %
Total Number of Instances              100     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.967     0.692      0.686     0.967     0.803      0.709    0
                 0.308     0.033      0.857     0.308     0.453      0.708    1
Weighted Avg.    0.71      0.435      0.753     0.71      0.666      0.709

=== Confusion Matrix ===

  a  b   <-- classified as
 59  2 |  a = 0
 27 12 |  b = 1

올 바르고 잘못 분류 된 인스턴스는 올 바르고 잘못 분류 된 테스트 인스턴스의 비율을 보여줍니다. 원시 번호와 함께 혼란 매트릭스에 표시됩니다 ab클래스 레이블을 나타내는. 여기에 100 개의 인스턴스가 있었으므로 백분율과 원시 숫자의 합이 aa+ bb= 59 + 12 = 71, ab+ ba= 27 + 2 = 29입니다.

올바르게 분류 된 인스턴스의 백분율을 종종 정확도 또는 샘플 정확도라고합니다. 성능 추정치로서 몇 가지 단점이 있습니다 (우연이 수정되지 않고 클래스 분포에 민감하지 않음). 따라서 다른 수치 중 일부를보고 싶을 것입니다. ROC 영역 또는 ROC 곡선 아래 영역은 내가 선호하는 측정 값입니다.

Kappa는 분류와 실제 클래스 간의 우연에 의해 수정 된 일치 척도입니다. 우연히 예상되는 합의를 관찰 된 합의에서 멀어지고 가능한 최대 합의로 나누어 계산됩니다. 0보다 큰 값은 분류 기가 우연보다 더 잘하고 있음을 의미합니다 (정말 그래야합니다!).

오류율은 분류보다는 숫자 예측에 사용됩니다. 숫자 예측에서 예측은 옳고 그름이 아니며 오류에는 크기가 있으며 이러한 측정 값은이를 반영합니다.

그것이 당신을 시작할 수 있기를 바랍니다.


michaeltwofish의 답변에 대해 자세히 설명하기 위해 나머지 값에 대한 몇 가지 참고 사항 :

  • TP 비율 : 참 양성 비율 (주어진 클래스로 올바르게 분류 된 인스턴스)

  • FP Rate : 위양성 비율 (주어진 클래스로 잘못 분류 된 인스턴스)

  • 정밀도 : 클래스에 속하는 인스턴스의 비율을 해당 클래스로 분류 된 총 인스턴스로 나눈 값

  • 리콜 : 주어진 클래스로 분류 된 인스턴스의 비율을 해당 클래스의 실제 총계로 나눈 비율 (TP 비율과 동일)

  • F-Measure : 2 * Precision * Recall / (Precision + Recall)로 계산되는 정밀도 및 재현율에 대한 결합 측정 값

ROC 면적 측정에 관해서는 이것이 Weka가 출력 한 가장 중요한 값 중 하나라는 michaeltwofish의 의견에 동의합니다. "최적"분류기는 ROC 영역 값이 1에 가까워지며 0.5는 "무작위 추측"과 비슷합니다 (Kappa 통계 0과 유사).

It should be noted that the "balance" of the data set needs to be taken into account when interpreting results. Unbalanced data sets in which a disproportionately large amount of instances belong to a certain class may lead to high accuracy rates even though the classifier may not necessarily be particularly good.

Further reading:


What is Naive Bayes?

This explanation might help clarify what Naive Bayes means; it assumes independence of variables. To make this concrete, say we want to predict whether someone has walked through Prospect Park in Brooklyn. We have data on whether they

a) live in New York City

b) live in a city

Naive Bayes would assume those two variables are independent. But clearly, if they live in NYC, they also live in a city. This is a stupid example because (hopefully) no one would ever use data science with these variables, but it shows what independence means. If a, then b. Also, if not b, then not a.

There is dependence, so Naive Bayes' naive assumption does not hold.

Weka Tutorial

This page may be of use to newbies. It's helping me a lot; it walks through

I am not affiliated with Jason Brownlee. He seems kind of sales-y, but the benefit of that is he keeps it simple since he's targeting beginners


It is giving each value of "50050000" for some algorithms while for other classifiers these values are around 49.7, 87.4, 98.2, and so on.

ReferenceURL : https://stackoverflow.com/questions/2903933/how-to-interpret-weka-classification

반응형