본문 바로가기
#02.천재교육 빅데이터/+06.머신러닝 기초

[천재교육] 분류(Classification)

by 돌비오 2023. 3. 14.
728x90
분류 (Classification)

학습데이터로 주어진 데이터의 피쳐와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고,
이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것.

이진 분류 and 다중분류(다중 클래스 분류)

 

 

 


이진 분류기

입력된 데이터를 두 그룹(참 혹은 거짓)으로 분류하는 것

 

ex)

참 : 숫자 5를 가리키는 이미지
거짓 : 숫자 5 이외의 수를 가리키는 이미지

 

 

 

 


이진분류가 잘 되었는지 확인하는 방법

 

1. 오차행렬 (Confusion matrix)

 

 


2. 정밀도(Precision) vs 재현율(Recall)

 

 

- 정밀도(Precision) : 예측 중 실제 → 그렇니까 암진단이 중요하다. 암이라 예측했는데 아니면 큰일이니까
- 재현율(Recall) : 실제 중 예측      → 그렇니까 아동용 동영상 선택에서 중요하다.

 

 

2.1. 정밀도(Precision) vs 재현율(Recall) - 상호반비례 관계

 

 


3. F1 score

 

 


4. ROC(Receiver Operating Characteristic) 곡선

그래프가 y축에 가까울수록 좋은모델. fpr이 낮다는 의미래
⇒ auc가 넓을수록 좋다.
⇒ 현업에서 많이 쓰임

 

 


5. AUC(Area Under the Curve)

 

 

 


다중 클래스 분류(Multiclass Classification)

 

- 왼쪽 그래프는 3개의 이진분류기(3개의 선) 를 만들어 다중클래스 분류. 

   ova → 하나 대 다른 모든것을 분류. 하나의 클래스에 한가지 색깔이 있고, 다른 클래스에는 여러색이 있네.


- 오른쪽 그래프도 3가지 이진분류기. 

  ovo → 이건 클래스마다 색이 섞여있으니까 더 많은 색이 있는걸 선택하겠지.

728x90