분류 (Classification)
학습데이터로 주어진 데이터의 피쳐와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고,
이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것.
이진 분류 and 다중분류(다중 클래스 분류)
이진 분류기
입력된 데이터를 두 그룹(참 혹은 거짓)으로 분류하는 것
ex)
참 : 숫자 5를 가리키는 이미지
거짓 : 숫자 5 이외의 수를 가리키는 이미지

이진분류가 잘 되었는지 확인하는 방법
1. 오차행렬 (Confusion matrix)

2. 정밀도(Precision) vs 재현율(Recall)


- 정밀도(Precision) : 예측 중 실제 → 그렇니까 암진단이 중요하다. 암이라 예측했는데 아니면 큰일이니까
- 재현율(Recall) : 실제 중 예측 → 그렇니까 아동용 동영상 선택에서 중요하다.
2.1. 정밀도(Precision) vs 재현율(Recall) - 상호반비례 관계



3. F1 score

4. ROC(Receiver Operating Characteristic) 곡선

그래프가 y축에 가까울수록 좋은모델. fpr이 낮다는 의미래
⇒ auc가 넓을수록 좋다.
⇒ 현업에서 많이 쓰임
5. AUC(Area Under the Curve)

다중 클래스 분류(Multiclass Classification)

- 왼쪽 그래프는 3개의 이진분류기(3개의 선) 를 만들어 다중클래스 분류.
ova → 하나 대 다른 모든것을 분류. 하나의 클래스에 한가지 색깔이 있고, 다른 클래스에는 여러색이 있네.
- 오른쪽 그래프도 3가지 이진분류기.
ovo → 이건 클래스마다 색이 섞여있으니까 더 많은 색이 있는걸 선택하겠지.
'#02.천재교육 빅데이터 > +06.머신러닝 기초' 카테고리의 다른 글
| [천재교육] 앙상블학습 - 보팅, 배깅(랜덤포레스트), 부스팅, 스태깅 (0) | 2023.03.15 |
|---|---|
| [천재교육] 결정트리, KNN(K-Nearest Neighbor) 알고리즘 (0) | 2023.03.14 |
| [천재교육] 판다스(pandas) (0) | 2023.03.14 |
| [천재교육] 넘파이(Numpy) - 인덱싱, 정렬, 선형대수 연산 (0) | 2023.03.13 |
| [천재교육] 전처리, 데이터 인코딩, 스케일링 (2) | 2023.03.13 |