[ADSP] 3과목 요약

728x90

R 기초

기본값 matrix(data, nrow=1, ncol=1, byrow=FALSE)

byrow = true 일 경우 로우(행)부터 채워넣음

array(1:18, c(2,3,3))

=> 3차원 array c(행, 열, 면) 을 나타낸다.

a3[1, 3, 2]

=> 1행 3열 2면

SUMMARY

1. 중앙값 ,평균

- 평균이 그래프의 꼬리를 따라간다.

- 평균이 중앙값보다 크다면 오른쪽 꼬리가 길게 나타난다.

2. 연속형/범주형

- 연속형은 MIN,MAX값이 있다. 없으면 범주형.

3. 범주형 : 서열형, 명목형

4. IQR(사분위수 범위) = 3사분위수 - 1사분위

박스플롯

- 박스플롯에서 민맥스는 실제 최대,최소값이 아니라 정상값 중 최대,최소값이다.

- 박스플롯은 이상치 확인 가능. 이상치는 평균에서 먼 값.

- 박스플롯에 중앙값(median) 은 있지만, 평균(mean)은 없다.

- 박스플롯은 데이터수를 알수 없다.

- 상자박스는 그룹 간 분포차이를 비교할 수 있으며(o), 그 차이가 유의미함을 보여준다.(x)

=> 차이가 유의미함을 보여주진 못한다. 그것은 통계기법을 사용해야 알 수 있다.

이상값

- 분석목적에 따라 취사선택할 수 있다.

- 의도되지 않은 현상이지만 분석에 포함해야 하는 경우도 있다.

- 이상값도 분석 대상이 될 수 있다. 무조건 삭제는 틀린 말.

- ESD: 평균으로부터 3 * 표준편차 밖의 값

- 박스플롯: IQR*1.5 밖의 값

- SUMMRY(): 평균, 중앙값, IQR을 보고 판단함.

=> 그러나 보기에 평균 3 * 표준편차를 벗어나는 값은 이상치로 판단하고 제거한다. 라고 나온다면 틀린말.

통계

- 모집단,모수,표본,통계랑 개념 알기

- 단순 무작위추출, 계통추출, 층화추출 개념 알기 // 층화가 가장 많이 나옴

- 척도 4가지 개념 알기

- 평균은 양 꼬리 값의 크기가 변할때 영향을 크게 받지만

중앙값은 그러한 영향 거의 X

- 독립사건 배반사건 수식 알기

- 이산형 확률분포 VS 연속형 확률분포

- 베르누이 분포

- 실험 경과 두가지 중의 하나로 나오는 시행의 결과를

- 기대값 P, 분산 P+Q

- 이항분포

- 베르누이 시행을 N회 반복

- 기대값 e(x) = np

- 포아송분포

- 단위 시간이나 단위 공간에서 어떤 사건 몇번 발생할 것인지를 표현하는 분포

- 이산적확률변수 구하는 법 알기

-정규분포

- 평균0, 표준편차/분산 1인 정규분포, N(0,1)을 표준 정규분포 Z분포라 함 (분산이 1)

- 정규분포의 평균 주위로 표준편차의 1배 범위에 있을 확률 68%, 2배 범위 안 95%, 3배 범위 안 99.7%

- 확률 밀도 함수

- 특정 구간에 속할 확률을 계산하기 위한 함수 (연속형 확률 분포랑 관계있다! 기억)

- 중심 극한 정리

- 표본의 크기가 𝑵인 확률표본의 표본평균은 N이 충분히 크면 근사적으로 정규분포를
따르게 됨
- 모집단의 분포와 상관없이 표본의 크기가 30이상이 되면 𝑵이 커짐에 따라 표본평균
의 분포가 정규분포에 근사해 짐

- 오차의 법칙

- MLE(Maximum Likelihood Estimator) : 실제 값일 가능성이 가장 높은 값
- 실제 값의 MLE가 측정값의 평균이라면, 오차는 정규분포를 따른다 ➔ 오차의 법칙

-균등분포

- 지수분포

- 사건이 서로 독립적일 때 다음 사건이 일어날 때까지 대기 시간은 지수분포를 따름

- T분포 중요함

- 표본을 많이 뽑지 못하는 경우에 대한 대응책

- t-분포는 표본의 개수에 따라 그래프의 모양이 변함

-카이제곱분포

- '분산' 과 연결시켜

- 분산의 특징을 확률분포로 만든 것

- F분포

- 카이제곱분포와 같이 분산을 다룰 때 사용하는 분포
- 카이제곱분포는 한 집단의 분산, F 분포는 두 집단의 분산을 다룸

- 두 집단의 분산이 크기가 서로 같은지 또는 다른지 비교하는데 사용함

- 정규분포 -> 표준화 -> 표준정규분포 (표준화는 평균이0 분산이1)

- 모수적추론 비모수적추론 구분 및 종류 알기

- 점추정 구간추정 구분하기

-표준오차 식 알기

- 오차한계 식 알기

일치성(consistency)

표본의 크기가 커짐에 따라 표본 오차가 작아져야 한다

비편향성, 불편성(unbiasedness)

편향(bias) = 추정량의 기댓값 – 실제값(=모수의 값) = 𝑬(𝜽෡ ) - 𝜽
추정량의 기댓값이 모수의 값과 같아야 한다 (편향 == 0)

효율성(efficiency)

추정량의 분산이 될 수 있는 대로 작아야 한다 (최소분산 추정량)
MSE(Mean Square Error)가 작아야 한다

- 점추정

- Point estimation, 통계량 하나를 구하고 그것을 가지고 모수를 추정하는 방법

- 점추정량 구하는 법

- 적률법 – 표본의 기댓값을 통해 모수를 추정하는 방법
- 최대가능도추정법(최대우도법) – 함수를 미분해서 기울기가 0인 위치에 존재하는
MLE(maximum likelihood estimator)를 찾는 방법
- 최소제곱법 - 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하
는 방법

-구간추정

- 신뢰구간/신뢰수준의 관계를 꼭 알아야함

신뢰구간 ▪ 모수가 포함되리라고 기대되는 ‘범위’

신뢰수준 ▪ 모수값이 정해져 있을 때 다수 신뢰구간 중 모수값을 포함하는 신뢰구간이 존재할 확률 ▪ 신뢰수준 95% 의미 : n번 반복 추출하여 산정하는 신뢰구간들 중에서 평균적으로 95%는 모수 값을 포함하고 있을 것이라는 의미

- 99% 신뢰수준에 대한 신뢰구간이 95% 신뢰수준에 대한 신뢰구간보다 길다
=> 표본의 크기가 커지면 신뢰구간의 길이는 줄어든다

- 귀무가설

- 대립가설: 입증하고자 하는 가설 변화O

제 1종 오류: 귀무가설이 참인데 기각되는 오류 / 생산자 오류

제 2종 오류: 귀무가설이 거짓인데 채택하는 오류 / 소비자 위험오류 치명적!

- 두가지 오류 모두 작을수록 바람직함

- 제1종 오류를 범할 확률의 최대 허용치를 특정값 (유의수준)으로 지정해 놓고

제 2종 오류의 확률을 가장 작게 해주는 검정 방법을 사용함

- 유의수준: 귀무가설이 참인데도 기각시키는 확률(제1종 오류 발생 확률)의 최대 허용 한계 0.05

- 유의확률(p-value) 제1종 오류를 범할 확률, 귀무가설을 지지하는 정도

p-value < α 일때, 귀무가설을 기각, 대립가설을 채택

- 모수적 추론: 모집단에 특정 분포를 가정

- 비모수적 추론:

모집단에 대해 특정 분포 가정을 하지 않음. 꼭 알기

모수 자체보다 분포 형태에 관한 검정을 실시함

표본 수가 적고, 명목척도, 서열척도 인 경우 (성별, 혈액형, 만족도, 메달)

그림 알기

모수적 통계의 전제조건

표본의 모집단이 정규분포를 이루어야 하며, 집단 내의 분산은 같아야 함

변인(=변수)은 등간척도나 비율척도로 측정되어야 함 (아니면 비모수 통계 사용)

평균 => T TEST,z분포,t분포

분산 => F분포

- T-TEST

One Sample t-test VS

Paired t-test 대응표본 t-검정 VS

Two sample t-test 독립표본 t-검정

각각이 언제 사용하는것인가 알아두기

특히 원샘플은 평균에 관한것이다 알아두기

자유도

데이터갯수 - 1

데이터의 정규성 검정 종류

비모수적 검정

모수 추론이 아니라 분포형태에 대한것만 검정

▪ 모수적 방법보다 훨씬 단순함, 민감성을 잃을 수 있음

카이스퀘어 검정(Chi-square test), , Sign Test

영어로 길게 나오면 보통 비모수적 검저

표 기억

카이스퀘어 검정

▪ 한 개 범주형 변수와 각 그룹 별 비율과 특정 상수비가 같은지 검정하는 적합도 검정

▪ 각 집단이 서로 유사한 성향을 갖는지 분석하는 동질성 검정

▪ 두 개 범주형 변수가 서로 독립인지 검정하는 독립성 검정

부호 검정 Sign Test

표본들이 서로 관련되어 있는 경우, 짝지어진 두 개의 관찰치들의 크고 작음을 +와 –로 표시하여 그 개수를 가지고 두 그룹의 분포 차이가 있는가에 대한 가설을 검증하는 방법

데이터 마이닝 기법 6가지

분류(Classification) ▪ 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것

추정(Estimation) ▪ 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정하는 것

연관분석

▪ '같이 팔리는 물건＇ 같이 아이템의 연관성을 파악하는 분석

▪ 카탈로그 배열 및 교차판매, 공격적 판촉행사 등의 마케팅 계획

군집(Clustering)

미리 정의된 기준이나 예시에 의해서가 아닌 레코드 자체가 가진 다른 레코 드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 됨

기술(Description) ▪ 데이터가 가진 특징 및 의미를 단순하게 설명하는 것

지도학습 비지도학습 연속형 범주형 알기

로지스틱회구 => 분류모델

odds ▪ 성공률 / 실패율, Pi / (1-Pi ), Pi =성공률

log odds

log(odds), odds값에 log를 취함

값의 범위를 전체 실수 범위(-∞~+∞)로 확장

sigmoid

log odds 값을 연속형 0~1 사이의 값으로 바꾸는 함수

▪ Logistic 함수라 불리기도 하며, 비선형적 값을 얻기 위해 사용

의사결정나무

분류 회귀 둘 다 가능

부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다 (불순도 감소)

가지치기

▪ 최종 노드가 너무 많으면 Overfitting 가능성이 커짐, 이를 해결하기 위해 사용

지니 지수

▪ 불순도 측정 지표, 값이 작을수록 순수도가 높음(분류 잘 됨)

엔트로피 지수

카이제곱 통계량의 유의 확률(p-value) ▪ 가장 작은 값을 갖는 방법 선택

알고리즘 이산형 목표변수 (분류나무) 연속형 목표변수 (회귀나무)

CART (Classification And Regression Tree) 지니지수 분산 감소량 C5.0 엔트로피지수 CHAID (Chi-squared Automatic Interaction Detection) 카이제곱 통계량의 p-value ANOVA F-통계량 – p-value

표 외워

앙상블 모형

▪ 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법

▪ 성능을 분산시키기 때문에 과적합(overfitting) 감소 효과가 있음

Voting

▪ 서로 다른 여러 개 알고리즘 분류기 사용

자주나오 배김 부스

배깅(Bagging, Bootstrap AGGregatING)

▪ 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 분류기 결합

중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출

어떤 데이터는 추출되지 않을 수 있음

▪ 여러 모델이 병렬로 학습, 그 결과를 집계하는 방식

부스팅(Boosting)

▪ 여러 모델이 순차적으로 학습

각 자료의 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추

XGBoost, Light GBM => Leaf-wise-node 방법을 사용하는 알고리즘

랜덤 포레스트 Random forest

▪ 배깅(Bagging)에 랜덤 과정을 추가한 방법

설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용

▪ 여러 개 의사결정 나무를 사용해, 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음

knn

거리를 측정해 이웃들을 뽑기 때문에 스케일링이 중요함

반응변수가 범주형이면 분류, 연속형이면 회귀의 목적으로 사용됨

모형을 미리 만들지 않고, 새로운 데이터가 들어오면 그때부터 계산을 시작하는 lazy learning

인공신경망

분류 및 예측

경사하강법

함수 기울기를 낮은 쪽으로 계속 이동시켜 기울기의 최소값을 찾아내는 머신러닝 알고리즘

신경망 모형의 장점

복잡한 비선형 관계에 유용

▪ 이상치 잡음에 대해서도 민감하게 반응하지 않음

단점

▪ 결과에 대한 해석이 쉽지 않음

모형이 복잡하면 훈련 과정에 시간이 많이 소요됨

신경망 활성화 함수(activation function)

▪ 결괏값을 내보낼 때 사용하는 함수로, 가중치 값을 학습할 때 에러가 적게 나도록 도움

sigmoid 함수

▪ 선형적인 멀티-퍼셉트론에서 비선형 값을 얻기 위해 사용

softmax 함수

▪ 모든 logits의 합이 1이 되도록 output을 정규화

각 범주에 속할 사후 확률을(posterior probability) 제공하는 활성화 함수

은닉 층 노드가 너무 적으면 Underfitting

은닉 층 노드가 너무 많으면 Overfitting

▪ 레이어가 많아지면 기울기 소실 문제가 발생할 수 있다

역전파 알고리즘

동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용됨

기울기 소실 문제

다층신경망에서 은닉층이 많아

인공신경망 기울기 값을 베이스로 하는 역전파 알고리즘으로

학습시키려고 할 때 발생하는 문제

activation function으로 sigmoid 함수를 사용할 때 발생 ➔ 해결을 위해 ReLU 등 다른 함수 사용

모형평가

원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법으로

하나는 모형 학습 및 구축을 위한 훈련용 자료로

다른 하나는 성과평가를 위한 검증용 자료로 사용하는 방법

교차검증

▪ 데이터가 충분하지 않을 경우 Hold-out으로 나누면 많은 양의 분산 발생

▪ 이에 대한 해결책으로 교차검증을 사용할 수 있음, 그러나 클래스 불균형 데이터에는 적합하지 않음

▪ 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형의 평가 방법

붓스트랩(Bootstrap)

▪ 평가를 반복하는 측면에서 교차검증과 유사하지만, 4

훈련용 자료를 반복 재선정한다는 점에서 차 이가 있는 평가 방법 ▪ 4

붓스트랩은 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법에 기반함

▪ 전체 데이터 양이 크지 않을 경우의 모형 평가에 가장 적합

▪ 훈련 데이터를 63.2% 사용하는 0.632 붓스트랩이 있음

오분류표

정밀도, 재현율(민감도) 구하는 식 f1

Accuracy

오분류율

Specificity 특이도

FP Rate 1-특이도

ROC(Receiver Operating Characteristic) Curve

X축 : False positive rate (1 – Specificity)

▪ Y축 : True positive rate (Sensitivity)

▪ ROC 그래프의 밑부분의 면적(AUC, Area Under the Curve)이 넓을수록

좋은 모형으로 평가함

Perfect classifier :

긍정, 부정 모두 다 맞추는 위치로 classification성능이 우수하다고 봄,

x=0, y=1인 경우

군집

계층적 군집

응집형: 단일(최단) 연결법, 완전(최장) 연결법, 평균 연결법, 중심 연결법, Ward 연결법

분리형: 다이아나 방법(DIANA Method)

분할적 군집

프로토타입-기반: ▪ k-중심 군집 : k-평균 군집, k-중앙값 군집, k-메도이드 군집 ▪ 퍼지(Fuzzy) 군집

분포기반: ▪ 혼합 분포 군집

밀도기반: ▪ 중심밀도 군집

계층적 군집 분석의 특징

▪ 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요함

▪ 이상치에 민감함

▪ 사전에 군집 수 k를 설정할 필요가 없는 탐색적 모형

한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없음

계층적 군집 - 응집형(병합 군집) 군집 방법 A - 최단연결법 ▪ 단일연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최솟값을 측정, 고립된 군집을 찾는데 중점을 둔 방식 D - 와드 연결법 ▪ 계층적 군집내의 오차제곱합에 기초하여 군집을 수행하는 군집 방법 ▪ 크기가 비슷한 군집끼리 병합하는 경향이 있음 C - 중심 연결법 ▪ 두 군집의 중심 간의 거리를 측정함 ▪ 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해 짐 E - 평균 연결법 ▪ 모든 항목에 대한 거리 평균을 구하면서 군집화, 계산양이 많아질 수 있음

계층적 군집의 거

수학적 거리 개념 : 유클리드, 맨해튼, 민코프스키

마할라노비스 ▪ 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리

dist 함수 ▪ 거리측정에 사용하는 함수로 사용가능한 거리 개념으로 유클리드, 맨해튼, 민코프스키, maximum, canberra, binary 등이 있음

코사인(cosine)거리 ▪ 두 벡터 사이의 사잇각을 계산해서 유사한 정도를 구하는 것

▪ 값이 1인 경우 유사도가 크며, -1인 경우 유사도가 매우 작음을 의미함

Manhattan, d 𝑖, j = xi1 − xj1 + xi2 − xj2 + … + xip − xjp

비계층적 군집 – 분할적 군집 방법

▪ k-mean

방법은 사전에 군집의 수 k를 정해 주어야 함 (k : hyper-parameter)

▪ 군집수 k가 원데이터 구조에 적합하지 않으면 좋은 결과를 얻을 수 없음

잡음이나 이상값에 영향을 받기 쉬움

k-means 절차

1. 초기 군집의 중심으로 k개의 객체를 임의로 선택한다

2. 각 자료를 가장 가까운 군집의 중심에 할당한다

3. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다

4. 군집 중심의 변화가 거의 없을 때까지 2, 3을 반복한다

비계층적 군집

DBSCAN ▪ 밀도 기반 클러스터링으로 점이 세밀하게 몰려 있어 밀도가 높은 부분을 클러스터링 함

▪ 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식

▪ Gaussian 분포가 아닌 임의적 모양의 군집분석에 적합함

▪ k 값을 정할 필요 없음, outlier에 의한 성능 하락을 완화할 수 있음

혼합분포군집 ▪ 모수와 가중치 추정에 EM 알고리즘이 사용됨(Expectation Maximization)

EM 알고리즘

E step : k개의 모형 군집에 대해 모수를 사용해 각 군집에 속할 사후확률을 구함

4M step : 사후확률을 이용해 최대 우도 추정으로 모수를 다시 추정하고, 이를 반복함

실루엣 계수(Silhouette Coefficient)

▪ 군집내 거리와 군집 간의 거리를 기준으로 군집 분할 성과를 측정하는 방식

▪ 클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집평가

▪ 실루엣 지표가 1에 가까울수록 군집화가 잘 되었다고 판단

▪ 실루엣 지표가 1 : 한 군집의 모든 개체가 한치도 떨어져 있지 않고 붙어있는 경우

SOM 이란?

자기조직화지도

▪ 인공신경망의 한 종류로, 차원축소와 군집화를 동시에 수행하는 기법

▪ 비지도 학습(Unsupervised Learning)의 한 가지 방법

▪ 고차원으로 표현된 데이터를 저차원으로 변환해서 보는데 유용함

▪ 입력층과 2차원의 격자 형태의 경쟁층으로 이루어져 있음(2개의 층으로 구성)

경쟁 학습

SOM vs 신경망 모형

신경망 모형은 연속적인 layer로 구성된 반면, SOM은 2차원의 그리드(격자)로 구성

▪ 신경망 모형은 에러 수정을 학습 하는 반면 SOM은 경쟁학습 실시

▪ 신경망은 역전파 알고리즘이지만, SOM은 전방패스를 사용해 속도가 매우 빠름

연관분석

▪ 연관규칙(Association rule) : 항목들 간의 ‘조건-결과’ 식으로 표현되는 유용한 패턴

▪ 이러한 패턴 규칙을 발견해내는 것을 연관분석이라 함

▪ 장바구니 분석이라고 함(미국 마트에서 기저귀를 사는 고객은 맥주를 동시에 구매한다

Apriori 알 고리즘

▪ 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝히는 방법

FP Growth

▪ Apriori 단점을 보완하기 위해 FP-tree와 node, link라는 특별한 자료 구조를 사용

장점

▪ 조건반응(if-then)으로 표현되는 연관 분석의 결과를 이해하기 쉬움

단점

▪ 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가함

연관규칙 측정지표

지지도:

▪ 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율

▪ 지지도 = P(A∩B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수

신뢰도

▪ 상품 A를 구매했을 때 상품 B를 구매할 확률이 어느 정도 되는지를 확인

▪ 신뢰도 = P(B|A) = P(A∩B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수

향상도

▪ 품목B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률

▪ 향상도 = P(B|A)/P(B) = P(A∩B) / (P(A)*P(B))

식을 잘알아야 한다.

향상도 해석

▪ 향상도가 1보다 높아질수록 연관성이 높다고 할 수 있음

▪ 향상도=1이면 품목 A와 B 사이에 아무런 상호 관계가 없음(독립)

▪ 향상도가 1보다 작으면 두 품목이 서로 음의 상관관계임을 의미함

728x90

저작자표시 (새창열림)

돌비오의 개발일지

[ADSP] 3과목 요약

티스토리툴바