R 기초
1.
기본값 matrix(data, nrow=1, ncol=1, byrow=FALSE)
byrow = true 일 경우 로우(행)부터 채워넣음
2.
array(1:18, c(2,3,3))
=> 3차원 array c(행, 열, 면) 을 나타낸다.
a3[1, 3, 2]
=> 1행 3열 2면
SUMMARY
1. 중앙값 ,평균
- 평균이 그래프의 꼬리를 따라간다.
- 평균이 중앙값보다 크다면 오른쪽 꼬리가 길게 나타난다.
2. 연속형/범주형
- 연속형은 MIN,MAX값이 있다. 없으면 범주형.
3. 범주형 : 서열형, 명목형
4. IQR(사분위수 범위) = 3사분위수 - 1사분위
박스플롯
- 박스플롯에서 민맥스는 실제 최대,최소값이 아니라 정상값 중 최대,최소값이다.
- 박스플롯은 이상치 확인 가능. 이상치는 평균에서 먼 값.
- 박스플롯에 중앙값(median) 은 있지만, 평균(mean)은 없다.
- 박스플롯은 데이터수를 알수 없다.
- 상자박스는 그룹 간 분포차이를 비교할 수 있으며(o), 그 차이가 유의미함을 보여준다.(x)
=> 차이가 유의미함을 보여주진 못한다. 그것은 통계기법을 사용해야 알 수 있다.
이상값
- 분석목적에 따라 취사선택할 수 있다.
- 의도되지 않은 현상이지만 분석에 포함해야 하는 경우도 있다.
- 이상값도 분석 대상이 될 수 있다. 무조건 삭제는 틀린 말.
- ESD: 평균으로부터 3 * 표준편차 밖의 값
- 박스플롯: IQR*1.5 밖의 값
- SUMMRY(): 평균, 중앙값, IQR을 보고 판단함.
=> 그러나 보기에 평균 3 * 표준편차를 벗어나는 값은 이상치로 판단하고 제거한다. 라고 나온다면 틀린말.
통계
- 모집단,모수,표본,통계랑 개념 알기
- 단순 무작위추출, 계통추출, 층화추출 개념 알기 // 층화가 가장 많이 나옴
- 척도 4가지 개념 알기
- 평균은 양 꼬리 값의 크기가 변할때 영향을 크게 받지만
중앙값은 그러한 영향 거의 X
- 독립사건 배반사건 수식 알기
- 이산형 확률분포 VS 연속형 확률분포
- 베르누이 분포
- 실험 경과 두가지 중의 하나로 나오는 시행의 결과를
- 기대값 P, 분산 P+Q
- 이항분포
- 베르누이 시행을 N회 반복
- 기대값 e(x) = np
- 포아송분포
- 단위 시간이나 단위 공간에서 어떤 사건 몇번 발생할 것인지를 표현하는 분포
- 이산적확률변수 구하는 법 알기
-정규분포
- 평균0, 표준편차/분산 1인 정규분포, N(0,1)을 표준 정규분포 Z분포라 함 (분산이 1)
- 정규분포의 평균 주위로 표준편차의 1배 범위에 있을 확률 68%, 2배 범위 안 95%, 3배 범위 안 99.7%
- 확률 밀도 함수
- 특정 구간에 속할 확률을 계산하기 위한 함수 (연속형 확률 분포랑 관계있다! 기억)
- 중심 극한 정리
- 표본의 크기가 𝑵인 확률표본의 표본평균은 N이 충분히 크면 근사적으로 정규분포를
따르게 됨
- 모집단의 분포와 상관없이 표본의 크기가 30이상이 되면 𝑵이 커짐에 따라 표본평균
의 분포가 정규분포에 근사해 짐
- 오차의 법칙
- MLE(Maximum Likelihood Estimator) : 실제 값일 가능성이 가장 높은 값
- 실제 값의 MLE가 측정값의 평균이라면, 오차는 정규분포를 따른다 ➔ 오차의 법칙
-균등분포
- 지수분포
- 사건이 서로 독립적일 때 다음 사건이 일어날 때까지 대기 시간은 지수분포를 따름
- T분포 중요함
- 표본을 많이 뽑지 못하는 경우에 대한 대응책
- t-분포는 표본의 개수에 따라 그래프의 모양이 변함
-카이제곱분포
- '분산' 과 연결시켜
- 분산의 특징을 확률분포로 만든 것
- F분포
- 카이제곱분포와 같이 분산을 다룰 때 사용하는 분포
- 카이제곱분포는 한 집단의 분산, F 분포는 두 집단의 분산을 다룸
- 두 집단의 분산이 크기가 서로 같은지 또는 다른지 비교하는데 사용함
- 정규분포 -> 표준화 -> 표준정규분포 (표준화는 평균이0 분산이1)
- 모수적추론 비모수적추론 구분 및 종류 알기
- 점추정 구간추정 구분하기
-표준오차 식 알기
- 오차한계 식 알기
일치성(consistency)
표본의 크기가 커짐에 따라 표본 오차가 작아져야 한다
비편향성, 불편성(unbiasedness)
편향(bias) = 추정량의 기댓값 – 실제값(=모수의 값) = 𝑬(𝜽 ) - 𝜽
추정량의 기댓값이 모수의 값과 같아야 한다 (편향 == 0)
효율성(efficiency)
추정량의 분산이 될 수 있는 대로 작아야 한다 (최소분산 추정량)
MSE(Mean Square Error)가 작아야 한다
- 점추정
- Point estimation, 통계량 하나를 구하고 그것을 가지고 모수를 추정하는 방법
- 점추정량 구하는 법
- 적률법 – 표본의 기댓값을 통해 모수를 추정하는 방법
- 최대가능도추정법(최대우도법) – 함수를 미분해서 기울기가 0인 위치에 존재하는
MLE(maximum likelihood estimator)를 찾는 방법
- 최소제곱법 - 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하
는 방법
-구간추정
- 신뢰구간/신뢰수준의 관계를 꼭 알아야함
신뢰구간 ▪ 모수가 포함되리라고 기대되는 ‘범위’
신뢰수준 ▪ 모수값이 정해져 있을 때 다수 신뢰구간 중 모수값을 포함하는 신뢰구간이 존재할 확률 ▪ 신뢰수준 95% 의미 : n번 반복 추출하여 산정하는 신뢰구간들 중에서 평균적으로 95%는 모수 값을 포함하고 있을 것이라는 의미
- 99% 신뢰수준에 대한 신뢰구간이 95% 신뢰수준에 대한 신뢰구간보다 길다
=> 표본의 크기가 커지면 신뢰구간의 길이는 줄어든다
- 귀무가설
- 대립가설: 입증하고자 하는 가설 변화O
제 1종 오류: 귀무가설이 참인데 기각되는 오류 / 생산자 오류
제 2종 오류: 귀무가설이 거짓인데 채택하는 오류 / 소비자 위험오류 치명적!
- 두가지 오류 모두 작을수록 바람직함
- 제1종 오류를 범할 확률의 최대 허용치를 특정값 (유의수준)으로 지정해 놓고
제 2종 오류의 확률을 가장 작게 해주는 검정 방법을 사용함
- 유의수준: 귀무가설이 참인데도 기각시키는 확률(제1종 오류 발생 확률)의 최대 허용 한계 0.05
- 유의확률(p-value) 제1종 오류를 범할 확률, 귀무가설을 지지하는 정도
p-value < α 일때, 귀무가설을 기각, 대립가설을 채택
- 모수적 추론: 모집단에 특정 분포를 가정
- 비모수적 추론:
모집단에 대해 특정 분포 가정을 하지 않음. 꼭 알기
모수 자체보다 분포 형태에 관한 검정을 실시함
표본 수가 적고, 명목척도, 서열척도 인 경우 (성별, 혈액형, 만족도, 메달)
그림 알기
모수적 통계의 전제조건
표본의 모집단이 정규분포를 이루어야 하며, 집단 내의 분산은 같아야 함
변인(=변수)은 등간척도나 비율척도로 측정되어야 함 (아니면 비모수 통계 사용)
평균 => T TEST,z분포,t분포
분산 => F분포
- T-TEST
One Sample t-test VS
Paired t-test 대응표본 t-검정 VS
Two sample t-test 독립표본 t-검정
각각이 언제 사용하는것인가 알아두기
특히 원샘플은 평균에 관한것이다 알아두기
자유도
데이터갯수 - 1
데이터의 정규성 검정 종류
비모수적 검정
모수 추론이 아니라 분포형태에 대한것만 검정
▪ 모수적 방법보다 훨씬 단순함, 민감성을 잃을 수 있음
카이스퀘어 검정(Chi-square test), , Sign Test
영어로 길게 나오면 보통 비모수적 검저
표 기억
카이스퀘어 검정
▪ 한 개 범주형 변수와 각 그룹 별 비율과 특정 상수비가 같은지 검정하는 적합도 검정
▪ 각 집단이 서로 유사한 성향을 갖는지 분석하는 동질성 검정
▪ 두 개 범주형 변수가 서로 독립인지 검정하는 독립성 검정
부호 검정 Sign Test
표본들이 서로 관련되어 있는 경우, 짝지어진 두 개의 관찰치들의 크고 작음을 +와 –로 표시하여 그 개수를 가지고 두 그룹의 분포 차이가 있는가에 대한 가설을 검증하는 방법
데이터 마이닝 기법 6가지
분류(Classification) ▪ 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것
추정(Estimation) ▪ 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정하는 것
연관분석
▪ '같이 팔리는 물건' 같이 아이템의 연관성을 파악하는 분석
▪ 카탈로그 배열 및 교차판매, 공격적 판촉행사 등의 마케팅 계획
군집(Clustering)
미리 정의된 기준이나 예시에 의해서가 아닌 레코드 자체가 가진 다른 레코 드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 됨
기술(Description) ▪ 데이터가 가진 특징 및 의미를 단순하게 설명하는 것
지도학습 비지도학습 연속형 범주형 알기
로지스틱회구 => 분류모델
odds ▪ 성공률 / 실패율, Pi / (1-Pi ), Pi =성공률
log odds
log(odds), odds값에 log를 취함
값의 범위를 전체 실수 범위(-∞~+∞)로 확장
sigmoid
log odds 값을 연속형 0~1 사이의 값으로 바꾸는 함수
▪ Logistic 함수라 불리기도 하며, 비선형적 값을 얻기 위해 사용
의사결정나무
분류 회귀 둘 다 가능
부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다 (불순도 감소)
가지치기
▪ 최종 노드가 너무 많으면 Overfitting 가능성이 커짐, 이를 해결하기 위해 사용
지니 지수
▪ 불순도 측정 지표, 값이 작을수록 순수도가 높음(분류 잘 됨)
엔트로피 지수
카이제곱 통계량의 유의 확률(p-value) ▪ 가장 작은 값을 갖는 방법 선택
알고리즘 이산형 목표변수 (분류나무) 연속형 목표변수 (회귀나무)
CART (Classification And Regression Tree) 지니지수 분산 감소량 C5.0 엔트로피지수 CHAID (Chi-squared Automatic Interaction Detection) 카이제곱 통계량의 p-value ANOVA F-통계량 – p-value
표 외워
앙상블 모형
▪ 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
▪ 성능을 분산시키기 때문에 과적합(overfitting) 감소 효과가 있음
Voting
▪ 서로 다른 여러 개 알고리즘 분류기 사용
자주나오 배김 부스
배깅(Bagging, Bootstrap AGGregatING)
▪ 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 분류기 결합
중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출
어떤 데이터는 추출되지 않을 수 있음
▪ 여러 모델이 병렬로 학습, 그 결과를 집계하는 방식
부스팅(Boosting)
▪ 여러 모델이 순차적으로 학습
각 자료의 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추
XGBoost, Light GBM => Leaf-wise-node 방법을 사용하는 알고리즘
랜덤 포레스트 Random forest
▪ 배깅(Bagging)에 랜덤 과정을 추가한 방법
설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용
▪ 여러 개 의사결정 나무를 사용해, 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음
knn
거리를 측정해 이웃들을 뽑기 때문에 스케일링이 중요함
반응변수가 범주형이면 분류, 연속형이면 회귀의 목적으로 사용됨
모형을 미리 만들지 않고, 새로운 데이터가 들어오면 그때부터 계산을 시작하는 lazy learning
인공신경망
분류 및 예측
경사하강법
함수 기울기를 낮은 쪽으로 계속 이동시켜 기울기의 최소값을 찾아내는 머신러닝 알고리즘
신경망 모형의 장점
복잡한 비선형 관계에 유용
▪ 이상치 잡음에 대해서도 민감하게 반응하지 않음
단점
▪ 결과에 대한 해석이 쉽지 않음
모형이 복잡하면 훈련 과정에 시간이 많이 소요됨
신경망 활성화 함수(activation function)
▪ 결괏값을 내보낼 때 사용하는 함수로, 가중치 값을 학습할 때 에러가 적게 나도록 도움
sigmoid 함수
▪ 선형적인 멀티-퍼셉트론에서 비선형 값을 얻기 위해 사용
softmax 함수
▪ 모든 logits의 합이 1이 되도록 output을 정규화
각 범주에 속할 사후 확률을(posterior probability) 제공하는 활성화 함수
은닉 층 노드가 너무 적으면 Underfitting
은닉 층 노드가 너무 많으면 Overfitting
▪ 레이어가 많아지면 기울기 소실 문제가 발생할 수 있다
역전파 알고리즘
동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용됨
기울기 소실 문제
다층신경망에서 은닉층이 많아
인공신경망 기울기 값을 베이스로 하는 역전파 알고리즘으로
학습시키려고 할 때 발생하는 문제
activation function으로 sigmoid 함수를 사용할 때 발생 ➔ 해결을 위해 ReLU 등 다른 함수 사용
모형평가
원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법으로
하나는 모형 학습 및 구축을 위한 훈련용 자료로
다른 하나는 성과평가를 위한 검증용 자료로 사용하는 방법
교차검증
▪ 데이터가 충분하지 않을 경우 Hold-out으로 나누면 많은 양의 분산 발생
▪ 이에 대한 해결책으로 교차검증을 사용할 수 있음, 그러나 클래스 불균형 데이터에는 적합하지 않음
▪ 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형의 평가 방법
붓스트랩(Bootstrap)
▪ 평가를 반복하는 측면에서 교차검증과 유사하지만, 4
훈련용 자료를 반복 재선정한다는 점에서 차 이가 있는 평가 방법 ▪ 4
붓스트랩은 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법에 기반함
▪ 전체 데이터 양이 크지 않을 경우의 모형 평가에 가장 적합
▪ 훈련 데이터를 63.2% 사용하는 0.632 붓스트랩이 있음
오분류표
정밀도, 재현율(민감도) 구하는 식 f1
Accuracy
오분류율
Specificity 특이도
FP Rate 1-특이도
ROC(Receiver Operating Characteristic) Curve
X축 : False positive rate (1 – Specificity)
▪ Y축 : True positive rate (Sensitivity)
▪ ROC 그래프의 밑부분의 면적(AUC, Area Under the Curve)이 넓을수록
좋은 모형으로 평가함
Perfect classifier :
긍정, 부정 모두 다 맞추는 위치로 classification성능이 우수하다고 봄,
x=0, y=1인 경우
군집
계층적 군집
응집형: 단일(최단) 연결법, 완전(최장) 연결법, 평균 연결법, 중심 연결법, Ward 연결법
분리형: 다이아나 방법(DIANA Method)
분할적 군집
프로토타입-기반: ▪ k-중심 군집 : k-평균 군집, k-중앙값 군집, k-메도이드 군집 ▪ 퍼지(Fuzzy) 군집
분포기반: ▪ 혼합 분포 군집
밀도기반: ▪ 중심밀도 군집
계층적 군집 분석의 특징
▪ 유사도 판단은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요함
▪ 이상치에 민감함
▪ 사전에 군집 수 k를 설정할 필요가 없는 탐색적 모형
한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없음
계층적 군집 - 응집형(병합 군집) 군집 방법 A - 최단연결법 ▪ 단일연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최솟값을 측정, 고립된 군집을 찾는데 중점을 둔 방식 D - 와드 연결법 ▪ 계층적 군집내의 오차제곱합에 기초하여 군집을 수행하는 군집 방법 ▪ 크기가 비슷한 군집끼리 병합하는 경향이 있음 C - 중심 연결법 ▪ 두 군집의 중심 간의 거리를 측정함 ▪ 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해 짐 E - 평균 연결법 ▪ 모든 항목에 대한 거리 평균을 구하면서 군집화, 계산양이 많아질 수 있음
계층적 군집의 거
수학적 거리 개념 : 유클리드, 맨해튼, 민코프스키
마할라노비스 ▪ 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리
dist 함수 ▪ 거리측정에 사용하는 함수로 사용가능한 거리 개념으로 유클리드, 맨해튼, 민코프스키, maximum, canberra, binary 등이 있음
코사인(cosine)거리 ▪ 두 벡터 사이의 사잇각을 계산해서 유사한 정도를 구하는 것
▪ 값이 1인 경우 유사도가 크며, -1인 경우 유사도가 매우 작음을 의미함
Manhattan, d 𝑖, j = xi1 − xj1 + xi2 − xj2 + … + xip − xjp
비계층적 군집 – 분할적 군집 방법
▪ k-mean
방법은 사전에 군집의 수 k를 정해 주어야 함 (k : hyper-parameter)
▪ 군집수 k가 원데이터 구조에 적합하지 않으면 좋은 결과를 얻을 수 없음
잡음이나 이상값에 영향을 받기 쉬움
k-means 절차
1. 초기 군집의 중심으로 k개의 객체를 임의로 선택한다
2. 각 자료를 가장 가까운 군집의 중심에 할당한다
3. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다
4. 군집 중심의 변화가 거의 없을 때까지 2, 3을 반복한다
비계층적 군집
DBSCAN ▪ 밀도 기반 클러스터링으로 점이 세밀하게 몰려 있어 밀도가 높은 부분을 클러스터링 함
▪ 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식
▪ Gaussian 분포가 아닌 임의적 모양의 군집분석에 적합함
▪ k 값을 정할 필요 없음, outlier에 의한 성능 하락을 완화할 수 있음
혼합분포군집 ▪ 모수와 가중치 추정에 EM 알고리즘이 사용됨(Expectation Maximization)
EM 알고리즘
E step : k개의 모형 군집에 대해 모수를 사용해 각 군집에 속할 사후확률을 구함
4M step : 사후확률을 이용해 최대 우도 추정으로 모수를 다시 추정하고, 이를 반복함
실루엣 계수(Silhouette Coefficient)
▪ 군집내 거리와 군집 간의 거리를 기준으로 군집 분할 성과를 측정하는 방식
▪ 클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집평가
▪ 실루엣 지표가 1에 가까울수록 군집화가 잘 되었다고 판단
▪ 실루엣 지표가 1 : 한 군집의 모든 개체가 한치도 떨어져 있지 않고 붙어있는 경우
SOM 이란?
자기조직화지도
▪ 인공신경망의 한 종류로, 차원축소와 군집화를 동시에 수행하는 기법
▪ 비지도 학습(Unsupervised Learning)의 한 가지 방법
▪ 고차원으로 표현된 데이터를 저차원으로 변환해서 보는데 유용함
▪ 입력층과 2차원의 격자 형태의 경쟁층으로 이루어져 있음(2개의 층으로 구성)
경쟁 학습
SOM vs 신경망 모형
신경망 모형은 연속적인 layer로 구성된 반면, SOM은 2차원의 그리드(격자)로 구성
▪ 신경망 모형은 에러 수정을 학습 하는 반면 SOM은 경쟁학습 실시
▪ 신경망은 역전파 알고리즘이지만, SOM은 전방패스를 사용해 속도가 매우 빠름
연관분석
▪ 연관규칙(Association rule) : 항목들 간의 ‘조건-결과’ 식으로 표현되는 유용한 패턴
▪ 이러한 패턴 규칙을 발견해내는 것을 연관분석이라 함
▪ 장바구니 분석이라고 함(미국 마트에서 기저귀를 사는 고객은 맥주를 동시에 구매한다
Apriori 알 고리즘
▪ 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝히는 방법
FP Growth
▪ Apriori 단점을 보완하기 위해 FP-tree와 node, link라는 특별한 자료 구조를 사용
장점
▪ 조건반응(if-then)으로 표현되는 연관 분석의 결과를 이해하기 쉬움
단점
▪ 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가함
연관규칙 측정지표
지지도:
▪ 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율
▪ 지지도 = P(A∩B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
신뢰도
▪ 상품 A를 구매했을 때 상품 B를 구매할 확률이 어느 정도 되는지를 확인
▪ 신뢰도 = P(B|A) = P(A∩B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
향상도
▪ 품목B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률
▪ 향상도 = P(B|A)/P(B) = P(A∩B) / (P(A)*P(B))
식을 잘알아야 한다.
향상도 해석
▪ 향상도가 1보다 높아질수록 연관성이 높다고 할 수 있음
▪ 향상도=1이면 품목 A와 B 사이에 아무런 상호 관계가 없음(독립)
▪ 향상도가 1보다 작으면 두 품목이 서로 음의 상관관계임을 의미함