# 12.1 분석 모델 개요
[통계모델 vs 기계학습]
-통계모델: 모형과 해석 중요(오차, 불확정성에 초점)
-기계학습: 예측 정확도 중요
[기계학습방법론]
-지도학습(Supervised learning) : 독립변수, 종속변수, 정답 존재. 독립변수와 정답 간의 오차를 줄이는 과정 반복
-회귀 방식(Regression) : 종속변수가 양적척도
-분류 방식(Classification) : 종속변수가 질적척도
-비지도학습(Unsupervised learning) : 정답 없이 변수 간 패턴 파악하거나 군집화
-차원축소(Dimensionality Reduction): 지도학습의 학습성능 높이기 위한 전처리 방법으로 사용
-군집분석: 정답지(labeling) 없이 유사한 관측치끼리 군집화
-연관규칙(association rules): 변수 간 연관성 수치화
-강화학습(Reinforcement learning): 모델의 결과에 보상과 벌을 주어 스스로 학습함
# 12.2 차원축소 : PCA, CFA
[차원축소(Dimensionality Reduction)]
1. PCA(Principal Component Analysis, 주성분 분석) : 변수의 수를 축약하면서 핵심 특성은 남김
-조건1: 모든 변수는 등간척도나 비율척도로 측정한 양적변수
-조건2: 관측치들은 서로 독립이고 정규분포를 따름
2. CFA(Common Factor Analysis, 공통요인분석) : 변수들 간의 차원을 규명해 구조를 파악
* 차원의 저주: 차원이 크면 최소 필요 데이터 수를 초과하여 과적합, 다중공선성이 발생해 예측이 불안정해지는 문제
[PCA]
1. 데이터 표준화 2. '분산을 가장 잘 보존하는' 축을 찾음
-분산을 잘 보존한다 = 설명력이 높다
-설명력 = (모든 점과 주성분과의 거리의 제곱합) / (n-1)
-변수 개수가 n일때, 설명력이 높은 순서대로 제1주성분, 제2주성분, ..., 제n주성분
-일반적으로 제1주성분, 제2주성분만으로도 설명력 충분
[PCA 실습]
# 12.3 요인분석 : PCA, CFA
[요인분석(Factor Analysis)]
1.PCA : 전체분산을 토대로 요인 추출, 주성분 간 우위 존재
2.CFA : 공통분산을 토대로 요인 추출, 주성분 간 우위 없음, PCA보다 정확성 우수
-탐색적 요인분석(Exploratory FA) : 변수와 요인의 관계가 체계화되지 않은 상태에서 변수간의 관계 분석 (일반기업)
-확인적 요인분석(Confirmatory FA) : 변수들의 속성을 예상한 상태에서 측정변수와 잠재변수간의 관계 검정 (연구실논문)
-독립변수들간의 상관계수의 적합성 검정: 상관관계가 달라야 요인분석에 적합
-바틀렛 테스트 : 독립변수간 상관계수 행렬이 단위행렬에 준하는지 검정
-KMO 검정: 변수간 상관관계가 다른변수에 의해 잘 설명되는 정도
-요인의 개수 결정
-고유치 표: 1 이상의 고유치와 60% 이상의 누적 설명력을 가진 것이 적정한 요인 수
-스크리 도표: 요인수에 따른 고유치 변화를 그래프로 나타낸 것, 경사가 낮아지는 지점(엘보우포인트) 까지의 요인 선택
-요인 적재 값(factor loading) : 선정된 각 요인들과 변수들 간의 각각의 상관관계를 나타낸 표
+-0.3 이상이면 변수와 요인 간 유의성이 있다 / +-0.5 이상이면 해당 요인에서 중요한 변수로 판단
[CFA 실습]
# 12.4 다중공선성 해결, 섀플리밸류 분석
다중공선성(multicollinearity)이란?
두 개 이상의 독립변수가 서로 선형적인 관계를 나타내 상관관계가 높은 현상(독립X)
[다중공선성의 판별 방법]
1. 회귀분석모델 실행 전에 상관분석 시행 : 상관계수 절대치 0.7 이사이면 다중공선성 의심, 변수가 많으면 적용 어려움
2. 결정계수 R2값은 큰데 t값은 낮은 경우 확인 : 종속변수에 대한 설명력은 높지만 각 계수 추정치의 표준오차가 크다는 것
-t값 : 표준오차(noise) 대비 시그널의 강도, 값이 클수록 좋음
3. VIF(Variance Inflation Factor, 분산팽창계수)로 판단 : 해당변수가 다른변수들에 의해 설명될 수 있는 정도, 1에서 무한대의 범위를 가지며, 5이상이면 다중공선성 의심, 10이상이면 다중공선성 있다고 판단
-VIF에 루트를 씌운 값 X : 해당변수가 다른변수들과의 상관성이 없는 경우보다 표준오차가 X배 높다는 의미(A변수의 VIF가 16이라면, A변수는 다중공선성이 없는 상태로부터 4배 높다는 의미)
[다중공선성 해결방법]
1. VIF 값이 높은 변수들 중에서 종속변수와의 상관성이 가장 낮은 변수를 제거하고 다시 VIF 값을 확인 > 반복
-이 때 도메인 지식에 의해 중요한 변수일 경우 남겨둘 것)
2. 표본관측치를 추가확보해 다중공선성 완화 (비현실적)
3. 변수를 가공해 변수간의 상관성 감소
-로그, 표준화, 정규화, 구간화, 연속->명목 변환 등
4. 주성분분석(단점: 변수의 해석이 어려워짐)
5. 데이터분석 환경이 제공하는 변수선택 알고리즘 활용
-전진선택법(Forward selection), 후진제거법(Backward elimination), 단계적선택법(Stepwise method)
[섀플리 밸류 분석(Shapley Value)]
-x1이라는 변수가 단일투입될 때뿐 아니라 다른 조합과 함께 투입되는 모든 경우의수에서 x1의 기여도 평균을 모두 합해 그것을 평균 내는 것
-해당변수를 모델에 투입했을 때 설명력에 어느정도 기여하는지 측정하는 기준값으로 활용
# 12.5 데이터 마사지, 블라인드 분석
데이터 마사지란?
동일한 데이터라도 해석이 달라질 수 있도록 유도하는 것
[데이터 마사지 방법]
1. 편향된 데이터처리: 이상치, 결측값 등을 유리하게 전처리
2. 매직그래프 사용: 그래프 간격이나 비율로 한눈에 보기에 의도한대로 보이게끔 함
3. 관점변환: 비율의 분모바꾸기
4. 의도적 데이터 누락: 의도와 반대되는 데이터 제거
5. 머신러닝모델 파라미터값 변경 및 연산반복
6. 심슨의 역설: 세부비중에 따라 전체대표확률이 왜곡되는 현상
블라인드 분석이란?
-의도하든 의도하지 않든 선입견이 개입되는 인지적편향(확증편향)의 오류를 최소화하기 위한 방법
-독립변수들의 명칭과 의미를 감추고, 결과치만을 보고 분석모델을 수행하는 것
# 기초통계학 추정, 검정 방법 복습
[단일집단 추정]
-모평균 추정, σ 알 때 : Z
-모평균 추정, σ 모를 때 : t / Z(표본30이상) * t는 표본크기 30미만에도 사용 가능, 물론 30이상이어도 사용 가능
-모비율 추정 : Z
-모분산 추정, μ 알 때 : X2
-모분산 추정, μ 모를 때 : X2
[두 집단 추정]
-모평균 차 추정, σ 알 때 : Z
-모평균 차 추정, σ 모를 때 : t / Z(표본30이상) * t는 표본크기 30미만에도 사용 가능, 물론 30이상이어도 사용 가능
-모비율 차 추정 : Z
-모분산 비 추정, μ 알 때 : F
-모분산 비 추정, μ 모를 때 : F
[두 집단 이상]
ANOVA
[검정]
-모비율 차 검정 : Z
-모분산 검정 : X2
-모분산 비 검정 : F
[정리]
Z : 모분산 알때 / 모분산 모르고 표본크기 30 이상일 때
t : 모분산 모를때
X2 : 모분산 추정
F : 모분산 비 추정
# 12.6 Z-test, t-test
[Z-test, t-test, ANOVA 비교]
[단일 평균 T-test]
1. 가설설정, 가설검정 종류 설정, 유의수준 설정, 양측/단측 선택
2. p값 계산, 귀무가설 기각 여부 결정
3. 평균, 표준편차, 표준오차 계산
4. t 통계치 구하기
위 예시에서 검정통계량 t값 1.6은 양측검정의 기각역 경계인 +-1.98에 미치지 못하므로 H0을 채택하고 H1을 기각한다.
[단일 평균 Z-test]
[두집단 평균차 T-test]
[단일 비율차 T-test]
[두집단 비율차 T-test]
[Z-test, T-test 실습]
https://github.com/c-karl/DA_DS_Book001/blob/main/12.6.1.Z-test%EC%99%80%20T-test.ipynb
# 12.7 ANOVA(분산분석)
ANOVA(Analysis of Variance, 분산분석)이란?
세 집단 이상의 평균 검정, F분포 사용(F : 집단간 분산의 비율)
ANOVA의 궁극적 목적
독립변수(집단의 종류)가 종속변수(평균값 차이 여부)에 미치는 영향 검정
=> 회귀분석과 비슷한 면
[ANOVA 종류]
-일원 분산분석(one-way ANOVA) : 평균차이를 비교하기 위해 필요한 요인이 한 개일 때 사용
-이원 분산분석(two-way ANOVA) : 두개
-N원 분산분석(N-way ANOVA) : N개
[ANOVA 특징]
-독립변수는 범주형, 종속변수는 연속형일 것
-독립&종속변수가 연속형->회귀분석 / 독립&종속변수가 범주형->교차분석
-ANOVA 공식 = (집단간 평균의 분산) / (집단내 분산)
위와 같은 분산분석표를 따라 차근차근 F값을 구하면 된다. F값이 임계치보다 높으면 집단간 평균에 유의미한 차이가 있다
ANOVA에서 집단간 차이가 있다고 나왔으나, 이것이 모든 집단이 다르다는 것인지 일부 집단만 다르다는 것인지 모름(1종오류) => 사후검증(post hoc) 실시!
[사후검증(post hoc)]
-독립변수 수준 사이에서 평균 차이를 구하는 기법
-Turkey의 HSD 검증 : 집단의 수가 같을 때 사용
-Scheffe 검증 : 집단의 수가 다를 때 사용
-사후검증을 통해 부집단 구별 -> 동일 부집단에 속한 집단들 간에는 평균의 통계적 차이가 없고, 다른 부집단 간에는 있다
[ANOVA 실습]
https://github.com/c-karl/DA_DS_Book001/blob/main/12.7.1.ANOVA%20(Analysis%20of%20Variance).ipynb
# 12.8 X2 검정(교차분석)
카이제곱검정이란?
범주형 변수들 간의 연관성을 분석하기 위해 결합분포를 활용하는 방법
비율척도 변수는 서열척도로 변환해서 사용해야 함(연령 -> 연령대)
[X2검정 방법]
1. 교차표 작성
2. 기대빈도 계산
3. 검정통계량 X2 계산
위 예시에서는 각 셀의 X2값을 모두 합한 값 = 0.0873으로, 임계치 3.84보다 작으므로 귀무가설 채택
[X2검정 실습]
https://github.com/c-karl/DA_DS_Book001/blob/main/12.8.1.%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1%20%EA%B2%80%EC%A0%95(%EA%B5%90%EC%B0%A8%EB%B6%84%EC%84%9D).ipynb
'데이터분석 > 데이터분석가가 반드시 알아야 할 모든 것' 카테고리의 다른 글
데이터분석가가 반드시 알아야 할 모든 것 11장(전처리, 파생변수) (0) | 2023.03.05 |
---|---|
데이터분석가가 반드시 알아야 할 모든 것 10장(EDA, 시각화) (0) | 2023.03.05 |
데이터분석가가 반드시 알아야 할 모든 것 8장~9장(비즈니스 실무) (0) | 2023.03.05 |
데이터분석가가 반드시 알아야 할 모든 것 1장~7장(기초통계학 복습) (0) | 2023.03.05 |