3. 데이터 분석
3.1. 탐색적 데이터분석 (EDA)
탐색적 데이터분석 정의
데이터의 분포, 통계 등을 시각화하여 데이터를 이해하고 의미있는 관계를 찾아내는 분석 기법
결측값
- 정의 : 존재하지 않는 데이터
- 표현 방식 : NA , null , -1
- 대치 기법
- 단순 대치법 : 값 삭제
- 평균 대치법 : 평균이나 중앙값을 이용,
- 조건부 평균 대치법 : 회귀분석을 통해 좀 더 신뢰성이 높음
- 단순확률 대치법 : k-NN
- 다중 대치법 : 여러 번 대치 시행, (대치 → 분석 → 결합)
이상값
- 정의 : 다른 데이터와 비교 했을 때 극단적으로 크거나 작은 값
- 판단 기법
-
ESD : 평균으로부터 표준편차 * 3
-
사분위수 : IQR 기반

3.2. 통계 분석
통계 분석 용어 및 기초
- 기대값 : 확률변수 X가 취할 수 있는 값의 평균 값