728x90
통계 분석 기법을 이용한 가설 검정
1. 기술통계 분석
: 데이터를 요약해 설명하는 통계 분석 기법
2. 추론 통계 분석
: 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산
데이터를 이용해 신뢰할 수 있는 결론을 내리려면 유의확률을 계산하는 통계적 가설 검정 절차를 거쳐야 한다.
통계적 가설검정
1. 유의 확률(P-Value): 실제로는 집단 간 차이가 없는데, 우연히 차이가 있는 데이터가 추출될 확률
P-Value > 5%
- 집단 간 차이가 통계적으로 유의하지 않다.
- 실제로 차이가 없더라도, 우연에 의해 이런 정도의 차이가 관찰될 가능성이 크다.
P-Value < 5%
- 집단간 차이가 통계적으로 유의하다.
- 실제로 차이가 없는데 우연에 의해 이런 정도의 차이가 관찰될 가능성이 적다.
- 즉 우연이라고 보기 힘들다.
2. T 검정: 두 집단 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법
from scipy import stats
stats.ttest_ind(compact, suv, equal_var = True) # 집단 간 분산이 같다.
3. 상관분석: 두 연속 변수가 서로 관련이 있는지 검정하는 통계분석 기법
상관계수: 상관분석을 통해 도출한 값
- 두 변수가 얼마나 관련되어 있는지 관련성의 정도를 파악
- 0~1 사이의 값을 지니며 1에 가까울수록 관련성이 크다.
- 양수 -> 정비례관계/ 음수 -> 반비례관계
economics[['unemploy', 'pce']].corr() #상관행렬 만들기
#상관행렬 히트맵 만들기
car_cor = mtcars.corr() # 상관행렬 만들기
car_cor = round(car_cor,2) #소수점 둘째 자리까지 반올림
car_cor
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.dpi' : '120', 'figure.figsize' : [7,5,5,5]}) #해상도, 가로,세로 크기 설정
import seaborn as sns
sns.heatmap(car_cor, annot = True, cmap = 'RdBu') #상관계수 표시, 컬러맵
'성동1기 전Z전능 데이터 분석가 과정' 카테고리의 다른 글
| [성동1기 전Z전능 데이터 분석가] 44일차 코멘토 대표님의 특강 (0) | 2023.12.14 |
|---|---|
| [성동1기 전Z전능 데이터 분석가] 43일차 프로젝트 (0) | 2023.12.13 |
| [성동1기 전Z전능 데이터 분석가] 33일차 python 데이터 분석 기초 (0) | 2023.11.29 |
| [성동1기 전Z전능 데이터 분석가] 32일차 python 데이터 프레임 (0) | 2023.11.28 |
| [성동1기 전Z전능 데이터 분석가] 32일차 python 기초 - 함수, 패키지 (0) | 2023.11.28 |