본문 바로가기

성동1기 전Z전능 데이터 분석가 과정

[성동1기 전Z전능 데이터 분석가] 37일차 python 프로젝트(통계분석)

728x90

통계 분석 기법을 이용한 가설 검정

1. 기술통계 분석

: 데이터를 요약해 설명하는 통계 분석 기법

2. 추론 통계 분석

: 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산

 

데이터를 이용해 신뢰할 수 있는 결론을 내리려면 유의확률을 계산하는 통계적 가설 검정 절차를 거쳐야 한다.

 

통계적 가설검정

1. 유의 확률(P-Value): 실제로는 집단 간 차이가 없는데, 우연히 차이가 있는 데이터가 추출될 확률

P-Value > 5%

- 집단 간 차이가 통계적으로 유의하지 않다.

- 실제로 차이가 없더라도, 우연에 의해 이런 정도의 차이가 관찰될 가능성이 크다.

P-Value < 5%

- 집단간 차이가 통계적으로 유의하다.

- 실제로 차이가 없는데 우연에 의해 이런 정도의 차이가 관찰될 가능성이 적다.

- 즉 우연이라고 보기 힘들다.

2. T 검정: 두 집단 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법

from scipy import stats
stats.ttest_ind(compact, suv, equal_var = True) # 집단 간 분산이 같다.

3. 상관분석: 두 연속 변수가 서로 관련이 있는지 검정하는 통계분석 기법

상관계수: 상관분석을 통해 도출한 값

- 두 변수가 얼마나 관련되어 있는지 관련성의 정도를 파악

- 0~1 사이의 값을 지니며 1에 가까울수록 관련성이 크다.

- 양수 -> 정비례관계/ 음수 -> 반비례관계

economics[['unemploy', 'pce']].corr() #상관행렬 만들기
#상관행렬 히트맵 만들기
car_cor = mtcars.corr() # 상관행렬 만들기
car_cor = round(car_cor,2) #소수점 둘째 자리까지 반올림
car_cor

import matplotlib.pyplot as plt 
plt.rcParams.update({'figure.dpi' : '120', 'figure.figsize' : [7,5,5,5]}) #해상도, 가로,세로 크기 설정

import seaborn as sns
sns.heatmap(car_cor, annot = True, cmap = 'RdBu') #상관계수 표시, 컬러맵