성동1기 전Z전능 데이터 분석가 과정
[성동1기 전Z전능 데이터 분석가] 27일차 SQL 프로젝트 EDA 전처리
데이터분석가_안졍
2023. 11. 21. 23:34
728x90
EDA 데이터 분석이란?
어떤 결과값을 낼 지 '가설'을 가지고 기본적인 표나 그래프롤 간단히 그려보며 사전 검증을 하는 과정
=> 데이터 분석을 통한 결과값(표/그래프 등)을 출력
과정
1. 로우데이터(raw date) 이해 및 파악
2. 어떤 결과를 만들어낼 지 데이터를 여러 측면으로 쪼개고, 출력
3. 인사이트를 얻어내는 것
EDA를 하려면
1. 데이터의 각 column 들과 row의 의미를 이해
2. 결측치 처리 및 데이터 클렌징
3. 시각화
데이터 클렌징
대여소 번호와 관련된 데이터 통일
ex] 00567 → 567
update 자전거_이용내역 set stop_id = cast(stop_id as signed)
update 자전거_대여내역 set stop_return_id = cast(stop_return_id as signed)
자전거 이용 내역의 대여소 이름 통일
ex] 1527.미아사거리 → 미아사거리
update 자전거_이용내역 set stop_name = substring_index(stop_name,’.’,-1)
update 자전거_이용내역 set stop_name = ltrtm(stop_name);
NULL값 변환
- 자전거 대여 내역 null 값으로 변환 완료
- 자전거 이용 내역 null 값으로 변환 완료
생년월일 데이터를 어떻게 처리할지?
- 1944년생 이전, 2011-2099년생 데이터는 이상치로 간주
- 1944 - 2010년생 데이터만 이용 ⇒ 만 13세 - 만 79세 [따릉이 이용자 만 13세부터 가능]
이동 거리가 0 이고 반납, 대여 대여소가 같은 데이터를 어떻게 처리할지?
- 따릉이 이용을 주저한 고객으로 판단