성동1기 전Z전능 데이터 분석가 과정

[성동1기 전Z전능 데이터 분석가] 27일차 SQL 프로젝트 EDA 전처리

데이터분석가_안졍 2023. 11. 21. 23:34
728x90

EDA 데이터 분석이란?

어떤 결과값을 낼 지 '가설'을 가지고 기본적인 표나 그래프롤 간단히 그려보며 사전 검증을 하는 과정

=> 데이터 분석을 통한 결과값(표/그래프 등)을 출력

 

과정

1. 로우데이터(raw date) 이해 및 파악

2. 어떤 결과를 만들어낼 지 데이터를 여러 측면으로 쪼개고, 출력

3. 인사이트를 얻어내는 것

 

EDA를 하려면

1. 데이터의 각 column 들과 row의 의미를 이해

2. 결측치 처리 및 데이터 클렌징

3. 시각화

 

데이터 클렌징

 

대여소 번호와 관련된 데이터 통일

ex] 00567 → 567

update 자전거_이용내역 set stop_id = cast(stop_id as signed)

update 자전거_대여내역 set stop_return_id = cast(stop_return_id as signed)

자전거 이용 내역의 대여소 이름 통일

ex] 1527.미아사거리 → 미아사거리

update 자전거_이용내역 set stop_name = substring_index(stop_name,’.’,-1)

update 자전거_이용내역 set stop_name = ltrtm(stop_name);

NULL값 변환

  • 자전거 대여 내역 null 값으로 변환 완료
  • 자전거 이용 내역 null 값으로 변환 완료

생년월일 데이터를 어떻게 처리할지?

  • 1944년생 이전, 2011-2099년생 데이터는 이상치로 간주
  • 1944 - 2010년생 데이터만 이용 ⇒ 만 13세 - 만 79세 [따릉이 이용자 만 13세부터 가능]

이동 거리가 0 이고 반납, 대여 대여소가 같은 데이터를 어떻게 처리할지?

  • 따릉이 이용을 주저한 고객으로 판단