본문 바로가기

성동1기 전Z전능 데이터 분석가 과정

[성동1기 전Z전능 데이터 분석가] 26일차 SQL 프로젝트 정합성 분석

728x90

오늘부터 sql프로젝트를 시작했다.

따릉이 데이터를 가지고 분석하고자 한다. 

 

 

 

DDA 데이터 분석이란 로우데이터를 이해 및 파악
어떤 결과를 만들어낼 지 데이터를 여러 측면으로 쪼개고, 출력
인사이트를 얻어내는 것

우선 데이터 정합성 분석을 한다.

count - 데이터 양 측정

length - 데이터 형태 측정

distinct - 데이터 중복 측정

 

테이블에는 공공자전거 대여소 정보, 공공자전거 고장 신고 내역, 서울시 공공자전거 이용내역, 자전거 대여내역이 있다.

 

  • 공공자전거 대여소 정보
대여소번호 대여소명 소재지(자치구) 소재지(상세주소) 소재지(위도) 소재지(경도) 설치시기 설치형태 (LCD 거치 개수) 설치형태 (QR 거치 개수) 운영방식
stop_id stop_name district district_detail latitude longtitude created_at created_lcd_cnt created_qr_cnt qr_lcd

데이터 개수 : 2,749개

운영방식에 따른 데이터 개수

QR : 1,581개

LCD : 1,168개

 

  • 공공자전거 고장 신고 내역
자전거번호 등록일시 구분
bike_id created_at trouble_type

데이터 개수 : 83,734개

고장 부품에 따른 데이터 개수

기타 : 26,112개

체인 : 16,017개

안장 : 15,919개

타이어 : 14,173개

페달 : 7,417개

단말기 : 4,096개

 

  • 서울시 공공자전거 이용내역

대여일자 대여소번호 대여소 대여구분코드 성별

rental_date stop_id stop_name rental_type gender
이용건수 운동량 탄소량 이동거리(M) 이용시간(분)
using_count e-quantity c_quantity using_distance using_minute

2023.06.01~2023.06.30 공공자전거 이용내역

데이터 개수 : 2,258,453개

대여구분코드에 따른 데이터 개수

정기권 개수 : 1,757,036개

비정기권 개수 : 501,417개

 

  • 자전거 대여내역

자전거번호 대여일시 대여 대여소번호 대여 대여소명 대여거치대

bike_id rental_datetime stop_id stop_name rest_name  
반납일시 반납대여소번호 반납대여소명 반납거치대 이용시간(분)  
return_date stop_return_id stop_return_name stop_return_rest using_min  
이용거리(M) 생년 성별 이용자종류 대여대여소ID 반납대여소ID
using_distance birth_year gender user_type stop_id2 return_stop_id2

2023.06.01~2023.06.14 자전거 대여내역

데이터 개수 : 2,500,000개

성별에 따른 데이터 개수

알 수 없음 : 765,083개

남자 : 1,051,250개

여자 : 683,667개

생년 정보 없는 데이터 개수 : 192,519개

대여대여소ID 정보 없는 데이터 개수: 9,888개

반납대여소ID 정보 없는 데이터 개수: 9,888개

 

배운점

바로 그냥 데이터 전처리 하고 분석 시작하는 줄 알았는데 이렇게 쭉 확인하는 작업을 한다는 것을 알았다.