본문 바로가기

성동1기 전Z전능 데이터 분석가 과정

[성동1기 전Z전능 데이터 분석가] 13일차 - 데이터리터러시3

728x90

데이터 확보, 데이터처리

데이터가 예쁜 것만 있는 것이 아니다. 엉망이다

문제1. 데이터가 없다

문제2. 있어도 엉망이다.

오만짓을 다해서 모아둬야 비교하거나 특징을 끄집어낼 수 있어서 분석이 가능하다.

⇒ 데이터 베이스: 데이터를, 데이터의모음, 데이터의 묶음, 데이터의 집합이다.

 

데이터베이스를 만들때 따라야할. 하지 말하야할것이 있다면

  1. 가급적 하나의 시트에 몰기
  2. 첫 행(Row)는 반드시 '필드(항목)명을
  3. 데이터는 아래로
  4. 빈 행, 빈 열 없이
  5. 셀 병합 없이

이것들을 지켜야 피봇 테이블로 합산을 가능하게 할 수 있다.

데이터베스르만 훑어봐도 뭔가를 찾아낼 수 있으면 좋다.

데이터를 확보한 후에는 정리를 해야 한다.

 

예를 들면 전화번후부 정리가 생각보다 어렵다.

010-4444-5555

01044445555

010 4444 5555

010.4444.5555

너무 다양한 형태로 있어서… / 애초에 형식을 정해주는 것도 좋다.

분석이 가능하게 처리(cleansing)해주는 작업이 중요하다.

 

오늘은 실습시간으로 페이스북의 데이터들과 GA데이터를 합친후 전처리하여 가설을 세워보고 시각화를 통해서 결과를 도출해봤다.

페이스북에서 like를 많이 받았다면 사람들이 실제로 페이지뷰에 들어갔을까?라는 가설을 세우고 like와 페이지뷰의 상관관계를 피어슨 함수로 상관관계지수를 알아보고 시각화 해보았다. 

 

 

오늘의 배운점 및 적용할점

- 생각보다 전처리하는 과정이 어려웠다. 그런데 gpt가 대신할 수 있는 부분이 많다는 것도 알았다. 편리하면서도 데이터분석의 영역이 대체가능할 수 있겠구나라는 생각이 들어서 스스로 가설을 도출하고 다양한 인사이트를 내는 능력을 많이 키워야 겠다고 생각했다.

- 뭔가 가설을 세워도 내가 생각한 대로 피봇테이블에 적용하는데 어려움을 겪었다. 아직 데이터가 낯설기도 하고 피봇테이블을 많이 사용해보지 않아서 적응하지 못한 것 같기도 하다. 다른 잘하는 조를 관찰해보니 일단 우선 표에 많이 넣어보면서 익숙해지려고 노력을 많이 한 것 같아 보였다.  우리 조는 전처리하는 과정에서 시간을 너무 많이 써서 많은 가설을 세워보지 못한 것이 아쉬웠다. 

- 다양한 예시들을 많이 접하면서 가설설정에 익숙해지는 시간을 가져야 겠다. 또한 기초통계를 익혀서 시각화할 때 잘 활용할 수 있도록 해야겠다.

- iferror(내용,"")으로 해야 #N/A가 공백처리 되고 피어슨 함수를 사용할 수 있다.

- vlooup사용하는 법은 확실히 익혔다.

- 분할/ 조깨기 방법도 확실히 알았다.