저번에 데이터 분석이란 무엇인지 배웠다.
데이터 분석이란 쪼갠 뒤 비교하는 것이다.
그렇다면 비교는 어떻게 하는 것일까?
| 5W1H | 데이터 유형 | 비고 |
| 누가 Who | 성별, 연령, 거주지 등 개인정보 (멤버십 등 동의를 받아야 함) |
인구통계학적으로 상품/프로모션 기획 가능 |
| 언제 When | 구매일, 요일, 시간, 공휴일, 날씨 등 | 잘되는 시간을 집중공략, 안 되는 시간을 더 보강 |
| 어디서 Where | 온라인, 오프라인 커머스 등 | 각각의 특성에 맞게 |
| 무엇을 What | 제품/서비스 유형 상품 | 상품의 분류체계를 잘 만들어야 함 |
| 어떻게 How | 카드, 현금, 이벤트, 쿠폰 | 쿠폰이 통했는가? |
이 데이터들을 통해서 순위/순서, 변동/추세, 분포, 항목/구분, 비율 등을 비교한다.
그런데 누군가 봐야할 데이터를 먼저 정리해 둔 것이 있는데 그것은 바로 메트릭(Metric)이라고 한다.
메트릭이란 성과나 사용자 데이터를 바로 보기 편하고 분석 가능한 형태로 변환 요약한 숫자이다.
- 활동 사용자 / 전체 사용자
- 최근 최대 사용자
- 구매전환율
- 재방문 비율
- 방문 간격
- 잔존율
- 결제 횟수
- 평균구매간격
- CAC(Customer Acquisition Cost) 등
이것들을 통해서 결국 조직별,도메인 별 의미있고, 필요한 지표를 정해 측정/ 분석해야 한다.
메트릭을 통해서 어떤 것을 분석할까 본다면 먼저 마치 나침반같이 팀의 성장을 이끌 수 있는 명확한 목표를 선정해야 한다. 그것을 바로 북극성 지표라고 한다.
조직의 목표와 방향 그리고 성공을 가늠하는 숫자이기에 회사의 현 상황을 정확히 파악할 수 있게 하는 숫자를 북극성 지표로 삼아야 한다.
예를 들어 페이스북은 Users who added 10 friends within a week가 북극성 지표다
하지만 북극성 지표 자체를 높이기 위해서는 무엇을 해야 할지 막연한 경우가 대부분이다. 그래서 북극성 지표에 영향을 주는 원인을 찾아 원인을 바꿔가며 북극성 지표에 변화를 주어야 한다.
그래서 최종적으로 잘 변하지 않는 무엇의 결과로 일어난 것을 후행지표라고 하고,
무엇의 원인이 되는 것을 선행지표라고 한다.
북극성 지표에 영향을 주는 선행지표를 찾아 선행 지표를 개선해야 한다.
선행지표에서 가장 중요한 한 가지 지표를 찾으려면
- 북극성 지표와 그 외 회사의 중요 지표들을 일정기간 추린다.
- 이들간의 상관관계 매트릭스를 그려본다.
- 그 중에서 매출과 가장 연관관계가 높은 지표를 선정한다.
- 이 지표가 후행지표이거나 우리가 컨트롤 할 수 없다면
- 이들을 대신할 선행하는 2차 대리지표를 찾아 선정한다.
- 여러 후보 중에는 더 많은 유저가 데이터 포인트를 남기는 자료를 택한다.
여기서 상관관계란 하나가 바뀌면 다른 것도 바뀌는 관계를 말한다.
0<p<1에서 1에 가까워질 수록 양의 상관관계가 있다고 할 수 있다.
AARRR: 단계별 매트릭
- Acquisition(획득): 고객을 데려오는 것 (CAC,CPM, PV, UV, 세션, 앱설치)
- Activation(활성화): 고객을 쓰게하는 것 (AU, 체류시간, 이탈률, 구매전환, 취소율)
- Retention(재사용): 고객을 또 쓰게 하는 것 (N일 재사용율, 재구매율)
- Referral(추천): 주위에 입소문을 내는 것 (공유수, 앱랭킹, 만족도, 평점)
- Revenue(이익): 수익을 내는 것 (LTV, ARPU, ARPPU, ROI)
매트릭에서 필요한 지표란?
- 조직의 목표와 방향성에 맞고
- 현재값과 과거값을 측정할 수 있으며
- 기준값을 잡을 수 있어야 하고(높다/낮다의 기준값)
- 지표를 통해 현재 상태를 이해할 수 있어야 한다.
- 우리의 노력으로 개선할 수 있어야 한다.
그렇다면 가설은 어떻게 세울까?
데이터를 언제(시간-연도, 반기, 분기, 월간, 주간,일간, 요일, 날씨 등), 어떻게(전환- 노출, 도달, 클릭, 체류시간, 장바구니, 구매, 설치, 이탈, 신규방문 등), 어디서(유입), 누가(고객), 무엇을(상품- 상품카테고리, 가격, 판매처, 남녀, 연령, 지역, 취향 향 등) 각각을 측정하고 잘 조합해서 분석해보자.
피봇테이블로 가설수립하는 실습을 해보았다.
피봇테이블이란 데이터의 행과 열, 또는 특정 데이터에 따른 합계, 평균 등을 계산해주는 기능이다.
=>잘된 건 왜 잘됐는지, 안된건 왜 안됐는지 원인을 찾아 개선하자는 것이다.
지표는 구체적이고 측정가능하며 달성 가능하고 현실적이며 기간의 제한이 있어야 한다.

분석과 해석을 위한 개념
원인과 결과
: 데이터 분석은 결국 인과관게를 찾아 결과를 개선할 방안을 찾는 것이다.
상관관계를 찾은 뒤, 실험을 통해 원인->결과를 파악해 보는 것도 방법이다.
(우연의 일치는 아닐까?, 또다른 변수는 없을까?, 역 인과관계는 없을까?)
상관관계
: 하나가 바뀌면, 다른 것도 바뀌는 관계
대푯값
: 집단 또는 데이터를 대표하기 위해 계산하는 값. 전체 데이터의 특징을 보여준다.
- 평균: 가장 많이 쓰이나 극단적인 값이 계산에 영향을 미친다.
- 중앙값: 극단값이 있을 경우 평균보다 대표성이 강하다.
- 최빈값: 가장 자주 나오는 값이다.
데이터 분석의 함정
- 단순한 크기 보다는 비율
- 평균에는 극단값이 들어있지 않은가?
- 그래프가 왜곡되지는 않았는가?
- 비교(A/B테스트 등) 시에는 다른 조건은 동일한가?
- 데이터는 집단을 대표할 수 있을 정도로 충분한가?
데이터 분석 체크 리스트
- 데이터 출처는 믿을만한가? 적절한 시점의 데이터인가?
- 데이터는 비교가 가능할 정도로 충분한가?
- 혹시 다른 변소가 포함되어야 하는 것은 아닌가?
- 원본의 데이터가 올바로 들어갔는가
- 원본 데이터 자체가 이상값/ 특이값은 아닌지
- 데이터 분석결과들이 상호간 일관성을 유지하는지
- 편향/왜곡은 없는지
데이터 인지 편향
- 데이터 확증 편향 : 내 생각에 맞는 것만 더 집중
- 과거/최선 데이터 편향
- 기준 데이터 편향: 처음 본 데이터에 영향을 받는 편향
- 친근 데이터 편향: 익숙한 데이터에 가중치를 높게 둠
- 데이터 편승 효과: 많은 사람이 쓰거나 유명인이 쓴 데이터를 따르는 편향
- 데이터 클러스터 착각: 무작위로 발생했으나 패턴으로 인지하는 편향
- 데이터 욕심: 충분한 데이터가 있으나 더 얻으려는 경향
- 승자 데이터 편향: 성공한 데이터만 분석하는 경향
- 데이터 특징 효과: 눈에 띄는 데이터만 보는 편향
- 데이터 선택 편향: 자신의 관심사만 취사선택해서 분석하려는 편향
배운점 및 적용할점
- 다양한 가설이 주어지고 데이터를 바탕으로 그 가설을 피벗테이블로 표현해보고 히스토그램을 통해서 시각화해보는 시간을 가졌다.
- 평균이 무조건 대표할 수 있을 거라 생각했는데 최대값과 최소값 사이의 간극이 너무 크면 평균의 의미가 없어진다는 사실을 알았다. 이를 바탕으로 시각화를 할 때 고려해야 될 점들이 많다고 생각했다.
'성동1기 전Z전능 데이터 분석가 과정' 카테고리의 다른 글
| [성동1기 전Z전능 데이터 분석가] 14일차 - GA4 (0) | 2023.11.02 |
|---|---|
| [성동1기 전Z전능 데이터 분석가] 13일차 - 데이터리터러시3 (0) | 2023.11.01 |
| [성동1기 전Z전능 데이터 분석가] 11일차 - 데이터리터러시1 (0) | 2023.10.30 |
| [성동1기 전Z전능 데이터 분석가] 10일차 디자인스프린트7 - 팀별 최종발표!!! 및 쏘카 현업자 (0) | 2023.10.27 |
| [성동1기 전Z전능 데이터 분석가] 9일차 디자인스프린트6 - 고객인터뷰 (0) | 2023.10.26 |