성동1기 전Z전능 데이터 분석가 과정

[성동1기 전Z전능 데이터 분석가] 50일차 파이널 프로젝트

데이터분석가_안졍 2024. 1. 2. 16:09
728x90

데이터 분석가 과정 마지막 프로젝트만 남았다.

딥러닝을 통해서 출고량 예측하고자 하는데 그 전에 출고량 예측에 영향을 주는 요인들을 찾고 이를 변수로 만들어서 활용하고자 한다. 

  1. 날씨 조건:
    • 기온, 강수량, 풍속 등의 날씨 조건은 물류 및 운송과 관련이 있을 수 있습니다. 예를 들어, 비가 많이 오는 날에는 교통 혼잡이 발생할 수 있어 출고시간에 영향을 미칠 수 있다.
  2. 주문량 및 재고량:
    • 주문량이나 재고량과 출고시간 간의 상관관계를 고려할 수 있습니다. 주문량이 많을 경우 처리에 시간이 더 걸릴 수 있고, 재고가 부족하면 급한 처리가 요구될 수 있다.
  3. 공휴일 정보:
    • 공휴일이나 특별한 날짜에는 출고시간이 일반 날과 다를 수 있다. 
  4. 시간 관련 변수:
    • 출고시간은 하루 중 특정 시간대에 영향을 받을 수 있다. 시간 관련 변수(오전/오후, 출고 시간대 등)를 추가할 수 있다.
  5. 교통 혼잡도:
    • 출고시간과 관련된 교통 혼잡도 정보를 고려할 수 있습니다. 특히 대도시에서는 교통 혼잡이 출고에 영향을 미칠 수 있다.
  6. 이벤트 정보:
    • 특별한 이벤트나 판매 행사가 예정되어 있다면 이를 고려하여 모델에 반영할 수 있습니다.
  7. 계절성 요소:
    • 계절에 따라 수요나 공급에 변동이 있을 수 있습니다. 계절성을 고려하는 변수를 추가할 수 있다.
  8. 주말 여부:
    • 주말에는 일반적으로 출고 처리가 적을 수 있습니다. 주말 여부를 이진 변수로 추가하여 모델링할 수 있다

교통 혼잡도는 전체를 다 보기에 문제가 있고...

이벤트는 내가 쓰는 데이터의 정확한 업체가 구체적으로 무엇인지 모르기에... 쓸 수 없다.

아마 분석을 하게 된다면 년/월/일/ 분기/주말/ 공휴일 정도로 나눠서 분석해볼 수 있겠다.

 

아마 내일 활용할 수도 있을 것 같은 코드를 정리해놓고자 한다.

시간과 지역 간의 상관관계를 구하는 것은 데이터에 따라 가능합니다. 다만, 이 두 변수 간의 상관관계가 존재하는지, 그리고 그 정도가 어느 정도인지는 데이터의 특성과 분석 목적에 따라 다를 수 있습니다.

상관관계를 구하는 데에는 여러 방법이 있습니다. 주로 사용되는 방법 중 하나는 피어슨 상관계수(Pearson correlation coefficient)를 계산하는 것입니다. 이 값은 -1에서 1까지의 범위를 가지며, 1에 가까울수록 양의 선형 상관관계가, -1에 가까울수록 음의 선형 상관관계가 있음을 나타냅니다. 0은 선형 상관관계가 없음을 의미합니다.

예를 들어, 시간과 지역의 상관관계를 파이썬에서 계산하는 코드는 다음과 같을 수 있습니다. 여기서는 임의의 데이터를 사용하겠습니다.

python
Copy code
import pandas as pd

# 예제 데이터 생성
data = {'time': [1, 2, 3, 4, 5],
        'region': [10, 15, 20, 25, 30]}

df = pd.DataFrame(data)

# 피어슨 상관계수 계산
correlation = df['time'].corr(df['region'])

# 결과 출력
print("피어슨 상관계수:", correlation)

 

#범주형 데이터일 경우
import pandas as pd

# 예제 데이터 생성
data = {'time': [1, 2, 3, 4, 5],
        'region': ['서울', '부산', '대전', '서울', '부산']}

df = pd.DataFrame(data)

# 원핫 인코딩
df_encoded = pd.get_dummies(df, columns=['region'])

# 결과 출력
print(df_encoded)