TIL

2024-06-17

여연찌 2024. 6. 17. 22:10
  • Today

 

프로젝트 진행

 


  • Today I Learned

 

프로젝트

 

주제 선정 과 분석방향 정리

 

raw data 확인

  • 이상치 처리(특정 기준을 세워 이상치를 정의하고 그 이유를 설명)
  • 컬럼별 raw data 분포 시각화
  • 컬럼 간 상관계수 히트맵 구현

군집 분류

  • Python 머신러닝 라이브러리를 활용하여 진행
  • 기존 컬럼과 파생변수 활용

상관관계분석

  • 나뉜 군집과 다른 컬럼 간의 상관관계 분석
  • 연관이 있다면 그것이 군집의 특성이 될 것(인사이트 도출)
  • 군집별 차이를 수치화
    • ex) A 그룹 평균 접속일수와 B 그룹 평균 접속일수
  • 추가적인 군집별 특성을 알아보기 위한 RFM 스코어화
    • ex) 결제성향별( heavy, medium, row ) 로 나누었고, 각 그룹별 RFM score 는 몇 점이다.

군집 특성에 맞는 마케팅 방안 제시

  • 마케팅 푸시는 어떻게 할 것인지?
    • ex) 팝업/ 문자/ 쿠폰 등
  • 선택사항: 대시보드
  • 참고사항: 원하는 기준(결제 특징) 에 따른 유저가 나오지 않을 수 있습니다

진행방향?

결제성향별로 유저를 나누기 위해 군집분석시작 → 이를 검증하기 위하여 파생변수도 활용

→ 컬럼간의 상관계수는 ~~ 하다 → 군집으로 나누었을 때 이런 결과가 나왔다

→ 추가 검증으로 RFM 도 사용해보았다.

 

 

 

테이블 조인 후 결측치 제거

더보기
df1 = pd.merge(customers,orders,how='left', on='customer_id')

df2 = pd.merge(df1,payments,how='left',on='order_id')

df3 = pd.merge(df2,order_items,how='left',on='order_id')

df4 = pd.merge(df3,products,how='left',on='product_id')

# 0 인 값 제거
df4 = df4[df4['product_weight_g'] != 0]
# not_defined 값 제거
df4p = df4[df4['payment_type'] != 'not_defined']
# 각 컬럼의 결측치 행 전부 제거
df4.dropna(axis=0, inplace=True)

 

 

 

 


  • Next

프로젝트 진행

'TIL' 카테고리의 다른 글

2024-06-26  (0) 2024.06.26
2024-06-18  (0) 2024.06.18
2024-06-15  (1) 2024.06.15
2024-06-14  (0) 2024.06.14
2024-06-13  (0) 2024.06.13