- Today
프로젝트 진행
- Today I Learned
프로젝트
주제 선정 과 분석방향 정리
raw data 확인
- 이상치 처리(특정 기준을 세워 이상치를 정의하고 그 이유를 설명)
- 컬럼별 raw data 분포 시각화
- 컬럼 간 상관계수 히트맵 구현
군집 분류
- Python 머신러닝 라이브러리를 활용하여 진행
- 기존 컬럼과 파생변수 활용
상관관계분석
- 나뉜 군집과 다른 컬럼 간의 상관관계 분석
- 연관이 있다면 그것이 군집의 특성이 될 것(인사이트 도출)
- 군집별 차이를 수치화
- ex) A 그룹 평균 접속일수와 B 그룹 평균 접속일수
- 추가적인 군집별 특성을 알아보기 위한 RFM 스코어화
- ex) 결제성향별( heavy, medium, row ) 로 나누었고, 각 그룹별 RFM score 는 몇 점이다.
군집 특성에 맞는 마케팅 방안 제시
- 마케팅 푸시는 어떻게 할 것인지?
- ex) 팝업/ 문자/ 쿠폰 등
- 선택사항: 대시보드
- 참고사항: 원하는 기준(결제 특징) 에 따른 유저가 나오지 않을 수 있습니다
진행방향?
결제성향별로 유저를 나누기 위해 군집분석시작 → 이를 검증하기 위하여 파생변수도 활용
→ 컬럼간의 상관계수는 ~~ 하다 → 군집으로 나누었을 때 이런 결과가 나왔다
→ 추가 검증으로 RFM 도 사용해보았다.
테이블 조인 후 결측치 제거
더보기
df1 = pd.merge(customers,orders,how='left', on='customer_id')
df2 = pd.merge(df1,payments,how='left',on='order_id')
df3 = pd.merge(df2,order_items,how='left',on='order_id')
df4 = pd.merge(df3,products,how='left',on='product_id')
# 0 인 값 제거
df4 = df4[df4['product_weight_g'] != 0]
# not_defined 값 제거
df4p = df4[df4['payment_type'] != 'not_defined']
# 각 컬럼의 결측치 행 전부 제거
df4.dropna(axis=0, inplace=True)
- Next
프로젝트 진행
'TIL' 카테고리의 다른 글
2024-06-26 (0) | 2024.06.26 |
---|---|
2024-06-18 (0) | 2024.06.18 |
2024-06-15 (1) | 2024.06.15 |
2024-06-14 (0) | 2024.06.14 |
2024-06-13 (0) | 2024.06.13 |