TIL

2024-07-25

여연찌 2024. 7. 25. 21:32
  • Today

1. 커머스 특강

2. 프로젝트

 


  • Today I Learned

 

커머스 3회차

 

 

* 아마존과 쿠팡은 닮아있음

아마존프라임 = 쿠팡플레이

 

 

이커머스 데이터 수집 도구법

API

웹 크롤링

데이터베이스 쿼리-트랜잭션 데이터

로그 데이터

 

* 데이터 수집 도구(SaaS 툴)

1. Google Analytics

2. Amplitude

3. Mixpanel

4. SurveyMonkey

 

 

로그데이터

: 실제로 고객이 어떤 행동을 하는지 분석

1. 고객 행동 분석

2. 마케팅 캠페인 효율성 측정

3. 웹사이트 성증 최적화(seo)

 

 

더보기

로그 데이터 형태

 

user_id
timestamp
action
page
product_id
query
user123
2024-07-24T12:34:56
visit
homepage
NULL
NULL
user456
2024-07-24T12:35:00
click
product_page
prod789
NULL
user123
2024-07-24T12:36:10
search
NULL
NULL
laptop

 

 

이커머스 데이터 정제 및 전처리 기법

 

데이터 정제/전처리 기법

1. 정제 기법

- 중복 제거

- 오타 수정

- 불필요한 데이터 제거

2. 전처리 기법

- 데이터 변환

- 정규화: 스케일링

 

결측치 처리 / 이상치 탐지

1. 결측치 처리

- 삭제

- 대체: replace

- 보간: modeling(최빈값, 평균값 등)

2. 이상치 탐지

- 기술 통계 활용: 왜 이상치가 있는지 이유 파악 후, 그에 맞춰 진행

- 시각화 기법: box plot, scatter plot

 

 

* 유용한 파이썬 패키지

1. 판다스

2. 파이애로우(대용량 데이터 처리)

3. 폴라(판다스와 비슷하지만 파이애로우 만큼의 성능을 가짐)

 

 

피처 엔지니어링

- 새로운 피처 생성: 기존 데이터를 바탕으로 새로운 분석 지표 생성

- 피처 선택: 분석에 중요한 피처만 선택하여 데이터셋을 단순

 

 


 

프로젝트

 

 

리차드튜터님 멘토링

 

Q. 기획단계에서 추가 혹은 수정해야하는 부분이 있는지?

A.

개인화 추천

: 어떤 것에 대한 개인화 추천인지 밝혀주는 것이 좋음

 

핵심 고객층 식별(어떤 핵심고객인지?)

: 기본적으로 가정(정의) 하고 기획서를 작성하는 것이 좋을 듯

 

처음에는 위험하더라도, 어느정도 방향을 가지고 출발하는 것 자체가 기획서 부분적으로 더 좋을 듯 함

그 후 데이터를 살펴보았을 때 변동이 있다면 변경시켜도 괜찮다!

 

메인 데이터셋

전체에서 > 카테고리를 좁혔을 때

패턴을 식별하기 어려울 수 있음

카테고리 2~3개 정도 세그먼트를 나누는 것도 좋을 듯 함

 

카테고리를 임의 선정 후 패턴을 알아보는 방향으로 가는편이 좋을 듯 함

전체보다는 카테고리별로 보는 것이 이커머스라는 관점에서는 의미가 있을 것

 

 

Q. 목표를 세부적으로 설정하지 못한 단계인데, 유의해야할 사항?

(데이터 셋을 살펴 본 다음에 설정하는 것이 좋을 지?)

목표를 정하는 방식은 크게 2가지

1. 비즈니스 임팩트를 낼 수 있는가

2. 설명하기 쉬운가 아닌가

 

두괄식으로 제목을 정해놓으면 조금더 좋을 듯 함

목표를 가설처럼 정해놓은 후에 들어가는게 더 좋음

 

 


멘토링 후 크게나마 가설설정 및 기준 정의를 하기 위해 회의를 진행했다

 

구매 패턴

  1. 연관성 있게 구매를 하는가 (like 장바구니 분석)
  2. 무엇을 구매 하는지
  3. 다시 찾아오는 횟수는? 어느 정도 주기로 방문을 하는가?
  4. 구매 금액 대
  5. 연령에 따른~
  6. 지역(국가) → 고객의 국가는 알 수 있으나 물건이 어디에서 고객에게 배송되는지 알 수 없다

구매 결정 요인 : 가격(물품 가격, 할인율, 쿠폰 적용 여부 등),

품질=리뷰(평점)&리뷰 수,

배송 시간,

판매량,

판매 기간(옛날부터 판매 하고 있던 건가? 얼마나 지속적으로 판매가 되고 있는가? → 최초 등록/판매일로부터 얼마나 오랫동안 판매를 유지하고 있는가)

⇒ 구매 패턴은 ‘가격, 판매량, 그리고 리뷰&리뷰수’를 본다 (전체현황)

⇒ 개인화를 하게 되는 경우 각 유저에 따라 어떤 패턴을 보이는지

 

  • 핵심 고객층
    1. 주문 수
    2. 매출액 = 구매 총 액
    3. 객단가(금액/수)
    4. 주문 수, 매출액, 객단가도 기간을 기준으로 볼 것이야 → 코호트 분석할 때
    5. 지역 못 봄 → 볼 거면 다른 고객 데이터 셋을 찾아와야 함!

 

*종합 커머스에서는 리텐션은 짧고, 금액은 상대적으로 적게 잡는다

*다만, 최근에는 일반 구매자와 구독자 = VIP 로 이분화하는 추세

 

 

고객 핵심고객층 예시

  1. 리텐션: 3개월
  2. 금액: 총 구매 금액 상위 20%
  3. 주문건수: 총 주문 건 수 상위 20%

→ 기간을 기준으로 하나만 보거나, 여러 개를 종합하여 등급을 부여하는 것도 가능

→ 금액 기준으로 고객 순위를 매겨 순위 자르기 도 가능(ex. 컬리)

⇒ (두 개의 기준을 잡을 경우) 전체 고객 중 몇 % 인지 확인 필요

  • 카테고리를 나누어 진행?(우선순위)
    1. 전자제품
    2. 식품
    3. 의류
  • 목표 설정에 유의점
    1. 비즈니스 임팩트
    2. 설명하기 쉬운지
  • 목표 가설 설정신규 고객을 유치하여 구매전환을 일으키는 것 보다 기존 고객에게 재 구매를 유도하는 것이 훨씬 쉽다 (고객이 이미 우리 제품/서비스에 흥미가 있음, 인지도 되어 있음 = 유입을 위한 바이럴 마케팅 비용 절감, 내부 시스템을 통한 마케팅 가능함~)

1. 재 방문율이 늘어 났을 때 매출이 늘어났다는 것을 증명할 수 있는 지표는?

→ 일회성 구매자의 총 구매 금액과 재 구매자의 총 구매 금액의 비교

2. 신규 고객을 위한 광고 비용과 기존 고객을 위한 광고 비용, 그리고 전환율과 ROAS

3. 기업의 수준 (궤도에 올라와 있음)에 따라 신규 고객 확보 보다 충성 고객 확보가 중요하다는 것을 알려주자!

4. 기업 당 평균 고객 수 와 본 기업의 고객 수를 비교해서 너희는 이미 충분히 고객이 많다! 라는걸 보여주고 기존 고객을 유지하는게 더 중요하다~! 고 끌고 가야됨

경쟁 업체 , 마케팅 비용 제외

기존 고객에게서 발생하는 액션? 구매, 컴플레인, 이벤트 참여도, 추천

 

5. 재구매 고객의 총 구매 금액이 전체 총 구매 금액에서 몇 %를 차지하고 있는가?

→ 60% 이상이면 총 매출을 기존 유저가 견인하고 있다는 것을 반증할 수 있기 때문

⇒ 일회성 구매자 또는 총 구매자의 구매 총액과 기존 유저의 구매 총액 비교

목표 : “고객 재구매율 향상”

프로젝트 명 : “고객 구매 패턴 분석을 통한 재 구매율 향상 맞춤화 서비스&마케팅 전략 제안”

재 방문이 구매로 연결이 된다 == 여러번 오게 하면 구매량이 늘어날거고 그럼 매출이 결국 늘어나게 될거다 == 매출 향상을 위한 재구매율 상승이 목표

 

column description

더보기

Customers

  • customer_id : 고객 고유 값 (PK)
  • first_name: 고객 이름
  • last_name: 고객 성
  • email: 고객 이메일 주소
  • phone: 고객 전화번호
  • created_at: 회원가입 일자 (시간이 포함되어 있음 = 사용할 경우 어디 기준 시로 볼 까? ⇒ 시애틀 시 기준)
  • ~~country: 고객 거주 국가~~
  • ~~city: 고객 거주 도시~~
  • ~~address: 고객 실 거주 주소~~

→ 컬럼 정보 상 일치하지 않는 무의미한 정보로 판별 (ex. 거주 국가는 한국, 도시는 뉴욕)

 

Orders

  • rder_id: 주문 고유 값 (PK)
  • product_id: 제품 고유 값 (FK)
  • customer_id: 고객 고유 값 (FK)
  • order_date: 주문 발생 시간
  • status: 현재 주문 상태
    • Delivered (배송 완료)(82833건)
    • Registered (송장 발급)(5810건)
    • Sent (발송 = 배송 시작)(5735건)
    • Received (주문 접수)(5632건)
  • quantity: 제품 수량
  • unit_price: 제품 단가
  • total_price: 주문 총 금액(제품 수량 * 제품 단가) (quantity * unit_price).

Products

  • product_id: 제품 고유 값 (PK)
  • product_name: 제품 이름 (이름의 중복은 체크하지 않음)
  • category: 제품 카테고리
  • price: 제품 가격 (= 제품 단가? 판매 가격?)
  • stock_status: 재고 보유 현황 = 판매 여부
    • In-Stock 재고 보유 (판매 중)
    • Out-Stock 판매 종료

product_id 와 product_name 은 1:1 이지만

product_name 에는 중복값이 있으며

해당 product 의 경우 seller 가 달랐음

 

Returns

  • order_id: 주문 고유 값 ( FK)
  • customer_id: 고객 고유 값 (FK)
  • return_reason: 반품 사유
    • 배송 관련
      • Damaged (제품 파손”배송과정 중 파손”)1019
      • Wrong Item(오배송)986
    • 제품 관련
      • Defective(제품 파손/제품 결함) 979
      • Quality Issues(제품 품질 문제) 933
    • 단순 변심
      • Found a Better Price (더 저렴한 상품 발견)1015
      • Too Expensive(너무 비쌈)983
      • Size/Fit Issues (사이즈 이슈)1000
      • Changed Mind (상품이 마음에 들지 않음/단순 변심)997
      • Not as Expected(기대와 다름/단순 변심)949
      • Duplicate Order(중복 주문)952
  • return_status: 현재 반품 상태
    • Not Accepted (반품 반려)4253
    • Delivered(반품 완료)4197 = 상품 회수 됨 = 환불/교환 됨
    • Registered(반품 송장 발급)469
    • Received(반품 접수)453
    • Sent(반품 회수 시작)441
    → 교환, 환불 관련된 사항이 order에 반영이 되었는지?

 

가설 검증

 

  • 일회성 구매자 VS 기존 구매자
    • 전체 기간
      • 일회성 구매자 533명
      • 총 구매자 7953명
      • 고객 1명당 평균적으로 13회 구매를 진행
      • 고객 25%에 해당하는 고객의 재 구매 횟수는 18회
  • 핵심 고객 층= 충성 고객 = VIP 기준 정의
    • 전체 기간 기준 핵심 고객 수 파악 우선 진행 ⇒ 10년치 데이터라 의미가 없을 수 있음
    • 연도별
      • 전체적으로 상승 중 (구매 총 액, 신규 회원 가입자, 구매 건수)
      • 신규 구매자 추세 그래프연도 별

 

연도 별 재 구매율 확인 (⇒ 가설 : 점점 재 구매율이 떨어지고 있을 것)

  • 구매 금액
  • 구매 횟수
  • 동시
  • 각 년도 분기 별 핵심 고객 수 유지 파악
    • 분기 = 3개월
      • (리텐션) 직전 분기에 구매 금액이 큰 상위 20%가 다음 분기에도 명단에 있니?
      • 구매 횟수가 많은 상위 20%
      • 둘 다 동시에 해당되는 고객이 몇 명이고, 둘 중 하나라도 해당되는 고객은 몇 명인지?

 


가설검증을 해보기 위해 우리가 생각한 매출 지표를 확인해보았으나.. 

너무나도 잘 성장하고 있는 문제점을 파악할 수 없는 기업의 데이터였다.

 

이 후 우리는 2가지의 의문점이 생겼다.

 

1. 문제가 없는 것처럼 보이는 데이터셋의 경우 어떤 것을 더 봐야할지?

매출 관련한 지표가 모두 상승세일 때에는 데이터분석가가 어떤 목표를 가지고 진행해야하는지?

확인한 지표

- 총 구매액

- 신규회원가입자

- 신규구매자

- 구매건수

- 연도별 재구매율

- 고객 1명 당 평균 13회 구매 = 재구매율이 굉장히 높다

 

2. 그렇다면 데이터 셋을 바꾸어야 할지?

 

내일 튜터님을 만나 위 2가지의 의문을 확인해보기로 하였다. 

 


  • Next

튜터님 만나 멘토링 받기!

새로운 데이터셋으로 간단한 분석!

 

 

'TIL' 카테고리의 다른 글

2024-07-29  (0) 2024.07.29
2024-07-26  (1) 2024.07.26
2024-07-24  (5) 2024.07.24
2024-07-23  (2) 2024.07.23
2024-07-22  (3) 2024.07.22