TIL

2024-07-03

여연찌 2024. 7. 3. 22:46
  • Today

1. ADsP

2. Project 진행

 


  • Today I Learned

 

ADsP

 

데이터웨어하우스

: 정적인 데이터가 중요하며, 일정기간동안 안정적으로 정보를 저장하는 것을 목적으로 두고 있다.

 

유전 알고리즘

: 문제에 대한 최적 해결책을 찾는 것

ex. 시청률을 얻으려면 어떤 시간대에 방송해야하는가?

ex. 최적의 택배 차량 배치 방법

 

무결성

: 데이터베이스 내에서 데이터 변경이나 수정 시에 정확성,일관성,유효성,신뢰성을 보장하기 위해

여러가지 제한을 두어 데이터의 정확성을 보증하는 것

 

분석체계 구현은 반복적

 

분석 선순환 구조 맵

: 분석 내용을 선택과 결과로 모델링

 

분석 성숙도를 진단하는 영역 3가지

1. 비즈니스

2. IT

3. 조직,역량

 

빅데이터 4V 특성

volume(데이터양)

variety(데이터 종류)

velocity(데이터 처리 속도)

value(데이터 가치)- 난이도를 평가하는 기준이 아님

 

Activity System Map

: 전략적, 상호연관

 

분석 마스터 플랜

: 전사 차원에서 식별된 다양한 분석 과제에 대해 제한된 예산과 자원을 활용하여 효과적으로 수행하기 위해 우선순위를 평가하고, 평가 결과에 따른 단계별 실행 로드맵을 수립하는 실행 계획

 

 

 


프로젝트

 

 

프로젝트 주제

수익성 개선을 위한 전략 수립

 

주제 선정 이유

정량적인 수치가 많아 다양한 지표로 분석이 가능하다.

의사결정에 도움을 줄 수 있는 대시보드 제작이 가능하다.

 

프로젝트 핵심 내용

트렌드 파악

제품별 할인 정책 개선

고객 세그먼트별 매출 파악

 

*데이터 선택, 데이터 뜯어보기

어떤 데이터가 있는지?

< 아마존 food category >

더보기

고객 고유번호(Custkey)

 

주문 날짜(DateKey)

: 2017년1월~19년12월,18년도의 경우1~3월까지, 2019년도 또한 1월12일 부터 데이터가 존재함

 

할인 금액(Discount Amount)

: 음수값이 존재함, 851건

 

송장발행날짜(Invoice Date)

 

송장번호(Invoice Number)

 

상품분류코드(Item Class)

: P01 56,965

: PO1 16 ( 이상치?, 잘못 입력한 것인지? )

: 나머지는 1건씩

 

상품고유번호(Item Number)

아이템(Item)

상품라인번호(Line Bumber)

상품정가(List Price)

주문번호(Order Number)

배송예정일자(Promised Delivery Date)

실제판매금액(Sales Amount)

정가기준판매금액(Sales Amount Based on List Price)

판매원가(Sales Cost Amount)

판매마진금액(Sales Margin Amount)

판매가격(Sales Price)

판매수량(Sales Quantity)

판매담당자코드(Sales Rep)

U/M

EA(Each): 개별단위판매

PR(Pair): 쌍으로 판매된 상품

SE(Set): 세트 판매

 

이 데이터들을 가지고 어떻게 활용할 것인지에 대해 여러가지 이야기를 나누었다.

우선 데이터가 빠진 것이 너무나도 큰 리스크였다.

 

트랜드 파악

제품별 할인 정책 개선

고객 세그먼트별 수익 파악

 

위 3가지의 주제를 분석하며 특이점이 있는지에 대해 대화를 나누어 보기로 했다.

 

 

* 평균으로 내는 매출을 사용해도 괜찮은 것인지?

장바구니 하나당의 평균을 내는 것은

주문건에 따른 해당월의 평균을 보는 것이기 때문에 충분히 분석하기에 의미가 있음

다만 평균만을 보고 수익을 이야기 하지 않는다고 한다.

 

 

대희튜터님 멘토링

1. 중간에 비어있는 날짜 데이터는 어떻게 처리하면 좋을지?

: 동일한 조건에서 동일한 기준을 비교할 수 있는 것이 있을지?

 

2. Item Class 도 P01 이 다수인데, 다 이거로 채워넣는게 맞을지?

- P01 에 대해서만 분석 하는 방법도 있음

- PO1 을 P01 로 할 것인지는 그 안에 있는 데이터들을 확인해본 후 진행

- 다른 아이템의 공통점 파악

아이템 이름을 보니까 특정회사제품이었다던지,,,

잘팔리는 제품들이 배송료나 가격이 낮다던지?

살펴봤는데도 큰 차이가 없다면 카테고리 전체를 두고 price 를 비교해도 의미가 없을 수 있다.

사용안해도됨!(삭제한 것과 마찬가지임)

 

3. Item Number 에서 0 혹은 문자열이 있는 컬럼이 있음

0으로 처리된것은 3개뿐-이상하면 특징이 있는지 볼 것, 다른 것과의 연관성

 

문자열

각각 살펴보며 아이템으로 살릴만한 이유가 있는지, 이런식으로 파악해야한다.

영향이 없어보이는 데이터들이라면 ... drop 해도 괜찮음

 

 

성훈 튜터님 멘토링

비어있는 데이터의 경우?

다른 것으로 채우는 것은 안맞는 접근임

현재 있는 데이터들을 가지고, 저 기간에도 물건을 팔았을 것이다 하고 가정해서 새로운 데이터를 랜덤하게 찍어내야함

> 이것은 맞지 않는다고 생각함

 

시나리오1번

그 기간동안 판매가 중지되었다고 가정

다시 1월부터 판매를 재개해서 그때부터 매출이 찍혔다.

> 다른 방식으로 분석.. 그 분석의 목표가 무엇으로 할 것인지 접근

> 수익성 개선이 전기간일 필요는 없음 

 

실무에서 이런데이터가 있다면?

그냥 저 기간에는 영업을 안했기 때문에 기를 써도 복구하지 못하는 것뿐임

그렇다면 다른 데이터들로 해내면 된다!

 

 

 

튜터님들과 멘토링 후 

트렌드에 대한 데이터는 우선 두기로 하고, 그 외의 고객과 상품에 대한 데이터분석을 진행해보기로 하였다.

 

나는 고객분석을 맡았고

최근성, 재방문율수, 매출 

이렇게 큰 틀에 대해 분석을 해보기로 했다.

 

이렇게 분석을 한다면 RFM 분석을 해볼 수 있을 것이라는 것에 결론에 다다랐다.

 

 

아래 부분은 다시한번 정리해보아야겠음..

 

Recency(최근성)

:

고객의 마지막 결제일의 직전 결제일의 차이

그 값으로 특징이 있는지 확인

마지막 결제일, 직전이 7일 = 그럼 일주일

첫 구매일 수도 있음

 

Frequency(재방문율수)

첫 방문과 마지막 방문 / 방문횟수

평균 며칠 주기로 방문하는지 횟수로 세그멘테이션

 

Monetary(매출)

:

고객당 평균 결제액

고객의 전체 매출/ 구매횟수

 

 

고객별로 별 차이가 없이 균일하다면 세그멘테이션 하기 어렵지만 차이가 있다면 그 특성을 확인하여 인사이트를 내볼 수 있을 것이다.

 

 

>> 중요한 것은 가설설정을 하면서 가설검증을 해야함

>> 범주에 대한 타당성이 생길 수 있도록 여러개의 숫자로 돌려서 검증해보아야한다.

>> 평균, 중앙값 등 여러 값을 사용해보기

 

 

 

 

제품별 할인 정책 개선

 

제품의 이름은 같으나 아이템넘버가 다르며, 그 넘버가 구분되는 이유는 판매가가 달라서 일 수 있음

-> 대용량일 수 있음

-> 단품일수록 수량이 많았음

=> 다른 상품도 확인해보기

 

 

더보기

우리가 이렇게, 저렇게 분석을 해보면서

손에 쥐고 있는 패가 늘어나면서 그것으로 조합하며 대시보드를 만들 것

 

실무에서는 목적성이 명확하지만 프로젝트의 경우는 목적성을 정하기 나름임

 

분석을 했던 결과, 우리 고객들이 재방문이 너무 낮아,

평균 결제하는 금액이 너무 싸

세일할때만 구매하는 애들만 모일 수도 있음

 

분석결과를 받아보고, 그 다음에 수익성을 어떻게 개선해야할지가 나올 수 있음

'TIL' 카테고리의 다른 글

2024-07-05  (0) 2024.07.06
2024-07-04  (0) 2024.07.04
2024-07-02  (0) 2024.07.02
2024-07-01  (0) 2024.07.01
2024-06-28  (0) 2024.06.28