전체 글 233

[Team Project] Amazon Fresh 의 미래, 세그먼트별 수익성 개선 전략 수립

프로젝트명: Amazon Fresh 의 미래, 세그먼트별 수익성 개선 전략 수립기간: 2024-07-03~12활용 데이터: 정량적인 수치가 많아 다양한 지표로 분석이 가능하며, 실무에 가까운 데이터로 의사결정에 도움이 될 만한 대시보드를 제작해보기 위해 이 데이터를 선정 후 분석하게 되었다.이번 프로젝트에서는 고객과 상품 각각의 세그먼트별로 나누고 모둔 군집별 마케팅방안을 내보았다. 마지막으로는 영업현황이나 세그먼트에 따른 분류현황을 확인해볼 수 있도록 대시보드를 제작해보았다. 프로젝트 요약프로젝트 소개: 트렌드, 고객, 제품별 분석을 통한 수익 증진 방안 및 대시 보드 제작사용 스킬 & 도구프로그래밍 언어: Python, SQL분석 도구: Pandas, NumPy, Scikit-learn, Matplo..

Project 2024.07.12

2024-07-08

주말에도 나와 RFM 분석을 마무리 했다. Recency 는 2018년도3월에서 끊겨져있는 데이터의 특이점이 있으니High: 1달이내 방문한 고객Middle: 1달~1년 이내 방문한 고객Row: 1년 전 마지막으로 방문했던 고객 이렇게 3가지로 분류해보았다. Monetary 와 Frequency 는 high 와 row 로 각각 2분류로 나누었고 3:2:2 의 조합으로 유효한 고객군 A~H 까지 나왔다.  RFMCNTAHighHighHigh22BMidHighHigh8CHighLowHigh89DMidLowHigh53ELowLowHigh12FHighLowLow98GMidLowLow173HLowLowLow160 이렇게 나누어 보았다. 8개의 고객분류를 토대로 Margin 합계를 시계열로 분석해보았을 때이와 같이..

TIL 2024.07.08

2024-07-05

Frequency 와 Monetory 의 기준을 잡아보기 위해 분포도를 확인해보려고 했으나성훈튜터님과의 멘토링 중 이런 결과가 나왔다. 도매업자의 매출내역일지도 모른다는 결론이 나왔다.B2B 고객에 대한 데이터일 수도 있다. 이렇게 생각해볼 수 있는 기준으로는1. 영업사원이 있다> 아마존( ex. 쿠팡 )이라는 입점형 쇼핑몰 특성상 영업사원이 있지는 않을 것인데, 왜일까?2. 고객 1명당 구매수량이 높다.  * Recency 분류 기준1등급 0~7일 → 일주일 | 113명 2등급 8일~ 17일 → 1~2주일 | 44명3등급 18일~25일 → 2주~3주 | 52명4등급 26일~365일 → 1달~1년 | 234명5등급 366일~ → 1년 이후 | 172명⇒ 기준 선정 이유: 신선식품, 소비식품 등을 다루고 ..

TIL 2024.07.06

2024-07-04

*산술식Sales Amount (판매총액) = Sales Amount Based on List Price (정가총액) - Discount Amount (할인총액)Sales Margin Amount (마진총액) = Sales Amount (판매총액) - Sales Cost Amount (원가총액)Sales Price = Sales Amount / Sales QuantitySales Amount = Sales Price * Sales QuantitySales Amount Based on List Price = List Price * Sales QuantitySales Margin Amount = Sales Amount - Sales Cost Amount  *음수 컬럼 확인Discount Amount(할인금액..

TIL 2024.07.04

2024-07-03

Today1. ADsP2. Project 진행 Today I Learned ADsP 데이터웨어하우스: 정적인 데이터가 중요하며, 일정기간동안 안정적으로 정보를 저장하는 것을 목적으로 두고 있다. 유전 알고리즘: 문제에 대한 최적 해결책을 찾는 것ex. 시청률을 얻으려면 어떤 시간대에 방송해야하는가?ex. 최적의 택배 차량 배치 방법 무결성: 데이터베이스 내에서 데이터 변경이나 수정 시에 정확성,일관성,유효성,신뢰성을 보장하기 위해여러가지 제한을 두어 데이터의 정확성을 보증하는 것 분석체계 구현은 반복적 분석 선순환 구조 맵: 분석 내용을 선택과 결과로 모델링 분석 성숙도를 진단하는 영역 3가지1. 비즈니스2. IT3. 조직,역량 빅데이터 4V 특성volume(데이터양)variety(데이터 종류)veloc..

TIL 2024.07.03

2024-07-02

Today1. 태블로 라이브 세션 2회차2. ADsP 강의 수강 Today I Learned SQL  기본 스크롤은 페이지의 90% 를 넘었을 때 스크롤 이벤트가 찍힌다..SELECT COUNT(DISTINCT user_pseudo_id, ga_session_id) AS pvFROM gaWHERE page_title = '백문이불여일타 SQL 캠프 입문반'AND event_name = 'page_view'위와 같은 함수에서 COUNT 안에 2가지를 넣을 수 없는 프로그램(빅쿼리 등)의 경우SELECT COUNT(DISTINCT CONCAT(user_pseudo_id, ga_session_id)) AS pv이렇게 CONCAT 을 사용하여 COUNT 해주면 같은 결과를 낼 수 있다!   ADsP  비즈니스 ..

TIL 2024.07.02

2024-07-01

Today태블로 라이브세션 수강 및 복습 Today I Learned  태블로 관계: 각 테이블들이 독립적으로 작동함: 데이터의 결합이 워크시트의 뷰 레벨에서 결정됨: 표현하는 방식에 따라 데이터가 생략되거나 왜곡될 수 있음 조인: SQL 의 join 과 같음 블랜딩: 여러개의 데이터원본을 워크시트에 바로 연결해서 사용: 불안정하고 매칭하는 키 값이 자주 어긋나기 때문에 사용을 권장하지 않음 유니온: 데이터의 형식이 달라도 그냥 상하로 결합함: 컬럼이 달라도 모든 컬럼이 표시되며 일치하지 않으면 데이터를 NULL 로 표현* 와일드카드- 특정 단어 등이 포함되었을 때 전부 연결해줌   운영대시보드: 실시간 정보를 간략화 해서 사용자가 지표를 쉽게 모니터링 할 수 있도록 한다.분석대시보드: 데이터를 통해 인..

TIL 2024.07.01