분류 전체보기 233

2024-07-08

주말에도 나와 RFM 분석을 마무리 했다. Recency 는 2018년도3월에서 끊겨져있는 데이터의 특이점이 있으니High: 1달이내 방문한 고객Middle: 1달~1년 이내 방문한 고객Row: 1년 전 마지막으로 방문했던 고객 이렇게 3가지로 분류해보았다. Monetary 와 Frequency 는 high 와 row 로 각각 2분류로 나누었고 3:2:2 의 조합으로 유효한 고객군 A~H 까지 나왔다.  RFMCNTAHighHighHigh22BMidHighHigh8CHighLowHigh89DMidLowHigh53ELowLowHigh12FHighLowLow98GMidLowLow173HLowLowLow160 이렇게 나누어 보았다. 8개의 고객분류를 토대로 Margin 합계를 시계열로 분석해보았을 때이와 같이..

TIL 2024.07.08

2024-07-05

Frequency 와 Monetory 의 기준을 잡아보기 위해 분포도를 확인해보려고 했으나성훈튜터님과의 멘토링 중 이런 결과가 나왔다. 도매업자의 매출내역일지도 모른다는 결론이 나왔다.B2B 고객에 대한 데이터일 수도 있다. 이렇게 생각해볼 수 있는 기준으로는1. 영업사원이 있다> 아마존( ex. 쿠팡 )이라는 입점형 쇼핑몰 특성상 영업사원이 있지는 않을 것인데, 왜일까?2. 고객 1명당 구매수량이 높다.  * Recency 분류 기준1등급 0~7일 → 일주일 | 113명 2등급 8일~ 17일 → 1~2주일 | 44명3등급 18일~25일 → 2주~3주 | 52명4등급 26일~365일 → 1달~1년 | 234명5등급 366일~ → 1년 이후 | 172명⇒ 기준 선정 이유: 신선식품, 소비식품 등을 다루고 ..

TIL 2024.07.06

2024-07-04

*산술식Sales Amount (판매총액) = Sales Amount Based on List Price (정가총액) - Discount Amount (할인총액)Sales Margin Amount (마진총액) = Sales Amount (판매총액) - Sales Cost Amount (원가총액)Sales Price = Sales Amount / Sales QuantitySales Amount = Sales Price * Sales QuantitySales Amount Based on List Price = List Price * Sales QuantitySales Margin Amount = Sales Amount - Sales Cost Amount  *음수 컬럼 확인Discount Amount(할인금액..

TIL 2024.07.04

2024-07-03

Today1. ADsP2. Project 진행 Today I Learned ADsP 데이터웨어하우스: 정적인 데이터가 중요하며, 일정기간동안 안정적으로 정보를 저장하는 것을 목적으로 두고 있다. 유전 알고리즘: 문제에 대한 최적 해결책을 찾는 것ex. 시청률을 얻으려면 어떤 시간대에 방송해야하는가?ex. 최적의 택배 차량 배치 방법 무결성: 데이터베이스 내에서 데이터 변경이나 수정 시에 정확성,일관성,유효성,신뢰성을 보장하기 위해여러가지 제한을 두어 데이터의 정확성을 보증하는 것 분석체계 구현은 반복적 분석 선순환 구조 맵: 분석 내용을 선택과 결과로 모델링 분석 성숙도를 진단하는 영역 3가지1. 비즈니스2. IT3. 조직,역량 빅데이터 4V 특성volume(데이터양)variety(데이터 종류)veloc..

TIL 2024.07.03

2024-07-02

Today1. 태블로 라이브 세션 2회차2. ADsP 강의 수강 Today I Learned SQL  기본 스크롤은 페이지의 90% 를 넘었을 때 스크롤 이벤트가 찍힌다..SELECT COUNT(DISTINCT user_pseudo_id, ga_session_id) AS pvFROM gaWHERE page_title = '백문이불여일타 SQL 캠프 입문반'AND event_name = 'page_view'위와 같은 함수에서 COUNT 안에 2가지를 넣을 수 없는 프로그램(빅쿼리 등)의 경우SELECT COUNT(DISTINCT CONCAT(user_pseudo_id, ga_session_id)) AS pv이렇게 CONCAT 을 사용하여 COUNT 해주면 같은 결과를 낼 수 있다!   ADsP  비즈니스 ..

TIL 2024.07.02

2024-07-01

Today태블로 라이브세션 수강 및 복습 Today I Learned  태블로 관계: 각 테이블들이 독립적으로 작동함: 데이터의 결합이 워크시트의 뷰 레벨에서 결정됨: 표현하는 방식에 따라 데이터가 생략되거나 왜곡될 수 있음 조인: SQL 의 join 과 같음 블랜딩: 여러개의 데이터원본을 워크시트에 바로 연결해서 사용: 불안정하고 매칭하는 키 값이 자주 어긋나기 때문에 사용을 권장하지 않음 유니온: 데이터의 형식이 달라도 그냥 상하로 결합함: 컬럼이 달라도 모든 컬럼이 표시되며 일치하지 않으면 데이터를 NULL 로 표현* 와일드카드- 특정 단어 등이 포함되었을 때 전부 연결해줌   운영대시보드: 실시간 정보를 간략화 해서 사용자가 지표를 쉽게 모니터링 할 수 있도록 한다.분석대시보드: 데이터를 통해 인..

TIL 2024.07.01

2024-06-27

Today1. SQL 코드카타 2. Tableau 3주차 수강, 4주차 4-1 수강 Today I Learned SQL 평균 판매 가격을 구하기Write a solution to find the average selling price for each product. average_price should be rounded to 2 decimal places.SELECT p.product_id , CASE WHEN start_date    원하는 형식처럼 나오기는 했지만, 여기서 원하는 값이 나오지 않았다.. CASE WHEN 을 사용하는 것은 맞는 것 같은데 조건이 잘 못 들어 간듯하다.     join 후 테이블의 상태를 확인해보니 group by 를 하기 전에는 위와 같은 상태였고, group..

TIL 2024.06.27

2024-06-26

Today1. SQL 코드카타 1문2. project 정리3. 태블로 2주차 강의 수강 Today I Learned SQL  조건이 포함되지 않는 데이터 출력하기Write a solution to report the movies with an odd-numbered ID and a description that is not "boring".SELECT *FROM CinemaWHERE id % 2 != 0 AND description NOT LIKE "%boring%"ORDER BY rating DESC;같지 않다 라는 의미에서 != 또는 을 사용 하면 된다..NOT LIKE 를 사용하면 해당 단어가 포함되지 않는 것을 출력함 파이썬만 주구장창 보다보니 SQL을 점점 잊어가는 느낌이다ㅠㅠ이번 프로젝트에서..

TIL 2024.06.26

KPT 회고 - 구매 성향에 따른 분류와 그에 따른 마케팅 방안 제시

Keep 이번 프로젝트도 팀원들과의 끊임없는 소통으로 잘 마무리 될 수 있었던 프로젝트이다.초반에 한번 뒤엎는 작업이 있었으나 무사히 발표회까지 마무리 하였다. 머신러닝의 이해를 위해 튜터님의 노션강의본을 찾아보고, 열심히 구글링을 통해 프로젝트를 진행했다. 코드부터 분석, ppt 제작, script 까지 모두 참여했는데 지난번 프로젝트에 비해 조금더 다양하게 그리고 많이 참여를 했던 것 같아 다행이라는 생각을 했다. 지난번 프로젝트때 피드백을 받았었던 목적설정을 확실하게 잡고 갔고, 마지막 마케팅 방안 제시까지 끝냈기때문에 조금더 완성도 있는 프로젝트가 나왔다고 생각한다. Problem  전처리 진행부터 머신러닝 코드를 짜는 것 까지 이번에는 gpt의 도움을 많이 받았던 것 같아 아쉬움이 크다. 조금씩..

Project/KPT 회고 2024.06.25