- Today
1. 미니 프로젝트 팀 인사 및 주제 선정
2. CSV 파일 전처리
- Today I Learned
DBeaver 에 CSV 파일 불러오기
> 제공 받은 CSV 파일이 형변화가 불가능했기 때문에
mysql 서버를 생성하여 작업해주었다!
정한 주제를 바탕으로 어떻게 데이터를 분석해줄지 상의 후 몇가지의 주제를 뽑아보았다.
- 요일별 주문건수 or 소비액
- segment 별 주문이 많은 상품
- category 별 수익률과 수익률 top-5 sub-category
- 주(states)별 주문자의 수, 총 구매액, 수익률
- 월별 매출, 판매량, 이익
- 데이터 분석 후 주제 선정
- 예정) 원본파일에서 잘못 입력된 데이터들을 데이터 전처리 과정에 넣어줄지?
원본파일에서 컬럼과 맞지 않는 데이터들이 입력된 부분들이 몇몇개가 있었는데
엑셀파일에서 하나하나 수정을 해주었다.
SQL 로 수정할 수 있는 방법도 있을텐데 한번 찾아볼까 하다
위의 주제들에서 내가 짰던 쿼리들은 이렇다
select *
from us20200
SELECT MONTH(OrderDate) -- 월별
, COUNT(*) -- 주문수량
, SUM(Sales*Quantity) -- 총 매출액
FROM US20200
GROUP BY 1
SELECT Segment -- 카테고리별
, COUNT(*) -- 주문수량
FROM us20200
GROUP BY 1
SELECT State
, COUNT(*)
, SUM(Sales*Quantity)
, SUM(Profit)
FROM us20200
GROUP BY 1
select sum(Sales*Quantity*(1-Discount)) Total_Sales -- discount 도 빼주어야 함
, sum(Quantity) Total_Quantity -- 판매량
, sum(Quantity*Profit) Total_Profit -- 수익
from US2020
segment 별 주문이 많은 상품은
어떤 것을 기준으로 해야하는지 정하지 못해서 아직 고민중이다..
총 매출액을 구하던중, 컬럼에 있는 discount 도 빼주어야 한다는 것을 깨달아서
조원님과 이야기 중 제일 마지막 쿼리를 쓰는 것으로 바꾸어야했다 ..
분기별 매출액을 만들어 보고 싶어서
SELECT CASE WHEN MONTH(Order_Date) BETWEEN 1 AND 3 THEN '1분기'
WHEN MONTH(Order_Date) BETWEEN 4 AND 6 THEN '2분기'
WHEN MONTH(Order_Date) BETWEEN 7 AND 9 THEN '3분기'
WHEN MONTH(Order_Date) BETWEEN 10 AND 12 THEN '4분기'
END '분기'
, SUM(sales*Quantity*(1-discount)) Total_sales
FROM us2020
GROUP BY 1
1분기<2분기<3분기<4분기
- Next
1. 추출해낸 결과물을 가지고 어떤 분석을 해볼 수 있는지, 어떤 특이점이 있는지 예상해보기
2. SQL, 파이썬 코드카타
'TIL' 카테고리의 다른 글
2024-04-17 (0) | 2024.04.17 |
---|---|
2024-04-16 (1) | 2024.04.16 |
2024-04-12 (0) | 2024.04.12 |
2024-04-11 (0) | 2024.04.11 |
2024-04-09 (0) | 2024.04.09 |