TIL

2024-04-15

여연찌 2024. 4. 15. 21:12
  • Today

1. 미니 프로젝트 팀 인사 및 주제 선정

2. CSV 파일 전처리


  • Today I Learned

DBeaver 에 CSV 파일 불러오기

> 제공 받은 CSV 파일이 형변화가 불가능했기 때문에

mysql 서버를 생성하여 작업해주었다!

 

정한 주제를 바탕으로 어떻게 데이터를 분석해줄지 상의 후 몇가지의 주제를 뽑아보았다.

  • 요일별 주문건수 or 소비액
  • segment 별 주문이 많은 상품
  • category 별 수익률과 수익률 top-5 sub-category
  • 주(states)별 주문자의 수, 총 구매액, 수익률
  • 월별 매출, 판매량, 이익
  • 데이터 분석 후 주제 선정
  • 예정) 원본파일에서 잘못 입력된 데이터들을 데이터 전처리 과정에 넣어줄지?

 

원본파일에서 컬럼과 맞지 않는 데이터들이 입력된 부분들이 몇몇개가 있었는데

엑셀파일에서 하나하나 수정을 해주었다.

SQL 로 수정할 수 있는 방법도 있을텐데 한번 찾아볼까 하다

 

위의 주제들에서 내가 짰던 쿼리들은 이렇다

select *
from us20200 

SELECT MONTH(OrderDate)     -- 월별
     , COUNT(*)             -- 주문수량
     , SUM(Sales*Quantity)  -- 총 매출액
FROM US20200
GROUP BY 1

SELECT Segment         -- 카테고리별
     , COUNT(*)        -- 주문수량
FROM us20200
GROUP BY 1

SELECT State
     , COUNT(*)
     , SUM(Sales*Quantity)
     , SUM(Profit)
FROM us20200
GROUP BY 1

select sum(Sales*Quantity*(1-Discount)) Total_Sales    -- discount 도 빼주어야 함
     , sum(Quantity) Total_Quantity                   -- 판매량
     , sum(Quantity*Profit) Total_Profit              -- 수익
from US2020

 

segment 별 주문이 많은 상품은 

어떤 것을 기준으로 해야하는지 정하지 못해서 아직 고민중이다..

 

총 매출액을 구하던중, 컬럼에 있는 discount 도 빼주어야 한다는 것을 깨달아서

조원님과 이야기 중 제일 마지막 쿼리를 쓰는 것으로 바꾸어야했다 .. 

 

 

분기별 매출액을 만들어 보고 싶어서

SELECT CASE WHEN MONTH(Order_Date) BETWEEN 1 AND 3 THEN '1분기'
            WHEN MONTH(Order_Date) BETWEEN 4 AND 6 THEN '2분기'
            WHEN MONTH(Order_Date) BETWEEN 7 AND 9 THEN '3분기'
            WHEN MONTH(Order_Date) BETWEEN 10 AND 12 THEN '4분기'
        END '분기'
     , SUM(sales*Quantity*(1-discount)) Total_sales
FROM us2020
GROUP BY 1

1분기<2분기<3분기<4분기


  • Next

1. 추출해낸 결과물을 가지고 어떤 분석을 해볼 수 있는지, 어떤 특이점이 있는지 예상해보기

2. SQL, 파이썬 코드카타

 

'TIL' 카테고리의 다른 글

2024-04-17  (0) 2024.04.17
2024-04-16  (1) 2024.04.16
2024-04-12  (0) 2024.04.12
2024-04-11  (0) 2024.04.11
2024-04-09  (0) 2024.04.09