분류 전체보기 233

2024-04-22

Today 1. 새로운 주차 할 일 정리 2. SQL, 파이썬 코드카타 3. SQL 보충 세션 개인과제 4. ADsP (의사결정나무) Today I Learned SQL SQL 코드카타 복습 https://lyj-01.tistory.com/51 SQL 코드카타 번호 이름 풀이날짜 44 가격대 별 상품 개수 구하기 4/12 45 3월에 태어난 여성 회원 목록 4/5 46 대여 기록이 존재하는 자동차 리스트 구하기 4/5 48 즐겨찾기가 가장 많은 식당 정보 출력하기 4/12 55 lyj-01.tistory.com 59번 SELECT car_id, IF (car_id IN ( SELECT car_id FROM CAR_RENTAL_COMPANY_RENTAL_HISTORY WHERE start_date = '2..

TIL 2024.04.22

분류분석모형 - 의사결정나무

의사결정나무 - 질문을 계속 던지는 것 - 데이터에 들어있는 패턴을 변수의 조합으로 나타내는 것 - 예측 또는 분류의 모델을 나무 형태(tree 구조)로 만든다 : 전체 자료를 몇개의 소집단으로 분류하거나 예측을 수행하는 방법 : 상위노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다. : 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다. 의사결정나무의 활용 ① 세분화 ② 분류 ③ 예측 ④ 차원 축소 및 변수 선택 : 여러 독립변수들 중에서 종속변수에 큰 영향을 미치는 변수를 골라내는 경우 사용 ⑤ 교호작용 : 의사결정나무는 교호작용이 없는 것이 장점 : 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악 의사결정나무의 특징 장..

ADsP 내용 정리 2024.04.22

1주차[2024-04-15 ~ 19]

FACTS 본캠프가 시작되었다. 본캠프는 사전캠프와는 다르게 오전 9시부터 오후 9시까지, 총 12시간을 달려야 한다. 시작됨과 동시에 미니프로젝트가 시작되었기에 OT 후 새롭게 배정된 팀원분들과 만나 소통을 하고 팀명과 프로젝트 주제를 선정하였다. 팀운이 정말 좋았다. 함께 일주일을 보내게 된 팀원분들의 모두 대단하셨기 때문에 정말 많은 배움의 기회를 얻을 수 있었다. 심지어 두분은 데이터분석 관련한 업무를 하다 오신 경력자분들이었다! 프로젝트 주제를 선정하고, 그 뒤 코드를 짜고 어떤 방식으로 결론을 내릴지 오랜시간동안 회의를 진행하였고 정해진 기간안에 무사히 마무리하여 제출할 수 있었다. 4주간의 사전캠프 기간동안 배웠던 기술들로 내가 해볼 수 있었던 것은 분기별, 매출, 주문수량 등을 직접 코드를..

WIL 2024.04.19

2024-04-19

Today 1. 프로젝트 발표회 2. SQL, 알고리즘 코드카타 3. ADsP 강의(로지스틱회귀분석) Today I Learned SQL https://lyj-01.tistory.com/101 상품을 구매한 회원 비율 구하기 USER_INFO 테이블과 ONLINE_SALE 테이블에서 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원의 비율(=2021년에 가입한 회원 중 상품을 구매한 회원수 / 2021년에 가입한 전체 lyj-01.tistory.com 팀원분의 조언을 참고해서 복잡한 쿼리를 먼저 작성해보고자 했는데 WHERE user_id IN ( SELECT user_id FROM user_info WHERE joined LIKE '2021-%' ) WHERE 절에서 서브쿼..

TIL 2024.04.19

분류분석모형 - 로지스틱회귀분석

* 분류분석 : 반응변수(종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행 : 주어진 데이터를 미리 정의된 여러 클래스 중 하나로 분류하는 작업 : 반응변수가 범주형인 경우 > 새로운 자료에 대한 분류가 주목적 : 연속형인 경우 >그 값을 예측 하는 것이 주목적 로지스틱회귀분석 : 종속변수가 범주형 데이터인 경우에 사용 : 새로운 독립변수의 값이 주어질 때 종속변수 각 범주에 속할 확률이 얼마인지를 추정 * A,B,C 가 있고, A 75%, B 10%, C 15% 로 나오면 가장 확률이 높은 A 이다 라고 판단을 할 수 있도록 만드는 것 : 주로 이진 분류가 기본, 세개 이상의 집단을 분류하는 경우 다중 로지스틱 회귀분석이라고 한다 : 독립변수가 연속형, ..

ADsP 내용 정리 2024.04.19

[Mini Team Project] 상품 판매 데이터 분석에 따른 판매 상품 추천

프로젝트명: 상품 판매 데이터 분석에 따른 판매 상품 추천기간: 2024-04-15~19활용 데이터: https://www.kaggle.com/datasets/ammaraahmad/us-ecommerce-record-2020 United States E-Commerce records 202015+ columns on Order historywww.kaggle.com 주제를 정하기 전 해당 데이터가 가지고 있는 정보들을 조회해보고어떤 값을 빼내올 수 있는지를 분석해보았다.기본적으로 월별,주(state)별, 분기별, 카테고리별 등으로 구분하여매출액, 수익 등을 분석해보았는데그 중 가장 데이터를 많이 확보할 수 있는 'Technology'  카테고리를 선정하여 조금더 깊은 분석을 해보고자 하였다   1. 개요..

Project 2024.04.19

상품을 구매한 회원 비율 구하기

USER_INFO 테이블과 ONLINE_SALE 테이블에서 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원의 비율(=2021년에 가입한 회원 중 상품을 구매한 회원수 / 2021년에 가입한 전체 회원 수)을 년, 월 별로 출력하는 SQL문을 작성해주세요. 상품을 구매한 회원의 비율은 소수점 두번째자리에서 반올림하고, 전체 결과는 년을 기준으로 오름차순 정렬해주시고 년이 같다면 월을 기준으로 오름차순 정렬해주세요. SELECT YEAR(sales_date) , MONTH(sales_date) , COUNT(DISTINCT user_id) PUCHASED_USERS , ROUND(COUNT(DISTINCT user_id)/ (SELECT COUNT(user_id) FROM us..

SQL 코드카타 2024.04.19

2024-04-18

Today 1. 프로젝트 준비(발표자료준비) 2. SQL 코드카타 Today I Learned SQL 자동차 대여 기록 별 대여 금액 구하기 https://lyj-01.tistory.com/99 자동차 대여 기록 별 대여 금액 구하기 CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '트럭'인 자동차의 대여 기록에 대해서 대여 기록 별로 대여 금액(컬럼명: FEE) lyj-01.tistory.com FROM 절에서 쓴 구문을 WITH 구문으로 바꾸고 싶어 여러가지 방법을 써봤는데, 결과값이 다르게 나왔다 튜터님과 여러가지 방면으로 고민을 해보았는데, 아..

TIL 2024.04.18

자동차 대여 기록 별 대여 금액 구하기

CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '트럭'인 자동차의 대여 기록에 대해서 대여 기록 별로 대여 금액(컬럼명: FEE)을 구하여 대여 기록 ID와 대여 금액 리스트를 출력하는 SQL문을 작성해주세요. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 대여 기록 ID를 기준으로 내림차순 정렬해주세요. SELECT history_id , round(daily_fee * (datediff(end_date, start_date) + 1) * COALESCE(1 - (discount_rate * .01),1) ,0) AS fe..

SQL 코드카타 2024.04.18

2024-04-17

Today 1. 프로젝트 목차 설정 및 자료 수집 2. SQL 코드카타 Today I Learned SQL * 쿼리 문이 좀 복잡해질 수 있는 조건이 있는 경우 어떤식으로 풀이를 해야할지 궁금해서 팀원분께 여쭤봤다. 보통 메인쿼리에서 쓰기에는 복잡한 조건들의 경우 서브쿼리 또는 with 문을 사용하여 먼저 테이블을 만들어 놓고, 그 후에 간단한 조건들은 메인쿼리에서 뽑아내어 사용한다. 순서로 보자면 서브쿼리 or with 문 > 메인쿼리 이렇게 알고리즘을 생각하고 있으면 될 듯! 대여기간까지는 구했으나 대여금액을 구하지 못하여 다른 쿼리를 참고! FROM 절에서 사용을 했길래 WITH 문으로 바꾸어 짜보려고 했으나 실행결과가 다르게 나왔다 코드는 동일하게 작성이 된 것 같은데, 이유를 알 수 없어 튜터님..

TIL 2024.04.17