TIL

2024-05-21

여연찌 2024. 5. 21. 21:24
  • Today

1. SQL 코드카타(95번)

2. 파이썬 코드카타(40번)

3. 프로젝트

 


  • Today I Learned

 

Python

 

def solution(n):
    tmp = ''
    while n:
        tmp += str(n % 3)
        n = n // 3

    answer = int(tmp, 3)
    return answer

 

3진법에 대해서 먼저 공부해야할 듯 하다!

 

 


프로젝트

 

 

전처리를 끝낸 데이터들을 통합하여 새로운 csv 파일로 생성한 후 가설설정과 간단한 시각화를 했다.

내가 설정했던 가설은 이렇다.

  • 연간소득이 높을 수록 대출 건수가 적다(현금유동성이 높아서?)
  • 대출건수가 많을 수록 보유한 카드 갯수가 많다(현금유동성이 부족하기 때문에?)
  • 대출종류별 갯수를 확인하고, 특정 대출이 많으면 해당 대출상품추가

 

팀원분들과 소통했던 결과 

대부분 대출 관련하여 가설을 설정하였고, 

해당 데이터를 대략적으로 분석해보니 대출에 관련한 정보들이었기 때문에

 

대출 상담팀을 위한 은행 서비스 현황 보고서를 작성해보기로 결정하였다.

 

전체적인 데이터를 분석해보았을 때

대부분의 고객들이 연체 이력이 있고, 분기 내 미지불채무 금액에 대한 이력의 변화가 없는 것으로 확인되었다.

해당 데이터는 채무관련한 집중 관리 대상 고객에 대한 정보들인 것으로 파악되며,

이로 인해 해당 고객에 대한 대시보드 작성이 가능할 것으로 예상된다.

 

 

* 대출 종류 구분

 

 

이후 진행해야될 일정

더보기

1. PPT 작성

2. 필요한 데이터 시각화

 

* 시각화 예정

  1. EDA( 고객수, 연령별, 직업별, 연간소득별, 대출 총 갯수(상관계수가 제일 컸음) 현황)
  2. 신용도(box plot)
  3. 미지불 채무 시각화(연령별 채무 상태 시각화)

 

 

* 성훈 튜터님 멘토링

<분석방향>

이 데이터들이 어떻게 구성되어있고, 어떤 분포나 특성을 가지고 있는지 확인

컬럼에는 크게 2가지로 나뉜다.

연속형: 집계를 할 수 있는 변수들이 존재

범주형: 분류를 할 수 있는 기준들이 존재

 

1. (가설 설정)어떤 포인트를 잡을 것인가?

예시) 대출을 많이 사용하는지, 채무로 인하여 문제가 있진 않은지, 신용도에 따라 대출상품을 팔수 있는 기회가 있는지 등

 

2. 가설을 기반으로 특정 분야 확인해보기

- 가설 중 사용가능한 가설을 설정

 

3. 설정한 가설로 데이터 분석

예시) 소득순위별에 따른 대출건수 확인 등

 

4. 시각화

- 3번의 전략에 도움이 될만한 시각화, 설득시킬만한 시각화

 

 

가설을 세우기 전 확인해볼 수 있는 내용

1. describe() 를 사용하여 평균 갯수, 최대값 등 확인

2. 대략적인 EDA

예시) 평균 대출 건수, 보유 카드 갯수, 대출종류 등

 

 

* 소현 튜터님 멘토링

1. 기본적인 EDA 는 user_count

예시) 소득분위별, 연령별, 유저수

2. 나이별 연봉평균, 직업, 분포

3. 대출 건수 별 유저수(히스토그램 추천)

4. pivot table 을 사용한 user_count

5. distinct count == nunique()

 

 


  • Next

1. 프로젝트 ppt 작성

 

'TIL' 카테고리의 다른 글

2024-05-23  (0) 2024.05.23
2024-05-22  (0) 2024.05.22
2024-05-20  (0) 2024.05.20
2024-05-17  (0) 2024.05.17
2024-05-16  (0) 2024.05.16