TIL

2024-05-17

여연찌 2024. 5. 17. 21:03
  • Today

프로젝트 시작


  • Today I Learned

 

프로젝트

 

선택한 주제 : 

은행 고객데이터를 이용한 서비스 분석

 

해당 데이터의 결측값과 이상치가 많아 오늘은 전처리 위주로 진행해보기로 결정

 

bank.isna().sum()     # 결측치 확인

 

 

이상치 확인

 

해당 컬럼의 1 고객 당 4개의 정보가 확실히 들어있는지 확인

bank.groupby('Customer_ID')['Month'].nunique() 
# 얘가 다 4인지 확인해야함

 

 

>> 이상치 가 있었던 Age 와 Annual_Income 컬럼의 언더바(_) 를 제거

# Annual_Income 언더바 제거
result= []
for i in bank['Annual_Income']:
  if "_" in i:
    i = i.replace("_","")
  result.append(float(i))

bank['Annual_Income'] = result
bank['Annual_Income']


# age 언더바 제거
result=[]
for i in bank['Age']:
  if "_" in i:
    i = i.replace("_","")
  result.append(float(i))

bank['Age'] = result
bank['Age']

 

-> Age 컬럼의 경우 언더바 외에 -500 또는 100 초과의 값들도 있기 때문에

해당 데이터 값들은 NaN 으로 바꾸어주고

그 후 최빈값으로 변경하여주려고 한다.

 

 


  • Next

1. 프로젝트 컬럼 전처리

'TIL' 카테고리의 다른 글

2024-05-21  (0) 2024.05.21
2024-05-20  (0) 2024.05.20
2024-05-16  (0) 2024.05.16
2024-05-14  (0) 2024.05.14
2024-05-13  (0) 2024.05.13