- Today
프로젝트 시작
- Today I Learned
프로젝트
선택한 주제 :
은행 고객데이터를 이용한 서비스 분석
해당 데이터의 결측값과 이상치가 많아 오늘은 전처리 위주로 진행해보기로 결정
bank.isna().sum() # 결측치 확인
이상치 확인
해당 컬럼의 1 고객 당 4개의 정보가 확실히 들어있는지 확인
bank.groupby('Customer_ID')['Month'].nunique()
# 얘가 다 4인지 확인해야함
>> 이상치 가 있었던 Age 와 Annual_Income 컬럼의 언더바(_) 를 제거
# Annual_Income 언더바 제거
result= []
for i in bank['Annual_Income']:
if "_" in i:
i = i.replace("_","")
result.append(float(i))
bank['Annual_Income'] = result
bank['Annual_Income']
# age 언더바 제거
result=[]
for i in bank['Age']:
if "_" in i:
i = i.replace("_","")
result.append(float(i))
bank['Age'] = result
bank['Age']
-> Age 컬럼의 경우 언더바 외에 -500 또는 100 초과의 값들도 있기 때문에
해당 데이터 값들은 NaN 으로 바꾸어주고
그 후 최빈값으로 변경하여주려고 한다.
- Next
1. 프로젝트 컬럼 전처리
'TIL' 카테고리의 다른 글
2024-05-21 (0) | 2024.05.21 |
---|---|
2024-05-20 (0) | 2024.05.20 |
2024-05-16 (0) | 2024.05.16 |
2024-05-14 (0) | 2024.05.14 |
2024-05-13 (0) | 2024.05.13 |