[파이썬] 데이터 중복제거, 매핑, 치환 하기
데이터 분석에 중복된 값이 존재할 수 있다. 이러한 경우 중복된 데이터를 핸들링할 수 있는 방법이 필요하다. 1. 데이터 중복 제거하기 데이터프레임.drop_duplicates([열이름1],[열이름2],[열이름3]...) data = pd.DataFrame({'k1':['banana','tomato']*4, 'k2':[1,1,2,3,3,5,5,5]}) # 임의의 데이터 프레임을 생성 data.drop_duplicates() # 중복 데이터가 있는 로우 삭제 7번 데이터가 k1 : tomato, k2 ; 5 인 경우가 있어 삭제되었다. data['v1'] = range(8) # v1 열 추가 data.drop_duplicates(['k1']) # k1 컬럼을 기반으로 중복데이터 삭제 data.drop_du..
2021. 8. 2.
[파이썬] 데이터 결측치 처리 (fillna, dropna 메서드)
데이터 분석과정에서 결측치는 항상 존재한다. 결측치는 처리하는 방법은 결측치 자리에 특정값을 채우거나, 또는 결측치를 제거하는 것이다. 결측치를 그냥 제거해도 되지 않나라고 생각할 수도 있지만 실제로 결측치가 의미있는 데이터인 경우 데이터 전처리 과정에서 성격이 왜곡될 수 있다. 1. dropna 메서드 데이터프레임.dropna(how='all') - 디폴트값 : NA가 하나라도 있는 로우는 삭제 - how = 'all' 옵션 : 모든 컬럼이 NA인 로우만 제외시킴) import numpy as np import pandas as pd data = pd.DataFrame([[1., 6.5, 3.],[1.,NA,NA],[NA,NA,NA],[NA,6.5,3.]]) data NA 결측치를 채운 임의의 데이터 ..
2021. 8. 1.