본문 바로가기
반응형

파이썬5

[파이썬] 데이터프레임 합치기 (merge, join, concat) 판다스의 데이터프레임을 다루다 보면 데이터프레임들끼리 합쳐서 하나의 데이터프레임을 만들 때가 많다. 이 때 데이터프레임의 컬럼, 로우가 다른 경우에는 어떻게 합쳐야 할까? 판다스는 이렇게 데이터프레임 합치기와 관련하여 3가지 함수를 제공하는 데 그것이 merge, join, concat 이다. 1. merge 메서드 (함수) pd.merge(df1, df2, on='key', how='outer') - on = '컬럼명' : 조인하려는 컬럼 이름 - how = 'outer' : 외부조인은 합집합인 결과를 반환 - how = 'innter' : 양쪽 테이블 모두에 존재하는 키 조합을 사용 2. join 메서드 (함수) df1.join(df2, on='key') - on = '컬럼명' : 조인하려는 컬럼 이.. 2021. 8. 5.
[파이썬] 데이터 중복제거, 매핑, 치환 하기 데이터 분석에 중복된 값이 존재할 수 있다. 이러한 경우 중복된 데이터를 핸들링할 수 있는 방법이 필요하다. 1. 데이터 중복 제거하기 데이터프레임.drop_duplicates([열이름1],[열이름2],[열이름3]...) data = pd.DataFrame({'k1':['banana','tomato']*4, 'k2':[1,1,2,3,3,5,5,5]}) # 임의의 데이터 프레임을 생성 data.drop_duplicates() # 중복 데이터가 있는 로우 삭제 7번 데이터가 k1 : tomato, k2 ; 5 인 경우가 있어 삭제되었다. data['v1'] = range(8) # v1 열 추가 data.drop_duplicates(['k1']) # k1 컬럼을 기반으로 중복데이터 삭제 data.drop_du.. 2021. 8. 2.
[파이썬] 데이터 결측치 처리 (fillna, dropna 메서드) 데이터 분석과정에서 결측치는 항상 존재한다. 결측치는 처리하는 방법은 결측치 자리에 특정값을 채우거나, 또는 결측치를 제거하는 것이다. 결측치를 그냥 제거해도 되지 않나라고 생각할 수도 있지만 실제로 결측치가 의미있는 데이터인 경우 데이터 전처리 과정에서 성격이 왜곡될 수 있다. 1. dropna 메서드 데이터프레임.dropna(how='all') - 디폴트값 : NA가 하나라도 있는 로우는 삭제 - how = 'all' 옵션 : 모든 컬럼이 NA인 로우만 제외시킴) import numpy as np import pandas as pd data = pd.DataFrame([[1., 6.5, 3.],[1.,NA,NA],[NA,NA,NA],[NA,6.5,3.]]) data NA 결측치를 채운 임의의 데이터 .. 2021. 8. 1.
[데이터 분석] 로지스틱 회귀분석 (Logistic Regression) 로지스틱 회귀분석 : 모 아니면 도 로지스틱 회귀는 선형 회귀 방식을 '분류'에 적용한 알고리즘이다. 쉽게 말하면 선형회귀 분석에서 Target 으로 잡는 데이터가 모 아니면 도라고 생각하면 이해하기 편하다. 예를 들면 종양 데이터를 근거로 종양인지(Y=1) 아닌지(N=0)를 판단하는 문제에 적용할 수 있다. 로지스틱 회귀는 시그모이드 함수를 기반으로 하는데 시그모이드 함수는 X 값이 아무리 커지거나 작아져도 1이나 0 값 만을 반환하는 함수이다. 로지스틱 회귀는 이처럼 선형 회귀 방식을 기반으로 하되 시그모이드 함수를 이용하여 '분류'를 수행하는 회귀이다. 지도학습의 대장인 '회귀'와 '분류'가 합쳐진 로직이다. 하지만 잊지 말자 로지스틱 회귀에서 '회귀'는 도구이고 '분류'가 목적이라는 점을! [St.. 2021. 7. 19.
[데이터 분석] Ridge 회귀 분석 일반적으로 선형회귀 분석은 오차가 최소가 되는 최소자승법을 사용하여 회귀분석을 시행한다. 다만 이렇게 오차를 최소화하는데만 초점을 맞추면 훈련 데이터에 과최적화되어 오히려 실제 데이터를 예측하는 예측력이 굉장히 낮아지게 된다.(연애를 책으로만 배운 경우라고나 할까?^^) 따라서 이렇게 오차항을 최소화 하는 함수에 alpha 값으로 패널티를 부여하여 회귀 계수 값의 크기를 감소시켜 과최적화 문제를 개선하는 방식을 규제(Regularization)이라고 부른다. Ridge 회귀 규제는 2 가지로 분류되는데 [패널티 = alpha * W] 계산시 W의 제곱에 대해 패널티를 부여하는 방식을 L2 규제라고 하며, W의 절대값에 패널티를 부여하는 방식을 L1 규제라고 한다. Ridge 릿지 회귀는 L2 규제 계수를.. 2021. 7. 14.
반응형