본문 바로가기
반응형

데이터 분석25

[데이터 분석] Ridge 회귀 분석 일반적으로 선형회귀 분석은 오차가 최소가 되는 최소자승법을 사용하여 회귀분석을 시행한다. 다만 이렇게 오차를 최소화하는데만 초점을 맞추면 훈련 데이터에 과최적화되어 오히려 실제 데이터를 예측하는 예측력이 굉장히 낮아지게 된다.(연애를 책으로만 배운 경우라고나 할까?^^) 따라서 이렇게 오차항을 최소화 하는 함수에 alpha 값으로 패널티를 부여하여 회귀 계수 값의 크기를 감소시켜 과최적화 문제를 개선하는 방식을 규제(Regularization)이라고 부른다. Ridge 회귀 규제는 2 가지로 분류되는데 [패널티 = alpha * W] 계산시 W의 제곱에 대해 패널티를 부여하는 방식을 L2 규제라고 하며, W의 절대값에 패널티를 부여하는 방식을 L1 규제라고 한다. Ridge 릿지 회귀는 L2 규제 계수를.. 2021. 7. 14.
[데이터 분석] 선형회귀분석 Linear Regression 머신러닝의 가장 기본이 되는 개념 중 하나인 선형회귀분석(Linear Regression)에 대하여 다루어 보겠다. 머신러닝이란 일반적으로 Target Data (결과값)이 주어지는 지도학습(Supervised Learning)과 Target Data가 주어지지 않는 비지도학습(Unsupervised Learning)으로 나누어진다. 그리고 이 지도학습의 가장 큰 줄기가 되는 개념이 바로 회귀(Regression)와 분류(Classification)다. 오늘은 그 회귀 중 가장 기본이 되는 선형회귀분석에 대하여 다루어 보겠다. 선형회귀분석은 최소자승법(OLS : Ordinary Least Squares)을 기초로 하며 예측값과 관측값의 차이, 즉 오차(RSS : Residual Sum of Squares.. 2021. 7. 13.
[데이터 분석] ARIMA 모델을 활용한 CMA 잔고 분석 CMA 잔고를 예측할 수 있을까? 최근에 데이터 분석에 관심이 많아져서 이런 저런 생각을 많이 하고 있다. 나는 부서에서 CMA 상품 관련 분석 업무를 맡고 있는데 'CMA 잔고를 통계 모델을 이용해서 예측해보면 어떨까?' 라는 호기심이 생겨서 간단한 통계모델을 돌려보기로 했다. 시계열 데이터의 경우는 과거 데이터의 영향을 많이 받으므로 AR(AutoRegession 자기상관), MA(Moving Average 이동평균) 관련된 모델을 많이 사용한다. 나는 그 중 AR과 MA를 결합한 ARIMA 모델을 선택했다. (ARIMA 모델에 대한 정보는 인터넷을 찾아보시면 훌륭한 설명들이 많이 나와있습니다!) (Step 1) 잔고 데이터 전처리 첨부파일로 첨부한 엑셀자료는 금융투자협회에서 제공하는 RP형, MF형.. 2021. 7. 10.
[데이터 분석] 2021년 5월 서울아파트 갭투자 리스트 2021년 1월 ~ 5월 데이터를 추출하여 서울 아파트 갭투자 리스트를 추출해보았다. '전체' 시트의 맨 마지막 열을 보면 갭투자예상금액을 확인할 수 있다. 이 데이터는 실거래 가격을 기준으로 [매매가격 평균 - 전세가격 평균]을 구한 것이다. 따라서 매매거래나 전세거래가 없는 아파트에 대해서는 데이터가 존재하지 않을 수도 있고, 일부 outlier 데이터들 때문에 데이터가 다소 왜곡되어 있을 수 있으므로 참고만 하시기를 바란다. 광진구 2억원 이하 갭투자 가능 아파트이다. 중랑구 2억원 이하 아파트 리스트이다. 다음은 노도강의 대장 노원구의 2억원 이하 아파트이다. 2021. 6. 9.
[데이터 분석] 2021년 서울 아파트 갭투자 리스트 (feat. 파이썬 공공 API) 최근 부동산 시장이 거래량이 많이 줄어서 불안한 상황이기는 하다. 그럼에도 아직도 갭투자할 물건들이 남아있는지 알아보기 위해서 부동산 실거래가 데이터를 돌려서 2021년 1월 ~ 3월까지 3개월 최신 데이터를 기준으로 물건들을 추려보았다. 너무나 감사하게도 부동산 실거래가 데이터를 손쉽게 할 수 있는 모듈이 있었다. 우선 결과물을 먼저 첨부해두겠다. 우선 PublicDataReader 라는 모듈을 불러온다. 공공 API를 이용하려면 공공 데이터포털(www.data.go.kr/)에서 서비스 인증키를 받아서 아래 코드에 "서비스인증키"라는 부분에 넣어줘야 한다. 우선 PublicDataReader 라는 모듈을 불러온다. 서울시 각 구별 코드의 리스트를 만들어 준다. import PublicDataReader.. 2021. 4. 23.
반응형