본문 바로가기
반응형

데이터분석3

개인화 추천 알고리즘 2 : FP-Growth FP-Growth 왜 나왔을까? 이전 포스팅에서 Apriori 알고리즘에 대해 알아보았다. Apriori의 가장 큰 단점 아이템셋의 수가 증가할 수록 메모리를 많이 먹고 속도가 느려진 다는 것이다. FP Tree도 기본적으로 연관분석의 하나이며 Apriori와의 차이는 FP-Tree를 생성한 후에 최소 지지도 이상의 패턴만을 추출한다는 것이다. FP tree는 아이템 별로 노드를 추가하면서 트리를 생성하는 과정이다. FP Tree를 생성하는 방법은 아래 블로그에 잘 설명되어 있다. (너무 유익한 내용 감사드립니다. ㅠ) https://process-mining.tistory.com/92 FP-Growth 사례 원핫 인코딩을 통해 데이터프레임을 생성하는 절차는 Apriori 와 동일하다. import ml.. 2022. 2. 6.
개인화 추천 알고리즘 1 : Apriori 알고리즘 우리 안의 수많은 추천 시스템 추천 시스템은 사용자, 구매자에게 상품을 제안하는 방법론을 말한다. 이것은 쇼핑몰에서 어떤 상품을 추천할 것인지 음악 어플에서 어떤 음악을 추천할 것인지 뉴스피드에서 어떤 뉴스를 추천할 것인지 등 광범위하게 쓰이고 있다. 홈페이지나 어플 이용자들은 어느 상품에서 몇 분동안 머물렀는지, 어떤 상품을 클릭했는지, 실제로 구매로 이어졌는지에 대한 수많은 로그를 남기고 기업들은 이 로그들을 중요한 데이터 자원으로 추천 시스템에 활용한다. 쿠팡에서 내가 특정상품을 보면 그 패턴을 토대로 추천 상품 리스트를 뿌려주는 것을 쉽게 볼 수 있는데 이것이 바로 개인화 추천 알고리즘이다. 최근에 인테리어 때문에 식탁보를 구경한 적 있는데 이 로그 기록을 바탕으로 유사성이 높은 식탁보를 계속 뿌.. 2022. 2. 6.
파이썬으로 코스피 코스닥 상장기업 재무정보 크롤링하기 코스피 코스닥 상장기업 추정배당금 2022.01.18 - [투자/배당주투자] - 2022년 예상 배당금 (코스피, 코스닥 전체 종목) 표준화된 재무정보 구하기 최근에 dart_fss 모듈을 사용해서 금융감독원 DART 전자공시시스템의 OPEN API를 활용하여 크롤링하는 작업을 시도해보았다. 데이터로 활용하기 어려운 부분은 표준화가 되어 있지 않다는 점이다. (회사마다 특성이 다르니까 재무제표 항목도 약간씩 다르다.) 그래서 어떻게 하면 표준화된 재무정보를 얻을 수 있는지 찾아보다가 어떤 능력자 분께서 FNguide를 아주 간단한 코드로 크롤링하시는 것을 참고할 수 있었다. https://wikidocs.net/6660 2) 웹 페이지 크롤링 이번 절에서는 웹 페이지의 데이터 중에서 원하는 값만 가져오는.. 2022. 1. 23.
반응형