반응형 TFIDF모듈1 개인화 추천 알고리즘 5 : TD-IDF 모델로 유사도 분석하기 TD-IDF 를 활용한 유사도 분석 지난 유사도 분석에서는 문서의 각 단어를 벡터화하여 문서 간의 유사도를 구해보았다. TF-IDF 는 이전 보다 더 정교한 모델로, TF(Term Frequency)는 단어빈도를 의미하며 전체 문서에서 특정단어가 얼마나 자주 등장하는 지를 의미하며, IDF(Inverse Documnet Frequency)는 역문서 빈도를 의미하며 쉽게 말해 너무 자주 나오는 단어는 덜 중요하다고 간주하여 패널티를 주는 것이다. 다시 한 번 정리하면 TF-IDF는 "다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어를 찾아내 문서 내 "중요한" 단어의 가중치를 계산하는 방법"이다. TF(d,t) : 특정 문서 d에서 특정 단어 t의 등장 횟수 DF(t) : 특정 단어 t가.. 2022. 2. 8. 이전 1 다음 반응형