사용자 도구

사이트 도구


wiki:miscellaneous:tf-idf

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

다음 판
이전 판
wiki:miscellaneous:tf-idf [2020/06/24 23:01]
emblim98 만듦
wiki:miscellaneous:tf-idf [2023/01/13 18:44] (현재)
줄 4: 줄 4:
   * author      : 오션   * author      : 오션
   * email       : shlim@repia.com   * email       : shlim@repia.com
-  * lastupdate  : 2020-06-24+  * lastupdate  : 2020-11-09
 </WRAP> </WRAP>
 <WRAP clear></WRAP> <WRAP clear></WRAP>
 +
 +===== 의미 =====
 +여러 문서로 이루어진 무서군에서 어떤 단어가 특정 문서에서 얼마나 중요한지를 나타내는 통계적 수치
  
 ===== 용어 ===== ===== 용어 =====
-TF-IDF Term Frequency - Inverse Document Frequency (텀 프리퀀시 - 인버스 다큐먼트 프리퀀시), 단어 빈도와 역문서 빈도+==== TF ( Term Frequency, 단어 빈도 ) ==== 
 +   * 특정 단어가 문서 내에 얼마나 자주 등장하는지를 나타냄 
 +   * 각 문서마다 모든 단어의 빈도수를 계산 
 +   * TF가 높다는 것은 많이 사용되는 단어라는 의미 
 + 
 +==== DF ( Docuemnt Frequency, 문서 빈도 ) ==== 
 +   * 특정 단어가 문서군(文書群)에서 얼마나 자주 등장하는지를 나타냄 
 +   * 문서군에서 각 단어가 등장한 문서의 수를 계산 
 +   * 단어가 등장하는(포함된) 문서 수 
 + 
 +==== IDF ( Inverse Document Frequency, 역문서 빈도 ) ==== 
 +   * 각 단어의 IDF는 log ( 전체 문서수 / 단어의 DF )로 계산 
 + 
 +==== TD - IDF Term Frequency - Inverse Document Frequency 텀 프리퀀시 - 인버스 다큐먼트 프리퀀시, 단어 빈도와 역문서 빈도 )  
 +   * 특정 단어의 TF와 IDF의 역수갑(IDF)를 곱한 값 
 +   * 결과가 가장 높은 각 문서의 단어들이 유의미하다고 봄
  
 ===== 의미 ===== ===== 의미 =====
/volume1/web/dokuwiki/data/attic/wiki/miscellaneous/tf-idf.1593007280.txt.gz · 마지막으로 수정됨: 2022/03/10 19:52 (바깥 편집)