문서의 선택한 두 판 사이의 차이를 보여줍니다.
다음 판 | 이전 판 | ||
wiki:miscellaneous:tf-idf [2020/06/24 23:01] emblim98 만듦 |
wiki:miscellaneous:tf-idf [2023/01/13 18:44] (현재) |
||
---|---|---|---|
줄 4: | 줄 4: | ||
* author | * author | ||
* email : shlim@repia.com | * email : shlim@repia.com | ||
- | * lastupdate | + | * lastupdate |
</ | </ | ||
<WRAP clear></ | <WRAP clear></ | ||
+ | |||
+ | ===== 의미 ===== | ||
+ | 여러 문서로 이루어진 무서군에서 어떤 단어가 특정 문서에서 얼마나 중요한지를 나타내는 통계적 수치 | ||
===== 용어 ===== | ===== 용어 ===== | ||
- | TF-IDF | + | ==== TF ( Term Frequency, 단어 빈도 ) ==== |
+ | * 특정 단어가 문서 내에 얼마나 자주 등장하는지를 나타냄 | ||
+ | * 각 문서마다 모든 단어의 빈도수를 계산 | ||
+ | * TF가 높다는 것은 많이 사용되는 단어라는 의미 | ||
+ | |||
+ | ==== DF ( Docuemnt Frequency, 문서 빈도 ) ==== | ||
+ | * 특정 단어가 문서군(文書群)에서 얼마나 자주 등장하는지를 나타냄 | ||
+ | * 문서군에서 각 단어가 등장한 문서의 수를 계산 | ||
+ | * 단어가 등장하는(포함된) 문서 수 | ||
+ | |||
+ | ==== IDF ( Inverse Document Frequency, 역문서 빈도 ) ==== | ||
+ | * 각 단어의 IDF는 log ( 전체 문서수 / 단어의 DF )로 계산 | ||
+ | |||
+ | ==== TD - IDF ( Term Frequency - Inverse Document Frequency 텀 프리퀀시 - 인버스 다큐먼트 프리퀀시, | ||
+ | * 특정 단어의 TF와 IDF의 역수갑(IDF)를 곱한 값 | ||
+ | * 결과가 가장 높은 각 문서의 단어들이 유의미하다고 봄 | ||
===== 의미 ===== | ===== 의미 ===== |