학교/졸프

TF-IDF

daykim 2021. 5. 5. 16:35

TF-IDF

특정 문서 내에 특정한 단어가 얼마나 자주 등장하는지를 의미하는 단어 빈도(TF)

전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)를 통해서

"다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어"를 찾아서

문서 내 단어의 가중치를 계산하는 방법

- 컴퓨터가 이해하기 쉬운 형식의 속성을 추출하는 것

 

용도

  • 문서의 핵심어 추출
  • 문서들 사이의 유사도 계산
  • 검색 결과의 중요도를 정하는 작업 등

TF(d, t)

  • Term Frequency
  • 특정 문서 d 에서의 특정단어 t의 등장 횟수

DF(t)

  • Document Frequency
  • 특정 단어 t가 등장한 문서의 수

IDF(d, t)

  • DF(t)에 반비례하는 수 (일종의 역수 변환)

TF-IDF(d, t) = TF(d, t) * IDF(d, t)

 

Counter Vectorizer

특징 추출 기법 중에 한 가지

단어의 빈도수를 기반으로 많이 나오는 중요한 단어들을 잡아주는 방법

  • 단점
    - 조사, 관사처럼 의미는 없지만 문장에 많이 등장하는 단어들도 높게 쳐주는 한계가 있다
    -> 이런 단어들에는 패널티를 줘서 적절하게 중요한 단어만을 잡아내는 것이 TF-IDF 기법

 

장점

  • 직관적인 해석이 가능

단점

  • 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생
    - 높은 차원을 가짐
    - 매우 sparse한 형태의 데이터
    - 희소행렬(sparse matrix) : 행렬의 값이 대부분 0인 경우를 가리키는 표현

 

참고 URL

'학교 > 졸프' 카테고리의 다른 글

카카오 i 오픈빌더 이용하기  (0) 2021.05.20
Word2Vec  (0) 2021.05.05
Faiss  (0) 2021.05.01
KcBERT 실습해보기(2)  (0) 2021.04.21
KcBERT 실습해보기(1)  (0) 2021.04.16