학교/졸프

자연어처리 및 언어모델

daykim 2021. 4. 12. 13:50

* Tacademy 강의 내용 정리

1. 자연어 처리

자연 언어

: 일반 사회에서 자연히 발생하여 쓰이는 언어

자연어 처리(Natural Language Processing, NLP)

- 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술

- 자연어를 컴퓨터가 해독하고 그 의미를 이해하는 기술

 

자연어 처리 기술

1. 규칙/지식 기반 접근법 ( Symbolic approach )

- 규칙을 지정해두고, 지식을 이용해 그에 따라 자연어를 처리하는 것

 

2. 확률/통계 기반 접근법 ( Staticstical approach )

- 예 : TF-IDE -> 핵심 : 필요없는 키워드 말고, 의미 있는 키워드를 얻자

- TF : 단어가 문서에 등장한 개수 -> TF가 높을수록 중요한 단어

- DF : 해당 단어가 등장한 문서의 개수 -> DF가 높을수록 중요하지 않은 단어

 

자연어 처리의 단계

  • 전처리
    - 개형문자 제거
    - 특수문자 제거
    - 공백 제거
    - 제목 제거 등
  • Tokenizing
    - 자연어를 어떤 단위로 살펴볼 것인가
    - 어절, 형태소 tokenizing 등
  • Lexical analysis
    - 어휘, 형태소 분석
    - 개체명 인식
    - 상호 참조
  • Syntac analysis
    - 구문 분석
  • Semantic analysis
    - 의미 분석

2. 언어 모델

모델

: 어떤 상황이나 물체 등 연구 대상 주제를 도면이나 사진 등 화상을 사용하거나 수식이나 악보와 같은 기호를 사용하여 표현한 것.

 

모델의 특징

  • 자연 법칙을 컴퓨터로 모사함으로써 시뮬레이션이 가능

언어 모델

  • 자연어의 법칙을 컴퓨터로 모사한 모델
  • 주어진 단어들로부터 그 다음에 등장한 단어의 확률을 예측하는 방식으로 학습
  • 다음의 등장할 단어를 잘 예측하는 모델은 그 언어의 특성이 잘 반영된 모델이자,
    문맥을 잘 계산하는 좋은 언어 모델

'학교 > 졸프' 카테고리의 다른 글

TF-IDF  (0) 2021.05.05
Faiss  (0) 2021.05.01
KcBERT 실습해보기(2)  (0) 2021.04.21
KcBERT 실습해보기(1)  (0) 2021.04.16
BERT  (0) 2021.04.11