* Tacademy 강의 내용 정리
1. 자연어 처리
자연 언어
: 일반 사회에서 자연히 발생하여 쓰이는 언어
자연어 처리(Natural Language Processing, NLP)
- 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술
- 자연어를 컴퓨터가 해독하고 그 의미를 이해하는 기술
자연어 처리 기술
1. 규칙/지식 기반 접근법 ( Symbolic approach )
- 규칙을 지정해두고, 지식을 이용해 그에 따라 자연어를 처리하는 것
2. 확률/통계 기반 접근법 ( Staticstical approach )
- 예 : TF-IDE -> 핵심 : 필요없는 키워드 말고, 의미 있는 키워드를 얻자
- TF : 단어가 문서에 등장한 개수 -> TF가 높을수록 중요한 단어
- DF : 해당 단어가 등장한 문서의 개수 -> DF가 높을수록 중요하지 않은 단어
자연어 처리의 단계
- 전처리
- 개형문자 제거
- 특수문자 제거
- 공백 제거
- 제목 제거 등 - Tokenizing
- 자연어를 어떤 단위로 살펴볼 것인가
- 어절, 형태소 tokenizing 등 - Lexical analysis
- 어휘, 형태소 분석
- 개체명 인식
- 상호 참조 - Syntac analysis
- 구문 분석 - Semantic analysis
- 의미 분석
2. 언어 모델
모델
: 어떤 상황이나 물체 등 연구 대상 주제를 도면이나 사진 등 화상을 사용하거나 수식이나 악보와 같은 기호를 사용하여 표현한 것.
모델의 특징
- 자연 법칙을 컴퓨터로 모사함으로써 시뮬레이션이 가능
언어 모델
- 자연어의 법칙을 컴퓨터로 모사한 모델
- 주어진 단어들로부터 그 다음에 등장한 단어의 확률을 예측하는 방식으로 학습
- 다음의 등장할 단어를 잘 예측하는 모델은 그 언어의 특성이 잘 반영된 모델이자,
문맥을 잘 계산하는 좋은 언어 모델
'학교 > 졸프' 카테고리의 다른 글
TF-IDF (0) | 2021.05.05 |
---|---|
Faiss (0) | 2021.05.01 |
KcBERT 실습해보기(2) (0) | 2021.04.21 |
KcBERT 실습해보기(1) (0) | 2021.04.16 |
BERT (0) | 2021.04.11 |