학교/졸프 15

Faiss

Faiss Fasebook AI Research가 개발한 대용량 데이터의 효율적인 유사성 검색 및 클러스터링을 위한 라이브러리 벡터화된 데이터를 인덱싱하고 벡터화된 검색어와 비교하여 가장 유사한 N 개의 인덱스 값을 반환할 때 사용한다 임베딩해둔 데이터들 중 원하는 값을 빨리 찾기 위해 이용 환경구성 아나콘다 프롬프트 가상환경에서 설치했다. # CPU version only conda install faiss-cpu -c pytorch Test code import faiss import numpy as np # indexing tagVec = outputs[1].detach().numpy() index = faiss.IndexFlatL2(tagVec.shape[1]) index.add(tagVec) p..

학교/졸프 2021.05.01

KcBERT 실습해보기(2)

KcBERT란? KcBERT는 네이버 뉴스에서 댓글과 대댓글을 수집해, 토크나이저와 BERT 모델을 처음부터 학습한 Pretrained BERT 모델 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있다. (별도의 파일 다운로드가 필요하지 않습니다.) 위의 학습을 바탕으로 의미를 함축해, 데이터와 검색어를 vector로 표현해주는 모델 Embedding 자연어처리 분야에서 임베딩은 사람이 쓰는 자연어를 기계가 이해할 수 있는 형태인 vector로 바꾼 결과 혹은 그 일련의 과정 전체를 의미한다. 임베딩의 역할 단어/문장 간 관련도 계산 의미적/문법적 정보 함축 전이 학습 - 품질 좋은 임베딩은 모형의 성능과 모형의 수렴속도가 빨라지는데 이런 품질 좋은 임베딩을 다..

학교/졸프 2021.04.21

KcBERT 실습해보기(1)

개발환경 구축 1. 아나콘다 설치 - 아나콘다 사용시 데이터 과학 작업에 자주 사용하는 패키지를 간단하게 설치할 수 있음 https://www.anaconda.com/distribution/#windows Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 2. VSCode에 연결하기 - VSCode에서 import torch에서 ModuleNotFoundError: No module named 'torch' 라는 메세지가 뜨는 경우..

학교/졸프 2021.04.16

자연어처리 및 언어모델

* Tacademy 강의 내용 정리 1. 자연어 처리 자연 언어 : 일반 사회에서 자연히 발생하여 쓰이는 언어 자연어 처리(Natural Language Processing, NLP) - 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술 - 자연어를 컴퓨터가 해독하고 그 의미를 이해하는 기술 자연어 처리 기술 1. 규칙/지식 기반 접근법 ( Symbolic approach ) - 규칙을 지정해두고, 지식을 이용해 그에 따라 자연어를 처리하는 것 2. 확률/통계 기반 접근법 ( Staticstical approach ) - 예 : TF-IDE -> 핵심 : 필요없는 키워드 말고, 의미 있는 키워드를 얻자 - TF : 단어가 문서에 등장한 개수 -> TF가 높을수록 중요한 단어 -..

학교/졸프 2021.04.12

BERT

BERT(Bi-directional Encoder Representations from Transformers) - 구글에서 개발한 NLP 사전 훈련 기술, Language Model 잘 만들어진 BERT 언어모델 위에 1개의 Classification layer만 부착하여 다양한 NLP task를 수행 Contextual Embedding 방법 : 단어마다 벡터가 고정되어있지 않고 문장마다 단어의 vector가 달라지는 임베딩 방법을 뜻한다. BERT 모델의 구조도 Sentence 2개를 input으로 받아 토큰 단위로 임베딩 Transformer layer를 거친다. 최종적으로 자신을 표현하는 구조 WordPiece tokenizing Byte Pair Encoding(BPE) 알고리즘 이용 빈도수에..

학교/졸프 2021.04.11