'학교' 카테고리의 글 목록 (7 Page)

selenium 네이버 뉴스 크롤링

구현환경 : python, vscode 클롤링 할 사이트 : https://news.naver.com/main/history/mainnews/list.nhn 1. selenium 설치 terminal에 입력 pip install selenium 2. 사용할 브라우저 드라이버 다운로드 우측 상단의 다음과 같은 버튼 클릭 > 도움말 > 크롬 정보 에서 자신의 크롬 버전 확인해 맞는 버전 설치 chrome : https://sites.google.com/a/chromium.org/chromedriver/downloads Firefox : https://github.com/mozilla/geckodriver/releases Edge : https://developer.microsoft.com/en-us/mic..

학교/졸프 2021.06.29

AWS EC2에서 Flask 구동하기

1. AWS에서 서버 생성하기 다음 링크 따라하기 https://wldwlddl59.tistory.com/13 졸업프로젝트에서는 free tier로 생성했다. 2. puTTy https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html 3. puTTygen 이용해 프라이빗 키 변환 puTTy를 설치할 때 puTTygen도 설치 되어있을 것이다. 실행 시키기 Load 클릭 EC2 생성하며 다운받은 key 파일(.ppk || .pem) 선택 .ppk가 안 보인다면 아래와 같이 변경 암호없이 키 저장에 대한 경고가 나올시 '예' 클릭 키 페어에 사용한 이름과 동일한 파일 이름으로 저장을 선택한다. 4. puTTy 실행하기 HostName에 IP address..

학교/졸프 2021.06.28

Nginx와 Flask를 활용해서 서빙하기

Flask WSGI 웹 애플리케이션 프레임워크 WSGI 파이썬으로 웹서버와 웹 애플리케이션 개발을 위해 만들어진, 파이썬 표준 Gateway Interface WSGI 인터페이스에 맞춰서 제작된 프레임워크가 uWSGI입니다. Nginx apache와 같은 웹서버이고 비동기 이벤트 기반으로 만들어짐 FLASK(웹 애플리케이션)와 Nginx(웹서버)를 uWSGI(WSGI 인터페이스)를 이용해 서로 연결시켜 서비스 할 수 있다. 1. FLASK 서버 설치하기 Anaconda Navigator 실행 만들어둔 가상환경 클릭 installed -> All로 변경 Flask 검색해서 설치하기 2. Flask 동작 확인하기 아래와 같은 내용의 파일을 하나 만들기 from flask import Flask app = F..

학교/졸프 2021.06.25

AWS 서버 세팅하기

1. EC2(클라우드상의 가상 서버) 들어가기 나만의 서버 구축시 사용 인스턴스 : 하나의 서버 AWS Cost Explorer에서 비용 청구 주기적으로 확인 2. '인스턴스 시작' 클릭 3. AMI 선택 Ubuntu를 가장 많이 사용하는 편이라고 해서 선택 4. 사용할 인스턴스 유형 선택 추천받은 c5.xlarge 선택 4vCPU, 8GiB 우분투 서버는 월 $140.55의 비용이 발생 윈도우 서버는 월 $275.24의 비용이 발생 Window 서버가 좀 더 비싼데, 윈도우 라이선스 비용이 포함되기 때문이다. [다음: 인스턴스 세부 정보 구성] 클릭 5. 기본값으로 모두 세팅되어있으며 그대로 진행한다. [다음: 스토리지 추가] 클릭해 다음으로 진행 6. [다음: 태그추가] 클릭 인스턴스 생성 후에도 변..

학교/졸프 2021.06.15

카카오 i 오픈빌더 이용하기

1. 구름IDE 회원가입 후 대시보드 들어가기 2. 컨테이너 생성 Flask 파일로 생성함 Github와 연동해서 파일 가져왔다. # pytorch 설치 pip3 install torch==1.8.1+cpu torchvision==0.9.1+cpu torchaudio===0.8.1 -f https://download.pytorch.org/whl/torch_stable.html # transformer 설치 pip install transformers[torch] # Flask 설치 pip install flask pip install --upgrade pip # faiss 설치 pip install faiss-cpu # python 설치 python -m pip install --upgrade pip 3..

학교/졸프 2021.05.20

Word2Vec

One-Hot Encoding 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식 이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 한다. TF-IDF의 문제점을 해결하기 위한 방법 TF-IDF 문제점 하나의 단어를 표현하는데 큰 벡터가 필요하다. - One-Hot Encoding에서는 하나의 columns이 Vocabulary에 등록된 단어를 의미한다. - 만약 사전에 3만개의 단어가 들어있다면, 하나의 단어를 표현하기 위해선 3만 차원이 필요 - 큰 차원의 벡터는 메모리 등의 문제 때문에 계산 복잡성이 크게 늘어난다. 단어 사이에 관련성을 파악할 수 없다. 벡터화하는 방법 카운트 기반의 벡..

학교/졸프 2021.05.05

TF-IDF

TF-IDF 특정 문서 내에 특정한 단어가 얼마나 자주 등장하는지를 의미하는 단어 빈도(TF)와 전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)를 통해서 "다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어"를 찾아서 문서 내 단어의 가중치를 계산하는 방법 - 컴퓨터가 이해하기 쉬운 형식의 속성을 추출하는 것 용도 문서의 핵심어 추출 문서들 사이의 유사도 계산 검색 결과의 중요도를 정하는 작업 등 TF(d, t) Term Frequency 특정 문서 d 에서의 특정단어 t의 등장 횟수 DF(t) Document Frequency 특정 단어 t가 등장한 문서의 수 IDF(d, t) DF(t)에 반비례하는 수 (일종의 역수 변환) TF-IDF(d, t) = T..

학교/졸프 2021.05.05

Faiss

Faiss Fasebook AI Research가 개발한 대용량 데이터의 효율적인 유사성 검색 및 클러스터링을 위한 라이브러리 벡터화된 데이터를 인덱싱하고 벡터화된 검색어와 비교하여 가장 유사한 N 개의 인덱스 값을 반환할 때 사용한다 임베딩해둔 데이터들 중 원하는 값을 빨리 찾기 위해 이용 환경구성 아나콘다 프롬프트 가상환경에서 설치했다. # CPU version only conda install faiss-cpu -c pytorch Test code import faiss import numpy as np # indexing tagVec = outputs[1].detach().numpy() index = faiss.IndexFlatL2(tagVec.shape[1]) index.add(tagVec) p..

학교/졸프 2021.05.01

KcBERT 실습해보기(2)

KcBERT란? KcBERT는 네이버 뉴스에서 댓글과 대댓글을 수집해, 토크나이저와 BERT 모델을 처음부터 학습한 Pretrained BERT 모델 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있다. (별도의 파일 다운로드가 필요하지 않습니다.) 위의 학습을 바탕으로 의미를 함축해, 데이터와 검색어를 vector로 표현해주는 모델 Embedding 자연어처리 분야에서 임베딩은 사람이 쓰는 자연어를 기계가 이해할 수 있는 형태인 vector로 바꾼 결과 혹은 그 일련의 과정 전체를 의미한다. 임베딩의 역할 단어/문장 간 관련도 계산 의미적/문법적 정보 함축 전이 학습 - 품질 좋은 임베딩은 모형의 성능과 모형의 수렴속도가 빨라지는데 이런 품질 좋은 임베딩을 다..

학교/졸프 2021.04.21

KcBERT 실습해보기(1)

개발환경 구축 1. 아나콘다 설치 - 아나콘다 사용시 데이터 과학 작업에 자주 사용하는 패키지를 간단하게 설치할 수 있음 https://www.anaconda.com/distribution/#windows Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 2. VSCode에 연결하기 - VSCode에서 import torch에서 ModuleNotFoundError: No module named 'torch' 라는 메세지가 뜨는 경우..

학교/졸프 2021.04.16

JJING_LOG

학교 72

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31