본문 바로가기

딥러닝

(18)
[딥러닝 NLP] 02. 텍스트 전처리 # 02-01 토큰화 1. 단어 토큰화(word tokenization) -토큰(token): 의미있는 단위 -토큰화(tokenization): 코퍼스(corpus)에서 토큰이라 불리는 단위로 나누는 작업 -단어 토큰화: 토큰의 기준을 단어로 하는 경우 2. 영어 토큰화 도구들 - NLTK의 word_tokenize: Don't를 Do와 n't로, Jone's를 Jone과 's로 분류 - NLTK의 wordPunctTokenizer: 구두점을 별도로 분류 (Don't를 Don와 '와 t로, Jone's를 Jone과 '와 s로 분류) - 케라스의 text_to_word_sequence: 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거하지만 don't나 jone's와 같..
[딥러닝 NLP] 01. 자연어처리 준비하기 # 들어가며 동아리 TAVE에서 NLP 논문 읽기 스터디에 참여하게 됐다. 논문 리딩을 하려면 딥러닝과 자연처리에 대한 제대로 된 공부가 필요할 것 같아 독학을 시작해본다. 챕터별로 내가 기억하기 좋은 암기본을 만든다는 생각으로 정리해보려고 한다. 독학할 사이트는 바로 요기 ↓ 딥러닝을 이용한 자연어처리 입문 (위키독스) https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완된 입문자를 위한 딥 러닝 자연어 처리 교재 E-book입니다. 오프라인 출판물 기준으로 코드 포함 **약 1,000 페이지 이상의 분량*… wikidocs.net # 01-01 아나콘다와 코랩 - 딥러닝에서는 CPU보다는 GPU를 사용 - 코랩에서는 무료로 GP..