본문 바로가기

전체 글

(28)
[딥러닝 NLP] 02. 텍스트 전처리 # 02-01 토큰화 1. 단어 토큰화(word tokenization) -토큰(token): 의미있는 단위 -토큰화(tokenization): 코퍼스(corpus)에서 토큰이라 불리는 단위로 나누는 작업 -단어 토큰화: 토큰의 기준을 단어로 하는 경우 2. 영어 토큰화 도구들 - NLTK의 word_tokenize: Don't를 Do와 n't로, Jone's를 Jone과 's로 분류 - NLTK의 wordPunctTokenizer: 구두점을 별도로 분류 (Don't를 Don와 '와 t로, Jone's를 Jone과 '와 s로 분류) - 케라스의 text_to_word_sequence: 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거하지만 don't나 jone's와 같..
[Paper Review] Navigating a product landscape for technology opportunity analysis: A word2vec approach using an integrated patent-product database 논문 리뷰
[NLP base paper] Beyond Accuracy: Behavioral Testing of NLP Models with CheckList 논문 리뷰
데이터분석가가 반드시 알아야 할 모든 것 12장(통계기반모델) # 12.1 분석 모델 개요 [통계모델 vs 기계학습] -통계모델: 모형과 해석 중요(오차, 불확정성에 초점) -기계학습: 예측 정확도 중요 [기계학습방법론] -지도학습(Supervised learning) : 독립변수, 종속변수, 정답 존재. 독립변수와 정답 간의 오차를 줄이는 과정 반복 -회귀 방식(Regression) : 종속변수가 양적척도 -분류 방식(Classification) : 종속변수가 질적척도 -비지도학습(Unsupervised learning) : 정답 없이 변수 간 패턴 파악하거나 군집화 -차원축소(Dimensionality Reduction): 지도학습의 학습성능 높이기 위한 전처리 방법으로 사용 -군집분석: 정답지(labeling) 없이 유사한 관측치끼리 군집화 -연관규칙(asso..
[NLP base paper] Convolutional Neural Networks for sentence classification 논문 리뷰
데이터분석가가 반드시 알아야 할 모든 것 11장(전처리, 파생변수) 실습 코드는 아래 링크 https://github.com/c-karl/DA_DS_Book001 GitHub - c-karl/DA_DS_Book001: DA_DS_Book001 DA_DS_Book001. Contribute to c-karl/DA_DS_Book001 development by creating an account on GitHub. github.com
데이터분석가가 반드시 알아야 할 모든 것 10장(EDA, 시각화) 실습 코드는 아래 링크 https://github.com/c-karl/DA_DS_Book001 GitHub - c-karl/DA_DS_Book001: DA_DS_Book001 DA_DS_Book001. Contribute to c-karl/DA_DS_Book001 development by creating an account on GitHub. github.com
데이터분석가가 반드시 알아야 할 모든 것 8장~9장(비즈니스 실무)