# 들어가며
동아리 TAVE에서 NLP 논문 읽기 스터디에 참여하게 됐다.
논문 리딩을 하려면 딥러닝과 자연처리에 대한 제대로 된 공부가 필요할 것 같아 독학을 시작해본다.
챕터별로 내가 기억하기 좋은 암기본을 만든다는 생각으로 정리해보려고 한다.
독학할 사이트는 바로 요기 ↓
딥러닝을 이용한 자연어처리 입문 (위키독스)
https://wikidocs.net/book/2155
딥 러닝을 이용한 자연어 처리 입문
많은 분들의 피드백으로 수년간 보완된 입문자를 위한 딥 러닝 자연어 처리 교재 E-book입니다. 오프라인 출판물 기준으로 코드 포함 **약 1,000 페이지 이상의 분량*…
wikidocs.net
# 01-01 아나콘다와 코랩
- 딥러닝에서는 CPU보다는 GPU를 사용
- 코랩에서는 무료로 GPU를 사용할 수 있음 (런타임-런타임 유형 변경-하드웨어 가속기 GPU 선택)
Q. CPU와 GPU의 차이가 뭐길래 딥러닝에서는 GPU를 사용하는 걸까?
-> CPU와 GPU의 주요 차이점은 연산 능력에 있습니다. CPU 없이는 서버를 실행할 수 없습니다. CPU는 서버의 모든 소프트웨어를 올바르게 실행하는 데 필요한 모든 작업을 처리합니다. 반면, GPU는 CPU가 동시 계산을 수행할 수 있도록 지원합니다.
# 01-02 필요 프레임워크와 라이브러리
1. 텐서플로우(Tensorflow)
- 머신러닝 오픈소스 라이브러리
- pip install tensorflow
- import tensorflow as tf
2. 케라스(Keras)
-텐서플로우 코드를 훨씬 쉽게 작성할 수 있게 해 줌
- pip install keras (설치해서 사용) 혹은 tf.keras (텐서플로우에서 케라스 API를 사용)
- tf.keras 사용을 권장
3. 젠심(Gensim)
- 머신러닝으로 토픽 모델링, 자연어처리 등을 수행할 수 있게 해주는 오픈소스 라이브러리
- 워드투벡(Word2Vec) 등 다양한 모델을 사용할 수 있음
4. 사이킷런(Scikit-learn)
- 파이썬 머신러닝 라이브러리
- 자체 데이터도 제공
- 아나콘다 설치시 사이킷런도 자동 설치됨
# 01-03 자연어처리를 위한 NLTK, KoNLPy
- 아나콘다 설치시 NLTK도 자동 설치됨 (안 되어있을 경우 https://wikidocs.net/22488 참고)
- KoNLPy: 한국어 자연어처리를 위한 형태소 분석기 패키지
- pip install konlpy
- KoNLPy는 JAVA로 구성되어 있어서 윈도우에서 설치/실행시 오류가 발생하기도 함
- 에러 발생시 https://wikidocs.net/22488 참고
# 01-04 Pandas, Numpy, Matplotlib
위 3개 라이브러리는 데이터분석 스터디 때 이미 공부했으므로 넘긴다
# 01-05 판다스 프로파일링(Pandas-Profiling)
- 판다스 프로파일링: 단 한 줄의 명령어로 EDA를 완수해주는 편리한 패키지
- EDA(Exploratory Data Analysis, 탐색적 데이터 분석): 값의 분포, 변수간 관계, 결측값 등을 파악하는 과정
'딥러닝 > 딥러닝을 이용한 자연어처리 입문' 카테고리의 다른 글
[딥러닝 NLP] 06. 머신러닝(Linear, Logistic, Softmax Regression) (2) | 2023.12.06 |
---|---|
[딥러닝 NLP] 05. 벡터의 유사도(코사인, 유클리드, 자카드) (0) | 2023.11.29 |
[딥러닝 NLP] 04. 카운트 기반 단어 표현(BoW, DTM, TF-IDF) (1) | 2023.11.27 |
[딥러닝 NLP] 03. 언어 모델 (0) | 2023.10.18 |
[딥러닝 NLP] 02. 텍스트 전처리 (2) | 2023.10.16 |