본문 바로가기

딥러닝/딥러닝을 이용한 자연어처리 입문

[딥러닝 NLP] 01. 자연어처리 준비하기

# 들어가며

동아리 TAVE에서 NLP 논문 읽기 스터디에 참여하게 됐다.

논문 리딩을 하려면 딥러닝과 자연처리에 대한 제대로 된 공부가 필요할 것 같아 독학을 시작해본다.

챕터별로 내가 기억하기 좋은 암기본을 만든다는 생각으로 정리해보려고 한다.

 

독학할 사이트는 바로 요기 ↓

딥러닝을 이용한 자연어처리 입문 (위키독스)

https://wikidocs.net/book/2155

 

딥 러닝을 이용한 자연어 처리 입문

많은 분들의 피드백으로 수년간 보완된 입문자를 위한 딥 러닝 자연어 처리 교재 E-book입니다. 오프라인 출판물 기준으로 코드 포함 **약 1,000 페이지 이상의 분량*…

wikidocs.net

 

# 01-01 아나콘다와 코랩

- 딥러닝에서는 CPU보다는 GPU를 사용 

- 코랩에서는 무료로 GPU를 사용할 수 있음 (런타임-런타임 유형 변경-하드웨어 가속기 GPU 선택)

 

Q. CPU와 GPU의 차이가 뭐길래 딥러닝에서는 GPU를 사용하는 걸까?

-> CPU와 GPU의 주요 차이점은 연산 능력에 있습니다. CPU 없이는 서버를 실행할 수 없습니다. CPU는 서버의 모든 소프트웨어를 올바르게 실행하는 데 필요한 모든 작업을 처리합니다. 반면, GPU는 CPU가 동시 계산을 수행할 수 있도록 지원합니다.

 

# 01-02 필요 프레임워크와 라이브러리

1. 텐서플로우(Tensorflow)

- 머신러닝 오픈소스 라이브러리

- pip install tensorflow

- import tensorflow as tf

 

2. 케라스(Keras)

-텐서플로우 코드를 훨씬 쉽게 작성할 수 있게 해 줌

- pip install keras (설치해서 사용) 혹은 tf.keras (텐서플로우에서 케라스 API를 사용)

- tf.keras 사용을 권장

 

3. 젠심(Gensim)

- 머신러닝으로 토픽 모델링, 자연어처리 등을 수행할 수 있게 해주는 오픈소스 라이브러리

- 워드투벡(Word2Vec) 등 다양한 모델을 사용할 수 있음

 

4. 사이킷런(Scikit-learn)

- 파이썬 머신러닝 라이브러리

- 자체 데이터도 제공

- 아나콘다 설치시 사이킷런도 자동 설치됨

 

# 01-03 자연어처리를 위한 NLTK, KoNLPy

- 아나콘다 설치시 NLTK도 자동 설치됨 (안 되어있을 경우 https://wikidocs.net/22488 참고)

- KoNLPy: 한국어 자연어처리를 위한 형태소 분석기 패키지

- pip install konlpy

- KoNLPy는 JAVA로 구성되어 있어서 윈도우에서 설치/실행시 오류가 발생하기도 함

  - 에러 발생시 https://wikidocs.net/22488 참고

 

# 01-04 Pandas, Numpy, Matplotlib

위 3개 라이브러리는 데이터분석 스터디 때 이미 공부했으므로 넘긴다

 

# 01-05 판다스 프로파일링(Pandas-Profiling)

- 판다스 프로파일링: 단 한 줄의 명령어로 EDA를 완수해주는 편리한 패키지

- EDA(Exploratory Data Analysis, 탐색적 데이터 분석): 값의 분포, 변수간 관계, 결측값 등을 파악하는 과정