6장 텍스트와 시퀀스를 위한 딥러닝


이 장에서 다룰 핵심 내용

  • 텍스트 데이터를 유용한 형태로 전처리하는 방법
  • 순환 신경망을 사용하는 방법
  • 1D 컨브넷을 사용한 시퀀스 데이터의 처리

이 장에서는 텍스트(단어의 시퀀스 또는 문자의 시퀀스), 시계열 또는 일반적인 시퀀스(sequence) 데이터를 처리할 수 있는 딥러닝 모델을 살펴보겠습니다. 시퀀스 데이터를 처리하는 기본적인 딥러닝 모델은 순환 신경망(recurrent neural network)과 1D 컨브넷(1D convnet) 두 가지입니다. 1D 컨브넷은 이전 장에서 다룬 2D 컨브넷의 1차원 버전입니다. 이 장에서는 두 가지 방법을 모두 다루겠습니다.

다음 애플리케이션들이 이런 알고리즘을 사용합니다.

  • 문서 분류나 시계열 분류. 예를 들어 글의 주제나 책의 저자 식별하기
  • 시계열 비교. 예를 들어 두 문서나 두 주식 가격이 얼마나 밀접하게 관련이 있는지 추정하기
  • 시퀀스-투-시퀀스 학습. 예를 들어 영어 문장을 프랑스어로 변환하기
  • 감성 분석. 예를 들어 트윗이나 영화 리뷰가 긍정적인지 부정적인지 분류하기
  • 시계열 예측. 예를 들어 어떤 지역의 최근 날씨 데이터가 주어졌을 때 향후 날씨 예측하기

이 장의 예제는 2개의 문제를 집중하여 다룹니다. 앞서 다루어 보았던 IMDB 데이터셋의 감성 분석과 기온 예측입니다. 이 두 작업에서 사용한 기법들은 위에 나열한 것은 물론 많은 애플리케이션들과 관련되어 있습니다.

댓글남기기