pytorch 에서 RNN 및 LSTM을 사용한 문장 생성, 다음 단어 예측 인공지능 개발

시퀀스 생성 도구

PyTorch 를 사용해서 현재 문장 다음의 시퀀스를 생성해 내는 AI를 만들 수 있다. 여기서는 라이선스 조건 하에 사용할 수 있는 일부 위키 내용을 발췌하여 학습하였으며, 외부 비공개 목적으로 사용한다.

크롤 방법은 간단하다. 외부 크롤러를 사용하는 것이 아니라 임의로 복사 붙여넣기 하였다.

우선 작업하기 전 torch 의 기본 디바이스를 정의한다. GPU 가 존재하는 그래픽 서버이기 때문에 cuda 장치로 지정한다. 이외 모델을 추론하는 과정에서 CPU 장치를 사용하므로 CPU 파라메터도 남겨둔다. 특히 모델을 추론하는 작업은 24시간 서버에서 동작하기 때문에, CPU에서 동작되도록 구현해야 한다.

저장된 문서 데이터 셋을 읽어들인 뒤, 필요 없는 각주나 참조문은 정규식을 사용하여 모두 제거한다. 이외 필요 없는 부호들은 제거하고, 문장의 마침점으로 사용될 만한 심볼들은 <end> 표식을 남겨 문장의 끝 점임을 학습할 수 있도록 구성한다.

그리고 각 문장들을 반복으로 불러오면서 시퀀스 관계를 가지는 x, y 형태로 정제한다.

나는 어젯밤 저 멀리 떠났다. 나는 -> 어젯밤 나는 어젯밤 -> 저 나는 어젯밤 저 -> 멀리 나는 어젯밤 저 멀리 -> 떠났다.

이 때 위 시퀀스 데이터들은 임의 길이를 고정하기 위해 padding 처리 한다.

나는 어젯밤 저 멀리 떠났다. None None None None 나는 -> 어젯밤 None None None 나는 어젯밤 -> 저 None None 나는 어젯밤 저 -> 멀리 None 나는 어젯밤 저 멀리 -> 떠났다.

그리고 이렇게 정제된 데이터들을 부호화하기 위해서 정수 형태로 인코딩한다.

0 1 2 3 4 5 6 0 0 0 0 1 -> 2 0 0 0 1 2 -> 3 0 0 1 2 3 -> 4 0 1 2 3 4 -> 5

이렇게 정제된 데이터 한 행이 5개의 타임 스텝을 가지는 하나의 문장 학습 정보가 되는 것이다.

신경망은 LSTM 또는 RNN을 사용하여 구성하고, Embeding을 사용한다. Embedding 은 하나의 단어 정수 인덱스를 임의 고정된 차원의 벡터 정보로 가르키도록 학습하는 레이어이다.

한편 학습 정보를 텐서 정보로 변환하고, 깊이에 맞게끔 변환한다.

즉 입력 데이터는 각 단어의 순서를 정수로 나타낸 일정 타임 스텝 길이의 배열이고, 출력 데이터는 원핫 인코드 형태로 변환한다. 예를 들어 전체 단어 개수가 10000개 인 경우 총 아웃풋 뉴런 개수는 10000이 되어야 한다. 그리고 10000개의 원 핫 인코딩을 생성하여 학습을 수행한다.

로스가 줄어들며 학습이 수행되면, 예측을 수행해 본다.

예측을 처리하는 부분은 우선 임의 한 문장이 들어오면 해당 문장을 최대 마지막 타임 스텝 (여기서는 5개이다.)으로 제한한 다음 정수 인덱스로 변환한다. 그리고 해당 정보를 신경망에 넣어 출력 값을 구하고, 나온 텐서를 argmax() 하여 인덱스 위치를 구한다. 해당 인덱스를 가지는 단어를 맵핑하고, 해당 단어를 결과에 갖다 붙이면서 <end> 심볼이 나올 때 까지 계속 반복한다.

그럴 싸한 문장이 나오는 것을 확인할 수 있다. 데이터가 적으면 적을 수록 하나의 문장에서 과학습된 문장이 나올 수 있으므로 매우 다양한 데이터 셋이 필요할 것으로 보인다.