나는 어젯밤 저 멀리 떠났다.
나는 -> 어젯밤
나는 어젯밤 -> 저
나는 어젯밤 저 -> 멀리
나는 어젯밤 저 멀리 -> 떠났다.
이 때 위 시퀀스 데이터들은 임의 길이를 고정하기 위해 padding 처리 한다.
나는 어젯밤 저 멀리 떠났다.
None None None None 나는 -> 어젯밤
None None None 나는 어젯밤 -> 저
None None 나는 어젯밤 저 -> 멀리
None 나는 어젯밤 저 멀리 -> 떠났다.
그리고 이렇게 정제된 데이터들을 부호화하기 위해서 정수 형태로 인코딩한다.
0 1 2 3 4 5 6
0 0 0 0 1 -> 2
0 0 0 1 2 -> 3
0 0 1 2 3 -> 4
0 1 2 3 4 -> 5
이렇게 정제된 데이터 한 행이 5개의 타임 스텝을 가지는 하나의 문장 학습 정보가 되는 것이다.