pytorch에서 신경망 구성중 기울기 및 미분 손실, 역전파 불가 증상 해결 - 계산 그래프 보관

최근 자연어 생성 및 챗봇 구현을 공부하고 있는데, 생각보다 만만하지 않다. 데이터를 구하는 것 부터, 신경망을 구축하고 학습하는 과정이 제일 힘들고 복잡하다. 이번 과제의 목표는 외부 신경망을 사용하지 않고 직접 구축한 신경망으로 그럴싸한 챗봇을 만들어내는 것이다.

SEQ to SEQ 신경망을 구축하기 위해서, 인코더 신경망 디코더 신경망을 구축해야한다. 이 신경망은 각각 역할이 다르며, 최종적으로 하나로 이어서 전체 신경망을 구성하게 된다.

예를 들어 위 신경망은 인코더 신경망으로, 입력 시퀀스가 들어오면 특정 히든 스테이트, 즉 고유 텐서를 내보내는 역할을 하는 신경망이고,

위 신경망은 고유 텐서 정보와 함께 시작 심볼이 입력되면 어울리는 단어를 뽑아내며 하나의 완성 문장을 생성하는 디코더 신경망이다.

즉 이 신경망을 학습하기 위해서, 인코더 신경망과 디코더 신경망을 이어서 로스 함수로 이어지게끔 기울기 연산을 수행하고 역전파를 진행해야 한다.

예를 들어 전반적인 모델 내부에서는 인코더 및 디코더 인스턴스를 생성하고, forward 진행시 순전파가 진행되도록 연산을 수행한다. 인코더 결과를 다시 디코더에 넣는식으로 작업을 해야 한다. 이 때 인코더 결과를 온전히 디코더 신경망에 삽입하는 것이 아니라, 특수한 형태로 가공해서 넣고, 특수한 형태로 결과를 다시 후처리해야 한다.

예를 들어 내부적으로 디코더 신경망으로 부터 나오는 출력 신경들을 일정 순회만큼 반복하고, 이 반복된 최종 결과를 모두 배열로 다시 구성하여 신경망의 아웃풋으로 내보내야 하는 상황에서,

위와 같이 슬라이싱 한 결과를 다른 텐서에 붙여넣기하는 과정에서 잘못 하면 미분 정보를 잃을 수 있다.

물론 미분 콜백 정보와 계산 그래프를 유지하면서 전달하면 문제가 없지만 단순히 데이터만 복사하거나 결괏값만 전달하는 형식으로 개조하는 경우 문제가 발생할 수 있다.

기본적으로 순전파를 진행할 때 단순히 덧셈, 곱셈, 합성 곱 등의 연산을 수행한 뒤 결과만을 제공하는 것이 아니라 미분 및 기울기 처리를 위한 역전파 콜백 정보를 텐서에 포함하기 때문이다.

특정 신경망에 들어가 어떤 연산이 수행된 아웃풋 기록에는 미분을 위한 grad_fn 정보가 포함된다. 여기에는 이때 동안 어떤 계산을 통해서 이 계산 결과가 나왔는지 정보를 모두 연쇄적으로 담고 있는 계산 그래프가 연결되어 있다.

그런데 이를 슬라이싱하여 새로운 슬라이싱 공간에 대입하는 경우 기울기 정보가 모두 손상될 수 있기에 유의해야 한다.