pytorch에서 신경망 구성중 기울기 및 미분 손실, 역전파 불가 증상 해결 - 계산 그래프 보관 - Whitmem
pytorch에서 신경망 구성중 기울기 및 미분 손실, 역전파 불가 증상 해결 - 계산 그래프 보관
AI Development Study
2025-04-07 23:27 게시 1b18857be1b546d71ed6

0
0
35
이 페이지는 외부 공간에 무단 복제할 수 없으며 오직 있는 그대로 게시되며 부정확한 내용을 포함할 수 있습니다. 법률이 허용하는 한 가이드 라인에 맞춰 게시 내용을 인용하거나 출처로 표기할 수 있습니다.
This page is not to be distributed to external services; it is provided as is and may contain inaccuracies.
최근 자연어 생성 및 챗봇 구현을 공부하고 있는데, 생각보다 만만하지 않다. 데이터를 구하는 것 부터, 신경망을 구축하고 학습하는 과정이 제일 힘들고 복잡하다. 이번 과제의 목표는 외부 신경망을 사용하지 않고 직접 구축한 신경망으로 그럴싸한 챗봇을 만들어내는 것이다.
SEQ to SEQ 신경망을 구축하기 위해서, 인코더 신경망 디코더 신경망을 구축해야한다. 이 신경망은 각각 역할이 다르며, 최종적으로 하나로 이어서 전체 신경망을 구성하게 된다.
예를 들어 위 신경망은 인코더 신경망으로, 입력 시퀀스가 들어오면 특정 히든 스테이트, 즉 고유 텐서를 내보내는 역할을 하는 신경망이고,
위 신경망은 고유 텐서 정보와 함께 시작 심볼이 입력되면 어울리는 단어를 뽑아내며 하나의 완성 문장을 생성하는 디코더 신경망이다.
즉 이 신경망을 학습하기 위해서, 인코더 신경망과 디코더 신경망을 이어서 로스 함수로 이어지게끔 기울기 연산을 수행하고 역전파를 진행해야 한다.
예를 들어 전반적인 모델 내부에서는 인코더 및 디코더 인스턴스를 생성하고, forward 진행시 순전파가 진행되도록 연산을 수행한다. 인코더 결과를 다시 디코더에 넣는식으로 작업을 해야 한다. 이 때 인코더 결과를 온전히 디코더 신경망에 삽입하는 것이 아니라, 특수한 형태로 가공해서 넣고, 특수한 형태로 결과를 다시 후처리해야 한다.
예를 들어 내부적으로 디코더 신경망으로 부터 나오는 출력 신경들을 일정 순회만큼 반복하고, 이 반복된 최종 결과를 모두 배열로 다시 구성하여 신경망의 아웃풋으로 내보내야 하는 상황에서,
위와 같이 슬라이싱 한 결과를 다른 텐서에 붙여넣기하는 과정에서 잘못 하면 미분 정보를 잃을 수 있다.
물론 미분 콜백 정보와 계산 그래프를 유지하면서 전달하면 문제가 없지만 단순히 데이터만 복사하거나 결괏값만 전달하는 형식으로 개조하는 경우 문제가 발생할 수 있다.
기본적으로 순전파를 진행할 때 단순히 덧셈, 곱셈, 합성 곱 등의 연산을 수행한 뒤 결과만을 제공하는 것이 아니라 미분 및 기울기 처리를 위한 역전파 콜백 정보를 텐서에 포함하기 때문이다.
특정 신경망에 들어가 어떤 연산이 수행된 아웃풋 기록에는 미분을 위한 grad_fn 정보가 포함된다. 여기에는 이때 동안 어떤 계산을 통해서 이 계산 결과가 나왔는지 정보를 모두 연쇄적으로 담고 있는 계산 그래프가 연결되어 있다.
그런데 이를 슬라이싱하여 새로운 슬라이싱 공간에 대입하는 경우 기울기 정보가 모두 손상될 수 있기에 유의해야 한다.
댓글 0개
댓글은 일회용 패스워드가 발급되며 사이트 이용 약관에 동의로 간주됩니다.
확인
Whitmemit 개인 일지 블로그는 개인이 운영하는 정보 공유 공간으로 사용자의 민감한 개인 정보를 직접 요구하거나 요청하지 않습니다. 기본적인 사이트 방문시 처리되는 처리 정보에 대해서는 '사이트 처리 방침'을 참고하십시오. 추가적인 기능의 제공을 위하여 쿠키 정보를 사용하고 있습니다. Whitmemit 에서 처리하는 정보는 식별 용도로 사용되며 기타 글꼴 및 폰트 라이브러리에서 쿠키 정보를 사용할 수 있습니다.
이 자료는 모두 필수 자료로 간주되며, 사이트 이용을 하거나, 탐색하는 경우 동의로 간주합니다.