Pytorch 에서 MSE Loss의 기본적인 선언 및 동작 방법 - Whitmem
Pytorch 에서 MSE Loss의 기본적인 선언 및 동작 방법
AI Development Study
2025-04-03 22:23 게시 ef7e9c5ec362db08718f

0
0
32
이 페이지는 외부 공간에 무단 복제할 수 없으며 오직 있는 그대로 게시되며 부정확한 내용을 포함할 수 있습니다. 법률이 허용하는 한 가이드 라인에 맞춰 게시 내용을 인용하거나 출처로 표기할 수 있습니다.
This page is not to be distributed to external services; it is provided as is and may contain inaccuracies.
금일 밤에는 MSELoss 가 어떤 과정을 통해 순전파되고 역전파되는 원리, 파이토치에서 사용자 정의 로스 함수를 만드는 방법을 공부하였다.
MSELoss 의 기본적인 선언 방법
torch 에서는 torch 내 nn 패키지 내부에 존재하는 MSELoss 클래스를 사용해서 MSELoss 함수를 선언하고 사용할 수 있다. MSELoss 는 기본적으로 정답 추론 결과와 레이블 데이터의 오차를 구해 그 손실 정도를 연상하는 함수인데, 학습 과정에서 신경망을 거쳐나온 각 뉴런의 아웃풋은 반드시 이러한 손실 함수를 거쳐야 한다.
tensor([1.9839], grad_fn=<ViewBackward0>) tensor(0.0003, grad_fn=<MseLossBackward0>) tensor([1.9841], grad_fn=<ViewBackward0>) tensor(0.0003, grad_fn=<MseLossBackward0>) tensor([1.9843], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9845], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9847], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9849], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9851], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9852], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9854], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9856], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>)
위 코드는 torch에서 신경망에 데이터를 넣고 추론한 뒤 그 결과를 손실 함수에 넣어 손실 정도를 구하는 과정이다. 하지만 여기서 중요한 점은 손실을 구하는 것으로 끝나는 것이 아니라, 역전파 메서드인 backward를 통해 뉴런 신경망을 일괄적으로 미분하고, 미분 정도에 따라서 경사 하강을 수행해야 한다.
즉 상기 loss는 손실 함수에 데이터를 순전파하면서 나온 최종 오차 결괏값이며 미분에 직접적으로 사용되는 중요한 수치는 아니다. 하지만 손실 함수에 데이터를 넣고 순전파를 해야지만 역전파에 필요한 파라메터 값도 같이 계산할 수 있는 것이다.
문득 위 코드를 처음보면 어떻게 추론 결과만으로 역전파를 수행할 수 있을지 의문이 드는데, pred 값을 직접 출력해보면 다음과 같다.
각 엔드 영역에 존재하는 텐서들은 grad fn 이라는 어떤 함수로 보이는 인스턴스를 각각 소유하고 있는데 이 것이 추후 손실 함수에서 오차 역전파하기 위한 함수로 볼 수 있다.
즉 손실 함수 클래스는 내부적으로 손실 함수식에 대해 오차 역전파를 수행하여 기울기를 알아낼 것이고, 이 기울기 정보를 각 끝 단에 연결된 뉴런의 grad fn 데이터를 통해 연쇄적으로 미분 요청한다. 이 과정을 계속 반복하여 뉴런의 첫 층까지 도달하면 비로소 오차 역전파의 작업은 완료된다.
lossfunc = MyMSELoss()
어차피 로스 람수에서 미분된 각 기울기 정보는 각 신경망쪽으로 역전파된다. pred 에 기록된 연산 그래프 정보를 바탕으로 역으로 추적하며 미분된다.
직접 만든 함수로도 미분 처리가 잘 되는 것을 볼 수 있다.
댓글 0개
댓글은 일회용 패스워드가 발급되며 사이트 이용 약관에 동의로 간주됩니다.
확인
Whitmemit 개인 일지 블로그는 개인이 운영하는 정보 공유 공간으로 사용자의 민감한 개인 정보를 직접 요구하거나 요청하지 않습니다. 기본적인 사이트 방문시 처리되는 처리 정보에 대해서는 '사이트 처리 방침'을 참고하십시오. 추가적인 기능의 제공을 위하여 쿠키 정보를 사용하고 있습니다. Whitmemit 에서 처리하는 정보는 식별 용도로 사용되며 기타 글꼴 및 폰트 라이브러리에서 쿠키 정보를 사용할 수 있습니다.
이 자료는 모두 필수 자료로 간주되며, 사이트 이용을 하거나, 탐색하는 경우 동의로 간주합니다.