Pytorch 에서 MSE Loss의 기본적인 선언 및 동작 방법

금일 밤에는 MSELoss 가 어떤 과정을 통해 순전파되고 역전파되는 원리, 파이토치에서 사용자 정의 로스 함수를 만드는 방법을 공부하였다.

MSELoss 의 기본적인 선언 방법

torch 에서는 torch 내 nn 패키지 내부에 존재하는 MSELoss 클래스를 사용해서 MSELoss 함수를 선언하고 사용할 수 있다. MSELoss 는 기본적으로 정답 추론 결과와 레이블 데이터의 오차를 구해 그 손실 정도를 연상하는 함수인데, 학습 과정에서 신경망을 거쳐나온 각 뉴런의 아웃풋은 반드시 이러한 손실 함수를 거쳐야 한다.

tensor([1.9839], grad_fn=<ViewBackward0>) tensor(0.0003, grad_fn=<MseLossBackward0>) tensor([1.9841], grad_fn=<ViewBackward0>) tensor(0.0003, grad_fn=<MseLossBackward0>) tensor([1.9843], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9845], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9847], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9849], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9851], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9852], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9854], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>) tensor([1.9856], grad_fn=<ViewBackward0>) tensor(0.0002, grad_fn=<MseLossBackward0>)

위 코드는 torch에서 신경망에 데이터를 넣고 추론한 뒤 그 결과를 손실 함수에 넣어 손실 정도를 구하는 과정이다. 하지만 여기서 중요한 점은 손실을 구하는 것으로 끝나는 것이 아니라, 역전파 메서드인 backward를 통해 뉴런 신경망을 일괄적으로 미분하고, 미분 정도에 따라서 경사 하강을 수행해야 한다.

즉 상기 loss는 손실 함수에 데이터를 순전파하면서 나온 최종 오차 결괏값이며 미분에 직접적으로 사용되는 중요한 수치는 아니다. 하지만 손실 함수에 데이터를 넣고 순전파를 해야지만 역전파에 필요한 파라메터 값도 같이 계산할 수 있는 것이다.

문득 위 코드를 처음보면 어떻게 추론 결과만으로 역전파를 수행할 수 있을지 의문이 드는데, pred 값을 직접 출력해보면 다음과 같다.

각 엔드 영역에 존재하는 텐서들은 grad fn 이라는 어떤 함수로 보이는 인스턴스를 각각 소유하고 있는데 이 것이 추후 손실 함수에서 오차 역전파하기 위한 함수로 볼 수 있다.

즉 손실 함수 클래스는 내부적으로 손실 함수식에 대해 오차 역전파를 수행하여 기울기를 알아낼 것이고, 이 기울기 정보를 각 끝 단에 연결된 뉴런의 grad fn 데이터를 통해 연쇄적으로 미분 요청한다. 이 과정을 계속 반복하여 뉴런의 첫 층까지 도달하면 비로소 오차 역전파의 작업은 완료된다.

lossfunc = MyMSELoss()

어차피 로스 람수에서 미분된 각 기울기 정보는 각 신경망쪽으로 역전파된다. pred 에 기록된 연산 그래프 정보를 바탕으로 역으로 추적하며 미분된다.

직접 만든 함수로도 미분 처리가 잘 되는 것을 볼 수 있다.