네트워크 정책을 학습할 때 로스 식의 의도, 손실 함수의 의도

우리는 보통 딥러닝을 진행할 때 손실 함수를 정의한다. 그런데 왜 손실 함수를 정의하는지에 대해 생각해 본 적이 있는가? 필자의 경우에도 '이렇게 하면 된다'고 해서 그렇게 계속 해 오기만을 반복하며 기본 내용의 정립 없이 테크닉만을 주궁 창창 외우기 시작했다. 하지만 어느덧 고급 스킬이 필요해지는 시점에서 모든 내용이 이해 안되는 문제에 부딪혔고 다시 기초 부분을 조금 더 탄탄하게 매꾸고자 이 게시글을 작성한다.

다시 앞으로 돌아와 손실함수를 정의해보자. 기본적인 신경망을 구성한 다음, 옵티마이저와 손실 함수를 정의하고 비로소 학습 단계에서 모든 걸 호출하기 시작한다.

위 코드는 간단한 신경망을 구성하고 Adam 옵티마이저를 사용해 학습하는 과정을 나타낸 것이다. 실제 코드를 수행하면 Loss 값이 점차 떨어지는 것을 확인할 수 있다.

Optimizer 의 역할은 궁극적으로 매우 복잡하지는 않다. 각 파라메터(가중치)에 대응되는 미분(기울기)값을 반영하여 업데이트할 뿐이다. SGD 옵티마이저는 단순히 기울기에 Learning Rate을 곱해 파라메터에 적용할 뿐이며, Momentum SGD 는 가속도 공식을 적용하여 파라메터에 적용, Adam은 SGD를 적용함과 동시에 학습 Learning rate를 각 파라메터마다 동적으로 관리하며 적용할 뿐이다.

결국 Optimizer은 기울기 값을 필요로하며, 이 신경망을 학습하기 위한 제일 중요한 값은 미분 값이 되는 것이다.

그런데 왜 하필, Loss를 적용하여 Loss부터 역으로 미분을 하는 걸까? 신경망 거친 값을 아무런 로스 없이 미분해서는 안되는걸까? 위 loss 부분을 봐 본다. 신경망이 거쳐 나온 predict 값을 MSELoss를 통과해 비로소 backward를 수행하고 있다.

이 문장에 고민이 빠진적 있다면, 아직 인공지능의 학습 방법을 제대로 이해하지 못한 것이다. 테크닉을 익히기보다 기본 원리를 공부하는게 좋아보인다.

분명 미분이 필요하다는 것은 이해할 수 있다. 기울기를 따라 오차를 줄일 수 있는 방향으로 나아가기 위함이라는 사실은 명백하다. 하지만 여기까지만 이해하고, 더 나아가 확장할 수 없다면, 직접 신경망을 구축하고 정의하기엔 쉽지 않다.

미분의 목적

먼저 미분을 왜 해야하는 건지 생각을 해 본다. 기울기를 구하기 위해... 가 아니라, 궁극적으로 이 신경망에서 미분을 왜 해야하는 걸까? 아니 이 신경망을 미분한다는 말이 맞는가? 에 대해서도 생각 해 봐야한다.

고등학생 수학에서, 우리는 어떤 함수의 기울기를 얻기 위해 미분을 한다고 배웠다. 예를 들어 y=ax 함수 식이 있을 때 미분하면 a로 어디서든지 똑같은 기울기를 가지고, y=ax^2 를 미분하면 2ax 값이 미분 값이 된다.

그런데 만약 z=5x+6y 식에 대해 미분한다고 하면 어떻게 받아들여야 할까? 먼저 여기서는 어떤 미지수에 대해 미분할 것인지 정의가 없다. 우리는 어떤 값을 편미분하기 위해서는 어떤 미지수에 대해 미분할 것인지 명확히 해야한다. x에 대해 미분을 하면, 미분 값은 5가 나오고, y에 대해 미분하면 미분 값은 6이 나온다. 미분하려는 미지수와 관련 없는 항은 상수 처리하는 것이다.

위 미분 식을 통해 우리는 결과적으로 x가 1씩 증가할 때 마다 x의 +5배에 해당하는 결과 변화가 있을 것이고, y가 1씩 증가할 때 마다 y의 +6배에 해당하는 결과 변화가 있을 거라고 예측할 수 있다. 궁극적으로 이 두 값이 z 라는 미지수를 채워넣는 최종 결과가 된다.

즉 우리는 z를 늘리기 위해서는 x또는 y를 + 방향으로 계속 더하면 될 것이고, z를 줄이기 위해서는 x또는 y를 - 방향으로 더하면 될 것이다.

이 문제에서는 "z" 값을 늘리거나 줄이는 것을 목표로 삼고 있다.

그런데, 위 z는 사실상 끝이 없는, 한쪽 방향으로 무한한 방향을 가지고 있는 함수이다. 기울기를 구해서 이리저리 움직여봤자 '값을 늘리거나 줄인다라는 의미 외에' 궁극적으로 하고자하는 목표가 없다.

그러면 위 z를 다음 식에 넣어본다. m = (z - 5)^2

z 함수의 값을 활용해서 또 다른 새로운 식을 만들었다. 5를 빼고 제곱한 값이다. 이 함수를 z에 대해서 그래프로 나타내면 z가 5인 지점에서 m이 0이 되는 새로운 그래프가 만들어진다.

여기서 우리는 임의의 목표를 설정할 수 있다.

값이 0에 가까워지는 되는 x 값과 y 값의 방향을 구하기

x, y 값을 어떤 방향으로 조작해야 m이 0에 가까워질까? 이 때 비로소 m을 x, y에 대해 편미분한 미분 값이 등장하는 것이다. m식에 대한 x 기울기를 구하고, m식에 개한 y 기울기를 구하면, x 및 y가 어떤 방향으로 가야 m이 0에 가까워지는지 알 수 있는 것이다.

즉 여기서의 궁극적인 목표는 "m을 0에 가깝게 하기 위해 x, y의 방향을 어떻게 해야할까"가 되는 것이고, m을 x에 대해서, m을 y에 대해서 미분하는 것이다. 즉 어떤 식에 대해서 무엇을 미분할지가 굉장히 중요하다.

그러면 다시 신경망으로 돌아와서, 신경망을 단순히 미분하는 건 의미가 없다. 신경망의 가중치들은 입력 값과 곱해져서 더하는 구조를 가지고 있기 때문에 단순히 신경망 각 파라메터 값에 대한 결과 그래프를 나타내면 무한히 발산한다. 마치 위 예시의 z 함수 처럼 말이다.

따라서 목표를 만들어야 한다. 신경망의 궁극적인 목표는 특정 데이터를 표현하고 특정 데이터 분포를 내뱉을 수 있는 복잡한 함수이다. 즉 특정 데이터와의 오차가 0에 가까운 각 가중치 파라메터들을 구하는 것이므로, 실제 데이터 레이블과 연산 결과의 차이의 제곱이 0이 되는 식응 만들어 해당 식을 각 파라메터이 대해 미분하는 것이라고 볼 수 있다.

그렇기 때문에 우리가 신경망에 데이터를 입력하고 추론된 결과에 대해 다시 loss 식에 넣어 loss를 미분하는 이유이다.

위 코드는 궁극적으로 잘못된 역전파라고 볼 수 있다. 목표가 없다.