[ 인공지능 딥러닝 수학 계산 ] 딥러닝 신경망 학습 과정 및 편미분 원리

이 게시글에서는 기본적인 뉴런 경사 하강법을 수행하기 위한 미분 방법을 포함하고 있다. 하지만 본 게시글에서는 미분되는 과정을 알아보기 위한 것으로, 각 뉴런들을 하나 하나 미분하는 것이 아니라, 식으로 미분함으로써 동작하는 원리를 정리/ 공부하였다.

아래 그림 및 이미지, 과정은 필자가 공부 과정에서 임의로 그린 그림으로, 틀린 내용이 있을 수 있다.

먼저 기본적인 신경망은 위와 같은 구조라고 가정한다. 신경망의 층은 마음대로 늘리거나 줄일 수 있으며, 뉴런 개수도 마음대로 늘리거나 줄일 수 있다. 단 하나의 뉴런은 다음의 층과 연결되어 있고, 다음 층에 전달하기 위해 각각의 라인은 가중치

W n

를 가진다. 각 라인이 하나의 가중치를 가지는 것이며, 이 가중치 정보와 입력 정보가 곱해져 다음 뉴런으로 이동된다.

여기서는 활성화 함수는 편의상 생략하였다. 이는 단순히 뉴런의 아웃풋에 sigmoid와 같은 활성화 함수를 넣어준다고 보면된다. 즉 각 뉴런의 아웃풋에 1대1 라인을 한 번 거치는 것이다.

이 작업을 무수히 반복하여 out에 내보내지면 그것이 신경망 결과이다. 최종적으로 끝 뉴런에 들어간 값이 신경망의 결과가 되는데, 지금은 추론이 아닌 학습하는 과정이기 때문에 이 결과 값을 다시 손실 함수에 넣어 오차 값을 구해야 한다.

아주 예전 배울 때 대표적인 손실 함수인 MSE를 배웠는데, 이는 실제 추정된 결과와 레이블 값의 차를 제곱하여 모두 더한 뒤 2로 나누는 함수이다. 여기서는 아웃풋 뉴런이 한개이기 때문에 처리할 값이 하나 밖에 없다.

아무튼 오차 E 값은 0에 가까울수록 정확성이 높아진다고 볼 수 있다. 기본적인 학습을 하는 과정에서는 이 오차가 0에 가까워지도록 각 가중치 값을 조절해주면 되는 것이다. 그러기 위해서 이 오차 E 값을 각각의 가중치인

W n

의 미분을 구하는 것이다. 그러면 각 영역의 기울기가 나오기 때문에, 해당 기울기 방향을 따라 가중치가 굴러갈 수 있도록 설정하는 것이다.

예를 들어 W4 가중치의 값에 따른 E에 어떤 영향을 끼치는지에 알아볼 때, E를 W4에 대해 편미분한 다음, 해당 기울기 대로 흘러가도록 조절하면 해당 가중치는 E의 결과를 최소로 하는 최적의 W4 값을 구할 수 있다.

즉 E 값은 아까 위에서 구했기 때문에 W4 에 대해서 편미분 하면된다. 이러한 작업을 각각의 가중치에 대해 모두 반복한다.

각각의 미분을 구했으면, 기울기에 따라 해당 가중치 값을 더하거나 빼면된다. 물론 그 폭을 정하는 것이 Learning Rate라고 볼 수 있다. 이 횟수를 반복하는 것이 에폭이라고 보면된다.