[ 인공지능 딥러닝 수학 계산 ] 딥러닝 신경망 학습 과정 및 편미분 원리 - Whitmem
[ 인공지능 딥러닝 수학 계산 ] 딥러닝 신경망 학습 과정 및 편미분 원리
AI Development Study
2025-03-27 21:09 게시 63af9a840528f6a73f16

0
0
32
이 페이지는 외부 공간에 무단 복제할 수 없으며 오직 있는 그대로 게시되며 부정확한 내용을 포함할 수 있습니다. 법률이 허용하는 한 가이드 라인에 맞춰 게시 내용을 인용하거나 출처로 표기할 수 있습니다.
This page is not to be distributed to external services; it is provided as is and may contain inaccuracies.
이 게시글에서는 기본적인 뉴런 경사 하강법을 수행하기 위한 미분 방법을 포함하고 있다. 하지만 본 게시글에서는 미분되는 과정을 알아보기 위한 것으로, 각 뉴런들을 하나 하나 미분하는 것이 아니라, 식으로 미분함으로써 동작하는 원리를 정리/ 공부하였다.
아래 그림 및 이미지, 과정은 필자가 공부 과정에서 임의로 그린 그림으로, 틀린 내용이 있을 수 있다.
먼저 기본적인 신경망은 위와 같은 구조라고 가정한다. 신경망의 층은 마음대로 늘리거나 줄일 수 있으며, 뉴런 개수도 마음대로 늘리거나 줄일 수 있다. 단 하나의 뉴런은 다음의 층과 연결되어 있고, 다음 층에 전달하기 위해 각각의 라인은 가중치 Wn 를 가진다. 각 라인이 하나의 가중치를 가지는 것이며, 이 가중치 정보와 입력 정보가 곱해져 다음 뉴런으로 이동된다.
여기서는 활성화 함수는 편의상 생략하였다. 이는 단순히 뉴런의 아웃풋에 sigmoid와 같은 활성화 함수를 넣어준다고 보면된다. 즉 각 뉴런의 아웃풋에 1대1 라인을 한 번 거치는 것이다.
이 작업을 무수히 반복하여 out에 내보내지면 그것이 신경망 결과이다. 최종적으로 끝 뉴런에 들어간 값이 신경망의 결과가 되는데, 지금은 추론이 아닌 학습하는 과정이기 때문에 이 결과 값을 다시 손실 함수에 넣어 오차 값을 구해야 한다.
아주 예전 배울 때 대표적인 손실 함수인 MSE를 배웠는데, 이는 실제 추정된 결과와 레이블 값의 차를 제곱하여 모두 더한 뒤 2로 나누는 함수이다. 여기서는 아웃풋 뉴런이 한개이기 때문에 처리할 값이 하나 밖에 없다.
아무튼 오차 E 값은 0에 가까울수록 정확성이 높아진다고 볼 수 있다. 기본적인 학습을 하는 과정에서는 이 오차가 0에 가까워지도록 각 가중치 값을 조절해주면 되는 것이다. 그러기 위해서 이 오차 E 값을 각각의 가중치인 Wn 의 미분을 구하는 것이다. 그러면 각 영역의 기울기가 나오기 때문에, 해당 기울기 방향을 따라 가중치가 굴러갈 수 있도록 설정하는 것이다.
예를 들어 W4 가중치의 값에 따른 E에 어떤 영향을 끼치는지에 알아볼 때, E를 W4에 대해 편미분한 다음, 해당 기울기 대로 흘러가도록 조절하면 해당 가중치는 E의 결과를 최소로 하는 최적의 W4 값을 구할 수 있다.
즉 E 값은 아까 위에서 구했기 때문에 W4 에 대해서 편미분 하면된다. 이러한 작업을 각각의 가중치에 대해 모두 반복한다.
각각의 미분을 구했으면, 기울기에 따라 해당 가중치 값을 더하거나 빼면된다. 물론 그 폭을 정하는 것이 Learning Rate라고 볼 수 있다. 이 횟수를 반복하는 것이 에폭이라고 보면된다.
댓글 0개
댓글은 일회용 패스워드가 발급되며 사이트 이용 약관에 동의로 간주됩니다.
확인
Whitmemit 개인 일지 블로그는 개인이 운영하는 정보 공유 공간으로 사용자의 민감한 개인 정보를 직접 요구하거나 요청하지 않습니다. 기본적인 사이트 방문시 처리되는 처리 정보에 대해서는 '사이트 처리 방침'을 참고하십시오. 추가적인 기능의 제공을 위하여 쿠키 정보를 사용하고 있습니다. Whitmemit 에서 처리하는 정보는 식별 용도로 사용되며 기타 글꼴 및 폰트 라이브러리에서 쿠키 정보를 사용할 수 있습니다.
이 자료는 모두 필수 자료로 간주되며, 사이트 이용을 하거나, 탐색하는 경우 동의로 간주합니다.