[ AI 공부 ] BatchNormalization 구현 및 원리 - Whitmem
[ AI 공부 ] BatchNormalization 구현 및 원리
AI 이론 및 개발
2025-05-12 23:39 게시 66448b5afb9fe880eebd

0
0
33
이 페이지는 외부 공간에 무단 복제할 수 없으며 오직 있는 그대로 게시되며 부정확한 내용을 포함할 수 있습니다. 법률이 허용하는 한 가이드 라인에 맞춰 게시 내용을 인용하거나 출처로 표기할 수 있습니다.
This page is not to be distributed to external services; it is provided as is and may contain inaccuracies.
보통 딥러닝에서 데이터를 학습하다보면 BatchNormalize를 많이 보게된다.
보통 BatchNormalization 은 데이터가 넘어가는 과정에서 정규화를 하는 것인데, 우리가 흔히 아는 X 에서의 노말라이제이션과 처리 방법은 다르지만 궁극적인 목표는 같다.
정규화 작업을 통해서 데이터를 특정 범위 안으로 옮기고, 각 배치들의 학습 및 역전파시 기울기의 소실을 최소화하는 것이 주요 목표이다.
사용 방법은 간단하다. BatchNorm1d 를 만들 때 이전 신경망 개수에 따라서 지정한다. 각 신경망마다 학습 가능한 파라메터가 생성되기 때문이다. BatchNorm 은 정규 분포 공간으로 변환하도록 돕는다.
우리가 흔히 아는 데이터 셋의 분포를 정규 분포 평균 0 편차 1의 위치로 옮기기 위해, 데이터의 평균을 구해 빼고, 표준 편차만큼 나눈다. 그러한 작업이 batchNormalization 에 내장되어 있다.
forward 과정에서, RELU 이후에 BATCH 를 통과해주면 된다.
이 때 특이한 점은, BatchNormalization 은 정규 분포로 데이터를 이동한 뒤에, 다시 되돌아올 수 있게끔 하기 위해 파라메터를 지정한다. 즉 단순히 연산만 수행하는 것이 아니라, 학습 가능한 파라메터를 내장하고 있다.
위 코드는 직접 BatchNorm1D 클래스를 구현한 것이다. 즉 1번은 정규 분포를 구하기 위한 과정인 것이고, 2는 다시 원래대로 돌아갈 수 있는 scale 및 transition 을 제공하는 것이다. 이 값은 학습가능한 torch 텐서로 구성함으로써, 신경망이 필요에 따라 다시 이동할 수 있도록 한다.
댓글 0개
댓글을 작성하는 경우 댓글 처리 방침에 동의하는 것으로 간주됩니다. 댓글을 작성하면 일회용 인증키가 발급되며, 해당 키를 분실하는 경우 댓글을 제거할 수 없습니다. 댓글을 작성하면 사용자 IP가 영구적으로 기록 및 부분 공개됩니다.
확인
Whitmemit 개인 일지 블로그는 개인이 운영하는 정보 공유 공간으로 사용자의 민감한 개인 정보를 직접 요구하거나 요청하지 않습니다. 기본적인 사이트 방문시 처리되는 처리 정보에 대해서는 '사이트 처리 방침'을 참고하십시오. 추가적인 기능의 제공을 위하여 쿠키 정보를 사용하고 있습니다. Whitmemit 에서 처리하는 정보는 식별 용도로 사용되며 기타 글꼴 및 폰트 라이브러리에서 쿠키 정보를 사용할 수 있습니다.
이 자료는 모두 필수 자료로 간주되며, 사이트 이용을 하거나, 탐색하는 경우 동의로 간주합니다.