[ AI 공부 ] BatchNormalization 구현 및 원리

보통 딥러닝에서 데이터를 학습하다보면 BatchNormalize를 많이 보게된다.

보통 BatchNormalization 은 데이터가 넘어가는 과정에서 정규화를 하는 것인데, 우리가 흔히 아는 X 에서의 노말라이제이션과 처리 방법은 다르지만 궁극적인 목표는 같다.

정규화 작업을 통해서 데이터를 특정 범위 안으로 옮기고, 각 배치들의 학습 및 역전파시 기울기의 소실을 최소화하는 것이 주요 목표이다.

사용 방법은 간단하다. BatchNorm1d 를 만들 때 이전 신경망 개수에 따라서 지정한다. 각 신경망마다 학습 가능한 파라메터가 생성되기 때문이다. BatchNorm 은 정규 분포 공간으로 변환하도록 돕는다.

우리가 흔히 아는 데이터 셋의 분포를 정규 분포 평균 0 편차 1의 위치로 옮기기 위해, 데이터의 평균을 구해 빼고, 표준 편차만큼 나눈다. 그러한 작업이 batchNormalization 에 내장되어 있다.

forward 과정에서, RELU 이후에 BATCH 를 통과해주면 된다.

이 때 특이한 점은, BatchNormalization 은 정규 분포로 데이터를 이동한 뒤에, 다시 되돌아올 수 있게끔 하기 위해 파라메터를 지정한다. 즉 단순히 연산만 수행하는 것이 아니라, 학습 가능한 파라메터를 내장하고 있다.

위 코드는 직접 BatchNorm1D 클래스를 구현한 것이다. 즉 1번은 정규 분포를 구하기 위한 과정인 것이고, 2는 다시 원래대로 돌아갈 수 있는 scale 및 transition 을 제공하는 것이다. 이 값은 학습가능한 torch 텐서로 구성함으로써, 신경망이 필요에 따라 다시 이동할 수 있도록 한다.