딥러닝에서 히든 층에 시그모이드를 사용하지 않는 이유 - 1

이 내용은 신경망 활성화 함수를 이론으로 공부하면서 고민한 내용을 정리한 것이다. 실제 테스트하는 내용은 추후 게시하고자 한다.

예전 인공지능 딥러닝 수업에서 활성화 함수의 종류는 대표적으로 sigmoid, RELU, Leaky Relu, softmax 등이 존재한다고 배운 기억이 있다.

활성화 함수는 신경 다음의 아웃풋에 부착하는 함수로, 이를 사용하여 각 결괏값이 원하는 방향으로 밀집되게끔 유도하거나 범위를 제한/의도할 수도 있다.

보통 시그모이드 함수는 아웃풋 층 (출력층)에 넣기만 하고 히든(은닉)층에는 넣지 않는다. 은닉층에서 역전파하는 과정에서 기울기가 소실될 우려가 존재하기 때문이다.

왼쪽은 선형 활성화 함수를, 오른쪽은 시그모이드 활성화 함수를 나타낸 것이다.

상기 활성화 함수에, 임의 데이터를 OUT으로 넘긴다고 가정하자.

왼쪽 선형 함수는 당연히 y=x 이므로, 아웃풋 그대로 나오고, 오른쪽 시그모이드 함수는 입력 x에 대해 시그모이드 연산이 수행된 결과 y 가 아웃풋으로 나오는 것을 확인할 수 있다. 신경망의 미분 과정을 보면 알 수 있다시피, 활성화 함수의 미분 정보, 즉 활성화 함수의 기울기는 이후 W 가중치를 미분할 때 곱해지기 때문에, 기울기가 0에 가까우면 가까울수록 추후 연쇄적으로 연산되는 기울기도 0에 수렴한다.

즉 위 과정에서 기울기가 0에 다가갈수록, 앞에 이어진 미분 값을 잃게 되거나 영향력이 약해진다.

RELU 활성화 함수는, 음수는 0으로, 양수는 선형으로 처리하므로, 양수 영역에서는 기울기를 제공하고, 음수에서는 0 값을 반환하여 0으로 수렴되도록 한다. (즉 음수로 넘어가는 일부 뉴런만 죽는 뉴런)

그렇기 때문에 대부분 히든층에서 시그모이드 활성화 함수를 사용하지 않는 것이다.

사용하더라도 당장의 역전파에는 문제가 없으나, 에폭을 반복하면 반복할수록 기울기를 손실할 수 있다.