딥러닝에서 히든 층에 시그모이드를 사용하지 않는 이유 - 1 - Whitmem
딥러닝에서 히든 층에 시그모이드를 사용하지 않는 이유 - 1
AI Development Study
2025-04-01 20:49 게시 17d8088b5f9115fde901

0
0
36
이 페이지는 외부 공간에 무단 복제할 수 없으며 오직 있는 그대로 게시되며 부정확한 내용을 포함할 수 있습니다. 법률이 허용하는 한 가이드 라인에 맞춰 게시 내용을 인용하거나 출처로 표기할 수 있습니다.
This page is not to be distributed to external services; it is provided as is and may contain inaccuracies.
이 내용은 신경망 활성화 함수를 이론으로 공부하면서 고민한 내용을 정리한 것이다. 실제 테스트하는 내용은 추후 게시하고자 한다.
예전 인공지능 딥러닝 수업에서 활성화 함수의 종류는 대표적으로 sigmoid, RELU, Leaky Relu, softmax 등이 존재한다고 배운 기억이 있다.
활성화 함수는 신경 다음의 아웃풋에 부착하는 함수로, 이를 사용하여 각 결괏값이 원하는 방향으로 밀집되게끔 유도하거나 범위를 제한/의도할 수도 있다.
보통 시그모이드 함수는 아웃풋 층 (출력층)에 넣기만 하고 히든(은닉)층에는 넣지 않는다. 은닉층에서 역전파하는 과정에서 기울기가 소실될 우려가 존재하기 때문이다.
왼쪽은 선형 활성화 함수를, 오른쪽은 시그모이드 활성화 함수를 나타낸 것이다.
상기 활성화 함수에, 임의 데이터를 OUT으로 넘긴다고 가정하자.
왼쪽 선형 함수는 당연히 y=x 이므로, 아웃풋 그대로 나오고, 오른쪽 시그모이드 함수는 입력 x에 대해 시그모이드 연산이 수행된 결과 y 가 아웃풋으로 나오는 것을 확인할 수 있다. 신경망의 미분 과정을 보면 알 수 있다시피, 활성화 함수의 미분 정보, 즉 활성화 함수의 기울기는 이후 W 가중치를 미분할 때 곱해지기 때문에, 기울기가 0에 가까우면 가까울수록 추후 연쇄적으로 연산되는 기울기도 0에 수렴한다.
즉 위 과정에서 기울기가 0에 다가갈수록, 앞에 이어진 미분 값을 잃게 되거나 영향력이 약해진다.
RELU 활성화 함수는, 음수는 0으로, 양수는 선형으로 처리하므로, 양수 영역에서는 기울기를 제공하고, 음수에서는 0 값을 반환하여 0으로 수렴되도록 한다. (즉 음수로 넘어가는 일부 뉴런만 죽는 뉴런)
그렇기 때문에 대부분 히든층에서 시그모이드 활성화 함수를 사용하지 않는 것이다.
사용하더라도 당장의 역전파에는 문제가 없으나, 에폭을 반복하면 반복할수록 기울기를 손실할 수 있다.
댓글 0개
댓글은 일회용 패스워드가 발급되며 사이트 이용 약관에 동의로 간주됩니다.
확인
Whitmemit 개인 일지 블로그는 개인이 운영하는 정보 공유 공간으로 사용자의 민감한 개인 정보를 직접 요구하거나 요청하지 않습니다. 기본적인 사이트 방문시 처리되는 처리 정보에 대해서는 '사이트 처리 방침'을 참고하십시오. 추가적인 기능의 제공을 위하여 쿠키 정보를 사용하고 있습니다. Whitmemit 에서 처리하는 정보는 식별 용도로 사용되며 기타 글꼴 및 폰트 라이브러리에서 쿠키 정보를 사용할 수 있습니다.
이 자료는 모두 필수 자료로 간주되며, 사이트 이용을 하거나, 탐색하는 경우 동의로 간주합니다.