Pytorch 내 모델의 파라메터 구조 및 가중치 데이터 구조, 옵티마이저 만들기 - Whitmem
Pytorch 내 모델의 파라메터 구조 및 가중치 데이터 구조, 옵티마이저 만들기
AI 이론 및 개발
2025-04-13 17:29 게시 25f9bcd36ec78aa39ce8

0
0
39
이 페이지는 외부 공간에 무단 복제할 수 없으며 오직 있는 그대로 게시되며 부정확한 내용을 포함할 수 있습니다. 법률이 허용하는 한 가이드 라인에 맞춰 게시 내용을 인용하거나 출처로 표기할 수 있습니다.
This page is not to be distributed to external services; it is provided as is and may contain inaccuracies.
Pytorch 에서 기본적인 기울기 미분 과정 및 직접 경사 하강 수행하기
보통 torch 에서 신경망을 구성하기 위해서 nn.Module 을 상속하고, _init_ 에 기본적인 내부 신경망 처리를 위한 인스턴스 정보를 보관, forward 오버라이드 공간에 실제 연산 정보를 삽입한다.
이 신경망을 사용하기 위해서는 신경망 클래스를 인스턴스화 Adam 옵티마이저에 넘기는 식으로 이용한다. 그러면 adam 은 step 단계에서 신경망 내 파라메터들의 기울기 값에 따라 정해진 알고리즘대로 최적화를 수행한다.
아무튼 결과적으로는 미분 값이 제일 중요한데, 보통 우리는 옵티마이저를 사용할 때 신경망의 파라메터 정보를 넘긴다.
a.parameters() 는 해당 신경망에 존재하는 파라메터 정보들을 generator로 넘기는 메서드이다.
이 파라메터 정보를 list화 하여 출력해보면 어떤 임의의 값들이 출력되는 것을 확인할 수 있는데, 신경망에 존재하는 가중치 정보와 바이어스 정보임을 확인할 수 있다.
예를 들어 상기 a 신경망 내부에는 2개의 선형 레이어가 포함되어 있다.
1->5, 5->1 이므로, 첫 번째 Linear 신경에서는 5개의 Weight 와 5개 Bias가 존재한다. 다음 두 번째 Linear 신경에서는 5개의 Weight와 1개의 Bias가 존재한다.
그림으로 나타내면 위와 같다. 첫 번째 레이어는 가중치 선이 5개 존재하고, 바이어스는 1의 값을 가지는 신경망으로 간주하여 다음 라인으로 이어주면 된다. 두 번째 레이어는 가중치 5개가 존재하고, 바이어스 한개가 존재하므로, W,B 순으로 개수를 나타내면 5,5,5,1 이다.
보면 개수가 5,5,5,1 순인 것을 확인할 수 있다.
이 값을 loss 를 통해 역전파를 수행하면, 미분 및 기울기 정보가 생성된다. 이 값은 위 파라메터 정보에 grad가 저장된다.
위 파라메터 목록을 순회하면서 grad 정보를 출력해보면, 각 미분 정보가 출력되는 것을 확인할 수 있다. adam() 은 이 정보를 조회하여 기울기 방향으로 최적화하는 것이라고 보면 된다.
신경망이 2개 이상인 경우에도, 한 신경망에 포함된 경우 parameters 로 가져오면 하위 포함된 파라메터 목록도 가져올 수 있다.
직접 Optimizer 만들어보기
흔히 알려진 방식인 SGD 즉 경사 하강 방식을 사용해서 가중치 값을 미분된 기울기 * 러닝 레이트 값을 연산할 수 있다.
100회 에폭을 반복하면서 순전파를 수행하고, 임의로 만든 옵티마이저를 수행한다.
Loss를 출력해보면 정상적으로 경사 하강이 수행되는 것을 확인할 수 있다.
댓글 0개
댓글을 작성하는 경우 댓글 처리 방침에 동의하는 것으로 간주됩니다. 댓글을 작성하면 일회용 인증키가 발급되며, 해당 키를 분실하는 경우 댓글을 제거할 수 없습니다. 댓글을 작성하면 사용자 IP가 영구적으로 기록 및 부분 공개됩니다.
확인
Whitmemit 개인 일지 블로그는 개인이 운영하는 정보 공유 공간으로 사용자의 민감한 개인 정보를 직접 요구하거나 요청하지 않습니다. 기본적인 사이트 방문시 처리되는 처리 정보에 대해서는 '사이트 처리 방침'을 참고하십시오. 추가적인 기능의 제공을 위하여 쿠키 정보를 사용하고 있습니다. Whitmemit 에서 처리하는 정보는 식별 용도로 사용되며 기타 글꼴 및 폰트 라이브러리에서 쿠키 정보를 사용할 수 있습니다.
이 자료는 모두 필수 자료로 간주되며, 사이트 이용을 하거나, 탐색하는 경우 동의로 간주합니다.