본문 바로가기

밑바닥부터 시작하는 딥러닝2

6장 6.1 RNN의 문제점 6.2 기울기 소실과 LSTM 6.3 LSTM 구현 6.4 LSTM을 사용한 언어 모델 6.5 RNNLM 추가 개선 6.6 정리 5장에서 본 RNN은 장기 의존 관계를 잘 학습할 수 없다. 이번 장에서는 RNN을 대신하는 계층으로써 LSTM과 GRU와 같은 게이트가 추가된 RNN을 소개한다. 6.1 RNN의 문제점 BPTT에서 기울기 소실 혹은 기울기 폭발이 일어나기 때문에 RNN은 장기 의존 관계를 잘 학습하지 못한다. 1) RNN 복습 RNN은 순환 경로를 가지고 있다. RNN 계층은 시계열 데이터인 x_t를 입력하면 h_t를 출력한다. 이 h_t는 RNN 계층의 은닉 상태라고 하여 과거 정보를 저장한다. RNN의 특징은 바로 이전 시각의 은닉 상태를 이용한다는 점이다. 2) .. 2023. 8. 14.
6장 6.1 매개변수 갱신 6.2 가중치의 초기값 6.3 배치정규화 6.4 바른학습을 위해 6.5 정리 6.1 매개변수 갱신 신경망의 학습 목적은 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것 = 매개변수의 최적값을 찾는 문제 = 최적화 매개변수 공간은 매우 넓고 복잡해 최적화는 어려운 문제이다. 우리는 지금까지 최적의 매개변수 값을 찾는 단서로 매개변수의 기울기(미분)를 이용했다. 매개변수의 기울기를 구해 기울어진 방향으로 매개변수 값을 갱신하는 일을 진행해 최적의 값으로 다가간다. 이것이 확률적 경사 하강법(SGD)이다. SGD외의 다른 최적화 기법을 소개한다. 1) 확률적 경사 하강법 (SGD) W : 갱신할 가중치 매개변수 aL/aW은 W에 대한 손실함수의 기울기 η : 학습률 class SG.. 2023. 6. 22.