본문 바로가기

RNN2

6장 6.1 RNN의 문제점 6.2 기울기 소실과 LSTM 6.3 LSTM 구현 6.4 LSTM을 사용한 언어 모델 6.5 RNNLM 추가 개선 6.6 정리 5장에서 본 RNN은 장기 의존 관계를 잘 학습할 수 없다. 이번 장에서는 RNN을 대신하는 계층으로써 LSTM과 GRU와 같은 게이트가 추가된 RNN을 소개한다. 6.1 RNN의 문제점 BPTT에서 기울기 소실 혹은 기울기 폭발이 일어나기 때문에 RNN은 장기 의존 관계를 잘 학습하지 못한다. 1) RNN 복습 RNN은 순환 경로를 가지고 있다. RNN 계층은 시계열 데이터인 x_t를 입력하면 h_t를 출력한다. 이 h_t는 RNN 계층의 은닉 상태라고 하여 과거 정보를 저장한다. RNN의 특징은 바로 이전 시각의 은닉 상태를 이용한다는 점이다. 2) .. 2023. 8. 14.
5장 5.1 확률과 언어 모델 5.2 RNN이란 5.3 RNN 구현 5.4 시계열 데이터 처리 계층 구현 5.5 RNNLM 학습과 평가 5.6 정리 지금까지 살펴본 신경망은 피드포워드라는 유형의 신경망. 피드포워드란 흐름이 단방향인 신경망이다. 피드포워드 신경망은 구성이 단순하여 구조를 이해하기 쉽고 많은 문제에 응용이 가능하다. 그러나 피드포워드 신경망은 시계열 데이터의 성질을 충분히 학습할 수 없다. => 순환신경망 RNN 등장 5.1 확률과 언어 모델 1) word2vec을 확률 관점에서 바라보다. 지금까지는 맥락을 항상 좌우 대칭으로 생각해왔다. 맥락을 왼쪽 윈도우만 고려보자 이 경우 CBOW 모델이 출력할 확률이다. CBOW모델이 다루는 손실 함수이다. (교차 엔트로피 오차에 의해 유도한 결과) 2).. 2023. 8. 13.