헷갈리면 들어와서 볼 수 있도록 정리한 글. 1. Stochastic Gradient Descent Gradient Descent 방법을 mini batch 단위로 적용시키는 방법. 가장 기본 방법. 2. Momentum 이전에 적용했던 gradient 값도 반영시키는 방법. \(v_{t}\)는 적용될 gradient의 크기 혹은 속도로 표현됨. 3. Adagrad gradient의 제곱을 이용하여 학습 방향을 조정. (다른 곳에선 \(h\)로 표기하는데 식을 가져온 사이트에선 \(g\)로 표기했다.) 이 때 제곱은 각 요소들의 제곱으로 사실은 저런 표현은 헷갈리는 표현이다. $$ \bigtriangledown_{\theta}\mathcal{L}(\theta)^{2} = \bigtriangledown_{..