Introduction
인공지능 신경망을 훈련시키는 데 있어서 가장 중요한 4가지
- Dataset
- Model
- Loss Function
- Algorithm
Evolution of Gradient Descent Optimizer
1. Stochastic Gradient Descent (SGD)
$ W_{t+1} = W_t - \eta \bigtriangledown L(W_t) $
가중치에서 기울기만큼 뺀다
단점:
- Local Minima에서 빠져나오기 어려움
- Saddle Point(안장점)에서 멈출 수 있음
- 적절한 학습률 (learning rate)를 찾기 어려움
2. Momentum
$ m_t = \mu m_{t-1} + \nabla L(W_t) $
$ W_{t+1} = W_t - \eta m_t $
관성처럼 이전 스텝에서 움직인 만큼 조금 더 움직인다
장점 :
- 학습률이 너무 커서 튀는 현상이 감소
단점 :
- 관성때문에 Minimum에서 수렴이 어려움
3. Nesterov Accelerated Gradient (NAG)
$ m_t = \mu m_{t-1} + \eta \nabla L(W_t - \mu m_{t-1}) $
$ W_{t+1} = W_t - \eta m_t $
관성으로 한번 움직인 자리에서 기울기를 계산한다
장점 :
- 최소점을 지나 다시 올라가려는 관성이 약화한다
- Minimum에서 수렴이 잘 안되는 Momentum의 단점을 해결
4. Adaptive Gradient (AdaGrad)
$ W_{t+1} = W_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \nabla L(W_t) $
$ G_t = \sum_{\tau=1}^{t} (\nabla L(W_{\tau}))^2 $
각 매개변수에 서로 다른 학습률 적용
적게 변한 매개변수는 많이, 많이 변한 매개변수는 적게 변하게 설정
장점:
- 데이터셋에 불균형이 있어도 잘 학습된다
단점:
- $G_t$가 계속 커지기 때문에 나중에는 학습이 거의 진행되지 않는다
5. Root Mean Square Propagation (RMSProp)
$ G_t = \gamma G_{t-1} + (1 - \gamma) \left( \frac{\nabla L(W_t)}{\eta} \right)^2 $
$ W_{t+1} = W_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \nabla L(W_t) $
기울기 제곱의 이동평균을 사용
장점:
- AdaGrad에서 학습률이 0에 수렴하는 문제를 해결
Adam Optimizer
Algorithm
Momentum과 Adaptive한 방법을 모두 사용
$ m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla L(W_t) $
$ v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla L(W_t))^2 $
$ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} $
$ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} $
$ W_{t+1} = W_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t = W_t - \frac{\eta}{\sqrt{v_t + \epsilon} \sqrt{1 - \beta_2^t}} \frac{m_t}{1 - \beta_1^t} $
$m_t$와 $v_t$를 $g_t$, $g_t^2$의 추정량으로 사용하기 위함
$m_0 = 0$ , $v_0 = 0$ 이므로 $m_t$와 $v_t$의 불편추정량을 구하는 과정
Experiment
'AI' 카테고리의 다른 글
논문 리뷰 - Prodigy: An Expeditiously AdaptiveParameter-Free Learner (0) | 2024.04.17 |
---|---|
논문 리뷰 - bGPT : Beyond Language Models: Byte Models are Digital World Simulators (0) | 2024.04.14 |
논문 리뷰 - DenseFormer: Enhancing Information Flow inTransformers via Depth Weighted Averaging (0) | 2024.04.08 |
모개숲 딥러닝 스터디 - 5. Segmentation Anything (0) | 2024.04.04 |
모개숲 딥러닝 스터디 - 4. Nightshade (0) | 2024.03.29 |