반응형

경사 하강법이란?

학습을 위한 최적의 파라미터를 찾기 위해, 미분을 이용하는 방법

 

경사 하강법의 종류

1) 배치 경사 하강법 (Batch Gradient Descent)

- 전체 훈련 데이터 셋을 사용하여 한 번의 기울기를 계산하고, 파라미터를 에폭 당 1회 업데이트

- 안정적이며, 정확한 기울기를 계산하지만 매우 큰 데이터세트의 경우 계산 비용이 높아지고, 메모리 사용량 증가

 

2) 확률적 경사 하강법 (Stochastic Gradient Descent, SGD)

- 매 반복마다 한 개의 데이터 포인트를 사용하여 기울기 계산, 파라미터를 에폭 당 N회 업데이트

- 계산이 빠르고, 적은 메모리로도 수행, 자주 업데이트하므로 최적화 과정에서 지역 최솟값 탈출 가능

- 기울기 변동이 크기 때문에 손실 함수의 수렴이 불안정함

 

3) 미니배치 경사 하강법 (Mini-batch Gradient Descent)

- 훈련 데이터세트를 작은 배치로 나누어 각 배치에 대해 기울기를 계산하고 파라미터를 에폭 당 N/B회 업데이트

- Batch와 SGD의 절충안. 계산 효율성과 안정성을 모두 제공하지만 배치 크기 설정에 따라 성능이 달라질 수 있음

반응형
복사했습니다!