Derin öğrenme uygulamalarında, öğrenme işleminin sağlıklı bir şekilde sonuçlanması için hata fonksiyonunun mutlak minimum değerinin bulunması gerekmektedir. Bu işlem, optimizasyon yöntemleri kullanılarak gerçekleştirilmektedir. Optimizasyon, ağın ürettiği çıkış değeri ile gerçek değer arasındaki farkı yani hatayı en küçük yapmak için kullanılan yöntemlerdir.
Yapay sinir ağlarının optimizasyonu için en çok kullanılan yöntemlerden biri gradyan inişidir (Gradient descent). Tek iterasyonda kullanılan veri setinin büyüklüğüne bağlı olarak üç adet gradyan inişi yöntemi (Batch Gradient Descent, Stochastic Gradient Descent, Mini-Batch Gradient Descent) vardır. Gradyan inişi yöntemini esas alan çeşitli algoritmalar (Rmsprop, Adagrad, Adam, Nadam) mevcuttur (Kurt, 2018).
Optimizasyon algoritmalarında öğrenme katsayısının ayarlanması modelin eğitiminde kritik bir rol oynamaktadır. Ancak, her algoritma ile modeldeki öğrenme katsayısını tam olarak ayarlamak mümkün değildir. Bu problemi çözmek için gradyan yöntemlerinin çeşitli varyasyonları önerilmiştir.
- Sgd
- Adagrad
- Rmsprop
- Adam
- Nadam
Kaynaklar
- https://dergipark.org.tr/en/download/article-file/821607
- https://atcold.github.io/pytorch-Deep-Learning/tr/week05/05-2/