Niyə lstm yoxa çıxan gradienti həll edir?

Mündəricat:

Niyə lstm yoxa çıxan gradienti həll edir?
Niyə lstm yoxa çıxan gradienti həll edir?

Video: Niyə lstm yoxa çıxan gradienti həll edir?

Video: Niyə lstm yoxa çıxan gradienti həll edir?
Video: Finance with Python! Portfolio Diversification and Risk 2024, Oktyabr
Anonim

LSTM-lər problemi unikal əlavə qradiyent strukturundan istifadə edərək həll edir, bura unutmaq qapısının aktivasiyalarına birbaşa çıxış daxil olmaqla, şəbəkəyə tez-tez qapıların yeniləməsindən istifadə edərək xəta qradiyentindən istənilən davranışı təşviq etməyə imkan verir. öyrənmə prosesinin hər addımında.

LSTM partlayan gradienti necə həll edir?

Çox qısa cavab: LSTM hüceyrə vəziyyətini (adətən c ilə işarələnir) və gizli təbəqəni/çıxışı (adətən h ilə işarələnir) ayırır və yalnız c-yə əlavə yeniləmələr edir, bu da c-də xatirələri daha sabit edir. Beləliklə, c-dən keçən qradiyent saxlanılır və onu itirmək çətindir (buna görə də ümumi qradiyenti yox etmək çətindir).

Uğurlanan qradiyent problemi necə həll edilə bilər?

Həlllər: Ən sadə həll yolu kiçik törəmə yaratmayan ReLU kimi digər aktivləşdirmə funksiyalarından istifadə etməkdir. Qalıq şəbəkələr başqa bir həlldir, çünki onlar birbaşa əvvəlki təbəqələrə qalıq əlaqələri təmin edir.

LSTM hansı problemi həll edir?

LSTM. LSTM (uzun qısamüddətli yaddaş üçün qısa) ilk növbədə geri yayılmada yoxa çıxan qradiyent problemini həll edir. LSTM-lər yadda saxlama prosesini idarə edən qapı mexanizmindən istifadə edirlər. LSTM-lərdə məlumat açılan və bağlanan qapılar vasitəsilə saxlanıla, yazıla və ya oxuna bilər.

Niyə LSTM-lər gradientlərinizin geriyə doğru keçiddən görünüşün yox olmasına mane olur?

Bunun səbəbi, bu sabit xəta axınını tətbiq etmək üçün giriş və ya namizəd qapılarına geri axmamaq üçün gradient hesablamasının kəsilməsidir.

Tövsiyə: