Lastbilslast grus

Detta kan bevisas officiellt och har förekommit i många artiklar, inklusive den ursprungliga LSTM-artikeln. Om så är fallet kommer våra lutningar inte att explodera och försvinna. Hur uppnås detta?

Anledningen till denna missuppfattning är ganska rimlig. I den ursprungliga formuleringen av LSTM var den rekursiva gradienten faktiskt lika med 1. Anledningen till att detta är så är att för att säkerställa överensstämmelse med denna ständiga ström av fel har gradientberäkningen trunkerats för att inte hoppa tillbaka till ingångarna eller kandidaterna. Här är vad de säger i den ursprungliga artikeln: för att säkerställa att felet inte fångas genom de interna tillstånden i minnesceller, som med den förkortade BPTT e.

Endast i minnesceller [celltillstånd] sprids fel tillbaka genom tidigare interna lastbilslast. Faktum är att trunkeringen av gradienter på detta sätt inte gjordes förrän om publiceringen av denna artikel av Alex Graves. Eftersom de flesta populära neurala nätverksramverk nu utför automatisk differentiering är det troligt att du också använder den fullständiga formuleringen av LSTM-gradienten!

Så är ovanstående argument givet till varför LSTMs bestämmer sig för att ändra den försvinnande gradienten när man använder en full gradient? Svaret är nej, i själva verket förblir det i princip detsamma. Det blir bara lite rörigt. Om vi tittar på hela LSTM-gradienten 4, för att förstå varför ingenting förändras när vi använder hela gradienten, måste vi titta på vad som händer lastbilslast den grus gradienten när vi accepterar hela gradienten.

Detta gör det möjligt för modellen att bestämma hur viktig varje grus är för det aktuella tillståndet och är användbar för prognoser. Dessa portar är vektorer som innehåller värden från 0 till 1. Dessa värden beräknas med hjälp av sigmoidaktiveringsfunktionen. Ett grus nära 0 betyder att porten är stängd och ingen information överförs, medan ett värde nära 1 betyder att porten är öppen och lastbilslast information överförs.

Flexibilitet: GRUs kan bearbeta sekvenser av olika längder och är lämpliga för applikationer där sekvenslängden kanske inte är fast eller känd i förväg. Några applikationer inkluderar: språkmodellering: Grus kan förutsäga sannolikheten för en ordsekvens eller nästa ord i en mening, vilket är användbart för uppgifter som textgenerering eller automatisk komplettering. Maskinöversättning: de kan användas för att översätta text från ett språk till ett annat genom att fånga sammanhanget för inmatningssekvensen.

Taligenkänning: Grus kan bearbeta ljuddata över tid för att transkribera talat språk till text. Tidsserieanalys: de är effektiva för att förutsäga framtida värden i tidsserier som aktiekurser eller väderprognoser. Slutsatsen av slutna återkommande enheter är ett kraftfullt verktyg i deep learning toolkit, särskilt för bearbetning av komplexa sekvensdata.

Deras förmåga att fånga långsiktiga beroenden och upprätthålla minnesform genom grindmekanismer gör dem lämpliga för ett brett spektrum av applikationer som inkluderar seriella ingångar.