Kas varjatud kihtidele juhusliku müra lisamist peetakse seadustamiseks? Mis vahe on selle tegemisel ning väljalangemise ja partii normaliseerimise lisamisel?


Vastus 1:

Jah, juhusliku müra lisamine peidetud kihtidele on seadistamine täpselt samamoodi nagu väljalangemine. Põhiline intuitsioon on siin see, et kui iga kihi närvivastus on mürarikas, tuleb treenimisel kohandada raskused eraldi kategooriatesse, mille kliirens on suurem kui müra. Seega, kui müra puudub, peaks katse ajal klassifitseerimine olema stabiilsem. See sarnaneb väga maksimaalse marginaali klassifitseerimise toimimisele ja me kõik teame, kui edukad on olnud maksimaalse marginaali tehnikad (nt tugivektorimasinad). Peate siiski olema ettevaatlik ja veenduma, et müra ei ületaks signaali.

Väljalangemist peetakse normaliseerimismeetodiks, kuna see täidab mudeli keskmistamist. See tähendab, et treenimise ajal on mudel konkreetsel ajahetkel tegelikult tõenäosusjaotus neuraalvõrkude mudelite klassis, kus raskused on fikseeritud, kuid mis tahes mudeli neuronitest võib puududa. Iga närvivõrgu üldise tõenäosuse määrab konkreetse neuroni olemasolu või puudumise individuaalne tõenäosus. See on seadustamine, kuna see arvutab kõigi esinemisjuhtude eelarvamuste keskmist, tasandades kulufunktsiooni.

Juhusliku müra lisamine peidetud kihile toimib samamoodi, kuid erineva tõenäosusjaotusega. Fikseeritud raskuste asemel on teil kindel topoloogia ja tõenäosusjaotus valib raskused juhuslikult vastavalt Gaussi jaotusele, mille keskpunkt on „tõeline” kaal, st raskus, mida te kõvakettal salvestad. See on jällegi mudeli keskmistamine ja sellel peaks olema regulatiivne mõju, hoiatusega, et müra (dispersioon) ei tohiks signaali üle koormata. Näiteks kui rakendate esimest korda BatchNormi, on teil enam-vähem tavaline normaalne väljundprofiil (ühikud, mille keskpunkt on null, variatsioon ühe) ja seejärel saate müra rakendada dispersiooniga, näiteks 0,1. Võite mängida variatsiooniga, et näha, mis töötab.

MUUDATUS: Kuna küsimuses mainiti BatchNormi, tahtsin juhtida tähelepanu sellele, et BatchNormi ​​ei kasutata seadustamiseks. See tähendab, et BatchNorm ei tasanda kulusid. Selle asemel lisatakse BatchNorm, et parandada vasturääkivuse toimimist. Sisuliselt hoiab see tagasiulatuva gradiendi muutmist liiga suureks või väikeseks reskalifitseerimise ja uuesti testimise kaudu; tehnikana on sellel sügavamad ühendused teise järgu optimeerimismeetoditega, mis üritavad modelleerida kulupinna kõverust. Nagu ma eespool mainisin, saab BatchNormi ​​kasutada ka suhtelise skaleerimise õigsuse tagamiseks, kui kavatsete närvitegevustele lisada juhuslikku müra.


Vastus 2:

Ma peaksin seda pigem optimeerimise trikkiks kui seadustamist.

Mõju peaks olema samaväärne stochasticity mõjuga SGD-s.

SGD ja selle inspiratsiooniks peetavad Monte Carlo meetodid väldivad kehvade kohalike miinuste takerumist, tehes iga kord-ajalt juhusliku sammu, selle asemel et rangelt järgida järseima laskumise suunda; või teeb nende erinevates kehastustes midagi samaväärset, nt lisab igale etapile juhusliku komponendi, selle asemel et perioodiliselt juhuslikku sammu teha.

Kui lisada kaaludele nõrk juhuslik müra, saavutatakse täpselt sama. [Vihje: Gradientide laskumine lisab raskustele ka iga iteratsiooni korral midagi!]


Vastus 3:

EDIT:

Gaussi jaotusega juhusliku müra lisamine iga kihi sisendandmetele võib muuta teie mudeli robustsemaks väikestes andmemuutustes, mis võimaldab teie võrgul müra signaalist paremini eristada. Nagu Zeeshan Zia ütles, oleks see sisuliselt korralik stohhastiline gradient. Seda seadustamist ma ikkagi ei kaaluks. See on rohkem tehnika, mis aitab teie mudelil õppida mustreid mürast signaalist eraldamiseks.

Väljalangemine keelab juhuslikult teatud osa sõlmedest igas passis varjatud kihis. See parandab võrku, kuna see sunnib teda õppima, kuidas samu mustreid mitmel viisil ära tunda, mis viib parema mudeli saamiseni.

Partii normaliseerimine on koht, kus viite sisendid kihti ja veenduge, et need kõik oleks normaliseeritud vahemikus 0 kuni 1. See aitab võrgul paremini õppida, kuna see hoiab gradiendi korraliku ühtlasemalt ja sujuvamalt. Sel viisil väldite miinuste ümber hüppamist, kuna teie kalle on liiga suur.