Ass addéiere Geräischer fir verstoppte Schichten als Regulariséierung ze addéieren? Wat ass den Ënnerscheed tëscht derbäigesat an dropout a batch Normaliséierung addéieren?


beäntweren 1:

Jo, zoufälleg Geräischer fir verstoppt Schichten addéieren ass eng Regulariséierung grad wéi Ausfall. Déi Schlësselintuitioun hei ass datt wann d'neural Äntwert op all Verréckelung haart ass, de Workout muss Gewiichter upassen fir eenzel Kategorien mat enger Distanz méi grouss wéi Kaméidi ze maachen. Dofir soll d'Klassifikatioun méi stabil sinn am Moment vu keng Kaméidi-Klassifikatioun. Dëst ass ganz ähnlech wéi d'Max Margin Klassifikatioun funktionnéiert, a mir all wëssen wéi erfollegräich Max Margin Techniken gewiescht sinn (z.B. Support Vector Machines). Dir musst awer sécher sinn datt de Geräischer d'Signal net iwwerwältegt.

Dropout gëtt als eng Regulariséierungsmethod ugesinn well et e Modell averaging mécht. Dat ass, während der Ausbildung, de Modell ass tatsächlech eng Probabilitéitsverdeelung irgendwann iwwer eng Klass vun neurale Netzwierkmodeller, an deenen d'Gewiichter fix sinn, awer ee vun den Neuronen am Modell feelt. Déi gesamt Probabilitéit vun all neuralt Netzwierk gëtt vun der individueller Probabilitéit bestëmmt datt eng bestëmmte Neuron präsent ass oder vermësst. Dëst ass eng Regulariséierung well et gëtt duerch d'Verzerrung vun den eenzelne Instanzen averaged, wat d'Käschtefunktioun glättet.

Zoufälleg Geräischer fir déi verstoppt Schicht addéieren funktionnéiert deeselwechte Wee, awer mat enger anerer Wahrscheinlechkeet Verdeelung. Amplaz vu fixe Gewiichter ze hunn, hutt Dir eng fix Topologie, an d'Wahrscheinlechkeetverdeelung wielt zoufälleg Gewiichter no enger Gaussescher Verdeelung déi op déi "richteg" Gewiichter zentréiert ass, also d'Gewiichter déi Dir op Ärer Festplack späichert. Dëst ass och e Modell averaging a soll e regléierende Afloss hunn, mat der Restriktioun datt de Geräischer (d'Variatioun) d'Signal net iwwerwanne sollten. Zum Beispill, wann Dir BatchNorm fir d'éischte Kéier benotzt, hutt Dir en ongeféier normale Standardoutputprofil (Eenheeten zentréiert op Null mat enger Varianz) an Dir kënnt duerno Geräischer mat enger Varianz vun 0,1 bewerben, zum Beispill. Dir kënnt mat der Varianz spillen fir ze kucken wat funktionnéiert.

EDIT: Zënter datt BatchNorm an der Fro ernimmt gouf, wollt ech drop hiweisen datt BatchNorm net wierklech fir Regulariséierung benotzt gëtt. Dat heescht, BatchNorm huet d'Käschte net glat. Amplaz gëtt BatchNorm derbäi fir d'Performance vun der Réckverbreedung ze verbesseren. Weesentlechen, verhënnert et datt de zréck-propagéierende Gradient ze grouss oder ze kleng gëtt andeems en zréckschalt an nei zentraliséiert. Als Technik huet et méi déif Verbindunge mat zweeter Uerdnungsoptimiséierungsmethoden déi probéieren d'Krümmung vun der Käschtefläch ze modelléieren. Wéi uewen erwähnt, kann BatchNorm och benotzt ginn fir sécherzestellen datt déi relativer Skaléierung richteg ass wann Dir zoufälleg Geräischer un neurale Aktivitéiten füügt.


beäntweren 2:

Ech giff et als Optimisatiouns-Trick anstatt eng Regulariséierung betruechten.

Den Effekt soll dem Effekt vun der Stochastizitéit am SGD entspriechen.

De SGD a seng Inspiratioun Monte Carlo Methoden vermeiden sech a schlechtem lokale Minima ze stiechen andeems se zoufälleg Schrëtt vun Zäit zu Zäit huelen anstatt strikt d'Richtung vun der steilster Ofstamung ze maachen. oder eppes equivalent an hire verschiddenen Inkarnatiounen ze maachen, z.B. B. Füügt e Stufkomponent un all Etapp anstatt eng zoufälleg Etapp regelméisseg ze maachen.

Füügt schwaach zoufälleg Geräischer op Gewiichter mécht genau datselwecht. [Bemierkung: De Gradient Ofstieg füügt eppes an d'Gewiichter an all Iteratioun!]


beäntweren 3:

EDIT:

Andeems Dir Gaussian verdeelt zoufälleg Geräischer an d'Inputdate vun all Schicht addéiere kënnt Äre Modell méi robust ginn op kleng Ännerungen an den Daten, sou datt Äert Netzwierk d'Rausche vum Signal besser z'ënnerscheeden. Wéi den Zeeshan Zia gesot huet, dëst wär essentiell e ordentleche stochastesche Gradient. Ech fannen dës Regulariséierung nach ëmmer net. Et ass méi eng Technik déi Äre Modell ka benotze fir Mustere ze léieren fir Geräischer vum Signal ze trennen.

Dropout deaktivéiert e bestëmmten Undeel vun de Wirbelen an engem verstoppten Niveau mat all Pass. Dëst verbessert d'Netzwierk well et muss léieren déi selwecht Musteren op verschidde Weeër ze erkennen, wat zu engem bessere Modell féiert.

An der Batchnormaliséierung huelt d'Inputen op engem Niveau a suergt datt se all tëscht 0 an 1 normaliséiert ginn. Dëst hëlleft dem Netzwierk besser ze léieren, well de Gradient méi anstänneg bleift a bleift. Dëse Wee vermeit Dir sprangt ronderëm Minima ze sprangen well Äre Hang ze grouss ass.