„KooperativRendszerekZHkerdesekkigyujtve” változatai közötti eltérés

A lap jelenlegi, 2016. március 29., 04:59-kori változata

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót

Összegyűjtött kérdések a Zhig

Kérlek javítsátok, és bővítsétek, azért lett wikilap, mert egy doc-ot mindenki lusta bővíteni, és javítani.

Nagy része a KTR_tanuls.docx-ből, és itt lévő Zh-kból. Sokszor több kérdés egybe van véve, mert nem ugyanazt kérdezik más szóval, hanem mert egy adott témára úgy kérdez rá, hogy átfedés van köztük.

Adja meg az Adaline iteratív tanuló eljárását! Adja meg azokat a feltételeket is, amelyek fennállta esetén az iteratív megoldás konvergens lesz! Adja meg, hogy milyen kritérium függvény alapján fogalmazzuk meg az optimumfeladatot!

Az Adaline optimális súlyvektorának meghatározására mind az analitius összefüggés, mint az iteratív tanuló eljárás létezik. Adja meg a kétféle meghatározás összefüggését, és azokat, a feltételeket, amelyek fennállta esetén az iteratív megoldás az analitikus eredményéhez tart! Azt is adja meg, hogy milyen kritériumfüggvény alapján fogalmazzuk meg az optimumfeladatot!*

Származtassa az LMS algoritmust és adja meg a konvergencia feltételeit! Mi a sajátérték fizikai jelentése?

LMS (Least Mean Sqare): Olyan iteratív eljárás, amely mindig a pillanatnyi négyzetes hiba csökkentésének irányába módosítja az aktuális paramétervektort.

[math] w(k+1) = w(k) + 2 \mu \epsilon (k) x (k) [/math]

ahol a [math] w [/math] súlyvektor értéke, a [math] \mu [/math] a bátorsági tényező, az [math] \epsilon [/math] a hiba értéke és az [math] x [/math] a bemenet.

A konvergencia feltétele:

[math] 0 \lt \mu \lt \frac{1}{{\lambda}_{max}} [/math]

Sokkal több van a fentebb említett docx-ben, aki jobban érti írja be ide

Hasonlítsa össze a Perceptron-t és az Adaline-t felépítés, képesség, tanítási algoritmus szempontjából!

A két neuron felépítése lényegében azonos: a bemeneti [math] (x_1, x_2, ..., x_N) [/math] vektort kiegészítjük egy [math] x_0 = 1 [/math] elemmel (ez azért kell, hogy a csupa nulla bemenő vektorra is tudjunk nemnulla kimenetet generálni), majd az így kapott [math] \underline{x} [/math] vektort beszorozzuk a súlyokat tartalmazó [math] \underline{w}^T [/math] vektorral. Az [math] s = \underline{w}^T \underline{x} [/math] értéket pedig küszöbözzük: [math] y = sgn(\underline{w}^T \underline{x}) [/math] (pozitív s-re 1, negatívra -1 lesz a kimenet).
A perceptron tanításához a neuron kimenetét (y) vetjük össze a kívánt kimenettel (d). Egy tanítópont hibája: [math] \varepsilon = d - y [/math], a súlyvektor módosítása: [math] \underline{w}' = \underline{w} + \alpha \varepsilon \underline{x} [/math] (alfa a tanítási tényező). Sorra vesszük a tanítópontokat, és addig ismételgetjük a korrekciót, amíg mindegyik tanítópontra megfelelő lesz a kimenet. Csak lineárisan szeparálható pontok osztályozására működik (azaz, ha létezik a pontokat tartalmazó N-dimenziós térben olyan hipersík, aminek egyik oldalán van az összes +1-es kimenetű pont, a másik oldalán a többi). Ez esetben belátható, hogy véges lépésben egy jó súlyvektorhoz konvergál az eljárás.
Az adaline tanítása annyiban más, hogy nem y-nal vetjük össze d-t, hanem s-sel, vagyis a küszöbözés előtti súlyozott összeggel. Egy tanítópont hibája: [math] \varepsilon = d - s [/math], az összes pont átlagos négyzetes hibája:

[math] \frac{1}{P} \sum_{i=0}^P (d_i - \underline{w}^T \underline{x}_i)^2 = \frac{1}{P}(\underline{d} - \underline{\underline{X}}\underline{w})^T (\underline{d} - \underline{\underline{X}}\underline{w}) [/math]

, ezt akarjuk minimalizálni. (P a tanítópontok száma, X a vektoraikból mint sorvektorokból képzett mátrix, d a kivánt kimenetekből képzett oszlopvektor). A minimumhelyén a gradiense (a súlyvektor függvényében) 0 kell legyen, innen kifejezve a súlyvektort: [math] \underline{w} = (\underline{\underline{X}}^T \underline{\underline{X}})^{-1} \underline{\underline{X}}^T \underline{d} [/math]. Itt nincs iteráció (bár a gradiens nullhelyének meghatározása nagyméretű mátrixok esetén iteratív módszerekkel célszerűbb), és nem csak lineárisan szeparálható pontoknál működik, viszont semmi garancia nincs arra, hogy jól fog minden pontot osztályozni, mert csak a lineáris rész négyzetes hibáját minimalizáltuk, nem a rosszul osztályzott pontok számát.

Mi a Wiener-Hopf összefüggés, és milyen esetben alkalmazható egy tanuló architektúra szabad paramétereinek meghatározására? Pontosan fogalmazza meg azokat az általános feltételeket, amelyek mellett az összefüggés alkalmazható, és az összefüggés minden elemét pontosan definiálja! Optimális megoldást ad-e az eljárás? Ha igen, milyen értelemben, ha nem, miért nem?

Lehet-e analitikus tanítást alkalmazni az alábbi neurális hálózatoknál, ha az összes tanítópont a rendelkezésünkre áll és négyzetes hibafüggvényt alkalmazunk: lineáris kimeneti rétegekkel rendelkező egyrétegű MLP, RBF, CMAC? Ha igen, adja meg az analitikus összefüggéseket, ha nem indokolja meg, hogy miért nem!

Egyes bázisfüggvényes hálózatoknál (RBF, CMAC) lehetőség van a súlyvektor(ok) analitikus meghatározására is. Adja meg az analitikus összefüggéseket, és azt is, hogy milyen feltételei vannak az adott összefüggések alapján történő súlymeghatározásnak!*

MLP: ?
RBF: lehet analitikus tanítást alkalmazni. Összefüggés [math] w^{*} = G^{-1} d = ( G ^{T}G )^{-1} G^{T} d [/math]. A feltétele, hogy ismernünk kell az összes tanítópontot.
CMAC: lehet analitikus tanítás, mert: A CMAC súlyainek meghatározásához a következő egyenletet kell megoldani [math] \underline {\underline A} \underline w = \underline d [/math], ahol a w a súlyok oszlopvektora, d a tanítópontokban kívánt kimenetekből álló oszlopvektor. Az A mátrix azt írja le, melyik tanítópont melyik neuronokat aktiválja (vagyis melyik tartományba esik bele). Az i. sor j. elem adja meg, hogy az i. tanítópont j. neuront aktiválja-e, a baloldalon álló szorzat a tanítópontok tényleges aktivációinak oszlopvektora. [math] w^{*} = A^{-1} d = ( A^{T} A) ^{-1} A^{T} d [/math] valamint [math] y = T w^{*} = T A ^{T} ( A A ^{T})^{-1} d = T A^{T}B d [/math]. E feltétel ehhez, hogy a tanítópontok egyenletesen, egymástól pontosan egységnyi távolságra helyezkednek el.

Mi a szoft margó(margin, tartaléksáv) jelentése, szerepe és a jelentősége az SVM-nél? Hogyan kell értelmezni a margót nemlineáris osztályozási feladatnál?

Mi a margó(margin, tartaléksáv) szerepe és jelentősége az SVM-nél? Hogyan kell értelmezni a margót a nemlineáris osztályozási feladatnál? Hogyan módosul ez a szerep, ha az SVM származtatásnál gyengítő (slack) változót is használunk?*

Szupport vektor gépeknél osztályozási feladat esetén mi biztosítja, hogy az elválasztandó osztályok között egy biztonsági sáv alakuljon ki? Adja meg azt a matematikai összefüggést, ami biztosítja a biztonsági sávot. Hogyan biztosítható, hogy a biztonsági sáv maximális értéket vegyen fel? Mit lehet tenni, ha a tanítópontok elhelyezkedése olyan, hogy a két osztály pontjai között nem lehet biztonsági sávot kialakítani?

Mi a szerepe a gyengítő változóknak Szupport Vektor Gépeknél? Adja meg a nemlineáris osztályozási feladat optimalizálandó kritériumfüggvényét, ha gyengítő változót is használ!*

SVM: A szupport vektor gépek olyan kernel gépek, melyek a statisztikus tanuláselmélet eredményeit is hasznosítják. Alapváltozatuk lineáris szeparálásra képes, amely azonban kiterjeszthető nemlineáris szeparálásra és nemlineáris regressziós feladatokra is. A lineáris kétosztályos osztályozási feladat megoldását adó szupport vektor gép ezt az „optimális" elválasztó felületet határozza meg. A vektorgépek a lineárisan szeparálható feladatoknál olyan optimális megoldásra törekednek, melyek az osztályozásnál az osztályozó hipersíktól az átlagos tanítópont távolság maximális legyen.

Margin: Optimális lineáris szeparálásnak azt a megoldást tekintjük, amikor az elválasztó egyenes (sík, hipersík) a két osztályba tartozó tanítópontok között a pontoktól a lehető legnagyobb távolságra helyezkedik el. A pontok között középre elhelyezett szeparáló felületet a tanító pontoktól egy margó (margin), azaz egy biztonsági sáv választja el, ezért az így megoldható feladatokat maximális tartalékot vagy maximális margót biztosító lineárisan szeparálható osztályozási feladatoknak is nevezzük. A lineárisan nem szeparálható osztályozási feladatoknál a margin helyett szoft-margint értelmezünk.

Soft Margin: Ha megengedjük, hogy a biztonsági sávban is legyenek tanítópontok, miközben továbbra is cél a lehető legnagyobb margó biztosítása, ún. lágy vagy szoft margójú megoldásról beszélünk. Azoknál a pontoknál amelyek a biztonsági sávon kívül helyezkednek le a maximális margójú osztályozást biztosító [math] d_{i} (w^{T} x_i + b ) \geq 1 [/math] egyenlőség áll fenn. Az ilyen mintapontokra vonatkozó, az előző egyenlőtlenségnek megfelelő formális kapcsolat ún. gyengítő [math] \epsilon [/math] változók bevezetésével lehetséges. A gyengítő változók bevezetése lehetővé teszi, hogy a fenti összefüggés az egyes tanítópontoknál különböző mértékben gyengítve érvényesüljön. Ennek megfelelően az összes pontra most a következő egyenlőtlenség ítható fel: [math] d_i (w^{T} x_i + b ) \geq 1 - {\epsilon}_i [/math]

Azon tanítópontoknál, ahol [math] \epsilon = 0 [/math] visszakapjuk az alapfeladatot. Ha [math] 0 \lt \epsilon \lt 1 [/math] , az adott tanítópont a hipersík megfelelő oldalán, de a biztonsági sávban helyezkedik el, ha [math] \epsilon \gt 1 [/math]

az adott tanítópont a sík ellenkező (hibás) oldalán van. Saját szavakkal: Egy plusz tanítóponthoz kötött változó segítségével elértük, hogy az eredeti képletünk újra minden tanítópontban igaz legyen.

Egy NFIR(FIR-MPL) hálózat felépítése az abrán látható. A vastag szaggatott vonallal jelölt részek a FIR szűrők, ahol 2 késleltető elem és 3 súly van. Adja meg a háló időben kiterített változatát (virtuális háló) és pontokba szedve adja meg a tanítás lépéseit!

Ehhez nincs ábra...

Mit jelent az időbeli kiterítés olyan NFIR háló tanításánál, ahol egy MLP súlyai helyén FIR szűrőket alkalmazunk?

Erről van 2 beszkennelt oldalt a docx-ben...

Mi a kernel trükk és mi a jelentősége?

Mit nevezünk kernel trükknek és mi a jelentősége? Alkalmazható-e a kernel trükk az ismert előrecsatolt hálók (lineáris súlyozott összeg, MLP, RBF, CMAC) esetében? Amennyiben lehet kernel trükköt alkalmazni, meg tudja-e adni a kernel függvényt az egyes esetekben? Adja meg a kernel függvény meghatározásnának általános módját minden olyan esetben, ahol a háló leképzése kerneles formában is megadható, és ahol lehet, adja meg a kernel függvényt explicit formában is!*

Alapból a kimenetet a következő összefüggéssel állítjuk elő:

[math] y (x) = \sum_{i=0}^{M} w_i \varphi _i ( x ) = w ^{T} \varphi ( x ) [/math]

A kernel trükk segítségével azonban ezt a függvényt átalakítjuk a következő formába:

[math] y (x) = \varphi ( x ) ^{T} \phi ^{T} \alpha = \sum^{P}_{i=1} \alpha _i ( \varphi ( x ) ^{T} \varphi ( x _i ) ) = \sum^{P}_{i=1} \alpha _i K _i ( \varphi ( x )) [/math]

[math] \varphi (x )^{T} \varphi ( x_i ) = K_i ( \varphi ( x )) = K (x , X_i ) [/math]

Amit az a második összefüggésből is látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, akár végtelen is lehet, ami a (6.13) szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné is tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk elérni, hogy a megoldás komplexitását akkor is korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek (kernel trick) nevezzük.

Egy idősor-előrejelzési feladatot szeretne megoldani NFIR vagy NARX hálózattal.Írja le a háló konstrukciójának lépéseit és azt is, hogy az egyes lépéseknél szükséges feladatok hogyan oldhatók meg. Mi a különbség a kétféle architektúra között?

Lehet-e lokális minimum egy lineáris kimeneti réteggel rendelkező egy rejtett régetű MLP és egy RBF (vagy CMAC) esetén, ha a súlyokat tanítjuk és egy négyzetes hibafüggvényt alkalmazunk? Válaszát indokolja!

Az MLP paraméterekben nemlineáris leképezése miatt a hibafelület nem kvadratikus. Ez még akkor is igaz, ha az MLP-nél is lineáris kimeneti réteget alkalmazunk. A felületen létezhetnek lokális minimumok, sőt a globális minimum sem egyértelmű: a súlyok megfelelő permutációjával különböző, de egyenértékű megoldásokhoz juthatunk. A lokálisak, mint láttuk a háló tanításánál (a gradiens alapú tanuló eljárásoknál) okozhatnak komoly nehézséget. A bázisfüggvényes hálók, amennyiben csak a kimeneti lineáris réteget tanítjuk, négyzetes hibafelülettel rendelkeznek, ami biztosítja, hogy nincsenek lokális minimumok .

Mi a Hebb tanulási szabály és milyen hálók tanításánál van szerepe? Milyen módon származtatható az Oja szabály a Hebb szabályból?

Adja meg a Hebb tanulási szabályt és a Hebb tanulás szerepét a Kohonen háló tanításánál!*

Milyen két fő elv alkalmazásával származtatható a GHA (Sanger-algoritmus)-t felhasználó PCA háló? Írja le a GHA algoritmus fő lépéseit! (Ha az összefüggéseket is meg tudja adni, írja le azokat is, ha nem, akkor a gondolatmenetet írja le!)

Egy olyan MLP hálót szeretne tanítani, melyben minden neuronnál a szokásos szigmoid függvény helyett annak -1-szeresét alkalmazza. Alkalmazható-e ez a háló a szokásos feladatok megoldására? Ha igen, hogyan alakul a tanítása, ha nem, indokolja meg, hogy miért nem!

A háló ekvivalens egy közönséges, szigmoidot használó MLP-vel, amiben (a bemenetieket leszámítva) minden súlyt -1-szereségre változtattunk (így a rétegek közt ugyanúgy egyszer invertálódnak az értékek), és a kimenetet is -1-szeresére változtatjuk. Tehát az új háló tanítására egy triviális módszer, hogy a vele ekvivalens normál MLP-t betanítjuk (azonos bemenetekkel, de a kívánt kimenetek helyett a -1-szeresüket használva a tanításhoz), majd a végén visszamásoljuk a kapott súlyokat (a -1-szeresüket) az új hálóba.

Mi a szerepe a tanulási tényezőnek (bátorságfaktor) az iteratív tanulási eljárásoknál, és hogyan kell megválasztani a Perceptronnál illetve az Adaline-nál?

Tanulás közben általában azt tudjuk megállapítani a rendszerről, hogy egy adott bemenetre a kimenet mennyire és milyen irányba tér el a megkívánttól. A hiba és a hálózatot leíró függvény alapján tudjuk, milyen irányba érdemes változtatni a paramétereket, de azt általában nem, hogy mennyire. Azt, hogy milyen "bátran" lépjünk a megfelelő irányba, a bátorsági tényező szabja meg. Erősen befolyásolja a "jó" rendszerhez való konvergencia sebességét, illetve azt, hogy egyáltalán konvergálunk-e.
Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de a sebességet befolyásolja. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az [math] X^{T}X [/math] mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is.

Mi az alapgondolata az Ortogonal Least Square (OLS) eljárásnak? Milyen hálócsaládnál alkalmazható és mire szolgál?

"Az ortogonális legkisebb négyzetes hibájú (OLS) eljárás iteratív módon választ középpontokat úgy, hogy közben figyelembe veszi a háló képességét is. Ez azt jelenti, hogy a háló méretét lépésről lépésre növeljük, újabb és újabb bázisfüggvények bekapcsolásával egészen addig, amíg megfelelő teljesítőképességet el nem érünk."
A Gauss függvénynek két paramétere van: a középpontja és a szórása. Ez utóbbi lehet skalár, vagy többdimenziós esetben vektor is
A középpontok meghatározására használható az ortogonális least squares (OLS) és a K-means módszer. Előbbi kiindul egy egy pontot tartalmazó RBF-ből, majd azt iteratívan bővíti, ha nem elég jó a tanulóképessége (a hozzáveendő középpontokat az ismert tanítópontok közül választja). A K-means csoportokba próbálja osztani a tanítópontokat, és a csoportokhoz egy-egy középpontot illetve bázisfüggvényt rendel
R heurisztikus szórás választás: általában elég tág határok közt változtatható a tanulási képesség rontása nélkül.. Jól használható az adott középpontú bázisfüggvény szórásának, ha vesszük a középponthoz legközelebbi R (R=2-3) másik középpontot, és ezek távolságainak átlagát számoljuk. Ha mindegyik függvényhez azonos szórást akarunk használni, erre is használható a fenti kifejezés (véletlenszerűen kijelölve egy középpontot).
Végül mind a középpontok, mind a szórások meghatározására alkalmazhatóak az ellenőrzött tanítási módszerek, pl. gradiens alapú keresés.

Mit nevezünk túltanulásnak, milyen következménye van, és hogyan lehet védekezni ellene? (minden ismert ellenszert mutasson be)

Egy rendszer tanítása során a tanítópontok hibája általában csökkenő jellegű. A hálózat hibája a tanításhoz fel nem használt pontokban szintén csökken (a hálózat az egész függvényt egyre jobban megtanulja). Egy bizonyos pont után viszont, a tanítópontok hibája még mindig csökken, de a többi ponté nőni kezd, mivel a háló a tanítópontok olyan apró részleteit kezdi tanulni, amik az egész függvényre nem igazak, és romlik az általánosító-képesség.
Egyik ellenszer a korai megállás: amikor észrevesszük, hogy az ellenőrzéshez használt nem tanító pontokban nőni kezd a hiba, abbahagyjuk a tanítást (hiába lehetne a tanítópontok hibáját még csökkenteni).
Másik módszer a regularizáció, melynek az a lényege, hogy egyfajta simaságot megkövetelünk, így nem tud nagyon rátanulni a tanítópontokra.
Új neuron felvétele: Ha időközben hozzáadunk egy új neuront vagy elveszünk, akkor megváltoztatja a háló egész kimenetét, és a túltanulástól egy ideig a tanulások folyamán az általánosítás felé halad, majd persze meint eljut a túltanulásig. Plusz érdeme, hogy segítségével tudunk lökni a lokális minimumoknál, és a "sekélyebb" területeknél.
keresztvalidáció: TODO

Mi a regularizáció és milyen esetekben van szerepe? Osztályozási feladatra alkalmazott SVM hálóknál milyen formában jelenik meg a regularizáció és mit eredményez?

Regularizáció: Általánosító képességet jelent. Fontossága kevés ismert vagy tanítópont esetén kiemelkedő. Az SVM hálók az osztályozás során olyan hipersíkot keresnek, mely minden tanítóponttól egy megadott margin (margó, biztonsági sáv)-ra van, így egyfajta biztosított általánosítást végez, ami amennyiben az eddigi tanítópontok jól leírták a problémát a többi tanítópont is nagyobb valószínűséggel lesz a hipersík megfelelő oldalán.

Mikor és miért van szükség CMAC hálózatoknál tömörítő leképzésre. Milyen problémákat okozhat ennek használata, és hogyan lehet a problémákat mérsékelni/elkerülni?

A tömörítő leképezés azt jelenti, hogy a kiinduló (virtuális) címtartományt egy kisebb (fizikai) címtartományra képezzük le. Lényegében a hatékony tömörítő eljárások veszteséges lejárások, szükségük a véges memória miatt van. A problémát a veszteség jelenti, amely megfelelő hash, vagy tömörítő eljárást alkalmazva nem lehet probléma, így olyan hash függvényt kell találni ami egyenletesen képez le a fizikai címtartományba.
Másképpen kicsit hivatalosabban, az alapvető asszociációs vektorunkat letömörítjük egy tömörített asszociációs vektorra, az alapján hogy a bemeneti tér viszonylag kevés bementi pontjáról érkezik tényleges bemenet. Ez alapján a tömörített vektor alapkán választjuk ki a súlyokat, nem pedig a az eredeti vektor alapján. A tömörítő eljárás egyfajta hashelést jelent, és a probléma akkor van, hogyha ütközés lép fel, vagyis két egymástól távol lévő tanítópont pont részben azonos súlyokat választanak ki. Ha az ütközés valószínűsége kicsi, akkor a hatása elhanyagolható, valamint a tanító lépések számának növelésével az ütközésből adódó interferencia csökkenthető.

Mit nevezünk lokális és mit globális tanulásnak? Van-e előnye egyiknek a másikkal szemben? Az ismert hálók közül melyek a globális és melyek a lokális tanulási hálók és miért?

Globális tanulás: Minden tanítóponton a tanulás kihat a teljes tartományra, vagyis ha tanítunk egy pontot egy MLP-nek, akkor az megfogja változtatni az értékét egy nagyon távoli bemenetnek is a kimenetét. Ilyenek az MLP, és az RBF, de csak olyan függvény esetén melynek a kimenete a teljes bemeneten érvényes, vagyis egy közepes szórású Gauss függvény már nem fejti ki mindenhol a hatását.
Lokális tanulás: Leginkább a globális tanulás ellentettje, vagyis egy tanítópont csak véges területen fejti ki a hatását, így képesek vagyunk lokális tanulásra. Jó példa erre a XOR RBF-el való tanítása. Ilyenek a CMAC, az SVM, és az RBF is bizonyos paraméterek mellet.

Itt megjegyeznék, hogy Horváth Gábor meglepetten mondta, hogy sokan írták azt, ami a docx-ben van, és az teljesen hülyeség, amit fentebb leírtam az 6/6 pontot ért.

perceptron tanítás 3 tényezővel: alfa1=10; alfa2=0.1; alfa3=-3; melyiket választaná? És Adaline esetében? Ha egyik sem helyes javasoljon új tényezőt, és indokolja is meg!

Egy RBF-nél súlyok helyett FIR szűrők vannak, adja meg 1 FIR szűrő együtthatóinak módosító összefüggését!

Implikációt meg lehet-e tanítani perceptronnak, adaline-nak?

Megoldás van a docxben, csak át kell másolni

Rosenblatt perceptronokból lehet-e MLP-t építeni, ha igen, hogyan, ha nem, miért nem?

A szignum függvény nem deriválható, de ha lecseréljük szigmoidra, akkor máris deriválható, így hazsnálható a Back-Propagation, vagyis akkor építhető belőle MLP.

R = ((0.5 0) (0 0.2)) esetén az LMS eljárás konvergens-e? Vázlatosan rajzolja fel a kritériumfelület szintvonalait!

Milyen modellosztályok esetén használható fokszámbecslése a Lipschitz index? Lipschitz index definíciója (Lq^(N) = ...) meg volt adva - értelmezze, magyarázza meg az egyes betűk jelentését!

Mi a momentum eljárás és milyen esetben alkalmazható sikerrel?

A momentum módszer olyan heurisztikus eljárás, ahol az egyes lépésekben a súlymódosítás meghatározása két részből áll. Először a gradiens módszernek megfelelően meghatározunk egy súly módosító értéket, azonban nem ezzel végezzük el a korrekciót, hanem még figyelembe vesszük az előző módosítás hatását is. A súlymódosítás ennek megfelelően:

[math] \Delta w ( k + 1) = \mu ( - \nabla (k ) ) + \nu \Delta w ( k) [/math]

ahol [math] \nu [/math] az ún. momentum együttható, amelynek értéke 0 és 1 közötti kell legye (gyakori választás a 0.8 körüli érték).

A momentum módszer különösen kedvező, ha a hibafelületen keskeny völgy húzódik végig, és a momentumtag nélkül a megoldás felé ezen völgy környezetében túl sok iteráció megtételével haladnánk, és MLP-nél alkalmazható. A módszer alkalmazásával lényegében azonos hibahatár elérése kevesebb számítással, kevesebb idő alatt.

Mi a momentum módszer, milyen célból alkalmazzák, és mely hálótípusoknál alkalmazható? Minden ismert hálótípusra adja meg és indokolja is meg a választ!

Van egy MLP hálózatunk. A nagy (vastag szaggatott) nyíllal bejelölt súly módosító összefüggéseit határozza meg, ha backprop eljárást alkalmaz.

Ehhez sincs kép...

Oszályozási feladatra akarunk LS Szupport Vektor Gépet használni. Fogalmazza meg a kritériumfüggvényt és a Lagrange egyenletet. Milyen alapgondolatot használ az eljárás, hogy a Lagrange egyenletből a másodlagos egyenlethez eljussunk? Mi lesz a másodlagos egyenlet?

Szkennelt megoldás a docxben

Van 10000 50 dimenziós adata, illetve 100 10000 dimenziós adata, melyekkel tanuló hálót akar konstruálni. Két lehetőség közül választhat: MLP-t vagy SVM-et alkalmaz. Az adott esetekben milyen szempontokat venne figyelembe, és mit választana? Részletesen indokolja meg a választást.

Az első esetre MLP-t használnék, mert sok a tanító pont a dimenziókhoz képset is (bár nem tudom 50 dimenzióhoz mi számít soknak igazán), jól meg lehet tanítani a hálót meg minősíteni is. A másodikra MLP-t nem alkalmaznék, mert nagyon kevés a pont a dimenziószámhoz képest, és szinte biztos a túl/sehogysem tanulás.
A másodikra használnék SVM-et, mivel a kevés pont, sok dimenzió miatt elég valószínű, hogy meg tudja találni a nemlineáris elválasztó-egyenest, amivel az operál (állítólag). Hogy az elsőre használnék-e SVM-et.. talán a sok tanítópont miatt a kernelmátrix (ami kell a QP-hoz) nagyon nagy lenne, akkor már inkább az MLP.

Adja meg röviden a BackPropagation Through Time (BPTT) eljárás működését! Milyen hálónál alkalmazható, és mik az előnyei, illetve hátrányai az eljárásnak?

Mutassa meg, hogy az EXOR probléma megoldható egy olyan RBF hálózattal, melynek két Gauss rejtett neuronja van, ahol a bázisfüggvények középpontjai [0 0] és [1 1]

Batch-tanítás

Minden pontra kiszámoljuk a szükséges módosításokat, de nem hajtjuk végre, majd átlagoljuk a módosításokat és egy lépésben hajtjuk végre a végén.->lokális minimumok lesznek->pontonkénti tanulásnál direkt zajt adunk hozzá ezek elkerülésére.

Súlyok kezdeti értéke: úgy kell indítani, hogy minden neuron a meredek részben legyen

-- Tsiga - 2012.05.03.

@@ 161. sor: / 161. sor: @@
 * A momentum módszer olyan heurisztikus eljárás, ahol az egyes lépésekben a súlymódosítás meghatározása két részből áll. Először a gradiens módszernek megfelelően meghatározunk egy súly módosító értéket, azonban nem ezzel végezzük el a korrekciót, hanem még figyelembe vesszük az előző módosítás hatását is. A súlymódosítás ennek megfelelően:
-<math> \delta w ( k + 1) = \mu ( - \nable (k ) ) + \nu \delta w ( k) </math>
+<math> \Delta w ( k + 1) = \mu ( - \nabla (k ) ) + \nu \Delta w ( k) </math>
 ahol <math> \nu </math> az ún. momentum együttható, amelynek értéke 0 és 1 közötti kell legye (gyakori választás a 0.8 körüli érték).

„KooperativRendszerekZHkerdesekkigyujtve” változatai közötti eltérés

A lap jelenlegi, 2016. március 29., 04:59-kori változata

Összegyűjtött kérdések a Zhig

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Egyetem

Eszközök