KoopKerdesekOssz02

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


Egy NFIR(FIR-MPL) hálózat felépítése az abrán látható. A vastag szaggatott vonallal jelölt részek a FIR szűrők, ahol 2 késleltető elem és 3 súly van. Adja meg a háló időben kiterített változatát (virtuális háló) és pontokba szedve adja meg a tanítás lépéseit!

  • Ehhez nincs ábra...

Mit jelent az időbeli kiterítés olyan NFIR háló tanításánál, ahol egy MLP súlyai helyén FIR szűrőket alkalmazunk?

Erről van 2 beszkennelt oldalt a docx-ben...

Mi a kernel trükk és mi a jelentősége?

  • Mit nevezünk kernel trükknek és mi a jelentősége? Alkalmazható-e a kernel trükk az ismert előrecsatolt hálók (lineáris súlyozott összeg, MLP, RBF, CMAC) esetében? Amennyiben lehet kernel trükköt alkalmazni, meg tudja-e adni a kernel függvényt az egyes esetekben? Adja meg a kernel függvény meghatározásnának általános módját minden olyan esetben, ahol a háló leképzése kerneles formában is megadható, és ahol lehet, adja meg a kernel függvényt explicit formában is!*

Alapból a kimenetet a következő összefüggéssel állítjuk elő:

[math] y (x) = \sum_{i=0}^{M} w_i \varphi _i ( x ) = w ^{T} \varphi ( x ) [/math]

A kernel trükk segítségével azonban ezt a függvényt átalakítjuk a következő formába:

[math] y (x) = \varphi ( x ) ^{T} \phi ^{T} \alpha = \sum^{P}_{i=1} \alpha _i ( \varphi ( x ) ^{T} \varphi ( x _i ) ) = \sum^{P}_{i=1} \alpha _i K _i ( \varphi ( x )) [/math]

[math] \varphi (x )^{T} \varphi ( x_i ) = K_i ( \varphi ( x )) = K (x , X_i ) [/math]

Amit az a második összefüggésből is látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, akár végtelen is lehet, ami a (6.13) szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné is tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk elérni, hogy a megoldás komplexitását akkor is korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek (kernel trick) nevezzük.

Egy idősor-előrejelzési feladatot szeretne megoldani NFIR vagy NARX hálózattal.Írja le a háló konstrukciójának lépéseit és azt is, hogy az egyes lépéseknél szükséges feladatok hogyan oldhatók meg. Mi a különbség a kétféle architektúra között?

Lehet-e lokális minimum egy lineáris kimeneti réteggel rendelkező egy rejtett régetű MLP és egy RBF (vagy CMAC) esetén, ha a súlyokat tanítjuk és egy négyzetes hibafüggvényt alkalmazunk? Válaszát indokolja!

Az MLP paraméterekben nemlineáris leképezése miatt a hibafelület nem kvadratikus. Ez még akkor is igaz, ha az MLP-nél is lineáris kimeneti réteget alkalmazunk. A felületen létezhetnek lokális minimumok, sőt a globális minimum sem egyértelmű: a súlyok megfelelő permutációjával különböző, de egyenértékű megoldásokhoz juthatunk. A lokálisak, mint láttuk a háló tanításánál (a gradiens alapú tanuló eljárásoknál) okozhatnak komoly nehézséget. A bázisfüggvényes hálók, amennyiben csak a kimeneti lineáris réteget tanítjuk, négyzetes hibafelülettel rendelkeznek, ami biztosítja, hogy nincsenek lokális minimumok .

Mi a Hebb tanulási szabály és milyen hálók tanításánál van szerepe? Milyen módon származtatható az Oja szabály a Hebb szabályból?

  • Adja meg a Hebb tanulási szabályt és a Hebb tanulás szerepét a Kohonen háló tanításánál!*

Milyen két fő elv alkalmazásával származtatható a GHA (Sanger-algoritmus)-t felhasználó PCA háló? Írja le a GHA algoritmus fő lépéseit! (Ha az összefüggéseket is meg tudja adni, írja le azokat is, ha nem, akkor a gondolatmenetet írja le!)

Egy olyan MLP hálót szeretne tanítani, melyben minden neuronnál a szokásos szigmoid függvény helyett annak -1-szeresét alkalmazza. Alkalmazható-e ez a háló a szokásos feladatok megoldására? Ha igen, hogyan alakul a tanítása, ha nem, indokolja meg, hogy miért nem!

A háló ekvivalens egy közönséges, szigmoidot használó MLP-vel, amiben (a bemenetieket leszámítva) minden súlyt -1-szereségre változtattunk (így a rétegek közt ugyanúgy egyszer invertálódnak az értékek), és a kimenetet is -1-szeresére változtatjuk. Tehát az új háló tanítására egy triviális módszer, hogy a vele ekvivalens normál MLP-t betanítjuk (azonos bemenetekkel, de a kívánt kimenetek helyett a -1-szeresüket használva a tanításhoz), majd a végén visszamásoljuk a kapott súlyokat (a -1-szeresüket) az új hálóba.

Mi a szerepe a tanulási tényezőnek (bátorságfaktor) az iteratív tanulási eljárásoknál, és hogyan kell megválasztani a Perceptronnál illetve az Adaline-nál?

  • Tanulás közben általában azt tudjuk megállapítani a rendszerről, hogy egy adott bemenetre a kimenet mennyire és milyen irányba tér el a megkívánttól. A hiba és a hálózatot leíró függvény alapján tudjuk, milyen irányba érdemes változtatni a paramétereket, de azt általában nem, hogy mennyire. Azt, hogy milyen "bátran" lépjünk a megfelelő irányba, a bátorsági tényező szabja meg. Erősen befolyásolja a "jó" rendszerhez való konvergencia sebességét, illetve azt, hogy egyáltalán konvergálunk-e.
  • Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az [math] x^{T}x [/math]
mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert [math] {\lambda}_{max} [/math]
az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt [math] X^{T}X [/math]  mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá

-- Tsiga - 2012.05.15.