KoopKerdesekOssz03

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


Mi az alapgondolata az Ortogonal Least Square (OLS) eljárásnak? Milyen hálócsaládnál alkalmazható és mire szolgál?

  • "Az ortogonális legkisebb négyzetes hibájú (OLS) eljárás iteratív módon választ középpontokat úgy, hogy közben figyelembe veszi a háló képességét is. Ez azt jelenti, hogy a háló méretét lépésről lépésre növeljük, újabb és újabb bázisfüggvények bekapcsolásával egészen addig, amíg megfelelő teljesítőképességet el nem érünk."
  • A Gauss függvénynek két paramétere van: a középpontja és a szórása. Ez utóbbi lehet skalár, vagy többdimenziós esetben vektor is
  • A középpontok meghatározására használható az ortogonális least squares (OLS) és a K-means módszer. Előbbi kiindul egy egy pontot tartalmazó RBF-ből, majd azt iteratívan bővíti, ha nem elég jó a tanulóképessége (a hozzáveendő középpontokat az ismert tanítópontok közül választja). A K-means csoportokba próbálja osztani a tanítópontokat, és a csoportokhoz egy-egy középpontot illetve bázisfüggvényt rendel
  • R heurisztikus szórás választás: általában elég tág határok közt változtatható a tanulási képesség rontása nélkül.. Jól használható az adott középpontú bázisfüggvény szórásának, ha vesszük a középponthoz legközelebbi R (R=2-3) másik középpontot, és ezek távolságainak átlagát számoljuk. Ha mindegyik függvényhez azonos szórást akarunk használni, erre is használható a fenti kifejezés (véletlenszerűen kijelölve egy középpontot).
  • Végül mind a középpontok, mind a szórások meghatározására alkalmazhatóak az ellenőrzött tanítási módszerek, pl. gradiens alapú keresés.

Mit nevezünk túltanulásnak, milyen következménye van, és hogyan lehet védekezni ellene? (minden ismert ellenszert mutasson be)

  • Egy rendszer tanítása során a tanítópontok hibája általában csökkenő jellegű. A hálózat hibája a tanításhoz fel nem használt pontokban szintén csökken (a hálózat az egész függvényt egyre jobban megtanulja). Egy bizonyos pont után viszont, a tanítópontok hibája még mindig csökken, de a többi ponté nőni kezd, mivel a háló a tanítópontok olyan apró részleteit kezdi tanulni, amik az egész függvényre nem igazak, és romlik az általánosító-képesség.
  • Egyik ellenszer a korai megállás: amikor észrevesszük, hogy az ellenőrzéshez használt nem tanító pontokban nőni kezd a hiba, abbahagyjuk a tanítást (hiába lehetne a tanítópontok hibáját még csökkenteni).
  • Másik módszer a regularizáció, melynek az a lényege, hogy egyfajta simaságot megkövetelünk, így nem tud nagyon rátanulni a tanítópontokra.
  • Új neuron felvétele: Ha időközben hozzáadunk egy új neuront vagy elveszünk, akkor megváltoztatja a háló egész kimenetét, és a túltanulástól egy ideig a tanulások folyamán az általánosítás felé halad, majd persze meint eljut a túltanulásig. Plusz érdeme, hogy segítségével tudunk lökni a lokális minimumoknál, és a "sekélyebb" területeknél.
  • keresztvalidáció: TODO

Mi a regularizáció és milyen esetekben van szerepe? Osztályozási feladatra alkalmazott SVM hálóknál milyen formában jelenik meg a regularizáció és mit eredményez?

  • Regularizáció: Általánosító képességet jelent. Fontossága kevés ismert vagy tanítópont esetén kiemelkedő. Az SVM hálók az osztályozás során olyan hipersíkot keresnek, mely minden tanítóponttól egy megadott margin (margó, biztonsági sáv)-ra van, így egyfajta biztosított általánosítást végez, ami amennyiben az eddigi tanítópontok jól leírták a problémát a többi tanítópont is nagyobb valószínűséggel lesz a hipersík megfelelő oldalán.

Mikor és miért van szükség CMAC hálózatoknál tömörítő leképzésre. Milyen problémákat okozhat ennek használata, és hogyan lehet a problémákat mérsékelni/elkerülni?

  • A tömörítő leképezés azt jelenti, hogy a kiinduló (virtuális) címtartományt egy kisebb (fizikai) címtartományra képezzük le. Lényegében a hatékony tömörítő eljárások veszteséges lejárások, szükségük a véges memória miatt van. A problémát a veszteség jelenti, amely megfelelő hash, vagy tömörítő eljárást alkalmazva nem lehet probléma, így olyan hash függvényt kell találni ami egyenletesen képez le a fizikai címtartományba.
  • Másképpen kicsit hivatalosabban, az alapvető asszociációs vektorunkat letömörítjük egy tömörített asszociációs vektorra, az alapján hogy a bemeneti tér viszonylag kevés bementi pontjáról érkezik tényleges bemenet. Ez alapján a tömörített vektor alapkán választjuk ki a súlyokat, nem pedig a az eredeti vektor alapján. A tömörítő eljárás egyfajta hashelést jelent, és a probléma akkor van, hogyha ütközés lép fel, vagyis két egymástól távol lévő tanítópont pont részben azonos súlyokat választanak ki. Ha az ütközés valószínűsége kicsi, akkor a hatása elhanyagolható, valamint a tanító lépések számának növelésével az ütközésből adódó interferencia csökkenthető.

Mit nevezünk lokális és mit globális tanulásnak? Van-e előnye egyiknek a másikkal szemben? Az ismert hálók közül melyek a globális és melyek a lokális tanulási hálók és miért?

  • Globális tanulás: Minden tanítóponton a tanulás kihat a teljes tartományra, vagyis ha tanítunk egy pontot egy MLP-nek, akkor az megfogja változtatni az értékét egy nagyon távoli bemenetnek is a kimenetét. Ilyenek az MLP, és az RBF, de csak olyan függvény esetén melynek a kimenete a teljes bemeneten érvényes, vagyis egy közepes szórású Gauss függvény már nem fejti ki mindenhol a hatását.
  • Lokális tanulás: Leginkább a globális tanulás ellentettje, vagyis egy tanítópont csak véges területen fejti ki a hatását, így képesek vagyunk lokális tanulásra. Jó példa erre a XOR RBF-el való tanítása. Ilyenek a CMAC, az SVM, és az RBF is bizonyos paraméterek mellet.

Itt megjegyeznék, hogy Horváth Gábor meglepetten mondta, hogy sokan írták azt, ami a docx-ben van, és az teljesen hülyeség, amit fentebb leírtam az 6/6 pontot ért. -- Tsiga - 2012.05.16.