ZH

A VIK Wikiből
A lap korábbi változatát látod, amilyen (vitalap) 2012. október 22., 11:46-kor történt szerkesztése után volt. (Új oldal, tartalma: „{{GlobalTemplate|Infoszak|TanHib}} ==={{InLineFileLink|Infoszak|TanHib|hibrid_zh_2007.jpg|2007. március 27. (jpg)}}=== ===2006. április 4.=== …”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


===

Ezen a helyen volt linkelve a(z) hibrid_zh_2007.jpg nevű fájl ("2007. március 27. (jpg)" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

Tartalomjegyzék

=

2006. április 4.

2004. április 29.

Jegyzet

Órai kézzel írott jegyzet

A tankönyv unofficial hibajegyzéke

Neten talált hasznosságok

Tételkidolgozás

Howto a wiki latexpluginjáról

1. A neurális számítási paradigma fő jellemzői. A neurális hálózatok felépítése, neurális architektúrák.

Alkalmazási terület:

  • orvosi diagnosztika
  • pénzügyi előrejelzés
  • felismerés
  • adatbányászat
  • algoritmikusan nehezen megoldható feladatok
  • sok rendelkezésre álló adat alapján működést és összefüggést tanulni

Tudás és tanulás:

  • beépített tudás
  • mintákból tanulás
  • bemenetek leképezése a kimenetekre
  • sztochasztikus rendszerek neurobiológiai, statisztikai, kognitív pszichológiai felhasználása

Neurális hálók:

  • biológiai neuron működése alapján
  • bemenetek súlyozott összegzése (küszöbbel), kimenetet ad, ha a külszöböt túllépi a bemenet
  • 10^11 - 10^13 az agyban
  • összeköttetések
  • párhuzamos működés
  • impulzussorozatok
  • tanulás = súlyok meghatározása
  • egyenrangúak, de funkcionális egységekbe szerveződnek

Architektúrák:

  • MLP
  • egy tanítható rétegű hálók:
    • RBF
    • CMAC
    • CPN
  • időfüggő hálók:
    • előrecsatolt
    • visszacsatolt / rekurzív
  • nem ellenőrzött tanítású hálók:
    • Kohonen
    • Hebb
  • analitikus hálók:
    • Hopfield
    • Boltzmann-gépek
    • Mean-field
    • CNN

2. Az elemi neuronok (Perceptron, Adaline) felépítése, tanítása, működése.

  • Ezen a helyen volt linkelve a(z) 2.tetel_a.jpg nevű fájl ("2.tetel_a.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
  • Ezen a helyen volt linkelve a(z) 2.tetel_b.jpg nevű fájl ("2.tetel_b.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)


==3. A tanulás szerepe a neurális hálózatoknál. Ellenőrzött és nemellenőrzött tanulás. (

Ezen a helyen volt linkelve a(z) 3.doc nevű fájl ("3.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

)== A tanulás szerepe a neurális hálózatokban:
A neurális hálózatok egyik legfőbb jellemzője az adaptáció, tanulási képesség. Ami azt jelenti, hogy a viselkedésüket valamilyen cél érdekében módosítani tudják. A rendszer valamilyen képességét javítani tudja.

Ellenőrzött tanulás:
Tanító párok állnak rendelkezésre (összetartozó be és kimeneti értékek). A tanítás alapja, hogy adott bemenetre ismertek a kívánt válaszok, így a háló válaszát ezzel összehasonlítva megtehetjük a szükséges lépéseket. A kapott hiba felhasználható a hálózat módosítására úgy, hogy a hálózat válasza a kívánt válasz irányába konvergáljon. Ellenőrzött tanulásnak nevezzük azt is amikor a háló kívánt válasza nem ismert csak az, hogy az adott válasz jó vagy sem. (megerősítő tanulás). Leggyakrabban gradiens alapú szélsőérték kereső eljárásokat valamint LMS eljárást alkalmaznak.

Nem ellenőrzött tanulás:
Nem állnak rendelkezésre adott bemenethez tartozó kívánt válaszok és semmilyen visszajelzés, ami a hálózat működésének helyességére utalna. A hálózatnak a bemenet és a kimenet alapján kell valamilyen viselkedést kialakítani.

Hebb tanulás: Biológiai eredetű eljárás.
A lényege, hogy két processzáló elem közti kapcsolat erőssége (a köztük lévő súly) a processzáló elemek aktivitásának szorzatával arányosan növekszik.

w_ij(k+1) = w_ij(k) + mű*y_i*y_j

Ahol az y-ok a processzáló elemek kimenetinek értékei a w pedig az i és j közötti súly. Az eredeti szabályt módosították, beépítettek egy normalizációt, mert eredetileg a súlyok korlát nélkül nőhettek.

Versengő tanulás: A tanulás célja, hogy a processzáló elem(PE) elrendezésben egy győztes válasszunk ki. A győztes kimenete aktív lesz a többié 0. A tanítás két lépésből áll. Az első lépés során meghatározzuk a súlyvektorokat, ezt követően kiválasztjuk a győztest. A „győztes mindent visz” A súlyvektorok módosítása csak a győztes kiválasztása után jön.

==4. Az ellenőrzött tanulás eljárásai. Szélsőértékkereső eljárások: gradiens módszerek. (

Ezen a helyen volt linkelve a(z) 4.doc nevű fájl ("4.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

)==

  • A gradiens alapú szélsőérték kereső eljárásoknál a C(w*,w) kritériumfüggvény minimumát keressük, vagyis azt a w értéket ahol a kritériumfüggvény w szerinti gradiense 0. (azaz forditott delta[C(w)] = szigma C / szigma w = 0
  • Az iteratív eljárásoknál addig változtatjuk a súlyvektorok értékét amíg a nulla gradiens értéket el nem érjük vagy kellő mértékben meg nem közelítjük.
  • A neurális hálózatoknál használt gradiens módszerek fontos követelményei a konvergencia (biztos tanulja meg amit meg akarunk tanítani), konvergencia ebessége legyen gyors, a kritériumfüggvények által meghatározott hibafelületek széles körén működjön, vagyis a feladatok széles osztályára legyen alkalmazható.
  • Paramétereiben linearizálható modellek esetén:
    • y = w^T*x
    • Eps^2 = (d-w^Tx)^2
    • Kszi = E[Eps^2)
  • A kívánt választól való eltérés a hiba, ennek négyzetének várhatóértékét akarjuk minimalizálni azaz kszit. Behelyettesítve a hibanégyzetet
    • Kszi = ... = E[d^2] - 2w^T*E[dx] + w^T*E[xx^T]w
    • P = E[dx], R = E[xx^T]
  • Ahol P a keresztkorrelációs vektor, R pedig a bemenő folyamat autokorrelációs mátrixa.
  • Ezt az egyenletet w szerint deriváljuk, és ahol a derivált 0 ott lesz a minimum.
    • szigma Kszi / szigma w = -2P + 2Rw = 0
    • Rw = P => w* = R^(-1) * P
    • Ez a Wiener-Hopf egyenlet
  • De ez a megoldás nem iteartív (előre kell tudni R mátrixot és P vektor, amit általában nem tudunk) ezért egy olyan megoldást kel keresni ami lépésről lépésre közelít a minimumhoz. Ez a „legmeredekebb lejtő” módszer. Ez az eljárás a negatív gradiens irányában halad a hibafelületen. w(k+1) = w(k) + mű(-forditott delta(k)) ahol forditott delta(k) = 2R(w(k)-w*). Ez a módszer akkor lesz konvergens, ha 0 < mű < 1/lambda_max, ahol lambda_max az R mátrix legnagyobb sajátértéke


  • Bár ilyenek szerepelnek a 7. tételben is, de szerintem még ide tartozik:
    • a Momentum módszer (a 06.02.27 előadáson, LSD. TK/110)
    • a Newton módszer (Levenberg-Marquardt eljárás) (a 06.02.27 előadáson, LSD. TK/42)
    • a konjugált grádiensek módszere (TK/45) volt órán???


==5. Az LMS eljárás és konvergenciája, a konvergencia gyorsításának lehetőségei. (

Ezen a helyen volt linkelve a(z) 5.doc nevű fájl ("5.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

)==

  • A gradiens alapú szélsőérték kereső eljárások a pillanatnyi hiba átlagos négyzetes értékével számoltak. Ezzel szemben az LMS(Least Mean Square) eljárás hibakritériuma maga a pillanatnyi hiba négyzet, amivel egy pillanatnyi derivált képezhető.
  • szigma Eps^2(k) / szigma w(k) = -2*Eps(k)x(k) ezzel egy iteratív eljárást kaphatunk w(k+1) = w(k) + 2*mű*Eps(k)x(k) ez maga az LMs eljárás lényege.
  • Megmutatható, hogy lim(k->inf)(E[w(k+1)]) = w* azaz, hogy eljárás konvergens. a konvergencia kritériuma 0 < mű < 1/lambda_max, ahol az R mátrix legnagyobb sajátértéke
  • Lambda meghatározásához két módszert alkalmazhatunk. Vagy próbálgatjuk és egyszer jó lesz, vagy pedig becslést adunk rá. A becslést az R mátrix nyomából tr(R) kaphatjuk. (ezt nem igazán tudom, hogy mi, valahogy úgy van, hogy ennek a mátrixnak a főátlójában a sajátértékek helyezkednek el, és ha ezt összeadjuk akkor nagyobb lesz mint a maximális sajátérték így felülről becsültünk.)

konvergencia gyorsításának lehetőségei

  • A konvergencia sebességével akkor lehet probléma, ha a hibafelület metszete nagyon elnyújtott ellipszoid lambda_max / lambda_min >> 1 Ebben az esetben ha lambda_max-ot használjuk akkor nagyon óvatosan haladunk.
  • Két módszert alkalmazhatunk a konvergencia gyorsítására*:

1) Áttranszformáljuk R-et a sajátvektorok koordinátarendszerébe, majd ott normalizáljuk úgy, hogy a hibafelületen olyan transzformációkat végzünk, hogy közel kör alakú lesz a metszete, így elérhető az optimális konvergencia sebesség. (ez nem éppen szakszerű és szabatos megfogalmazás de én ennyit értettem meg erről 2) DFT : Diszkrét Fourier Transzformáció alkalmazása. Ez csak megemlítés szintjén volt az órán. A lényeg, hogy ezzel is lehet a lambdák arányát csökkenteni.


  • megjegyzés: tr(R), azaz egy mátrix nyoma a főátlóban lévő elemeinek összege, azaz egy jelen esetben valós érték. Egy tétel szerint tr(R) megegyezik az R mátrix sajátértékeinek összegével(látszik a mátrix Jordan-formáján: minden elem nulla és a főátlóban a sajátértékek vannak - ez az alak ekvivalens a mátrix bármilyen másik felírásával)
  • tr(R) azért kell nekünk, mert biztosan nagyobb bármelyik sajátértéknél, így az 1/lambda felső küszöbérték alatt maradáshoz jó lesz lambda első közelítésének


6. A perceptron felépítése, szeparáló képessége. A perceptron kapacitása, a kapacitás jelentősége.

  • egyszerű perceptron felépítése
    • a bemenetek lineráris kombinációja + sgn nemlinearitás a kimeneten: [math]y = f(\sum_iw_i x_i) = sgn(\sum_i w_i x_i) = sgn(s) [/math]
    • a hibafüggvény
      • [math]\epsilon(k) =d(k)-y(k) [/math]
      • ahol [math]d(k) \in (+1, -1)[/math] a kívánt kimenet, és [math]y(k) \in (+1, -1)[/math] a valós kimenet
      • tehát a hálózat nemlinearitás utáni kimenetéből számolja a hibát (nem úgy, mint az Adaline)
  • kétosztályos esetekben lineáris osztályozási feladatot tud ellátni, ha a bemeneti mintahalmazok lineárisan szeparálhatóak
    • lineárisan szeparálható: a bemeneti mintateret (N dimenziós) egy (hiper)síkkal (N-1 dimenziós) két diszjunk tartományra lehet osztani úgy, hogy a két tartományba tartozó minatpontok eltérő osztályba tartoznak
  • a perceptron kapacitása
    • adott mintapontszám (P) és dimenziószám (N) esetén a feladatok mekkora részére megoldás a perceptron (azaz mennyi lineárisan szeparálható kétosztályos osztályozási feladat van)
    • véletlenül választott mintapontok esetén [math]2^P[/math] kétosztályos szeparálás lehetséges
    • [math]L(P, N)[/math] ezek közül hány szeparálható lineárisan
    • a kapacitás: [math]C(P, N) = \frac{L(P,N)}{2^P}[/math]
    • [math]C(P, N) = 1[/math], ha [math] P \leq N [/math] és [math]C(P, N) = \frac{2}{2^P}\sum_{i=0}^{N-1}{P-1 \choose i}[/math], ha [math]P\gt N[/math]
    • a kapacitás alakulása
      • a függvény képe: Neurális hálózatok és műszaki alkalmazásaik, 93. p. 4.3 ábra
      • ha N nagy és [math]P\lt 2N[/math], akkor gyakorlatilag az összes kétosztályos szeparálás lineáris
      • ha [math]P/N\gt \gt 2[/math], a lineárisan szeparálható esetek száma a 0-hoz tart
      • ha [math]P \leq N[/math] és a pontok általános elhelyezkedésűek, akkor mindig lehetséges a lineáris szeparálás
        • általános elhelyezkedésűek a pontok
          • ha [math] P > N [/math] és a P pontból nem tudunk kiválasztani N+1-et, melyek egy N-1 dimeziós hipersíkon helyezkednek el
          • ha [math]P \leq N[/math] és a P pont nem helyezkedik el egy N-2 dimenziós hipersíkon
      • konklúzió: ha kellően nagyra választjuk a N-t P-hez viszonyítva, akkor lineárisan szeparálható a feladat. Ezt fel lehet használni a hálózatok konstrukciójánál

7. Előrecsatolt többrétegű perceptron (MLP): felépítése és tanítása, a hibavisszaterjesztéses (BP) algoritmus. A BP algoritmus egyes változatai (momemtum módszer, stb.)

  • alapja: differenciálható nemlinearitással rendelkező processzáló elem
    • különbség a perceptronhoz képest: sgn helyett sgm (logisztikus vagy tanh)
    • [math] \epsilon(k) = d(k)-y(k) = d(k)-sgm(s(k)) = d(k)-sgm(\underline{w}^T(k)\underline{x}(k))[/math]
    • a pillanatnyi gradiens: [math] \frac{\partial \epsilon^2}{\partial \underline{w}} = 2\epsilon(-sgm'(s))\underline{x} [/math]
    • a súlymódosítás: [math] \underline{w}(k+1) = \underline{w}(k)+2\mu(k)\epsilon(k)sgm'(s(k))\underline{x}(k) = \underline{w}(k) + 2\mu(k)\delta(k)\underline{x}(k)[/math]

8. Az MLP hálózatok képessége: a függvényapproximáció elvi eredményei: Hilbert probléma, Kolmogorov tétel és továbbfejlesztett változatai.

  • Forrás: órai jegyzet, TK/22-29
  • Megjegzések:
    • 2. oldal közepe, Funahasi által megadott kalapos f függvény kifejtesen belül g picit hibas: G(Wij*Xj) helyett G([Summa j=0->N] Wij*Xj)
  • Ezen a helyen volt linkelve a(z) thirttel_8_1.jpg nevű fájl ("thirttel_8_1.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
  • Ezen a helyen volt linkelve a(z) thirttel_8_2.jpg nevű fájl ("thirttel_8_2.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)


9. A perceptron kapacitása, a dimenziónövelés szerepe. Bázisfüggvényes hálózatok: radiális bázisfüggvény (RBF) hálózat. A bázisfüggvények számának, elhelyezésének megállapítása, OLS.

  • Forrás: órai jegyzet, TK/92-93, TK/112-119
  • Megjegzések:
    • 3. oldal teteje: LMS algoritmus -> könyv ezt írja, de nem értem miért hiszen vagy egy lépésben meghatározható, vagy a később mutatott LS alapján történik.
    • 3. oldal alján hiba: |||d-Gw||^2
    • a vektorok és mátrixok jelölése nem túl következetes, de elég értelemszerű
  • Ezen a helyen volt linkelve a(z) thirttel_9_1.jpg nevű fájl ("thirttel_9_1.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
  • Ezen a helyen volt linkelve a(z) thirttel_9_2.jpg nevű fájl ("thirttel_9_2.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
  • Ezen a helyen volt linkelve a(z) thirttel_9_3.jpg nevű fájl ("thirttel_9_3.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

10. A CMAC hálózat felépítése, tanítása. A hash kódolás szerepe, a CMAC hálózat modellező képessége, konzisztencia egyenletek.

  • Ezen a helyen volt linkelve a(z) 10.doc nevű fájl ("10.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

11. A support vektor gépek alapgondolata. SVM osztályozásra lineáris és nemlineáris osztályozási feladatnál.

Lajtha Balázsnál


==12. Az. SVM megfogalmazása regresszióra. Az SVM tipikus megvalósításai: Kernel függvények, RBF alapú SVM (Gauss kernel fv). (

Ezen a helyen volt linkelve a(z) 12.tetel.doc nevű fájl ("12.tetel.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

)==

  • regresszió*:

Függvényapproximációs feladatnál az átlagos négyzetes hiba helyett az ε-érzéketlenségi sávval rendelkező abszolútérték függvényt alkalmazzák az eltérés mérésére: L(y) = 0,ha |f(x)-y||<Eps és ||f(x)-y-Eps egyébként

A kimenet előállítása nemlineáris bázisfv-ek lineáris kombinációjaként történik: y = szum(j=0,M)w_j * szigma_j(x)

A kielégítendú feltételek (gyengítő változók bevezetésével): ...

A minimalizálandó költségfv: ...

A megfelelő Lagrange fv: ...

A Lagrange fv-t minimalizálni kell w és a Kszi és a Kszi' gyengítő változók szerint és maximalizálni kell Alfa, Alfa', Gamma, Gamma' szerint. Az optimalizáció eredménye: w = Szum(i=1,P)(Alfa_i-Alfa'_i)fi(x_i) gamma_i = C - Alfa_i és gamma'_i = C - Alfa'_i

Ezek figyelembevételével kapjuk a duális feladatot:
W(Alfa_i,Alfa'_i) = Szum(i=1,P)y_i(Alfa_i - Alfa'_i) - Eps*Szum(i=1,P)(Alfa_i + Alfa'_i) - 0,5*szum,szum(Alfa_i - Alfa'_i)(Alfa_j - Alfa'_j)K(x_i,x_j)

Ennek a megoldása a megfelelő korlátozó feltételek:
Szum(i=1,P)(Alfa_i - Alfa'_i) = 0, 0<=Alfa_i<=C, i=1...P és 0<=Alfa'_i <=C, i=1...P
mellett adja a Lagrange multiplikátorokat, melyek és a magfvértékek segítségével kapjuk az optimális approximáló fv súlyvektorát w-t. Azon tanítópontok melyekre Alfa_i != Alfa'_i lesznek a szupport vektorok, hiszen a súlyvektor (w) meghatározásában és csak ezek a pontok vesznek részt. Az eljárásban Eps és C értéke a felhasználó által megválasztandó.

Tipikus kernel-függvények:

  • RBF(Gauss)
  • Polinom
  • Tanh
  • B-spline


RBF:

  • A szupport vektorok lesznek a kernel-függvény (tipikusan Gauss) középpontjai, ezek a tanítópontok
  • RBF-nél négyzetes hibával tanítunk, ezért csak struktúrájában lesz azonos a két modell, származtatásában teljesen más




==13. Az általánosítóképesség. Empirikus veszteség, az átlagos veszteségre vonatkozó felső korlátok osztályozós és függvényapproximációs esetben, VC dimenzió és szerepe. Statisztikus tanuláselmélet alapjai. (

Ezen a helyen volt linkelve a(z) 13.tetel.doc nevű fájl ("13.tetel.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

)==


Általánosítás:

  • általánosítási hiba
  • költségfüggvény használata (pl. négyzetes hiba fgv. , SVM- nél )
  • a válasz hibája / l(x,w)=f(d-y(x, w)) / alapján
  • ha ezt ismerjük minden x, y-ra, és az (x,d) értékek eloszlását is ismerjük, akkor meg tudjuk határozni az igazi hibát


A kockázat R(w) = integrál [d-f(x,w)]^2 p(x,d)dxdd

  • R(w*|L)
  • nehézségek: ismeretlen a valószínűségsűrűség függvény


R meghatározása:

  • w* alapján (ideális paramétervektor)
  • x^(p) - P tanítópontok alapján
  • Csak a tapasztalati kockázat határozható meg:
    • tanítópontokban meghatározott veszteség átlaga: R_emp(w) = 1/L * szigma(L,l=1)[d_i - f(x_l, w)]^2
    • kapcsolatot akarunk mondani w* ls w^(p) között
    • Vapnik statisztikus tanuláselmélete:
      • Kapcsolat meghatározása
      • Ebből kockézat meghatározása
      • Sűrűségfüggvény meghatározó módszerek
      • Kellően sok tanítóponttal és idővel nagyon jó eredményeket lehet elérni


Vapnik- Cservonenkis: hagyományos út a sűr. fgv. meghatározása helyett – ehhez tudni, kell, hogy a fenti értékek konvergálnak-e:

  • R_emp(w*|L) -> R(w_0), ha L->inf
  • R(w*|L) -> R(w_0), ha L->inf
  • Nem mindegy a konvergencia sebessége:


VC dimenzió:Egy függvényhalmaz VC dimenziója h, ha létezik legalább egy esetben h olyan minta, mely szeparálható (minden lehetséges módon két osztályba sorolható) a függvényhalmaz elemeivel, de egyetlen esetben sem létezik h+1 minta, mely ugyanezen függvényhalmaz elemeivel szeparálható volna. - a konzisztencia és a gyors konvergencia szükséges és elégséges feltétele a véges VC-dimenzió - Az általánosítási hiba korlátja:

 - osztályozás esetén: R(w) <= R_emp(w) + járulékos tag(h); h<=min(r^2m,n)+1; r = a mintapontokban magába foglaló hipergömb sugara; m egy felső korlát: |||w||^2 <= m
 - regresszió esetén: R(w) <= R_emp(w) / (1-c*sqrt(Eps(h)))

ERM (Empirical Risk Management) konzisztenciája: lim(P->inf)( Prob(sup_w |R(w) –Remp(w)>Eps) = 0

Konvergencia sebessége: Prob((R(w)-R_emp(w))>Eps) = e^(-C * Eps^2 * P)

A R(w) <= E_emp(w) ! járulékos tag(h) tól pesszimista.

Nem csak a hibát kell minimalizálni, hanem a megoldás komplexitását is: 1) Tárigény: ne kelljen a nagy K mátrixot tárolnom 2) Sebesség: iteratív kvadratikus programozással


A kerneleket kombinálhatom is: 1) két kernel metszete, összege is kernelfüggvény lesz 2) paraméterek és hiperparaméterek választásával



14. LS-SVM, ridge regression és kapcsolatai az SVM-mel. Ritka (sparse) megoldások, a kernel függvények csökkentésének lehetőségei.

  • Ezen a helyen volt linkelve a(z) 14.tetel.doc nevű fájl ("14.tetel.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)


15. Dinamikus nemlineáris rendszerek. Általános nemlineáris dinamikus struktúrák. Dinamikus hálózatok: az időfüggés megvalósítási lehetőségei. Az időkezelés dinamikus hálózatokban.

  • Forrás: órai jegyzet, TK/143-150 és 155-157
  • Ezen a helyen volt linkelve a(z) thirttel_15_1.jpg nevű fájl ("thirttel_15_1.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
  • Ezen a helyen volt linkelve a(z) thirttel_15_2.jpg nevű fájl ("thirttel_15_2.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)


16. Temporális backpropagation mint az FIR-MLP tanítási algoritmusa.

17. Visszacsatolt hálózatok. BPTT. Valós idejű rekurzív tanítású (RTRL) visszacsatolt hálózat felépítése és tanítása.

18. A neurális hálózatok alkalmazásánál felmerülő problémák: adatelőkészítés, előfeldolgozás, utófeldolgozás. Járulékos információ szerepe.

  • Ezen a helyen volt linkelve a(z) thir18.doc nevű fájl ("thir18.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

19. Moduláris hálók. A moduláris kialakítás indítékai. Hálóegyüttes. Pontos és különböző filozófia.

  • Ezen a helyen volt linkelve a(z) th19a.JPG nevű fájl ("th19a.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
  • Ezen a helyen volt linkelve a(z) th19b.JPG nevű fájl ("th19b.jpg" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

20. A MOE alapstruktúra. A MOE valószínűségi értelmezése. Tanítás, mint maximum likelihood becslési probléma.

  • Ezen a helyen volt linkelve a(z) th_20-22.zip nevű fájl ("th_20-22.zip" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

21. Az EM algoritmus alapgondolata, szerepe a MOE architektúra tanításánál.

  • Ezen a helyen volt linkelve a(z) th_20-22.zip nevű fájl ("th_20-22.zip" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

22. Feladat dekompozíció . Moduláris hálók kialakítása feladatdekompozíció alapján

(lent a

Ezen a helyen volt linkelve a(z) th_20-22.zip nevű fájl ("th_20-22.zip" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

-ben megvan ez is)

23. Erős és gyenge tanulás. Boosting eljárások moduláris hálók kialakítására. Boosting szűréssel, Ada Boost.

  • Ezen a helyen volt linkelve a(z) thir23.doc nevű fájl ("thir23.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
23. tétel

24. Hibrid rendszerek szimbolikus és mintákban meglévő tudás együttes használatának fontossága, KBANN alapeljárás.

  • Ezen a helyen volt linkelve a(z) thir24.doc nevű fájl ("thir24.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)

25. KBANN szabálykinyerés, NofM eljárások, KBANN továbbfejlesztései TopGen, ReGent.

  • Ezen a helyen volt linkelve a(z) thir25.doc nevű fájl ("thir25.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)


  • Ezen a helyen volt linkelve a(z) thir25_kieg.doc nevű fájl ("thir25_kieg.doc" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Infoszak/TanHib oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki@sch.bme.hu címre a kérésedet)
kicsit kiegészítve a ReGent része