„Tartalomelemzés” változatai közötti eltérés

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez
 
22. sor: 22. sor:
 
## Hogyan alkalmazható többcímkés osztályozásra?
 
## Hogyan alkalmazható többcímkés osztályozásra?
 
## Milyen a tanulás és tesztelés időigénye, és miért?
 
## Milyen a tanulás és tesztelés időigénye, és miért?
# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve?
+
# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve? <br/> '''Megoldás:''' Ha ismert a dokumentum nyelve, akkor a tokenizáláskor figyelembe tudjuk venni az adott nyelv sajátosságait (pl. ékezetek és írásjelek használata, van-e szóköz, dátumok, mértékek használata).
# Mi a szó-dokumentum mátrix használatának hátránya?
+
# Mi a szó-dokumentum mátrix használatának hátránya? <br/> '''Megoldás:''' A mátrix nagyon nagy lehet, ezért nehéz felépíteni és a műveletek elvégzése is időigényes.
# Milyen hibát véthet egy szótövező?
+
# Milyen hibát véthet egy szótövező? <br/> '''Megoldás:''' <br/> '''Alultövezés''': két szóhoz, melyek jelentése ekvivalens a feldolgozás szempontjából, az algoritmus két külön tövet rendel. <br/> '''Túltövezés''': két szóhoz, melyek jelentése különböző, az algoritmus ugyanazt a tövet rendeli. <br/> '''Félreértelmezés''': olyan végződést vág le az algoritmus, ami valójában a tő része.
# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)?
+
# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)? <br/> '''Megoldás:''' Zipf törvény: <math>P_n = 1 / n^a</math>. <br/> 2. leggyakoribb szó esetén <math>P_2 = 1/2 = r</math> <br/> 4. leggyakoribb szó esetén <math>P_4 = 1/4 = r/2</math>
# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban.
+
# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban. <br/> '''Megoldás:''' <br/> Algoritmikus, nyelv-specifikus átírószabályokat alkalmazó módszerek. (pl. Porter, Snowball, Lovins, stb.) <br/> Szavakat és szótöveiket tartalmazó szótárt használó módszerek. <br/> Egyéb eljárások, pl. statisztikai módszerek alkalmazása.
 
# Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke?
 
# Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke?
 
# Mi az a CRF és mire használható?
 
# Mi az a CRF és mire használható?

A lap jelenlegi, 2015. november 16., 10:43-kori változata

Tartalomelemzés
Tárgykód
VITMM139
Általános infók
Szak
info MSc
Kredit
4
Ajánlott félév
1
Tanszék
TMIT
Követelmények
NagyZH
1 db
Vizsga
írásbeli
Elérhetőségek


ZH (2014. tavasz)

  1. Naiv Bayes osztályozó
    1. Milyen képleten alapul; hogyan lehet a tényezőit becsülni?
    2. Hogyan alkalmazható többcímkés osztályozásra?
    3. Milyen a tanulás és tesztelés időigénye, és miért?
  2. Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve?
    Megoldás: Ha ismert a dokumentum nyelve, akkor a tokenizáláskor figyelembe tudjuk venni az adott nyelv sajátosságait (pl. ékezetek és írásjelek használata, van-e szóköz, dátumok, mértékek használata).
  3. Mi a szó-dokumentum mátrix használatának hátránya?
    Megoldás: A mátrix nagyon nagy lehet, ezért nehéz felépíteni és a műveletek elvégzése is időigényes.
  4. Milyen hibát véthet egy szótövező?
    Megoldás:
    Alultövezés: két szóhoz, melyek jelentése ekvivalens a feldolgozás szempontjából, az algoritmus két külön tövet rendel.
    Túltövezés: két szóhoz, melyek jelentése különböző, az algoritmus ugyanazt a tövet rendeli.
    Félreértelmezés: olyan végződést vág le az algoritmus, ami valójában a tő része.
  5. Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága r. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)?
    Megoldás: Zipf törvény: [math]P_n = 1 / n^a[/math].
    2. leggyakoribb szó esetén [math]P_2 = 1/2 = r[/math]
    4. leggyakoribb szó esetén [math]P_4 = 1/4 = r/2[/math]
  6. Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban.
    Megoldás:
    Algoritmikus, nyelv-specifikus átírószabályokat alkalmazó módszerek. (pl. Porter, Snowball, Lovins, stb.)
    Szavakat és szótöveiket tartalmazó szótárt használó módszerek.
    Egyéb eljárások, pl. statisztikai módszerek alkalmazása.
  7. Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke?
  8. Mi az a CRF és mire használható?

Ponthatárok

17-20 pont: 5
15-16 pont: 4
13-14 pont: 3
10-12 pont: 2
0-9 pont: 1


1. félév (tavasz)
2. félév (ősz)
3. félév (tavasz)
Egyéb