Szövegbányászat - ZH, 2006. ősz

A VIK Wikiből
(Szövegbányászat - ZH, 2006 ősz szócikkből átirányítva)
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


  1. Optimalizálja a keresőkifejezést invertált index esetén! A válaszhoz pontos indoklást kell adni! (8 pont)
    =(csoportosítás AND bigram) OR ((osztályozás AND döntési-fa) AND NOT pszeudokód)=
    Szó Dokumentumok száma
    csoportosítás 15000
    döntési-fa 40000
    bigram 2000
    pszeudokód 3000
    osztályozás 22000
    összes 200000

    Lépésenként ki kellett fejteni, hogy mennyi volt a lépésszám és a keletkező dokumentumhalmaz mérete.

  2. Adja meg a tömörített index tárigényét 2 millió, átlagosan 500 szót tartalmazó korpusz esetén! A jelölők tárigényének számításához adja meg a tömörítés módját is, használja a Zipf-törvényt! A szótár esetén elegendő közelítő nagyságrendi becslés megadása. (12 pont)
    Le kellett írni a Zipf-törvény, a különbségi kódolás és a γ-kódolás definícióját is. A szótárat lehet pl. hosszú stringben tárolni, ilyenkor kell számolni a szótár és a pointerek méretével is. A számolás nagyon hosszú lenne, nem érdemes részletesen kifejteni.
  3. Milyen módszert alkalmazna, ha különböző nyelvű dokumentumokat kellene egymástól megkülönböztetni? Milyen szövegreprezentációt használna és miért? Mennyiben különbözik a feladat, ha ismertek a lehetséges nyelvek, illetve ha nem? (12 pont)
    Definiálni kellett az n-gramokat, megemlíteni, hogy nem feltétlenül az összeset használják. Hogyan hasonlítható össze két profil? Ha nem ismertek a nyelvek, csoportosítási feladatot kell megoldani, ilyenkor ki kell választani egy konkrét algoritmust és leírni a működését.
  4. Ismertesse a terminus alapú vektortér modellt! Adjon meg legalább 3 súlyozási sémát képlettel! Milyen feladattípusoknál illetve eljárásoknál hatékony a dimenziócsökkentés? (12 pont)
    Keresésnél használnak „stop szavakat”. Naiv Bayes algoritmusban binomiális esetben szükséges a dimenziócsökkentés, multinomiális esetben nem.
  5. Ismertesse a Rocchio osztályozó működését! (8 pont)
    Le kellett írni a képletet a két Σ különbségével. Figyelembe veszi a negatív tanulóadatokat is. Hogyan tanul? Hogyan épít profilokat? Hogyan osztályoz?

-- Peti - 2006.12.07.