Szövegbányászat

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


Tárgy honlapja: [[1]]

Vélemények, tapasztalatok

Hasznos tárgy,viszonylag könnyen teljesíthető követelményekkel.Van egy áttekintés rész a szövegbányászati algoritmusokról, majd egy (web)kereséssel foglalkozó rész, ahol mindent megtudsz arról, hogy hogyan lehet szövegekre keresőt csinálni. Ezután a dokumentum-kategorizálásról volt egy hosszabb előadássorozat, ahol egy szabadalom- kategorizáló rendszert is bemutattak.Amikor én jártam zh és vizsga volt, de a zh-t egy kiselőadással, a vizsgát egy spam-szűrős házival kiváltottam. Ajánlani tudom mindenkinek.

-- Merlin - 2006.05.31.

Érdekes tárgy, jópofa dolgokról beszélnek, amikről érdemes hallani. Az előadások slideokról mentek, és néha egy kicsit túl lazák voltak. A zh ezek után nekem egy kicsit keménynek tűnt, de nagyon lágyszívűen javítottak. A vizsgaidőszakban a szóbeli vizsga helyett egy értelmes feladatot kell megoldani, és megkapod a jegyet. Maga a szövegbányászat alapvetően következő dolgokat jelenti:

  • szöveges dokumentumokkal dolgozik, és a bennük előforduló szavak vagy karaktersorozatok gyakoriságát használja fel adatként az alábbi feladatokhoz:
  • keresés: adott szavakat tartalmazó dokumentumok hatékony kikeresése, rangsor állítása
  • csoportosítás (clustering): egy dokumentumhalmazt csoportokra osztani, hogy hasonló dokumentumok kerüljenek egy csoportba
  • kategorizáslás (classification): dokumentumokról eldönteni, hogy egy előre megadott kategória-rendszerben hova tartoznak.

-- SzaMa - 2007.01.14.

Jegyzetek

Szaszkó Sándor levele - 2006.06.27.

Mivel magam is csak néhány éve költöztem ki az SCH-ból természetesnek tartom hogy egy jó dologra itt hívjam fel a figyelmeteket.

A SZÖVEGBÁNYÁSZAT választható tárgy fiatal, 10 ember hallgatta.
Azért érdemes rá jönni mert:

  • célunk iparban is használható tudást átadni
  • az elkövetkezendő években nagy érdeklődésnövekedés várható a piacon (ahogy ez már gerjed az adatbányászatnál)
  • a tárgy gazdáinak kutatási területe is téma, követjük a legújabb dolgokat
  • magunk is fejlesztünk alkalmazásokat, több működő megoldásunk is van.
  • a vizsga kiváltható egyéni munkával (programírás, témafeldolgozás), ZH nem számít a vizsgajegybe

Célunk tartalmas előadások tartása, minket érdekel a téma így ez szívesen is tesszük egy érdeklődő csapatnak. Emiatt nem cél bónusz tárgy tartása, de szívatni sem akarunk senkit: aki eljön, tudjon visszaadni egy átlátás szintű ismeretet az anyagról, osztályzatot viszont egy számára is szimpatikus témában nyújtott teljesítmény alapján adunk (eddig senki sem tartotta megerőltetőnek és jó jegyeket tudtunk adni).

Néhány példa slide: http://textmining.tmit.bme.hu/foliak/

Az önálló munkához van konzultációs lehetőség is. Nem mellékes, hogy labornak sok futó projektje van, ezekbe be lehet kapcsolódni, némelyikben vannak fizetős munkák is.

Számonkérések (zh, vizsga, hf)

  • ZH, 2006.12.07. „Az átlag e és π közé esett”, de 3 ember kivételével mindenki átment elsőre.
  • A vizsgát nehezebbnek mondják, mint a zh-t, ezért inkább házi feladatot érdemes választani helyette.
  • A magyar nyelvű házikhoz ajánlják az [origo] korpuszt. Írtam hozzá egy
    Ezen a helyen volt linkelve a(z) OrigoReader.zip nevű fájl ("olvasót" link szöveggel) a régi wiki http://wiki-old.sch.bme.hu/bin/view/Valaszthato/SzovBanyasz oldaláról. (Ha szükséged lenne a fájlra, akkor a pontos oldalmegnevezéssel együtt küldd el a wiki
    Hiba a bélyegkép létrehozásakor: Nem lehet a bélyegképet a célhelyre menteni
    @sch.bme.hu címre a kérésedet)
C#-ban, ami képes beolvasni a cikkeket közvetlenül a 200 megás zip file-ból, nem kell előre kitömöríteni.

-- Peti - 2007.01.14.

%META:FORM{name="ValaszthatoForm"}% %META:FIELD{name="Trgy" title="Tárgy" value="Szövegbányászat"}% %META:FIELD{name="Trgykd" title="Tárgykód" value="vitmav03"}% %META:FIELD{name="Tanszk" title="Tanszék" value="TMIT"}% %META:FIELD{name="Elad" title="Előadó" value="Szaszkó Sándor, Tikk Domonkos "}% %META:FIELD{name="Kreditszm" title="Kreditszám" value="5"}% %META:FIELD{name="raszm" title="Óraszám" value="4"}% %META:FIELD{name="Terlet" title="Terület" value="Web"}% %META:FIELD{name="raijelenlt" title="Órai jelenlét" value="ajánlott"}% %META:FIELD{name="Jegy" title="Jegy" value="zh , vizsga , nagy házi "}% %META:FIELD{name="Elvrtmin.munka" title="Elvárt min. munka" value="kis utánaolvasás - kis munka"}% %META:FIELD{name="Minimumrajrjegy" title="Minimumra járó jegy" value="2"}% %META:FIELD{name="Elvrtmax.munka" title="Elvárt max. munka" value="kis utánaolvasás - kis munka"}% %META:FIELD{name="Munkrajrjegy" title="Munkára járó jegy" value="5"}%