„Médiatartalom-kezelő rendszerek kidolgozás 2012” változatai közötti eltérés

A lap jelenlegi, 2014. április 27., 20:21-kori változata

← Vissza az előző oldalra – Médiatartalom-kezelő rendszerek

Tartalomjegyzék

1 Alapfogalmak
2 Adatmodellek
- 2.1 A félstrukturált adatok tulajdonságai
- 2.2 A félstrukturált séma tulajdonságai
3 Jelölő nyelvek
- 3.1 SGML - Standard Generalized Markup Language
4 Tudásmenedzsment
5 Információ keresés és feltárás
6 Keresési algoritmusok
- 6.1 PageRank és HITS különbségek

Alapfogalmak

adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít (pl. 5)
információ: értelmezett adat; (pl. 5 cm)
tudás: az ember által kontextusba helyezett információ (pl. Pisti haja 5 cm hosszú, és tudom ki Pisti)

adatkezelés: a nyers adatok tárolása, lekérdezése, manipulálása
információmenedzsment: az információk előállítása, rendszerezése, értékelése és visszakeresése
tudásmenedzsement: a szervezeti tudástőke növelését célzó törekvések

Adatmodellek

strukturált adatok: a tárolás struktúrája jól illeszkedik az információ struktúrájához (pl. adatbázis)
félstrukturált adatok: nem jól illeszkedik (pl. táblázat a HTML oldalban)
strukturálatlan adatok: nem strukturálható, az adat egésze hordozza az információt (pl. arcképet ábrázoló pixelek)

A félstrukturált adatok tulajdonságai

szabálytalan adatstruktúra (új elemek, változó típusok)
implicit struktúra (tag-ek a HTML-ben a formázást adják meg általában)
részleges struktúra: vannak nem strukturálható részek (pl. képek egy HTML szöveges elemzésekor)
csak a posteriori sémainformáció: adatbetöltés után lehet kinyerni a sémát

A félstrukturált séma tulajdonságai

nagy
változékony
laza (opcionális és alternatív adatelemek)
böngészhetőnek kell lennie

Jelölő nyelvek

SGML - Standard Generalized Markup Language

Előnyök
- Tartalom és forma szétválasztása (szöveges adatbázis)
- Független (hardver, oprendszer, szoftver verzió)
- Sokféle médiumra dolgozhat (www, CD, papír, WAP)
Hátrányok
- Bonyolult, nehezen integrálható
- Körülményes terjesztés
- Speciális szaktudást igényel
- Drága
- A megjelenítéshez külön modulok kellenek

Tudásmenedzsment

Egy olyan megközelítés, mely lehetővé teszi személyek, csoportok, szervezetek számára, hogy tudást rendszerezetten és kollektívan létrehozzanak, megosszanak és alkalmazzanak üzleti céljaik elérése érdekében.

Tudás fajtái

Tacit tudás
- Az egyén személyes tudása
- Tapasztalat
- Know-how
- Nem megfogható
Explicit tudás
- Formalizált
- Strukturált
- Kódolt
- Leírható
- Könnyen átadható

Tudásteremtés és konverzió

		MIVÉ?
		Tacit tudás	Explicit tudás
MIBŐL?	Hallgatólagos (tacit) tudás	Szocializáció	Externalizáció
	Kifejezett (explicit) tudás	Internalizáció	Kombináció

Tudásmenedzsment megközelítések

Kodifikációs - dokumentált tudás újrafelhasználása (rendszerező)
Perszonalizációs - munkatársak fejében levő tudás felhasználása (kapcsolati)

Tudástérkép

dokumentumokra, emberekre és adatbázisokra si utalhatnak
segítségükkel könnyebb eljutni tudásforrásokhoz

Tudástranszfer

Tudásátvitel két lehetséges módja:
- Információ
  - szavakba öntött információt ad át
  - független az egyéntől
  - statikus
  - gyors
  - nem kodifikálta
  - könnyű a tömeges terjesztés
- Hagyományos
  - szavakon túl képességeket ad át
  - egyéntől függ
  - dinamikus
  - lassú
  - nem kodifikált
  - nehéz a tömeges terjesztés

Információ keresés és feltárás

információ visszakeresés (information retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon

Információ keresés típusai

ad hoc visszakeresés: meglévő dokumentumokon
filtering: értesítés újonnan érkező releváns dokumentumokról
böngészés
push-típusú keresés
pull-típusú keresés

Információ keresés minősége

IR célja: felhasználói igények minél teljesebb és pontosabb kielégítése
relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
- R = TP/TP+FN
pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
- P = TP/TP+FP
rangsorolás (ranking): a relevancia szerinti rendezés
term: egy kulcsszó a rendszerben
normalizált term frekvencia (tf): egy term milyen relatív gyakorisággal fordul elő egy dokumentumban (a dokumentum leggyakoribb termjére nézve)
inverz dokumentum frekvencia (idf): annak az inverze, hogy milyen gyakran szerepel egy term a rendszer dokumentumai között, Együtt: tf-idf

IR modellek

Boolean modell: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
- Előnyök
  - logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
- Hátrányok
  - a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
  - nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris)
  - nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni
Vektor modell: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
- célja: hogy tudjuk mérni a részleges illeszkedést is
Kiterjesztett Boolean-modell
Valószínűségi modellek
- Klasszikus valószínűségi modell
- Következtetési háló modell (Inference Network)
- Valószínűségi háló modell (Belief Network)

Keresési algoritmusok

PageRank és HITS különbségek

PageRank	HITS
A bejárható összes weblapból számítják kérdezés előtt)	Egy lekérdezett weblap-készleten számolják, minden kérdésre.
Csak hitelességet számít.	Hitelességet és hub-értéket számít.
Nem triviális kiszámolni.	Könnyű számolni, de valós idejű elvégzése nehéz.

-- Main.ssophie - 2012.01.04.

@@ 94. sor: / 94. sor: @@
 ==Információ keresés és feltárás==
-* információ visszakeresés (infromation retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon
+* információ visszakeresés (information retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon
 ===Információ keresés típusai===
@@ 108. sor: / 108. sor: @@
 * relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
 * fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
-		 * R = TP/TP+FN
+** R = TP/TP+FN
 * pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
-		 * P = TP/TP+FP
+** P = TP/TP+FP
 * rangsorolás (ranking): a relevancia szerinti rendezés
 * term: egy kulcsszó a rendszerben
@@ 117. sor: / 117. sor: @@
 ===IR modellek===
-* *Boolean modell*: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
+* Boolean modell: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
 ** Előnyök
 *** logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
 ** Hátrányok
 *** a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
-*** nem lehet a dokumentumok hasonlósága szerint rangsorolni az ereményhalmazt (a hasonlósági függvény bináris)
+*** nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris)
 *** nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni
-* *Vektor modell*: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
+* Vektor modell: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
 ** célja: hogy tudjuk mérni a részleges illeszkedést is
 * Kiterjesztett Boolean-modell
@@ 147. sor: / 147. sor: @@
 -- Main.ssophie - 2012.01.04.
-[[Category:InfoMsc]]
+[[Kategória:Mérnök informatikus MSc]]

„Médiatartalom-kezelő rendszerek kidolgozás 2012” változatai közötti eltérés

A lap jelenlegi, 2014. április 27., 20:21-kori változata

Tartalomjegyzék

Alapfogalmak

Adatmodellek

A félstrukturált adatok tulajdonságai

A félstrukturált séma tulajdonságai

Jelölő nyelvek

SGML - Standard Generalized Markup Language

Tudásmenedzsment

Tudásmenedzsment

Tudás fajtái

Tudásteremtés és konverzió

Tudásmenedzsment megközelítések

Tudástérkép

Tudástranszfer

Információ keresés és feltárás

Információ keresés típusai

Információ keresés minősége

IR modellek

Keresési algoritmusok

PageRank és HITS különbségek

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Egyetem

Eszközök