Információ integrálás, mediátor megközelítés

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


adatintegráció, információ integráció

  • szemantikus web megközelítés a másik irányból


nem elég adatbázisokat/elosztott adatbázisokat kezelni:

  • közös séma nincs (heterogén fogalmak, ontológiák, félig strukturált fogalmak)
  • régi források: nem relációs sémák + eltérő elérési módok
  • független források: nincs közös adminisztráció, nehezen előrejelezhető viselkedés
  • általában csak olvashatók – bár terjednek a tranzakciókezelési megoldások


feladatok:

1 forrásleírás

    • logikai szinten tudni, hogy miről van szó (pl. új autók)
    • forrás-képességek (hogy kérdezhető le? SQL?)
    • forrás teljessége (minden elemet tartalmaz?)
    • fizikai jellemzők (hálózat technikai jellemzők)
    • statisztikák az adatokról

1 forrás fúzió, lekérdezés tervezés, optimalizálás; forráselérés korlátai, minősége 1 monitorozás, végrehajtás


MI dolga:

  • forrásleírásnál
    • tanulás -> bányászás fejlesztése
    • források felkutatása
    • forrás statisztikák készítése
    • wrappereket induktív módon tanítani
  • forrás fúziónál
    • automata tervezés
    • nyelvek tervezése (amin a felhasználó megfogalmazhatja a kérést; transzformáció leírására)
    • szolgáltatások kompozíciós algoritmusának tervezése
    • monitorozás
  • tudásreprezentálás
    • ontológiák
    • metaadatok
    • következtetés
    • lekérdező nyelvek


méretek figyelembevétele:

  • hány forrás?
  • strukturált adatok?
  • követelmények: pontosság, teljesség
  • zárt vagy nyilt világ feltételezés?


kis forrásszám esetén (max 100):

  • nem virtuális mediátor, hanem kézzel írt ad-hoc program
  • vagy adattárházak, periódikusan (éjszakánként) sok adat letöltése 12-18 hónap bevezetési idővel
  • operációkhoz és döntéstámogatáshoz kellő adatok szétválasztása
  • jó teljesítmény (helyben az adatok)
  • rendszeres adattisztítás kell (+ források gyűjtése, stb.)


virtuális integráció leírására

  • datalog progik
  • a relációkat predikátumokkal írjuk le
  • szabályok: Horn-klózok, amik nem tartalmazhatnak függvényeket
    • Pl.: személy (név, szül, anyjaneve) :- S1(név, szül), S2(név, anyjaneve); SQL-nél tágabb, de itt ekvivalens
  • Virtuális integrációs sémák:
    • GAV
    • LAV (a forrásokat írjuk le a globális nézetben értelmezett „forrásokkal”)

-- Gegman - 2009.01.27.