Állomásoztató terület tervezése - az ETL egyes fontosabb kérdései

A VIK Wikiből
A lap korábbi változatát látod, amilyen (vitalap) 2012. október 21., 21:34-kor történt szerkesztése után volt. (Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenETL}} <br> __TOC__ ETL: Data Warehouse acquisition processes of Extracting, Transforming (or Transporting) and Loading (ETL) data fr…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót



ETL: Data Warehouse acquisition processes of Extracting, Transforming (or Transporting) and Loading (ETL) data from source systems into the data warehouse.

Adatkinyerés (Data acquisition)

Célunk, hogy a forrásrendszert lehetőleg minimálisan terheljük, ugyanakkor adatot ne veszítsünk és ne sérüljün az átvétel közben. Lehetőség van teljes vagy inkrementális, kezdeti vagy rendszeres adatkinyerésre. A begyűtendő adat tárolási módszere fájl, adatbázis, hordozható táblatér lehet. Kérdés milyen metaadattal rendelkezünk, ezek vezérelhetők-e. A kinyerés gyakorisága és a tipikus forrás elemek fontolandók meg a tervezés során.

Az adatkinyerés a fejlesztési erőfeszítések 60%-át adja. A megfelelő adatelemek kiválasztaása a változások észlelése kiemelt feladat.

adatkinyerés módja előnyök hátrányok
időközönként egyedi tábla másolat (Full snapshot) egyszerű
nincs forrásrendszer módosítás
időzíthető terhelés
erőforrásigényes
információ vesztés
késlelteés
időközönként egyedi tábla változások forrásrendszer terhelése időzíthető
kisebb információ vesztés
forrásrendszer módosítása
nem mindig megvalósítható
nagy késleltetés
változások eseményvezérelt kinyerése táblánként kitüntetett adatokra kis késleltetés
csökken az információ vesztés valószínűsége
viszonylag költséges
folyamatos többletterhelés a forrásnak
nem mindig megvalósítható
forrásrendszert igazítani kell hozzá
változások eseményvezérelt kinyerése a teljes tranzakciós kontextusra nincs információ vesztés
nincs késleltetés
költséges
bonyolult

Az információvesztés oka: mire az egyik táblát kimentjük, és elkezdjük a másikat, addigra abban már esetleg módosítottak (?)

Az adatkinyerés fajtái

Gyakoriság alapján:

  • kezdeti: az adattárház üzembehelyezésekor eszközölt első feltöltés, tarthat nagyon sokáig is
  • rendszeres: normál működés során

Az érintett forrásadatok mennyisége alapján

  • teljes: az egész forrás-adatbázis áttöltése
  • inkrementális: csak a változások töltése

Állomásoztatás (Staging)

Ez a DW "boszorkánykonyhája", itt sok hozzáadott érték van.

backup vs. archiválás:

  • backup: adatmentés visszaállítás céljából, ezt egy esetleges rendszerhiba után kell megtenni
  • archive: öreg adatok félretétele

CSONK folytköv.

adatminőség javítása

Külön tudomány.

pl: címek javítása a Posta cím-adatbázisa segítségével.

CSONK folytköv.

job vezérlés

CSONK folytköv.

mentések

CSONK folytköv.

betöltési lépések

CSONK folytköv.

-- adamo - 2007.11.26.