Adatbányászati technológiák - Jegyzet

A VIK Wikiből
A lap korábbi változatát látod, amilyen David14 (vitalap | szerkesztései) 2013. február 5., 21:26-kor történt szerkesztése után volt. (David14 átnevezte a(z) Adatbányászati technológiák jegyzet lapot a következő névre: Adatbányászati technológiák - Jegyzet)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


Tartalomjegyzék

Jegyzet a következő könyvhöz:
Fajszi Bulcsú - Cser László
Üzleti tudás az adatok mélyén
Adatbányászat alkalmazói szemmel
(ISBN 963-421-558-0)

A könyv végén a következő hasznos segédletek találhatók:

  • 8.3 fejezet (228-241. oldal) Fogalomjegyzék
  • 8.4 fejezet (242-249. oldal) Angol-magyar adatbányászati szótár
  • 8.5 fejezet (250-252. oldal) Rövidítések jegyzéke

1. Az adatbányászatról egyszerűen

Az adat erőforrás. Üzleti értéket teremteni akkor fog, ha kezdenek vele valamit, ha az adatból információt csinálnak, az információból tudást, a tudást felhasználva pedig döntéseket hoznak, akciókat kezdeményeznek, és azokat végre is hajtják. A vállalati adatvagyon egyik legfontosabb felhasználási módja az adatbányászat.

Rengeteg új vállalati adat keletkezik évente Miért érdemes megőrizni a folyamatosan gyűlő adatokat? Miképpen lehet hozzáférni a körülöttünk áramló és adattömegek alatt rejtőzködő információs kincshez?

Döntéstámogató (üzleti információszerző és -szolgáltató) eszközök Az adatokból üzletileg is értékelhető információt kreálnak Adatbányászat - data mining

Az adatbányászat három feltétele:

  • Adat
  • Módszer
  • Gép

1.1 Technológia a rejtett információk megszerzéséhez

Az adatbányászat az adatbázisokból olyan implicit és rejtett információkat, összefüggéseket, szabályszerűségeket, mintázatokat nyer ki, amelyek a gyakorlatban is jól hasznosíthatók
Több tudományágat olvaszt magába: statisztika, mesterséges intelligencia, információtechnológia
Az algoritmusok építőköveit a statisztikai módszerek adják
Erősen támaszkodik heurisztikus módszerekre
Az adatbányászat az utóbbi évtizedben erős fejlődésnek indult. Ennek okai:

  • A rendelkezésre álló adatmennyiség exponenciálisan növekszik
  • Fejlett, nagy teljesítményű hardvereszközök jelentek meg
  • Kifejlődtek és letisztultak a legfontosabb adatbányászati módszertanok és technológiák

1.2 Az adatbányászat különböző megközelítései

Az adatbányászati alkalmazások csoportjai:

  • Felfedezés

Előfeltevések nélküli adatbányászat
A számítógépcsalád egy megadott hipotéziscsalád tesztelését végzi
A szakértő felkészültsége nagyban meghatározza a végeredményt
Tipikus példa: ügyfélszegmentáció

  • Célzott adatbányászat

Adottak az elemzés keretei
A jelenségek legnagyobb része jó közelítéssel leírható valamilyen függvénnyel
Tipikus példa: credit scorecard

  • Döntésautomatizálás

Ismert az adott döntés meghozásához szükséges pontos módszer
Rendkívül gyorsan, sokszor kell dönteni
Tipikus példa: levelek szétválogatása

1.3 Adat, információ, tudás

Tudás: képesség a felmerülő kérdések helyes megválaszolására
A jó döntéshez megfelelő információkra van szükség. A megfelelő információk kinyerése bonyolult feladat
Információprobléma: manapság egyre kevésbé az adathiány - sokkal inkább az adattúltermelés

1.4 Adatbányászat az üzleti világban

Milyen környezeti feltételek szükségesek az adatbányászat üzleti sikerességéhez?

1.4.1 Üzleti szituáció

Egy projekt elindításához fontos feltétel az üzleti cél megléte
Meg felelő minőségű adatoknak kell rendelkezésre állni - az adattisztítás, az adatok javítása komoly feladat
Legszerencsésebb, ha rendelkezésre áll egy jól kidolgozott, megfelelően karbantartott adattárház

1.4.2 Szakértelem

Sikeres adatbányászati munkához szükséges ismeretek:

  • Adatbányászati szakértelem, tapasztalat

Külső tanácsadók

  • Üzleti tudás

Adott területen dolgozó elemzők, iparági szakértők

  • Adatismeret

A vizsgálandó adatokkal napi szinten dolgozó munkatársak

1.4.3 Eszközök

Az adatbányászat nem csak egy-egy szoftver megvásárlásából és bevezetéséből áll
Feltétlenül szükséges az előző fejezetben említett ismeretek

1.4.4 Üzleti haszon

_Az adatbányászat annyit ér, amennyit hasznosítanak belőle._
Egyharmad-kétharmad szabály: Akkor produkált jó eredményt a munka, ha a feltárt összefüggések kétharmada az adott szakterületen dolgozó munkatársak sejtéseit, várakozásait igazolta, és egyharmada jelentett teljesen új ismeretet
Az üzleti haszon nyereséggé változik
Az adatbányászat

  • Növeli a hatékonyságot
  • Bővíti az üzleti lehetőségeket
  • Megalapozza a további innovációkat

Célszerű lehet előzetes megtérülési elemzést végezni, mert

  • sokszor nem áll rendelkezésre megfelelő kontrolling modell
  • nem lehet előre jelezni a munka várható eredményét

Kis költségű, kísérleti projekt végrehajtásának lehetősége

1.4.5 Példák üzleti alkalmazásokra

  • Ügyfélszegmentáció
  • Ügyfélérték-számítás
  • Adósminősítés
  • Lemorzsolódások vizsgálata
  • Csalásfelderítés
  • Keresztértékesítés
  • Bolti együttvásárlások
  • Személyazonosítás
  • Automatikus választás
  • Internetes viselkedési szokások elemzése

1.5 Az adatbányászati módszer

Az adatbányászat üzleti célú elemzői feladat
Fő lépések:

  • Üzleti cél meghatározása
  • Elemzési feladat megfogalmazása
  • Modellek felállítása
  • Modellek megvalósítása
  • Ellenőrzés

1.5.1 Az üzleti cél meghatározása

Az elemzés előtt tisztázni kell a prioritásokat és a fókuszokat
Konszenzusnak kell létrejönnie az elemzési célok tekintetében
Idő- és költségterv elkészítése
Üzleti cél általánosan: azok a legfelsőbb szintű kérdések, melyek gyakorlatias megválaszolása egyértelműen kifejezhető üzleti hasznot hoz

1.5.2 Az elemzési feladat megfogalmazása

Technikai szempontból nagy kihívás az adatok összegyűjtése, értelmezése
Adattisztítási feladatok
Adatok feltárása - ez megalapozza a modellépítést
Elemzési feladatok két nagy csoportja:

  • Felügyelt tanulás
  • Felügyelet nélküli tanulás

1.5.2.1 Felügyelt tanulás

Bizonyos számú attribútum minden rekordnál ismert - Magyarázó, független vagy bemeneti változók
A kérdéses tulajdonság csak egy részhalmaznál - Cél, függő vagy kimeneti változó
A feladat a tanuló állományban olyan összefüggéseket találni a független és függő változók között, amelyeket kivetítve a célállományra bizonyos előrejelzések tehetők
Paraméterbecslés: egy adott tulajdonság értékére kell számszerű becslést, vagy jóslást tenni
Becslés: pl. árváltozás hatására bekövetkező vásárlás változása
Jóslás: pl. ügyfélcsoport jövedelemtermelésének jövő évi megadása

1.5.2.2 Felügyelet nélküli tanulás

Nincs kimondott célváltozó. Valamilyen hasznosítható összefüggést kell találni a változók között
Példa: ügyfélszegmentáció, asszociációs vizsgálat (együttvásárlás)

1.5.3 A modellek felállítása

Modell: Az elemzési feladat matematikai kerete, a világ egyfajta leegyszerűsítése
Az előzetesen gyűjtött üzleti információk és a feltárás tapasztalatai alapján felépítjük az adatbányászati modelleket
Felügyelt tanuláshoz: prediktív modellek

  • döntési fák (téglatest-felosztás)
  • neuronhálók (görbék által határolt tartományok)
  • regressziók (egyenesekkel vagy síkokkal való felosztás)

Felügyelet nélküli tanuláshoz:

  • klaszterezési eljárások
  • vizuális technikák
  • önszervező rendszerek

1.5.4 A modellek megvalósítása

Az egyes modellek paramétereinek megtalálása több módszerrel is lehetséges
A modelleket általában több ponton kívülről vezérelni lehet - a megvalósítás során a modell fokozatos beállítása történik
Versenyeztetés - A modellek sikerességét objektív mérőszámokkal mérni lehet
Szempontok:

  • A mérhető pontosság - általában objektív
  • Az üzleti alkalmazhatóság - általában szubjektív

1.6 Adatbányászat és statisztika

  • Adatbányászat: célzottan üzleti alkalmazásokat szolgál (Megválaszolt kérdés: Miért?)
  • Statisztika: általánosabb (Megválaszolt kérdés: Milyen?)

Az adatbányászatban egy összefüggés csak akkor valódi eredmény ha üzletileg felhasználható, ha arra magyarázatot is találunk
Jó üzleti döntés fontos feltétele: ok-okozati viszony ismerete
Alkalmazásorientált szemlélet: nagyvonalúságok, nem olyan szigorú matematikai feltételek

1.7 Adatbányászat és hagyományos adatelemzés

  • Hagyományos adatelemzés: csak előre meghatározott dimenziók mentén
  • Adatbányászat: dimenziókon átívelő összefüggések feltárása

Az összes dimenzió mentén megkezdhető az elemzés, a leginkább meghatározóak kiválogatódnak

1.8 Adatbányászat és manuális elemzés

Az adatbányászati eredményekre manuálisan is rá lehetne bukkanni, de sokszor nagyon sok idő lenne
Viszont az algoritmus csak azt figyeli, amire megtanítják
Nagy komplexitású, több száz dimenziós adathalmazok
Az adatbányászati algoritmusok kiegészítik az adatelemzők munkáját

1.9 Az adatbányászat jövője

Mindig a legfrissebb elemzési lehetőségekkel foglalkozik
Személyiségi jogok védelme fontos

2. Amit az üzleti intelligenciáról tudni kell

2.1 Az üzleti intelligencia definíciója

BI - Business Intelligence
Széles skálájú program- és technológiahalmaz az adatok összegyűjtésére, tárolására, feltérképezésére, adatokhoz való hozzáférés és elemzés biztosítására annak érdekében, hogy a felhasználók minél jobb üzleti döntéseket hozhassanak

BI Infrastruktúrája:

  • Jelentéskészítő eszközök
  • Lekérdező eszközök
  • Online elemző rendszerek OLAP
  • Modellező, vizuális technikákat megvalósító eszközök
  • Statisztikai eszközök
  • Adatbányászati algoritmusok eszközei

2.2 Operatív rendszerek OLTP

OLTP - Online Transaction Processing
Olyan rendszer, amely az elvégzendő napi, operatív feladatokra van optimalizálva, azaz előre meghatározott, strukturált, rövid és izolált elemi tranzakciókkal hoz létre, módosít vagy töröl adatokat
Normalizált relációs adatstruktúrákra épül, és kerül minden tárolási redundanciát

2.2.1 Elemzés OLTP-vel

Elemzési, döntési szempontból nagyon fontos az adatok időbelisége

2.3 Adattárház koncepció

Adattárház guru: Bill Inmon 80' évek vége

  • Adattárház*: Data Warehouse

Témaorientált, integrált, az adatokat történetiségükben tároló adatrendszer, amelynek fő célja az adatokból történő hatékony információkinyerés biztosítása, elsősorban a döntéshozatali folyamatok támogatása céljából

DW építés lépései, koncepciója:

  • OLTP rendszerek adatainak lemásolása egy csendes időszakban
  • Időpecsét
  • Nem a napi működéssel kapcsolatos adatok integrálása
  • Üzleti fogalmak és modellek megalkotása

Az adattárház-építőknek hidat kell verni az üzlet és az IT között

DW-OLTP ÖSSZEHASONLÍTÁS: 25. oldal

2.3.1 Mikor van szükség adattárházra

Adatok hatékony felhasználása
Korszerű, hatékonyan szervezett eszközök az erőforrás-menedzsmenthez

2.3.2 Adattárházak fő tulajdonságai

Bill Inmon:

  • téma-orientált
  • integrált
  • adatok több időszakból
  • állandó

+3:

  • hozzáférhető
  • transzformált (egységes, konzisztens)
  • menedzsment-vezérelt

2.3.3 Téma-orientált

Az adatok bizonyos témakörök köré szerveződnek
A területeket a kritikus sikertényezők alapján lehet azonosítani
Például:

  • OLTP
    • Értékesítési rendszerek
    • Pénzforgalmi rendszerek
    • Beszerzési rendszerek
  • Adattárház:
    • Vevői adatok
    • Személyzeti adatok
    • Támogató adatok

2.3.4 Integrált

Az összegyűjtött adatok globálisan konzisztens kódrend szerint, strukturáltan jelennek meg az adattárházban
Adatdefiníciók standardizálva

2.3.5 Adatok több időszakból

Legyen lehetőség a különböző időpontokra történő elemzésekre
Az adattárházban hosszú távú, historikus adatok szerepeljenek, amelyeket időbélyeggel ellátott pillanatfelvételekként tárolunk

2.3.6 Állandó

Az adattárházba az adatok jól definiált interfészeken keresztül kerülnek be, ellenőrzött módon
Az adatbetöltés nem folyamatos
Csak olvasható adatbázis

2.3.7 Hozzáférhető

Kulcskérdés
Egyszerű, jól időzíthető hozzáférést kell biztosítani

  • Milyen adatokhoz lehet hozzáférni?
  • Hol lehet őket megtalálni?
  • Hogyan lehet hozzáférni?

2.3.8 Transzformált (egységes, konzisztens)

Az adatokat egységes formára kell transzformálni
Adatok tisztítása, átforgatása, összegzése

2.3.9 Menedzsment-vezérelt

Cél az elemzés és döntéshozatal segítése, ezért a szerkezetnek is ezt kell tükröznie
Rugalmas, sokféle lehetőség

2.3.10 ETL folyamat

ETL (Extraction-Transform-Load): Az adattárház alapadattárának feltöltése, frissítése
Gyakran extraktumokból kell kiindulni, nincs szükség minden adatra
Adattisztítás - Nagyon fontos része a folyamatnak
Az adattárház tartalma nem változik meg a feltöltés, frissítés során, csak bővül

  • Nem állapotot, hanem történéseket regisztrál

Az online rendszerek terhelése nélkül lehetséges lekérdezéseket végrehajtani

2.4 Lekérdezés

Standard riportok
Egyedi lekérdezések

  • Lehetségesek, ha a dimenziók jól definiáltak, és a mérőszámok ki vannak számolva
  • Felmerülő értelmezési problémák

2.5 Adatelemző rendszerek OLAP

2.5.1 Multidimenzionális adatmodell MDDM

Célja: A különböző információfelhasználók más-más formátumban és részletezettségben nézhessék meg az adatokat
Az OLAP technológia multidimenzionális nézeteken keresztül biztosít közvetlen, gyors adatelérést a végfelhasználóknak
Adatkocka: Az adatelemek ábrázolására használt módszer a MDDM-ben

  • Jellemzők stb.
  • Dimenziók leszűkítése, keresések

Dimenzió: Tranzakcióhoz köthető attribútum

  • Gyakran hierarchia építhető rájuk

Mérték (measure): összeadható mennyiség

2.5.2 Lefúrás

A dimenziók növekedésével jelentősen nő a kombinációk száma
Lefúrás a hierarchia lejjebbi szintjeire
Jelentős szerep a hibakeresésben, mögöttes tartalmak megismerésében, eredmények ellenőrzésében

2.6 Elemző felületek és vizuális megjelenítés

A legtöbb adatbányászati szoftver változatos, hasznos lehetőségeket biztosít a kapott eredmények megjelenítéséhez

2.7 Jelentéskészítés

Rendszeres jelentések

  • Formailag kötöttek
  • Például: Kiegyensúlyozott stratégiai mutatószámrendszer (Balanced Scorecard, BSC)
    • A vezetés az üzleti stratégia megvalósulását tudja követni és ellenőrzés alatt tartani
  • Nagy futási igényűek - futtatás éjszaka

Az adattárház aggregációs rétegében kerülnek elraktározásra a már elkészült riportok

2.8 Fokozatos építkezés

A sikeres adattárház beépül a vállalat mindennapi életébe
Az adattárház döntően a nála kisebb adatpiacokat látja el információval
Használatba vétele, bevezetése fokozatosan történik
Az adattárházból elvileg lehetetlen egymásnak ellentmondó adatok kinyerése

2.9 Adattárház és adatpiac

Adatpiac (*Datamart*)
Az adattárháznál kisebb, lokális - a vállalat valamely szakterülete számára készült - adattár és a hozzá kapcsolódó eszközök

Különbség: A tárolt adatok komplexitása

DM-DW ÖSSZEHASONLÍTÁS 36. oldal

2.9.1 Tárhely és sebesség

A multidimenzionális tárolás sokkal több helyet foglal, mint a redundancia mentes relációs struktúra
Nagy feladat egyensúlyt találni a felhasználók ideje és a tárolókapacitások költsége között
Hibrid megoldások

2.10 Az adatbányászat, mint lehetőség

Olyan kérdésekre tud választ adni, amik fel sem merülnek
Rejtett összefüggések feltárása

3. AZ üzleti intelligencia alkalmazásai

3.1 Az alkalmazás fő területei

3.1.1 Pénzügyi jelentések készítése

Fontos szerep jut a vállalat helyzetét tükröző pénzügyi jelentéseknek

  • Adatok megértése
  • Adatok elhelyezése jól definiált üzleti dimenziók mentén
  • Elemzés
    • Dimenziók közötti összefüggések meghatározása
    • Mutatószámok létrehozása
  • Komolyabb összehasonlító elemzések

3.1.2 Kontrolling - jövedelmezőség

A kontrolling három szinten méri a jövedelmezőséget

  • CPS - Ügyféljövedelmezőség
  • PPS - Termékjövedelmezőség
  • OPS - Szervezeti jövedelmezőség

3.1.3 SCM, SRM, SNM

Beszállítói lánc kezelése: SCM Supply Chain Management
Beszállítói hálózat kezelése: SNM Supply Network Management
Beszállítói kapcsolat kezelése: SRM Supply Realtionship Management

Logisztika: Vállalati folyamat, melynek célja a nyersanyagok hatékony áramlásának megtervezése, megvalósítása és ellenőrzése, a hasonló folyamatok integrációja

  • Legfőbb célkitűzése a költségek optimalizálása és a szolgáltatási színvonal emelése
  • CIL: Computer Integrated Logistics
  • JIT: Just in Time
  • CIM: Computer Integrated Manufacture

A vállalat minden területének egyazon információs adatbázisba integrálása
Alapvető cél a vállalati teljesítmény mérhetővé tétele
Mind az eladás, mind a termékfejlesztés közelebb kerül a végfelhasználóhoz

SCM
Élő láncnak tekintett struktúra, szoros kölcsönhatás

  • Végső fogyasztók - Marketing
  • Kiskereskedők - Eladás
  • Beszállítók - Beszállítás
  • Gyártók - Gyártás
  • Disztribútorok - Kiszállítás

SNM
Magasabb szinten integrált mint az SCM

SRN
Beszállítók teljesítményének mérése

3.2 Ügyfélkapcsolat-menedzsment

CRM - Customer Relationship Management
Előtérbe kerül az ügyfél, az ügyfélismeret felértékelődik
Szemléletmód, új üzleti modell

3.2.1 Termékközpontú marketing

A cégek a szellemi és anyagi tőkéjüket a termékek mentén csoportosítják, a termékek köré szervezik tevékenységüket
Az ilyen marketing viszonylag egységesen szól az ügyfélhez, nem lehetséges megszólítani a különböző ügyfélcsoportokat, mindegyikhez egységes üzenetet lehet csak eljuttatni

3.2.2 Ügyfélközpontú marketing

Az ügyfelet helyezi a középpontba

MARKETING SZEMLÉLETEK ÖSSZEHASONLÍTÁSA 46. oldal

Az ügyfélismeretnek óriási értéke van
A jobb előállítása annyit jelent, hogy jobban megfelel az ügyfeleknek mint a versenytárs terméke
Jobban illeszkedő értékkosár (termékből és/vagy szolgáltatásból)
Ha a piac viszonylag telített, akkor az ügyfélismeret mentén lehet a keresztértékesítési stratégiákat kialakítani (cross-selling)

3.3 Az ügyfélkapcsolat-kezelés elemei

Analitikus CRM - Analitika Operatív CRM - Működtetés, Információelosztás

3.3.1 Operatív CRM-rendszerek

A vállalat értéket nyújt fogyasztóinak, eközben információk gyűlnek róla a vállalat számára

3.3.2 Működtetés

Működtetés: információk rendszeres gyűjtése, elektronikus kapcsolatok vezérlése, front office és back office tevékenységek közötti információáramlás megszervezése, marketing kampányok lebonyolítása

ÜGYFÉLKAPCSOLAT-MODELL: 49. oldal

3.3.3 Információelosztás

Összetett feladat, hogy a megfelelő információ a megfelelő személy számára, a megfelelő helyen, formában és időben rendelkezésre álljon
Megvalósítás valamilyen hálózati technikával

3.3.4 Analitikus CRM

Elemzés (Folyamat: Adattárház > Rendszeres jelentések (Adatbányászati technológiával is) )

3.3.5 Mire jó a CRM?

A CRM három pillére:

  • Elemzés
  • Információelosztás
  • Megfelelő működtetés

Példa: Üzletember - repülőtér - új jegy foglalása

3.4 Az üzleti intelligencia és az adatbányászat kapcsolata

ÁBRA: 51. oldal

Körben: ... > Operatív rendszerek (Alaprendszerek) > Üzleti intelligencia rendszerek > Analitikus CRM rendszerek (Kiaknázó rendszerek) > ...
Az alaprendszerek által folyamatosan előállított adatok feldolgozását és elemzését végzik el az üzleti intelligencia rendszerei. Ezután az adatelemző rendszer adatbányászat segítségével az üzleti intelligencia rendszerek által előkészített adatokon végez elemzéseket. Végül a visszacsatolásban a megszületett eredmények alapján az üzleti céloknak legmegfelelőbben alakítjuk át az alaprendszereket

4. Az adatbányászat alkalmazásai

4.1 Marketingkampány

Az üzleti feladat a hatékony marketing kampány lebonyolításához szükséges tudás megszerzése - kik a legvalószínűbb vásárlók
Szeretnénk olyan modellt alkotni, melynek segítségével egy ügyfél tulajdonságai alapján meg tudjuk jósolni a vásárlói hajlandóságát
Tehát a vásárlói hajlandóság a célváltozó

4.1.1 Modellek felállítása

4.1.1.1 Döntési fa

Fastruktúra, melyben a levelek tartalmazzák bizonyos lényeges jellemzők tekintetében az azonos/hasonló egyedeket
A fastruktúra építését mindig csak a szükséges mélységig kell folytatni
Egy jól használható döntési fához ki kell választani azt a dimenziót és vágási értéket, amely a leginkább elkülöníti egy sokaság csoportjait a célváltozó szempontjából

  • Ehhez minden dimenziót végig kell fésülni
4.1.1.2 Logisztikus regresszió

Kategorizálási feladatokhoz használható
Cél: Megadjuk azokat a súlyokat, amelyek az egyes változók szerepét leírják

Logisztikus függvény ÁBRA: 56. oldal

Például: Vásárlási valószínűség értéke: logit(A*kor + B*jövedelem + C*ügyfélidő + D)

4.1.1.3 Neurális háló

Egy hálózat, az egyes neuronokban egy logisztikus aktiválási függvény van, aminek bemenő értéke az előző réteg neuronjainak kimenete és a nyilakhoz tartozó súlyok szorzataként adódik
A háló tanulása a súlyok változásában nyilvánul meg

4.1.2 A modellek értékelése

Tanuló és validáló állomány segítségével állapítjuk meg a egyes modellek paramétereit
Tesztállomány
A modellek erősségének értékelését egy grafikon segítségével végezhetjük el, erről leolvashatjuk a legjobb modellt

4.1.3 A modellek liftje

  • Lift*:

Asszociációs szabály esetén annak hatékonyságát jellemző érték, amely a konfidencia és az elvárt konfidencia hányadosaként áll elő
Bináris, változó prediktív modellezés esetén liftnek nevezzük a modell által legvalószínűbbnek tekintett csoportban a találati arány és egy véletlen minta találati arányának hányadosát
A lift azt mutatja, hogy pl. célzott kampány hányszoros eredményt ad egy célzatlanhoz képest, ugyanakkora erőráfordítással
Modell liftje: hányszorosára javítottuk a kampány hatékonyságát
Mennyiben térünk el a valószínű értéktől

4.1.4 Haszon-költség diagramok

Haszon-költség mátrix felállítása

4.1.5 Haszon-költség elemzés

A modell sorba rakja valószínűség szerint az egyedeket
A haszon-költség elemzés meghúzza a vonalat, ahol optimális a célcsoport nagysága

4.2 Adósminősítés

Több ügyfél nem mindig jobb
Pontszámrendszer (scorecard) alkalmazása
Lehetőséget ad a haszon-kockázat profil megismerésére
Túl szigorú feltételek meghatározása ugyanúgy alacsony haszonnal jár, mint a túl engedékeny hitelkihelyezés
Haszon-kockázat diagram: 60. oldal

4.2.1 Célváltozó definiálása

El kell dönteni, hogy kit tekintünk jó és rossz adósnak
A határ meghúzása üzleti döntés, de elemzési szempontok is szerepet játszhatnak
Szigorúbb kritériumok esetleg túl kevés egyedszámot eredményeznek egy bizonyos csoportban, így a modellek eredményei nem lesznek elég szignifikánsak

4.2.2 Nyers és képzett bemeni változók

  • Nyers adat*: Amit az ügyfél megad

(Nyers) adatok fajtái

  • Folytonos (intervallum); pl. kor, jövedelem
  • Sorrend típusú (ordinális) - diszkrét; pl. végzettség, beosztás
  • Kategóriaváltozó (nominális) - diszkrét; pl. hitelcél, családi állapot - nem lehet sorrendet fellálítani
  • Bináris - diszkrét;

A (nyers) adatokból új változókat képezhetünk
Fontos képzett változók:

  • Eladósodottsági ráta (törlesztés/jövedelem arány)
    • 30% felett semmiképp sem adnak hitelt
  • Fedezettségi ráta (hitelösszeg/tulajdonolt ingatlan értéke)
    • 60% felett nem adnak jelzáloghitelt

4.2.3 A siker kulcsa: a képzett változó

Fontos feladat a megfelelő képzett változók megalkotása, megtalálni a legjobban diszkrimináló változókat

4.2.4 A változók információs értékei

  • Delinkvenciaszint*: Rossz adósok aránya

Egy változó annál több információt hordoz, minél eltérőbbek a delinkvenciaszintek az egyes értékek esetén

4.2.5 Folytonos változók kezelése

Nincsenek természetes csoportok, tartományokat lehet jellemezni
Probléma: túl kis szakaszokon kevés ügyfél van, túl nagy szakaszokon viszont lényeges különböző csoportokat mosunk össze
Bizonyítéksúly - Weight of Evidence WOE

  • A delinkvencia logaritmusa

4.2.6 A pontszámrendszer

Pontszámelemzés során diszkriminanciaanalízist végeznek, és megkeresik azokat az attribútumokat, amelyekben szignifikánsan különböznek a jó és rossz adósok a múltbeli adatok alapján
Ezután pontokat rendelnek az adatokhoz annak függvényében, hogy mennyire valószínűsíthető a vissza nem fizetés a WOE vagy más algoritmus alapján
Egyes tulajdonságokra kapott pontok jobban hajlamosítanak a hátralékba kerülésre
Minden jelentkező egy összesített pontszámot kap (score), ami a tulajdonságok súlyozott összegeként adódik

4.2.7 A modell eredményessége

A jóslás sikerességét tesztállománnyal lehet lemérni
A haszon-kockázat diagram a jók által termelt haszon és a rosszak által okozott veszteség ismeretében készül el

4.2.8 A pontszámítási módszer hiányossága

A változók közötti interakciót is figyelembe kell venni
Például: villamos-busz, csúcsfogalom-este

4.2.9 Metaváltozós regresszió

Metaváltozók bevezetése, melyeket két vagy több változó tartományaiból lehet képezni
Ilyen módon olyan fontos részletekre is fény derülhet, melyeket egyébként elfedne a modell
Például: Egy adott korcsoport a egy adott jövedelemsávon belül elmosódhat, minden korcsoportot egybe sorolnánk

4.2.10 Interpretálhatóság

Fontos, hogy a kapott eredmény mennyire interpretálható
A neuronháló jobb eredményeket adhat, de nehéz megérteni mi történik a hálón belül
A döntési fa is jó eredményeket adhat, de előfordulhat, hogy az adott adósnyilvántartó rendszerben a fa döntési logikáját nem lehet alkalmazni, mert például pontszerű értékelésre van felkészítve

4.3 Ügyfélszegmentációról általában

Ügyfélszegmentáció Olyan csoportokra osztjuk fel az ügyfeleket, amelyekben lényegesen eltérnek az bizonyos kulcsfontosságú tulajdonságok, például profitabilitás, kockázat, lemorzsolódási valószínűség, lifetime value, stb.

A szegmentációt háromféle adatcsoport alapján lehet végezni:

  • Demográfiai adat (pl kor, nem végzettség)
  • Tranzakciós adatok (pl mikor mit vett, reklamációk)
  • Dinamikus tulajdonságok (pl tendenciák)

Az ügyfélszegmentáció tipikus lépései

  • Ügyfélazonosítók egységesítése
  • Adathiányok kezelése
  • Adatok transzformációja
  • Modellezés
  • Szegmentumok tulajdonságainak feltárása

4.3.1 Ügyfélazonosítók egységesítése

Adatbázisok konszolidációja, entitások összevonása
Nehéz feladat

4.3.2 Adathiányok kezelése

Adathiány-kezelő módszerek

  • Kategorikus változók
    • Ismeretlenre állítás
  • Számszerű változók
    • Helyettesítési módszer - átlag, módusz, medián
  • A nem üres értékek alapján véletlenszerűen töltjük fel az üres helyeket
  • Jól korreláló másik változó
  • Egyedi módszer

Fontos: meg kell jelölni azokat a rekordokat, ahol mi töltöttük ki az üres értékek helyét

4.3.3 Adatok transzformációja

Szegmentáció ritkán végezhető közvetlenül az eredeti adatokon
Módszerek:

  • Az adatok eloszlásának átalakítása statisztikailag jól kezelhető eloszlássá
  • Új változók képzése
  • Folytonos változók diszkretizálása
4.3.3.1 Az eloszlás átalakítása

Statisztikailag használható: normális eloszlású, extrém értékektől mentes valószínűségi változók
Adatok ábrázolása több szempontból, egy vagy két dimenziós hisztogramokkal
Az adatbányászati szoftverek sokszor felajánlják a kiugró (outlier) értékek kivágását
Ezzel óvatosan kell bánni, mert a kiugró értékek lehetnek kis elemszámú, speciális szegmensek is

4.3.3.2 Új változók képzése

A lényeg gyakran nem az abszolút számokban, hanem arányokban és különbségekben van

4.3.3.3 Diszkretizálás

Az eredetileg folytonos értékű változók diszkretizálása
Kvantilisek képzése

4.3.4 Modellezés

Két alapinformációra van szükség

  • Maximum hány különböző csoport kezelhető
  • Távolságmetrikát kell definiálni
    • A különböző paraméterekben való eltérést teszi összemérhetővé

4.3.5 Szegmentumok tulajdonságainak feltárása

Statisztikák készítése a kapott szegmentumokra
Ezáltal üzletileg értelmezhetően lehet jellemezni őket

4.4 Banki szegmentáció

4.4.1 Dimenziók definiálása

Bank lakossági ügyfeleinek vizsgálata
Az igénybe vett tranzakciók összege alapján
Tranzakciótípusok
Legfontosabb cél: Csoportra szabott akciók indítása
Akkor jó a szegmentáció, ha a profilozás után nevet tudunk adni a szegmenseknek

4.4.2 Klaszterek profiljai

Szegmensek:

  • távbankoló
  • megtakarító
  • bérfelhasználó
  • pénztárba járó

4.4.3 A szegmentáció üzleti haszna

A szegmentáció eredményére nem lehet azonnali megtérülést számolni, de jó megtérüléssel rendelkező akciók indíthatóak
Megtérülés - Return On Investment ROI

4.5 Áramszolgáltatói szegmentáció

4.5.1 Az árampiac

Az áram speciális árucikk, nem lehet raktározni
Minden pillanatban pontosan annyi kell belőle, amennyit a fogyasztók elfogyasztanak
A termelésnek maximálisan kell igazodni a fogyasztáshoz
Áramot termelni egyenletes mennyiségben hatékony
A profit meredeken emelkedik a fogyasztók igényeinek megjóslásának pontosságával

4.5.2 Szegmentáció eredménye

Fontos a fogyasztó mérete
Fontos dimenzió: fogyasztás ingadozása napi, heti havi szinten

4.5.3 Nyers adatok

Lognormális eloszlás - (kb mint a haranggörbe)
Nagyon gyakori

4.5.4 A korreláció csapdája

3 jól elkülöníthető klaszter

  • Kis fogyasztó
  • Közepes fogyasztó
  • Nagy fogyasztó

Az új tudás teremtésének legnagyobb ellensége, ha a változók együtt mozognak, azaz korrelálnak

4.5.5 A kompromisszum keresése

Az ipari fogyasztó teljesítménygazdálkodásának minőségét azzal jellemezheti, hogy átlagosan mennyit téved
Egy matematikailag optimálisabb módszer néha kevesebbet ér, mint egy pontatlanabb, de jobban interpretálható és üzleti fogalmakhoz köthető megoldás

4.5.6 Klaszterek

A klaszterekkel szemben támasztott követelmények a projektben

  • legnagyobb klaszter darabszám ne haladja meg a sokaság felét
  • legalább 4-5 klaszter
  • erős legyen a homogenitás
  • klaszterek jól profilozhatók legyenek (legalább egy-egy dimenzió mentén váljanak el egymástól)

4.5.7 Továbbfejlesztés

4.6 Ügyfélanalitikai alkalmazások

CRM

A CRM-KIÉPÍTÉS FOLYAMATA ÁBRA: 82. oldal

  • 1. szakasz: Ügyfél megismerése
  • 2. szakasz: Stratégia kialakítása
    • Kollaboratív CRM
    • Operatív CRM
    • Analitikus CRM
  • 3. szakasz: Üzleti alkalmazás
    • Kampánymenedzsment - az értékesítés támogatása
    • Kockázatkezelés
    • Keresztértékesítés
    • Csatornaoptimalizáció
    • Lemorzsolódás megelőzése
  • 4. szakasz: Tanulás (visszacsatolás)

4.6.1 Ügyfél megismerése

  • Ügyféladattár kiépítése
    • Lehetőséget biztosít, hogy különböző adatokra keressünk rá egy adott ügyféllel kapcsolatban
  • Adatminőség biztosítása
  • Szegmentáció - profilozás
  • Ügyfélérték megállapítása
4.6.1.1 Az ügyfélszegmentáció

Az analitikus CRM legalapvetőbb és egyben legfontosabb eleme
Az adatbányászati eljárásokkal meghatározott szegmenseket különböző jellemzőkkel írhatjuk le
Szegmensek közötti migrációs hatás

4.6.1.2 Ügyfélérték-potenciál

Egy szám - Lifetime Value LV
Mennyi a várható haszon az üzleti kapcsolat teljes ideje alatt
Kiinduló értéke a jelenlegi ügyfélérték
Ezt módosítja a vásárlási hajlandóság és a nagyobb jövedelemtartalmú termékek iránti affinitás

4.6.1.3 Ügyfélérték alapú szegmentáció

Csoportok

  • Sztárok (jobbra fent)
  • Fejőstehenek (balra fent)
    • (első két csoport)
    • tipikusan nagy forgalmat bonyolító ügyfelek
    • cél: hosszú távú megtartás, lojalitás erősítése, igényeik feltárása és maximális kielégítése
  • Kérdőjelek (jobbra lent)
    • kockázat a konkurencia vonzása
    • aktív marketingakciók
  • Kutyaütők (balra lent)
    • ráfordítások minimalizálása
    • hagyni vagy bátorítani az elhagyást

Tengelyek

  • Y ügyfél által hozott haszon
  • X üzleti potenciál

4.6.2 Stratégia kialakítása

A szegmentációk mind viselkedési, mind pénzügyi oldalról átvilágítják az ügyfélbázist
Meg kell határozni, hogy a háromféle CRM-stratégia (kollaboratív, operatív és analitikus) milyen arányára van szükség

  • Kollaboratív
    • A CRM-mel foglalkozók egymás közti munkamegosztását és együttműködését támogatja
  • Operatív
    • Az ügyfelekkel való napi szintű kapcsolattartást segíti elő és a keletkező adatok megőrzését biztosítja
  • Analitikus
    • Az ügyféladatok vezető információvá alakítását és a döntések előkészítését végzi

4.6.3 Ügyfélanalitikai (üzleti) alkalmazások

Az ügyfél státuszának változásával jelennek meg újabb és újabb elemzési lehetőségek

4.6.3.1 Kampánymenedzsment - az értékesítés támogatása

Kampányok fajtái

  • Ügyfélszerző
  • Keresztértékesítési (cross selling)
  • Többletértékesítési (up selling)
  • Megtartó, lemorzsolódást megelőző

Kulcsfontosságú az eredmények folyamatos mérése
A pozitív és negatív válaszokat később a célcsoport azonosítására lehet használni
Célrendszerek
A kampány lebonyolításához szükséges legfontosabb funkcionális elemeket egyesítik

4.6.3.2 Kockázatkezelés

Kockázatok azonosítása, azok modellezése és elemzése
Főleg befektetési és hitelezési döntéseknél
A saját populáción fejlesztett pontszámrendszer sokkal pontosabb lehet mint a kívülről beszerzett
Elfogadható maximális kockázati szint meghatározása
Csalásfelderítés - Tipikusan csalásra utaló tranzakciós szokások

4.6.3.3 Keresztértékesítés

Elsősorban a más telített piacokon alkalmazható eredményességgel

4.6.3.4 Csatornaoptimalizáció

A disztribúciós csatorna költségei jelentősek
Célja a disztribúciós költségeket csükkenteni oly módon, hogy az ügyfeleket befolyásolni igyekszik, a költségtakarékosabb formák felé terelve őket
A keresztértékesítéssel rokon eljárás

4.6.3.5 Lemorzsolódás megelőzése - az ügyfelek lojalitása

Lemorzsolódás (churn, attrition) Ügyfélszinten mérik a lemorzsolódási hajlandóságot, pontszámot képeznek (score), így meghatározható a veszélyeztetett ógyfelek köre
Az ügyfélmegtartó programokra szánt erőforrások felhasználása optimalizálható

4.6.4 Az analitikus CRM felhasználói

  • Felsővezetés
  • Marketing
  • Értékesítés
  • Beszerzés
  • Pénzügy, kontrolling
  • IT

4.6.5 Szektorok

Legelső felhasználók a telekommunikációs cégek voltak

  • Pénzintézetek
  • Biztosítók
  • Közművek
  • Kereskedelem
  • Egészségügy
  • Kormányzati-közigazgatási

4.6.6 Az ügyfélkapcsolat kezelés legfontosabb kérdései

  • Stratégiai kérdések
    • Hogyan definiáljuk az ügyfelet?
    • Melyek a legfontosabb ügyfélcsoportjaink?
    • Milyen utak vezetnek a nyereségességhez?
  • Pozícionálási kérdések
    • Hogyan állapítsuk meg az ügyfélszegmenseket?
    • Melyik kommunikációs csatornákat használjuk?
    • Milyen az egyes kampányok eredményessége?
    • Belső folyamatok hatékonysága
      • Hogyan csoportosítsuk az erőforrásainkat az ügyfélszegmensek között?
      • Milyen és mekkora kapacitással kell rendelkeznünk?
    • Mutatók
      • Hány ügyfelünk van?
      • Milyen az elvándorlás mértéke?

4.7 Ipari alkalmazás

Acélipar
Pár százalékos selejtarány természetes

4.7.1 Adatok és adatbázisok a meleghengerlésnél

Minden berendezés önálló számítógépi vezérléssel rendelkezik
Több hierarchia szint
Minden kihengerelt szalagról keletkező nagy mennyiségű információt egy egységes adatbázisba (adattárházba) kell összehozni
Adatok egységes alakra konvertálása, mérési hibák és zajok leválasztása

4.7.2 A módszer: önszervező neuronhálók alkalmazása

Önszervező neuronháló - Self-Organising Map SOM A mesterséges neuronhálós algoritmusok felügyelet nélküli tanulást használó változata Anélkül használható csoportosításra, hogy előre megadnánk a bemenő adatokból képzett csoportok jellegét N-dimenziós teret kétdimenziós képek sorozatára bontja le
Több, mint egyszerű korreláció- vagy regresszióvizsgálat
Nincs szükség az összefüggés várható jellegének ismeretére
Különösen alkalmas például nemlineáris összefüggések kimutatására

4.7.3 Neuronhálón alapuló modell kialakítása

A modellalkotás kezdő fázisában alegységeket kell definiálni
Ezek a részmodellek egymástól fizikailag is elhatárolható hatásmechanizmusokat kell, hogy leírjanak
El kell különíteni a célértékeket (alapjelek) és a tiszta változókat (célérték követéséhez a jelenlegi szabályzó rendszertől függően változnak)
Tanításhoz használt mérési adatok rendszerezése, szűrése
E módszer nem alkalmas extrapolációra, csak a tanulási ciklusban látott térrészekben történő interpolációra

4.7.4 Kiértékelés, várható és realizált pontosság

A felépített modelleket összeillesztés előtt tesztelni kell, szükség esetén további hibrid egységekre bonthatóak

4.7.5 Alkalmazhatóság, illesztés, gazdasági haszon

A neuronháló által szolgáltatott előrejelzések alkalmazhatóak tesztelésre vagy valós technológiai monitorozásra, online beavatkozások megvalósítására

5. Adatbányászati projektek szervezése

Három különböző erőforrást kell összehangolni

  • Az üzletről a fejekben felhalmozódott tudást
  • Az adatbázisokban levő adatvagyont
  • Az adatbányászati technikák lehetőségeit

AZ ADATBÁNYÁSZAT ÖSSZETEVŐI ÁBRA: 100. oldal

Fontos lépés a módszertan kialakítása
Több nagyobb vállalat dolgozott ki módszertant
Például két fontos módszertan:

  • SEMMA
  • CRISP-DM

5.1 Adatbányászati módszertanok

5.1.1 SEMMA

SAS Institute fejlesztette ki
A technikai lépésekre koncentrál

  • Sampling
    • Mintavételezés
  • Exploration
    • Feltárás
  • Manipulation, modification
    • Módosítás
  • Modelling
    • Modellezés
  • Assessment
    • Kiértékelés

A folyamat felépülését, az adatbányászati elemzés sorrendiségét határozza meg
Beilleszkedik a RWM-ba (Rapid Warhouse Methodology)

  • 0. Az üzleti környezet megismerése

Meg kell határozni, hgy milyen ismeretek megszerzése jelent üzleti előnyt
Az adatbányászat feladata ezeknek az összefüggéseknek a megismertetése

  • 1. Sampling (Mintavételezés)

A belső rendszerekben rendelkezésre álló nagy mennyiségű adatot gyakran külső adatokkal egészítjük ki
Például: demográfiai adatok, közvélemény kutatások
Ugyanolyan pontos modelleket lehet létrehozni kisebb tömegű adatokkal
Különféle mintavételezési eljárások

    • Egyszerű (véletlen)
    • Első N elem
    • Minden N-edik elemet kiválasztó
    • Csoportos mintavételezés

Rétegezett mintavétel: minden csoportból a megfelelő számú egyedet kell kiválasztani
Túlsúlyozás: Egy csoportból relatíve több elemet választunk ki

  • 2. Exploration (Feltárás)

Fel kell tárni az adatállományt, megvizsgálásra kerülnek az adatok, hogy nincsenek-e hiányzó vagy extrém értékek
Egyes változók összevonása vagy más módszer a számuk redukálására

  • 3. Manipulation, modification (Módosítás)

A feltárás során szerzett tapasztalatok felhasználásával az adatbázis módosítása
Hiányzó adatok pótlása, extrém értékek kiszűrése
Összevonni vagy elhagyni a szükségtelen változókat
Változók más eloszlásba való transzformálása

  • 4. Modelling (Modellezés)

A legfontosabb fázis
Azt a modellt keressük meg, amelyik a legjobban leírja az eredmény változó alakulását a bemeneti változók függvényében
Javasolt modellezési lehetőségek

    • neurális hálók
    • döntési fák
    • regressziós eljárások
    • példány alapú tanulás

Fontos, hogy az adatbányászati szoftver mint a mesterséges intelligencia, mind pedig a hagyományos statisztikai alapú eljárásokat ismerje

  • 5. Assessment (Kiértékelés)

Lehetőség van a különböző modellek összehasonlítására vagy egy modell több beállításának összevetésére
Grafikus és analitikus eszközök
Ha szükség van rá, vissza lehet térni valamelyik előző fázishoz

  • 6. Application (Alkalmazás)

Az eredményekre alapozva a döntéshozók meghatározhatják, mely döntések meghozatala és milyen változtatások végrehajtása a legelőnyösebb a cég számára

5.1.2 CRISP-DM módszertan

Erőssége az üzleti aspektusok kidolgozottságában rejlik
CRISP - Cross Industry Standard Process for Data Mining
Átfogó adatbányászati folyamatszabvány 1996-ban dolgozták ki számos nagyobb cég képviselői

  • 1. Az üzleti folyamat megismerése (Business Understanding)

Fel kell mérni, hogy milyen ismeretek megszerzése, illetve milyen összefüggések megismerése jelent üzleti előnyt
Célok kitűzése

  • 2. Az adatok megismerése (Data Understanding)

Releváns bemenő adatok gyűjtése
Minőségi problémák, hiányosságok azonosítása

  • 3. Az adatok előkészítése (Data Preparation)

A modellhez szükséges rekordok (sorok) és mezők (attribútumok) kiválasztása
Adatstruktúra létrehozása

  • 4. Modellezés (Modelling)

Különböző modellezési technikák alkalmazása és a paraméterek optimális értékeinek megkeresése

  • 5. Kiértékelés (Evaluation)

Különböző tesztekkel kiválasztjuk a legjobb modellt
A lépések vizsgálata abból a szempontból, hogy megvalósítja-e az üzleti feltételeket

  • 6. Alkalmazás (Deployment)

A megfelelően prezentált riportok, elemzések segítik az ügyfelet abban, hogy a vállalat számára a legelőnyüsebb döntéseket meghozza

5.2 A projektlépések időigénye

Tisztában kell lenni a költségekkel - Ennek döntő része a szakértők ideje
Az adatbányászatnak nem követelménye az adattárház megléte, de rengeteg időt lehet vele megtakarítani
Az adatmegismerés és -előkészítés gyakran az idő 60%-át is kiteszi

Üzleti elemzés 20%
Adatelemzés 25%
Adatgyűjtés 10%
Adatelőkészítés 15%
Modellezés 10%
Értékelés 10%
Üzleti alkalmazás 5%
Üzleti visszacsatolás 5%

5.3 Adatbányászati sikertényezők

Az adatbányászat az egyik leggyorsabban megtérülő informatikai tevékenység lehet
Gyors megtérülés csak akkor valósulhat meg, ha az adatbányászat értékteremtő folyamatának valamennyi lépését végigjárjuk
De nem minden modellezhető, a megtalált összefüggések egy részének nem lesz üzleti haszna

5.3.1 A kérdésfelvetés

Némely kérdésnek/felismerésnek nincs üzleti haszna
A siker egyik kulcsa a jól feltett kérdés
Jó kérdés: A vállalat időben megteheti s szükséges lépéseket és lemérheti az eredményt
Üzleti szakértelemre és a vállalati adatok ismeretére is szükség van

5.3.2 A válaszadás

Az eredmények interpretálása és közérthető prezentálása egy másik nagyon fontos sikertényező
Ha nagyobb eltérés mutatkozik a modell és a valóság között, meg kell vizsgálni, hogy nem-e elhanyagoltunk egy fontos tényezőt

5.3.3 A visszacsatolás

A monitorozás, mely minimalizálhatja az akció kockázatát, gyorsíthatja az adatbányászat megtérülését
Meg kell vizsgálni a hosszú távú hatásokat is

5.3.4 A tanácsadás

Kritikus sikertényező a külső szakértők bevonása

6. Az adatminőség kérdése

Az adatminőség sokszor probléma
Az adatminőség gyengeségét leginkább adatbányászati technikákkal lehet felfedni
Az adattisztításban is használhatók adatbányászati módszerek

6.1.1 Adatminőség alaptétele

Minden rendszerben olyan az adatminőség, amely éppen megfelelő az adott rendszer folyamatos működéséhez
Az adatminőség-menedzsment tevékenységciklusa (SAS)

  • Folytonos minőségjavítás
    • Definiálás (~megadjuk, mit tekintünk normálisnak)
    • Mérés (~diagnosztika)
    • Jelentés (~utólagos megfigyelés)
    • Tisztítás (~terápia)

Adattisztító eszköz: adatklinika

6.1.2 Szervezeti szempontok

A megelőzés lényegesen olcsóbb, mint az utólagos kezelés

6.2 Az adatminőség-biztosítás folyamata

  • 1. szint - Ad hoc (Bizonytalanság)
  • 2. szint - Megismételhető (Felébredés)
  • 3. szint - Kialakított (Megvilágosodás)
  • 4. szint - Irányított (Bölcsesség)
  • 5. szint - Optimalizáló (Bizonyosság)

6.2.1 Az adatokkal szembeni elvárások

Mezőszintű adathibák

  • Úgy kezelhetők, hogy az üzleti szakértők által definiált elvárásokat dokumentáljuk, és rendszeresen ellenőrző programokat futtatunk
  • Típushibák esetén metabázis alapú kritériumrendszer generált ellenőrzőprogramokkal
  • Speciális esetekben egyedileg fejlesztett ellenőrzőprogramok

Rendszerszintű hibák

  • Rekordok összessége jelent hibát
  • Fontos az adatminőség-ellenőrzés

6.2.2 Referenciapontok

Olyan ismérvek, amelyekhez képest az adatok eltérése hibának minősül
Nem a valósághoz, hanem annak vállalatbeli képéhez való konvergenciát segítik elő
Segít, ha szakértők véleményét kikérjük a teszteredmények kiértékeléséhez
Referenciapont az adatok önmagukhoz mért folytonossága

  • pl. szokásos méret, rekordszám

Üzleti és tapasztalati szabályoknak is meg kell felelni

6.2.3 Kockázatok

Stratégiai kérdés a gyenge adatminőség következményeinek felismerése
Az elvárt pontosság növekedésével meredeken nő a tisztítás ráfordításigénye
Nagy kockázatú területeken azonban ez nem számít
Adatbányászat esetén az adathibák zajként jelentkeznek
Az adatminőség maga is befolyásolhatja az adatbányászati módszer kiválasztását

6.2.4 Az adatminőség javításának rendszere

A hibákat két szinten kell kimutatni

  • Vevői szinten
  • Részletes, rekordszintű hibaleírások

Fontossági sorrend (ha a hibák nem egyenrangúak)
A hibajavítási erőforrásokat a súlyosabb hibák kezelésére kell fordítani
Felelőst kell kijelölni

  • Eredményességét adatminőségi indikátorokkal jellemezni
  • Visszacsatolás

Nyilván kell tartani, ha egy hibát már kiszignáltak
Gyökérhiba kezelése után leállítani a következményhibák javítását

6.3 Törzsadat-tisztítás és értéknövelés

6.3.1 Ügyfélazonosítás link analízissel

Ügyfelek azonosítása
Mindenkihez egy természetes azonosító paraméterekből képzett kulcsot rendelni

  • Nem tudja kezelni a gépelési hibákat

Megoldás: Linkanalízis
Adott ügyfélhez tartozó adatok alapján összekötjük azokat az ügyfeleket, ahol megegyezés található
Gyanúsak a párok, ahol egy adott értéknél több az egyezés
Ha gyanús, de nem egyazon ügyfél, akkor rokoni kapcsolatra utal(hat)
Alkalmazási példa:
Minden tranzakció szereplőit összekötik egy, a tranzakció nagyságával arányosan vastag vonallal
A vonalak vastagsága alapján következtetéseket lehet levonni (pl pénzmosás)

6.3.2 Egységes ügyféltörzs

Célszerű egységes ügyféltörzset létrehozni

  • Tiszta, duplikátummentes, lehető legjobb adatminőség
  • Értéknövelt adatokat is tartalmazhat
    • Pl különböző csoportok azonosítása

Tisztítótáblák létrehozása
Az eredeti rendszerekből származó adatok mellett tartalmazzák az egységesített és tisztított adatokat

  • Adategységesítés
    • Annak biztosítása, hogy ugyanannak az információnak egységes legyen az írásmódja
  • Duplikátumszűrés
  • Adatbázisok közötti kulcsolás azonosító nélkül
  • Csoportazonosítás
    • Sokszor célszerű bizonyos adatokat egy csoportba sorolni
    • Pl.: családegyesítés, cégközpont-telephely struktúra, termékcsoportosítás

6.4 Törzsadattisztítási példa: hadifogolyazonosítás

Teljes folyamat

  • Kontrakció
    • A tényleges, összehasonlítást segítő, információt jelentő részek kinyerése az egyes adatmezőkből
  • Normalizálás
    • A mezők tartalmának egységesítése valamely külső, egyéb adatforrásból származó adatbázissal
  • Linkanalízis
    • Két adatbázis összetartozó rekordjainak hasonlóságának mérése
  • Párok osztályozása
    • A hasonlóságokat egy számmal lehet jellemezni, és ezeket a számokat összegezve a rekordok között egy hasonlósági sorrendet lehet felállítani
    • Meg kell határozni egy határértéket

6.5 Ügyféltörzs minőségének átfogó, folyamatos biztosítása

Nem elegendő a törzsadatokat egy alkalommal átvizsgálni és javítani
Bizonyos időközönként újabb tisztítás szükséges
Léteznek olyan adatminőség-kezelő szoftverek, melyen folyamatosan vizsgálják, szűrik az adatok esetleges hibáit
Az adatminőség biztosítása az informatikai stratégia fontos része, összhangban kell lennie az üzlet információigényeivel, felelősöket kell kijelölni, folyamatosan monitorozni kell a javulást

7. Az adatbányászat technológiai háttere

7.1 Tanulás

7.1.1 Tanuló ágens

Egy mesterséges intelligencián alapuló ágens négy komponensből áll

  • Cselekvő (Operatív) - Performance Element
    • A külvilággal kapcsolatos megfelelő cselekvés kiválasztásáért felelős
  • Tanuló (Analitikus) - Learning Element
    • A teljesítőképesség javításáért felelős
  • Kritikus
    • Feladata annak közlése a tanuló komponenssel, hogy az ágens működése mennyire sikeres
    • Megfelelője az adatbányászati szoftverekben a profitmátrix/profitfüggvény vagy a hibafüggvény (ha folytonos a célváltozó)
  • Problémagenerátor
    • Feladata új problémahelyzetek létrehozása annak érdekében, hogy a jelenlegi tudás szerinti megoldásnál még jobb megoldást találhasson az ágens

Felügyelt tanulás (supervised learning)

  • A tanuló komponens mind a bemenetet, mind a kimenetet észlelni tudja

Megerősítéses tanulás (reinforcement learning)

  • A tanuló komponens csak egy értékelést kap, de az egyes cselekvési elemekről nem tudja, hogy helyesek vagy sem

Felügyelet nélküli tanulás (unsupervised learning)

  • A tanuló komponensnek nincs információja arról, hogy mi a helyes
  • Kell valami hasznossági függvény

Az adatbányászat során lényegében a tanuló és kritikus komponenst kell megtervezni vagy beállítani

7.1.2 Állományok és minták a tanuláshoz

Tanuló (tréning) állomány létrehozása

  • Mintavételezés - az adatok mely részhalmaza képezze a tanuló állományt?
  • A mintavételezés gyakran adatbányászati módszerekkel is megoldható

Validációs állomány létrehozása

  • Ezen lehet ellenőrizni a modell jóságának ellenőrzését

Tesztállomány létrehozása

  • Funkcionális és általános hibaellenőrzést végezhetünk rajta, ezen az állományon mérhető az elkészült modell jósága a profitmátrix vagy a hibafüggvény felhasználásával

7.1.3 Tanulási típusok

Kötegelt tanulás (batch learning)

  • Az egész adatállomány feldolgozása után kapunk eredményt
  • A validáló állomány felhasználható a többkimenetelű modell véglegesítésére

Fokozatos tanulás (incremental learning)

  • Tanulási ciklusonként egyre jobban megtanulja a modell a tanuló állományba levő mintákat
  • A validáló állomány felhasználható az iterációszám beállítására

Két veszély (a tanuló és tesztállományokkal lehet kivédeni)

  • Zaj (noise)
    • Ha a jel/zaj arány egy bizonyos szint alá kerül, akkor a zaj véletlen szabályszerűségét tanulja meg
  • Túltanulás (overfitting)
    • A tanuló minta tulajdonságaiból azt is megtanulja, ami a teljes állományra már nem igaz

7.1.4 Háttértudás és elfogultság (előítélet)

Korlátozni tudjuk a lehetséges összefüggések körét
Ocham borotvája (Ocham's razor)

  • A közel ugyanolyan sikerességű modellek közül az egyszerűbbet választjuk
  • Kevesebb egyszerű modell van mint bonyolult

7.2 Vizuális adatfeltárás

Adatbányászati eljárások értékelése:

  • Törvényszerűségek megtalálása
  • Eredmények értelmezhetősége

Vizualizáció előnye: bizonyos dimenziószámig nagyon hatékony ("szemre")

  • De sohasem olyan pontos, mint a matematikai elemzés

Az adatok betöltése után a tényleges elemzés az adatok megismerésével kezdődik

  • Diagramok megjelenítése
  • Egyszerű összefüggések, trendek és kiugró értékek felismerése

7.2.1 Adattranszformációk

A nyers adatok betöltése után következhet a származtatott adatok előállítása
A fogalomhierarchiák segítik az egyedi értékektől való elvonatkoztatást, az adatok alaposabb megismerését

7.2.2 Adatbázismezők fajtái

Rekord: Ugyanolyan típusú információkkal rendelkező adategység Tábla: Az azonos típusú rekordok alkotják Mező: A táblák oszlopai Mezőtípusok

  • Azonosító
    • Ez alapján történik a rekordok egyedi azonosítása
    • Értéke minden rekordnál különböző
    • Több azonosító is létezhet egy rekordra
  • Numerikus
    • Tetszőleges számadat
    • Ábrázolhatjuk pl az eloszlásfüggvényét
  • Diszkrét
    • Tartalma néhány különböző érték
    • Értékei nem számok (ekkor csak diszkrét lehet) vagy az előforduló értékek néhány különböző szám

7.2.3 Alapstatisztikák

Statisztikai függvény (statisztika): minden olyan függvény amelynek értelmezési tartománya mintatér

  • Bármi, ami az adatok valamilyen mintájából egy képlettel kiszámítható, vagy más módon meghatározható

Leíró statisztika: Egy adathalmazt néhány jellemző tulajdonságának megadásával jellemzünk. Ezek a paraméterek a leíró statisztikák.

  • Elhelyezkedési paraméterek (measures of location, central tendency)
    • Azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak
  • Szóródási paraméterek (measures of spread)
    • Értékeink mennyire szorosan vagy lazán helyezkednek el az adott pont körül
  • Korrelációs paraméterek (measures of correlation)
    • Általában összetartozó értékpárok jönnek létre. Ezen értékpárok közötti összefüggésről adnak információt a korrelációs paraméterek
7.2.3.1 A főbb leíró statisztikák
  • A minta elemszáma (sample size)
    • "n" betű
  • Maximum
  • Minimum
  • Terjedelem (range)
    • Max-min
  • Számtani átlag (mean)
    • Minta értékeinek összege / minta elemszáma
    • Erősen érzékeny a kiugró értékekre
  • Variancia, tapasztalati szórásnégyzet (variance)
    • Az adatoknak az átlagtól való négyzetes eltéréseinek átlaga
  • Szórás, tapasztalati szórás (standard deviation)
    • Variancia négyzetgyöke, SD
    • Értéke függ az adatok mértékegységétől
  • Rendezett minta
  • Kvantilisek (quantiles)
    • A rendezett mintát több egyenlő részre osztjuk
  • Medián (median)
    • Annak az adatnak a számértéke, ami a rendezett minta közepén van
    • Ordinális skála esetén is értelmezhető (az átlag NEM)
  • Korrelációs együttható (correlation coefficient)
    • Összetartozó értékpárok lineáris kapcsolatát jellemző, dimenzió nélküli szám
    • R; R^2: determinációs együttható (coefficient of determination)
    • Független: R=0; Tökéletes pozitív lineáris összefüggés: R=1
  • Rang (rank)
  • Rangkorreláció (rank correlation)
    • A rangokból számított korrelációs együttható
    • Használata
      • ha kiugró értékek vannak a mintában
      • ha az értékpárok közül legalább egy nem numerikus, hanem ordinális

7.3 Ábrázolási technikák

Diagramtípusok

  • oszlopdiagram
  • kördiagram
  • relációs diagram
  • hisztogram
  • dobozdiagram (box and whiskers)
  • háromdimenziós szkettergram
  • párhuzamos koordináták
  • vizuális attribútumok
  • fraktálbuborékok
  • többablakos, dinamikus megjelenítés

7.3.1 Oszlopdiagram

Az egyes kategóriák arányát mutatja
Másik megjelenítési módja az eloszlásdiagram
Kényelmesen lehet kategóriákat kijelölni és szűrési műveleteket végezni velük

7.3.2 Kördiagram

Arányok kifejezésére használják

7.3.3 Relációs diagram

Két numerikus adatmező viszonyának elemzését teszi lehetővé

  • Egyik tengely egyik adatmező, másik tengely másik adatmező
  • Az adatbázis rekordjait pontok jelzik

Kivételek gyors kiszűrése
Mutatja a tendenciákat

7.3.4 Hisztogram

Minden értékhez függőlegesen ábrázoljuk, hogy hányszor fordult elő a mintában

  • Gyakorisági eloszlás

7.3.5 Dobozdiagram

A hisztogramnál egyszerűbb, de mégis informatív

7.3.6 Háromdimenziós szkettergram (scatterplot)

Adataink térbeli elhelyezkedésének vizsgálatára
Az ábrázolt adatokat perspektivikusan látjuk (lehetőség van forgatásra)
Hasznos sokváltozós adatok vizsgálatakor
Klaszterezéskor előnyös a klaszterek más-más színnel történő színezése

7.3.7 Vizuális attribútumok használata

Célszerű az alcsoportok adatait úgy ábrázolni, hogy jól láthatóan elkülönüljenek egymástól
Akár hat dimenziót is lehetséges átfogni

7.3.8 Fraktálbuborékok

Változók közti korrelációk feltárására
Lépések

  • Minden változóhoz egy színt rendelünk
  • Kiindulunk egy központi változóból
  • Köré minden vele korreláló változóra akkora kört rajzolunk, amennyire vele korrelál
  • A kapott körökkel újrakezdjük

7.3.9 Többablakos, dinamikus megjelenítés

A többváltozós adatok közötti összefüggések jól vizsgálhatók

7.4 Vizuális linkanalízis

Adatok közötti kapcsolatok vizsgálatára
A gráfelméleten alapszik
Lényege az adatok közötti összefüggések (kapcsolatok) erősségének vizsgálata
Példa: távközlési szolgáltatóknál az ügyfelek közötti hívások vizsgálata
Előnyei:

  • jól hasznosítható kapcsolatok feltárására
  • könnyen megérthető
  • származtatott karkaterisztikák állíthatók elő belőle

Hátrányai:

  • nem alkalmazható folytonos adatok esetén
  • kevés alkalmazás támogatja

7.4.1 Asszociáció- és szekvenciaanalízis

Asszociatív feltárás

  • Szabályokat keres olyan elemekről, amelyek együtt mutatkoznak bizonyos eseményeknél (tranzakciókon belül érvényesek)
  • Asszociációs szabálygenerátor
  • Pl: Vásárlói kosár analízise
  • Asszociációk (társítások) leírhatók úgy, mint egy A => B kapcsolat, ahol
    • A: előzmény (left-hand side, LHS)
    • B: konzekvencia (right-hand side, RHS)
  • Támogatottság (support) vagy Gyakoriság (prevalence)
    • Azon tranzakciók aránya, amelyik csak különálló elemeket vagy csak társított elemcsoportokat tartalmaznak
  • Figyelni kell az egyes elemek előfordulásának és ezek kombinációinak relatív gyakoriság (frequency)
  • Konfidencia (bizalmi index, confidence)
    • A és B esemény bekövetkezési gyakoriságának, és az A esemény gyakoriságának hányadosa (frequencyQ(A and B) / frequency(A))
  • PÉLDA: 145-146. oldal
  • Lift
    • Nagyobb liftértéknél nagyobb annak a valószínűsége, hogy A előfordulásakor B is be fog következni
    • A => B konfidenciájának és B gyakoriságának a hányadosa (confidence(A=>B) / frequency(B))
  • Néhány algoritmus konfidenciafaktorokkal és támogatottsági indexszel ellátott szabályadatbázist is készít, a könnyebb áttekinthetőségért
  • Elemhierarchia meghatározása

Szekvenciális feltárás

  • Tranzakciók között mondanak ki összefüggéseket
  • Hasonlít az asszociációs feltáráshoz, de időbeli függéssel is rendelkezik

Az asszociáció- és szekvenciaszabályok nem igazi szabályok, hanem csak kapcsolatoknak, összefüggéseknek a leírása
Nincs formális tesztelési mód
Azzal a feltételezéssel élünk, hogy a múltbeli viselkedés folytatódni fog a jövőben

7.5 Faktoranalízis

Az adatok leegyszerűsítését teszi lehetővé a kiindulási adatmátrix dimenziójának csökkentésével
Kisszámú háttérváltozó (underlying factor) segítségével a teljes mátrixot viszonylag jól (adott hibával) reprezentálni kehet
Az új változók korrelálatlanok (ortogonálisak) és csökkenő sajátérték sorrendjében szokás sorba rakni őket
Nincs egyértelmű szabály, hogy hány faktorváltozót célszerű a modellben tartani
Az eredményként kapott új változóknak (absztrakt faktoroknak) nem mindig lehet megtalálni a fizikai értelmét

7.6 Szegmentáció (egyszerű felosztás)

Az egész projekt sikere múlhat azon, hogy megtaláljuk a legjobban diszkrimináló változókat
Gondoskodni kell arról, hogy viszonylag homogén csoportokat vizsgáljunk

  • Csoportonként külön-külön kell modelleket építeni

Általában sokdimenziós térben kell vizsgálódni

  • 3D limit (az áttekinthetőség miatt)
  • Ezért klaszterezési eljáráshoz kell folyamodni

Szegmentáció

  • Valamilyen szempont(ok)ból homogén tulajdonságokkal rendelkező csoportokat hozzunk létre - Ezek az osztályok
  • Az osztályok számát nem célszerű nagyra választani
  • Az osztályokat egymástól való elhatárolására használt szempontokat csoportképző ismérveknek nevezzük

Követelmények

  • Teljes legyen
    • A sokaság minden elemét tartalmazza
  • Átfedés mentes legyen
    • A sokaság minden egyes eleme csakis egy osztályba tartozzon
  • Homogén osztályokat eredményezzen

7.7 Klaszterezés

Klaszteranalízissel egy halmaz elemeit olyan csoportokra oszthatjuk fel, amelyeken belül viszonylag hasonló egyedek vannak
A csoportok viszont számottevően különböznek egymástól
Fejlett klaszterképző algoritmusok - Az adatbányász feladata a sikeres implementáció megválasztása
A csoportosítás alapja valamilyen felhasználási szempontból definiált közös tulajdonság
Az azonos tulajdonsággal bíró adatrekordokat egy csoportba szeretnénk gyűjteni
Meg kell találni azon tulajdonságokat, amelyek alapján lényeges különböző csoportokat lehet létrehozni
Cél:

  • következtetések levonása
  • adatok mozgásterének meghatározása
  • új adatrekordok mezőinek értékének megjósolása

A klaszterelemzés:

  • Politetikus osztályokat definiál
    • Nem feltétlenül ekvivalens, de hasonló egyedek
  • Nem definiál típusokat azelőtt, mielőtt kijelölné az objektumokat

Alapvető fogalom az adatrekordok között értelmezhető távolság
A klaszterképzés jól használható:

  • Mi következik az adatainkból? típusú kérdések
  • Kiugró esetek szűrése

7.7.1 Távolságok számítása

Többdimenziós térben való távolságmegadáskor több jellemzőt is figyelembe vehetünk
Távolságok kezeléséhez különböző metrikák

  • Euklideszi
    • Adatok különbségének négyzetösszegéből vont gyök
  • Manhattan
    • Adatok különbségének abszolútérték-összege

KÉPLET + PÉLDA: 155. oldal
A jellemzők normalizálásával kiküszöbölhető a numerikus értékből eredő nagyobb hatás
Nem numerikus adatok esetén a távolság értelmezéséhez le kell képezni az adatokat numerikus értékekre
Perfekt illeszkedési szabály

  • Ha a két rekord azonos, akkor távolság = 0
  • Minden más esetben távolság = 1
  • Akkor érdemes használni, ha nincs meghatározható értéksorrend

Értékek leképzése az egész számok egy részhalmazára

  • Akkor érdemes használni, ha a sorban egymástól távolabb álló értékek nagyobb differenciát jelentenek, mint a közeliek

7.7.2 Klaszterező algoritmusok

Két alapvető algoritmus

  • Hierarchikus
    • Az elemekből képzett csoportokon végzünk további csoportosítást
    • A hierarchia legalsó szintjén van a legtöbb csoport
    • Előnye: a szakértő kiválaszthatja, melyik a legtöbb információt rejtő csoportosítási szint
  • Nem hierarchikus
    • Előre el kell dönteni, hány csoport lesz, VAGY hogy mi legyen a csoportképző küszöb
7.7.2.1 Nem hierarchikus klaszterképzés

Alapja az újracsoportosítás, melynek módszere: K-átlag (K-Means)

Algoritmus:

  • Többdimenziós terek
  • n-elemű vektorokkal leírt pontok
  • Kijelölünk K db pontot - magok (seed)
    • Minden egyes mag egy elemi klaszter, egyetlen elemmel
  • (*) Minden elemet besorolunk abba a klaszterbe, amelynek középpontja a legközelebb van
    • (A klaszterhatárok n-dimenziós térben n-1 dimenziós hiperfelületek)
  • Kiszámítjuk az új klaszterek magjait
    • Egyszerű átlagszámítás - minden egyes klaszterben levő pont koordinátáinak átlaga
  • Újrakezdjük a (*)-tól - addig, amíg a klaszterhatárok változása meg nem áll

Jelentősége van annak, hogy milyen csoportszámot választunk, lehet hogy nem is lesz sikeres a csoportosítás

7.7.2.2 Hierarchikus klaszterképzés

Egymásra épülő csoportokat képez az adatokból
A módszer eredménye csak az adatoktól és a választott algoritmustó függ
Kétféle mód van a fa építésére

  • Összevonó (gyűjtő) csoportosítás
    • Egyelemű klaszterekből indulnak (a hierarchikus fa aljáról)
    • Minden rekord egy csoport, ezeket a csoportokat gyűjti további csoportokba
    • Végül az egész minta egy csoportba kerül
    • A pontos lépések:
      • (1) Kiindul n db csoportból
      • (2) Egyel csökkenti a klaszterek számát úgy, hogy összevonja a két leghasonlóbb klasztert
      • (3) Az új klaszter távolságát a többitől újra számítja
      • (4) A 2. és 3. lépést n-1-szer elvégezve minden egyed egy klaszterbe kerül
  • Felosztó (szortírozó) csoportosítás
    • A fa tetejéről indul
    • Addig tart a csoportosítás, amíg minden rekord külön csoportot nem képez

Az összevonást többféle statisztika szerint végezhetjük

  • Egyszerű összekapcsolás (Single Linkage)
    • Klaszterek közötti távolság: Két klaszter legközelebbi elempárosának távolsága
    • D1(K,L) = min d(xi, xj)
    • A csoportok elnyúltak lehetnek
  • Komplett Kapcsolás (Complete Linkage)
    • Klaszterek közötti távolság: Az elempárok közötti legnagyobb távolság
    • Kis klasztereket eredményez
  • Súlypont módszer (Centroid Method)
    • Klaszterek közötti távolság: A csoportbeli elemek súlypontjai közötti távolság
    • Kiegyenlíti az egyszerű és a komplett kapcsolás torzításait
  • Ward módszere
    • Úgy csoportosít, hogy a csoportok súlypontja és a csoport elemei közötti távolságösszeg minimális legyen
    • Nem támogatja az elszakadó elemcsoportokat, mert szimmetrikus fákat eredményez

7.7.3 Osztályozásos előrejelzés a klaszterképzés segítségével

A leggyakoribb alkalmazás
Egy adatrekord egy ismeretlen mezőjének értékét szeretnénk előre jelezni a rekord többi mezőjének ismeretében

7.8 Regresszióelemzés

A regresszióval megfigyelt eseményeket explicit függvénnyel modellezzük
Van egy független változónk - ezt hiba nélkül mérjük
A függő változót ugyanakkor mérjük, de hibával
Olyan matematikai modellt keresünk, amely kellő pontosan jelzi előre az Y paraméter értékeit, ha ismerjük a modellt
A regressziós analízis céljai

  • A modell paramétereinek (a,b) meghatározása
  • A legjobb modell kiválasztása
  • A modell használata előrejelzésre

Példa: kerékpáros

7.8.1 Regressziós feladat általános megoldása

Kulcslépés: a regressziós paraméterek becslése - ez általában egy minimalizálási feladat

  • Lineáris - egyszerűen számolható
  • Nem lineáris - nincs garantált módszer

7.8.2 Lineáris regresszió

7.8.2.1 Egyváltozós lineáris regresszió

Modell

  • yi = a*xi + b (i=1..n)

Interpretálás

  • Tipikus alkalmazás: kalibrációs görbe

Megoldás

  • Gyakorlatilag minden program tartalmazza
  • Eredmény:
    • a (slope), b (intercept) becslése
    • a és b hibája (standard error)
    • r^2 (determinációs együttható)
      • értéke megadja, hogy a megfigyelési adatok teljes varianciáját mekkora részben magyarázza meg a modell

Korrelációs együttható: r

  • Azt méri, hogy két változó mennyire van lineáris kapcsolatban
7.8.2.2 Többváltozós lineáris regresszió

N változós lineáris regresszió modellje: KÉPLET 164. old
Nagy adatbázisoknál gyakran sok a változó
Probléma: melyik változót vegyék be az egyenletbe

  • Lehetőleg a minimális, független változókat
  • Ezek kiválasztására számos eljárás ismert
  • Az ordinális változókat is be lehet venni!
7.8.2.3 Súlyozott lineáris regresszió

Mérés hibája: 5-10% - ez RELATÍV HIBA
A súlyfaktort úgy kell megadnunk, hogy ahol nagy az abszolút hiba, ott kicsi legyen a súly és fordítva

7.8.3 Nemlineáris regresszió

A legtöbb összefüggés nemlineáris
Módszerek:

  • Linearizálás (változó behelyettesítése)
  • Logaritmikus transzformáció

7.8.4 Logisztikus regresszió

Gyakran bináris a célváltozó

7.9 Diszkriminanciaanalízis

Azt vizsgáljuk, melyik változókban különbözik a legjobban a különböző célértékkel rendelkező két csoport
Előrelépéses (forward stepwise) algoritmus

  • A kiválasztott változókat többváltozós regresszióval becsüljük
    • Ezért csak folytonos bemeneti változók használhatóak
  • Ezután megvizsgáljuk hogy a következő diszkrimináló változó bevonásával jobb lesz-e a modell

Visszalépéses (backward stepwise) algoritmus

  • Először az összes változót használjuk fel, majd a kevésbé diszkriminálókat kihagyjuk

Eredménye egy hipersík

  • Amely a lehető legjobban kettéválasztja a célváltozó várható értéke szerint az állományt

7.10 Döntési fák

Adatok alapján, logikai értéket produkáló következtetési szabályok hierarchikus sorozatának ábrázolási módja
A csomópontok olyan függvények, melyek az adatoktól függően produkálnak logikai értékeket
A leveleknél megkapjuk a választ a kérdésre
Fa gyökere: az első következtető függvény
Fa levele: az utolsó szint

Bináris fa: a csomópontokból két ág indul Többutas fa: a csomópontokból több ág indul

  • (1) Többváltozós logikai függvény értéktáblázata
    • Minden egyes sora egy bejárás
    • Bizonyos paraméterértékek esetén más paramétereknek nincs hatásuk
    • Sok paraméter esetén nem jól kezelhető
    • Csak memóriaként működik, ezért nem alkalmazható következtetések kialakítására
  • (2) Legfontosabb paraméter módszer
    • Ami legjobban szétszórja az adatokat
    • Válasszuk ezt a paramétert gyökérnek
    • Rekurzívan építjük a fát a paraméterek fontosságának sorrendjében

A fa ágai a csoportosító kérdések, levelei ezen kérdések által alkotott részcsoportok A döntési fa egy speciális csoportosító technika

  • Célja hogy adatok között összefüggéseket fedezzünk fel, vagy osztályozási szabályokat alkossunk

Olyan iteratív folyamat során jöhet létre, amely az adatokat diszkrét csoportokra bontja

  • Elsődleges cél a csoportok közötti távolság maximalizálása
  • Letisztult csoportok jöhetnek létre
  • A megfelelő kritériumnak csak a csoportok egyikének a tagjaira szabad illeszkednie

Osztályozó fa

  • Diszkrét változók jóslására

Regressziós fák

  • Folytonos változók jóslására

Az egyértelműség és pontosság félrevezető lehet
A felépítés gyorsan végezhető, mert szintenként csak egyszer kell átvizsgálni a teljes adathalmazt

A fák mérete kordában tartható:

  • Leállási feltételekkel
    • Mélység korlátozása
    • Csomópontok elágazásainak korlátozása
  • Metszéssel (hagyjuk a fát növekedni, majd heurisztikus függvények alapján lemetszéseket hajtunk végre)
    • CART algoritmus (Classification And Regression Trees)
      • keresztellenőrzéseket használ

Hátrány

  • Az algoritmusok egy adott elágaztatás esetén nem veszik figyelembe, hogy az adott elágazás milyen hatással lehet a későbbi elágaztatásokra
  • Az elágazások egyirányúak, tehát minden döntés függ az ősétől

Döntések

  • Egyváltozós
  • Több változó lineáris kombinációja

Nagyon hatékonyan kezelik a nem numerikus adatokat is, kategorikus adatokat is elfogadnak

  • Ez minimalizálja az adattranszformációk mértékét, nem vezet a változók robbanásszerű növekedéséhez

Döntési fákat használnak: CHAID, CART, Quest, C5.0

7.11 Példány alapú tanulás:

K-nearest neighbor, K-NN, memory-based reasoning
Lényege:

  • El kell dönteni, hogy az adott esemény mely osztályba kerüljön
  • Azáltal, hogy k elemre megvizsgáljuk a hasonlóság mértékét a már meglévő elemekhez képest

Elvégezni

  • Meg kell keresni a távolság mértékét az adatok attribútumai között, és kiszámítani a távolságokat
  • Kiválasztani egy már csoportosított elemhalmazt és ezt használni alapként
  • Eldönteni
    • Milyen nagy legyen a szomszédság
    • Hogyan számoljuk meg a szomszédokat

Nagy számítási igény

  • Teljes újraszámítást végez minden új elemnél

A hatékonyság növelésére célszerű az adatokat a memóriában tartani

7.12 Mesterséges neurális hálók

Idegsejt-hálózat
A kereszteződésekben levő csomópontok (neuronok) a különböző összeköttetésekből érkező információt feldongozzák, és a megfelelő irányba továbbítják
Az összeköttetések erőssége rugalmasan változtatható

  • Ez a változás jelenti az intelligens tanulást

Ismert kezdeti változók alapján kíván meghatározni egy ismeretlen célváltozót

  • A bementi réteg többelemű
  • A kimeneti réteg általában egyelemű

Általában csak normalizált adatokon működnek
A rejtett rétegek a felhasználók számára nem láthatók

7.12.1 A neurális háló működése és tanítása

Az összeköttetések mentén egy-egy neuronból kilépő értékek megszorzódnak az összeköttetés súlyával és összegződve képzik a következő neuron értékét
Aktiváló függvény

  • Ennek segítségével képződik egy neuron kimenete a bemenetből

Tanítás menete

  • Tanuló állomány
  • Összeköttetések feltöltése véletlen számokkal
  • Tanuló állomány összes elemét beadni a bemenetre
  • A tanulás során a súlyok módosulnak, az aktiváló függvények nem
  • A súlyokat egy visszaterjesztési függvény (backpropagation) állítgatja
    • Ezeket matematikusok tökéletesítették

Jellemző a több konkurens háló versenyeztetése

7.12.2 A neurális háló használata

Előrejelzés
Előny:

  • Nem igényel előfeltételezéseket a bemeneti és a célváltozó közötti összefüggések jellegére vonatkozóan
  • Az adaptív súlyok képesek bonyolultabb összefüggések megtanulására is
  • Pontos becslés

Hátrány:

  • Belső bonyolultság
  • Nem igazán alkalmas olyankor, amikor kialakult modellek felett szakértői elemzést kívánnak gyakorolni
  • Jól megfogalmazott problémák és jó adatminőség szükséges

7.12.3 Önszervező neurális hálók

SOM - Self Organizing Maps
Felügyelet nélküli tanulás
Cél: A modell az adathalmazban egy rejtett, belső struktúrát fedjen fel
Általában csak bemeneti és kimeneti réteg van
Trükk:

  • A kimeneti rétegre sok neuront raknak
  • Mindegyik neuron mindegyik másikkal össze van kötve (a kimenetiek is, ezek közötti távolságot írják le a súlyok)

Úgy tanítják, hogy a közeli kimenetek közel eső bemeneteknek feleljenek meg
Csoportokba sorolhatók a bemeneti adatok aszerint, hogy a kialakuló térképen egymáshoz mennyire kerülnek közel

  • Jól vizualizálható

8. Függelék

8.1 További alkalmazási területek

8.1.1 Az adatbányászat rövid története

Ügyfélanalitikai feladatok megoldása
Szövegbányászat
Webbányászat
MI 50'
Adattárházak 90'

8.1.2 Webbányászat

Webes adatok feltárására

8.1.2.1 A weboldalak rangsorolása

A kereséshez elengedhetetlen
PageRank - egy felhasználót próbál modellezni

  • Értéke a normalizált linkmátrix legnagyobb sajátértékéhez tartozó sajátvektornak felel meg
    • Gyorsan számolható a megfelelő iteratív algoritmussal
  • Brin és Page (Stanford University). A Google-ban implementálták
  • p lap befelé mutató linkje: egy másik lapról p-re mutató link
  • p kimutató linkje: p lapról egy másik lapra

A rangsor elejére rangsorolunk egy lapot, ha van néhány nagy rangsorértékű befelé mutató linkje vagy ha van nagyon sok bármilyen befelé mutató linkje.


8.1.2.2 Kattintássorok elemzése
8.1.2.3 Intelligens internetes keresés

8.1.3 Szövegbányászat

8.1.3.1 Az üzleti intelligencia
8.1.3.2 Online tartalom publikálása
8.1.3.3 Email monitorozás
8.1.3.4 Kapcsolattartás az ügyfelekkel
8.1.3.5 Tudáskinyerés a szövegekből
8.1.3.6 Legális hírszerzés

8.1.4 Olajkutatás

Újabb olajmezők feltárása a régebbi, pl mágnesszalagokon tárolt adathalmazok elemzésével

8.1.5 Kereskedelmi és kiskereskedelmi rendszerek

Vásárlói csoportok létrehozása klaszterezéssel

  • Hatékonyabb marketingstratégia
  • Célzottabb, személyre szabottabb marketingkampányok
8.1.5.1 Keresztértékesítés
8.1.5.2 Asszociációs elemzések

Vásárlási adatok alapján következtetések termékhasználati szokásokra, együttvásárlásokra
Fontos a megfelelő termékhierarchia definiálása

8.1.5.3 Szekvenciaelemzések

Nem időben egyszerre vásárolt tételeket vizsgálnak
Jellegzetes, időben egymást követő, szekvenciális előfordulásokat keresnek

8.1.5.4 Vásárlói kosár elemzés

MBA - Market Basket Analysis
Konfidencia
Támogatottság
Lift

  • Megmutatja, hogy mennyiben térünk el a véletlentől
  • Csak jelentős számú tranzakció esetén lehet figyelembe venni
8.1.5.5 Új üzletek elhelyezéseinek elemzése
8.1.5.6 Ügyfelek elégedettségének vizsgálata, eladások növelése

8.1.6 Televíziós nézettségi adatok elemzése és előrejelzése

8.1.7 Árrugalmasság-elemzések

Maximális össznyereséget biztosító ár-volumen összhang
Megfelelő árrugalmasság függvény

  • Maximális nyereség
  • Tervezhetőbb értékesítési tevékenység

Bizonyos termékek jobban modellezhetők

  • Újonnan bevezetett piacvezető termékek (informatívabb árhatásgörbe)

Töréspontok az árrugalmassági függvényen belül

  • Olyan tipikus határértékek, amelyek mentén a fogyasztás radikálisan változhat

8.1.8 Egészségügy

  • Betegutak elemzése
  • Kezelési költség előrejelzés
  • Veszélyességi faktorok
  • Gyógyulás sikerességének előrejelzése
  • Beavatkozási kockázat meghatározása
8.1.8.1 Betegutak elemzése (sick-stream)

A betegeket a lehető legrövidebb úton a megfelelő szakterület felé irányítsák

8.1.8.2 DNS-láncok elemzése

Az egészséges szövetben gyakran előforduló mintázatok alapot adhatnak a megfelelő gyógyszerek kifejlesztéséhez

8.1.8.3 Személyzeti igények elemzése
8.1.8.4 Betegségek és kockázatok felismerése

8.1.9 Közgazdaság

8.2 Neuronhálók matematikai alapjai

MI (Mesterséges Intelligencia) kutatásának célja

  • Az emberi agy képességeinek modellezése numerikus megközelítésben

Az agy működése teljesen párhuzamos
Az agyi folyamatokat modellező gépek viszont soros feldolgozásra képesek

  • Működés mechanizmusának részleges modellezése

Előrecsatolt (feedforward) neuronhálók modellje

  • Atomi átviteli függvények olyan rekurzívan beágyazott függvénye, mely képes összetartozó diszkrét bemenő és kimenő vektorpárok esetén megtanulni azok összefüggéseit
  • Olyan regressziós függvénymodell, melynek előállításához nincs szükség az eredeti függvény típusának ismeretére
    • Csak a függvény néhány pontjának helyvektorára

8.2.1 Mesterséges neuronmodellek

8.2.1.1 A mesterséges neuron

Az informatikai megközelítés az általános tulajdonságokra helyezi a hangsúlyt

  • Absztraktabb és egyszerűbb modellek építhetők

Mai számítógépek sebessége messze meghaladja az agyét
Szimulációk egyszerű, időben soros feldolgozást adnak
Számítási egység: neuron (csomópont)
Szinaptikus kapcsolat - kapcsolatok súlya
Szinaptikus tanulás - a súly változása
A mesterséges neuron a bemenetek súlyozott összegének egy f függvényét számítja ki
yi = f(neti)
neti: a neuron összesített bemenete

Legegyszerűbb eset: azonosság fv

  • Lineáris neuron

8.2.2 Differenciálható aktiváló függvények

A tanításhoz meg kell tudni vizsgálni, hogy a kimeneti értékek mennyire térnek el a tanítandó függvénytől
Hibafüggvény

  • A hálózat kimenete és a tapasztalati függvény közötti eltérés
  • N-dimenziós felület, létezik minimuma
  • Ezt a minimumot kell meghatározni
    • Ehhez szükség van a felület meredekségére
  • Követelmény: Az aktiváló függvény folytonos és differenciálható legyen

Csak akkor van kimenet, ha a bemenetek összege elér egy kritikus értéket

  • Egységugrás
    • A lineáris kombinációja nem folytonos, ezért NEM JÓ
  • Előjel aktiváló függvény
    • Leggyakrabban: szigmoid (logisztikus eloszlásfüggvény)
      • Valós fv, ÉT: R, ÉK: (0,1)
      • sc(x)= 1 / (1 + e^(-cx))
      • 1/c: hőfok tényező
      • A szigmoid alakja megváltozik a c paraméter függvényében
      • c -> végtelen: egységugrásfüggvényhez konvergál
      • ÁBRA: 201. oldal
    • Alternatíva: szimmetrikus szigmoid
      • S(x) = tanh (x/2)
      • ÁBRA: 202. oldal

-- LatoBalazs - 2007.06.13.