Adatbányászati technológiák - Jegyzet

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót

Tartalomjegyzék

1 1. Az adatbányászatról egyszerűen
2 2. Amit az üzleti intelligenciáról tudni kell
3 3. AZ üzleti intelligencia alkalmazásai
- 3.1 3.1 Az alkalmazás fő területei
- 3.2 3.3 Az ügyfélkapcsolat-kezelés elemei
4 4. Az adatbányászat alkalmazásai
5 5. Adatbányászati projektek szervezése
6 6. Az adatminőség kérdése
7 7. Az adatbányászat technológiai háttere
8 8. Függelék
- 8.1 8.1 További alkalmazási területek
- 8.2 8.2 Neuronhálók matematikai alapjai
  - 8.2.1 8.2.1 Mesterséges neuronmodellek
    - 8.2.1.1 8.2.1.1 A mesterséges neuron
  - 8.2.2 8.2.2 Differenciálható aktiváló függvények

Jegyzet a következő könyvhöz:
Fajszi Bulcsú - Cser László
Üzleti tudás az adatok mélyén
Adatbányászat alkalmazói szemmel
(ISBN 963-421-558-0)

A könyv végén a következő hasznos segédletek találhatók:

8.3 fejezet (228-241. oldal) Fogalomjegyzék
8.4 fejezet (242-249. oldal) Angol-magyar adatbányászati szótár
8.5 fejezet (250-252. oldal) Rövidítések jegyzéke

1. Az adatbányászatról egyszerűen

Az adat erőforrás. Üzleti értéket teremteni akkor fog, ha kezdenek vele valamit, ha az adatból információt csinálnak, az információból tudást, a tudást felhasználva pedig döntéseket hoznak, akciókat kezdeményeznek, és azokat végre is hajtják. A vállalati adatvagyon egyik legfontosabb felhasználási módja az adatbányászat.

Rengeteg új vállalati adat keletkezik évente Miért érdemes megőrizni a folyamatosan gyűlő adatokat? Miképpen lehet hozzáférni a körülöttünk áramló és adattömegek alatt rejtőzködő információs kincshez?

Döntéstámogató (üzleti információszerző és -szolgáltató) eszközök Az adatokból üzletileg is értékelhető információt kreálnak Adatbányászat - data mining

Az adatbányászat három feltétele:

Adat
Módszer
Gép

1.1 Technológia a rejtett információk megszerzéséhez

Az adatbányászat az adatbázisokból olyan implicit és rejtett információkat, összefüggéseket, szabályszerűségeket, mintázatokat nyer ki, amelyek a gyakorlatban is jól hasznosíthatók
Több tudományágat olvaszt magába: statisztika, mesterséges intelligencia, információtechnológia
Az algoritmusok építőköveit a statisztikai módszerek adják
Erősen támaszkodik heurisztikus módszerekre
Az adatbányászat az utóbbi évtizedben erős fejlődésnek indult. Ennek okai:

A rendelkezésre álló adatmennyiség exponenciálisan növekszik
Fejlett, nagy teljesítményű hardvereszközök jelentek meg
Kifejlődtek és letisztultak a legfontosabb adatbányászati módszertanok és technológiák

1.2 Az adatbányászat különböző megközelítései

Az adatbányászati alkalmazások csoportjai:

Felfedezés

Előfeltevések nélküli adatbányászat
A számítógépcsalád egy megadott hipotéziscsalád tesztelését végzi
A szakértő felkészültsége nagyban meghatározza a végeredményt
Tipikus példa: ügyfélszegmentáció

Célzott adatbányászat

Adottak az elemzés keretei
A jelenségek legnagyobb része jó közelítéssel leírható valamilyen függvénnyel
Tipikus példa: credit scorecard

Döntésautomatizálás

Ismert az adott döntés meghozásához szükséges pontos módszer
Rendkívül gyorsan, sokszor kell dönteni
Tipikus példa: levelek szétválogatása

1.3 Adat, információ, tudás

Tudás: képesség a felmerülő kérdések helyes megválaszolására
A jó döntéshez megfelelő információkra van szükség. A megfelelő információk kinyerése bonyolult feladat
Információprobléma: manapság egyre kevésbé az adathiány - sokkal inkább az adattúltermelés

1.4 Adatbányászat az üzleti világban

Milyen környezeti feltételek szükségesek az adatbányászat üzleti sikerességéhez?

1.4.1 Üzleti szituáció

Egy projekt elindításához fontos feltétel az üzleti cél megléte
Meg felelő minőségű adatoknak kell rendelkezésre állni - az adattisztítás, az adatok javítása komoly feladat
Legszerencsésebb, ha rendelkezésre áll egy jól kidolgozott, megfelelően karbantartott adattárház

1.4.2 Szakértelem

Sikeres adatbányászati munkához szükséges ismeretek:

Adatbányászati szakértelem, tapasztalat

Külső tanácsadók

Üzleti tudás

Adott területen dolgozó elemzők, iparági szakértők

Adatismeret

A vizsgálandó adatokkal napi szinten dolgozó munkatársak

1.4.3 Eszközök

Az adatbányászat nem csak egy-egy szoftver megvásárlásából és bevezetéséből áll
Feltétlenül szükséges az előző fejezetben említett ismeretek

1.4.4 Üzleti haszon

_Az adatbányászat annyit ér, amennyit hasznosítanak belőle._
Egyharmad-kétharmad szabály: Akkor produkált jó eredményt a munka, ha a feltárt összefüggések kétharmada az adott szakterületen dolgozó munkatársak sejtéseit, várakozásait igazolta, és egyharmada jelentett teljesen új ismeretet
Az üzleti haszon nyereséggé változik
Az adatbányászat

Növeli a hatékonyságot
Bővíti az üzleti lehetőségeket
Megalapozza a további innovációkat

Célszerű lehet előzetes megtérülési elemzést végezni, mert

sokszor nem áll rendelkezésre megfelelő kontrolling modell
nem lehet előre jelezni a munka várható eredményét

Kis költségű, kísérleti projekt végrehajtásának lehetősége

1.4.5 Példák üzleti alkalmazásokra

Ügyfélszegmentáció
Ügyfélérték-számítás
Adósminősítés
Lemorzsolódások vizsgálata
Csalásfelderítés
Keresztértékesítés
Bolti együttvásárlások
Személyazonosítás
Automatikus választás
Internetes viselkedési szokások elemzése

1.5 Az adatbányászati módszer

Az adatbányászat üzleti célú elemzői feladat
Fő lépések:

Üzleti cél meghatározása
Elemzési feladat megfogalmazása
Modellek felállítása
Modellek megvalósítása
Ellenőrzés

1.5.1 Az üzleti cél meghatározása

Az elemzés előtt tisztázni kell a prioritásokat és a fókuszokat
Konszenzusnak kell létrejönnie az elemzési célok tekintetében
Idő- és költségterv elkészítése
Üzleti cél általánosan: azok a legfelsőbb szintű kérdések, melyek gyakorlatias megválaszolása egyértelműen kifejezhető üzleti hasznot hoz

1.5.2 Az elemzési feladat megfogalmazása

Technikai szempontból nagy kihívás az adatok összegyűjtése, értelmezése
Adattisztítási feladatok
Adatok feltárása - ez megalapozza a modellépítést
Elemzési feladatok két nagy csoportja:

Felügyelt tanulás
Felügyelet nélküli tanulás

1.5.2.1 Felügyelt tanulás

Bizonyos számú attribútum minden rekordnál ismert - Magyarázó, független vagy bemeneti változók
A kérdéses tulajdonság csak egy részhalmaznál - Cél, függő vagy kimeneti változó
A feladat a tanuló állományban olyan összefüggéseket találni a független és függő változók között, amelyeket kivetítve a célállományra bizonyos előrejelzések tehetők
Paraméterbecslés: egy adott tulajdonság értékére kell számszerű becslést, vagy jóslást tenni
Becslés: pl. árváltozás hatására bekövetkező vásárlás változása
Jóslás: pl. ügyfélcsoport jövedelemtermelésének jövő évi megadása

1.5.2.2 Felügyelet nélküli tanulás

Nincs kimondott célváltozó. Valamilyen hasznosítható összefüggést kell találni a változók között
Példa: ügyfélszegmentáció, asszociációs vizsgálat (együttvásárlás)

1.5.3 A modellek felállítása

Modell: Az elemzési feladat matematikai kerete, a világ egyfajta leegyszerűsítése
Az előzetesen gyűjtött üzleti információk és a feltárás tapasztalatai alapján felépítjük az adatbányászati modelleket
Felügyelt tanuláshoz: prediktív modellek

döntési fák (téglatest-felosztás)
neuronhálók (görbék által határolt tartományok)
regressziók (egyenesekkel vagy síkokkal való felosztás)

Felügyelet nélküli tanuláshoz:

klaszterezési eljárások
vizuális technikák
önszervező rendszerek

1.5.4 A modellek megvalósítása

Az egyes modellek paramétereinek megtalálása több módszerrel is lehetséges
A modelleket általában több ponton kívülről vezérelni lehet - a megvalósítás során a modell fokozatos beállítása történik
Versenyeztetés - A modellek sikerességét objektív mérőszámokkal mérni lehet
Szempontok:

A mérhető pontosság - általában objektív
Az üzleti alkalmazhatóság - általában szubjektív

1.6 Adatbányászat és statisztika

Adatbányászat: célzottan üzleti alkalmazásokat szolgál (Megválaszolt kérdés: Miért?)
Statisztika: általánosabb (Megválaszolt kérdés: Milyen?)

Az adatbányászatban egy összefüggés csak akkor valódi eredmény ha üzletileg felhasználható, ha arra magyarázatot is találunk
Jó üzleti döntés fontos feltétele: ok-okozati viszony ismerete
Alkalmazásorientált szemlélet: nagyvonalúságok, nem olyan szigorú matematikai feltételek

1.7 Adatbányászat és hagyományos adatelemzés

Hagyományos adatelemzés: csak előre meghatározott dimenziók mentén
Adatbányászat: dimenziókon átívelő összefüggések feltárása

Az összes dimenzió mentén megkezdhető az elemzés, a leginkább meghatározóak kiválogatódnak

1.8 Adatbányászat és manuális elemzés

Az adatbányászati eredményekre manuálisan is rá lehetne bukkanni, de sokszor nagyon sok idő lenne
Viszont az algoritmus csak azt figyeli, amire megtanítják
Nagy komplexitású, több száz dimenziós adathalmazok
Az adatbányászati algoritmusok kiegészítik az adatelemzők munkáját

1.9 Az adatbányászat jövője

Mindig a legfrissebb elemzési lehetőségekkel foglalkozik
Személyiségi jogok védelme fontos

2. Amit az üzleti intelligenciáról tudni kell

2.1 Az üzleti intelligencia definíciója

BI - Business Intelligence
Széles skálájú program- és technológiahalmaz az adatok összegyűjtésére, tárolására, feltérképezésére, adatokhoz való hozzáférés és elemzés biztosítására annak érdekében, hogy a felhasználók minél jobb üzleti döntéseket hozhassanak

BI Infrastruktúrája:

Jelentéskészítő eszközök
Lekérdező eszközök
Online elemző rendszerek OLAP
Modellező, vizuális technikákat megvalósító eszközök
Statisztikai eszközök
Adatbányászati algoritmusok eszközei

2.2 Operatív rendszerek OLTP

OLTP - Online Transaction Processing
Olyan rendszer, amely az elvégzendő napi, operatív feladatokra van optimalizálva, azaz előre meghatározott, strukturált, rövid és izolált elemi tranzakciókkal hoz létre, módosít vagy töröl adatokat
Normalizált relációs adatstruktúrákra épül, és kerül minden tárolási redundanciát

2.2.1 Elemzés OLTP-vel

Elemzési, döntési szempontból nagyon fontos az adatok időbelisége

2.3 Adattárház koncepció

Adattárház guru: Bill Inmon 80' évek vége

Adattárház*: Data Warehouse

Témaorientált, integrált, az adatokat történetiségükben tároló adatrendszer, amelynek fő célja az adatokból történő hatékony információkinyerés biztosítása, elsősorban a döntéshozatali folyamatok támogatása céljából

DW építés lépései, koncepciója:

OLTP rendszerek adatainak lemásolása egy csendes időszakban
Időpecsét
Nem a napi működéssel kapcsolatos adatok integrálása
Üzleti fogalmak és modellek megalkotása

Az adattárház-építőknek hidat kell verni az üzlet és az IT között

DW-OLTP ÖSSZEHASONLÍTÁS: 25. oldal

2.3.1 Mikor van szükség adattárházra

Adatok hatékony felhasználása
Korszerű, hatékonyan szervezett eszközök az erőforrás-menedzsmenthez

2.3.2 Adattárházak fő tulajdonságai

Bill Inmon:

téma-orientált
integrált
adatok több időszakból
állandó

+3:

hozzáférhető
transzformált (egységes, konzisztens)
menedzsment-vezérelt

2.3.3 Téma-orientált

Az adatok bizonyos témakörök köré szerveződnek
A területeket a kritikus sikertényezők alapján lehet azonosítani
Például:

OLTP
- Értékesítési rendszerek
- Pénzforgalmi rendszerek
- Beszerzési rendszerek
Adattárház:
- Vevői adatok
- Személyzeti adatok
- Támogató adatok

2.3.4 Integrált

Az összegyűjtött adatok globálisan konzisztens kódrend szerint, strukturáltan jelennek meg az adattárházban
Adatdefiníciók standardizálva

2.3.5 Adatok több időszakból

Legyen lehetőség a különböző időpontokra történő elemzésekre
Az adattárházban hosszú távú, historikus adatok szerepeljenek, amelyeket időbélyeggel ellátott pillanatfelvételekként tárolunk

2.3.6 Állandó

Az adattárházba az adatok jól definiált interfészeken keresztül kerülnek be, ellenőrzött módon
Az adatbetöltés nem folyamatos
Csak olvasható adatbázis

2.3.7 Hozzáférhető

Kulcskérdés
Egyszerű, jól időzíthető hozzáférést kell biztosítani

Milyen adatokhoz lehet hozzáférni?
Hol lehet őket megtalálni?
Hogyan lehet hozzáférni?

2.3.8 Transzformált (egységes, konzisztens)

Az adatokat egységes formára kell transzformálni
Adatok tisztítása, átforgatása, összegzése

2.3.9 Menedzsment-vezérelt

Cél az elemzés és döntéshozatal segítése, ezért a szerkezetnek is ezt kell tükröznie
Rugalmas, sokféle lehetőség

2.3.10 ETL folyamat

ETL (Extraction-Transform-Load): Az adattárház alapadattárának feltöltése, frissítése
Gyakran extraktumokból kell kiindulni, nincs szükség minden adatra
Adattisztítás - Nagyon fontos része a folyamatnak
Az adattárház tartalma nem változik meg a feltöltés, frissítés során, csak bővül

Nem állapotot, hanem történéseket regisztrál

Az online rendszerek terhelése nélkül lehetséges lekérdezéseket végrehajtani

2.4 Lekérdezés

Standard riportok
Egyedi lekérdezések

Lehetségesek, ha a dimenziók jól definiáltak, és a mérőszámok ki vannak számolva
Felmerülő értelmezési problémák

2.5 Adatelemző rendszerek OLAP

2.5.1 Multidimenzionális adatmodell MDDM

Célja: A különböző információfelhasználók más-más formátumban és részletezettségben nézhessék meg az adatokat
Az OLAP technológia multidimenzionális nézeteken keresztül biztosít közvetlen, gyors adatelérést a végfelhasználóknak
Adatkocka: Az adatelemek ábrázolására használt módszer a MDDM-ben

Jellemzők stb.
Dimenziók leszűkítése, keresések

Dimenzió: Tranzakcióhoz köthető attribútum

Gyakran hierarchia építhető rájuk

Mérték (measure): összeadható mennyiség

2.5.2 Lefúrás

A dimenziók növekedésével jelentősen nő a kombinációk száma
Lefúrás a hierarchia lejjebbi szintjeire
Jelentős szerep a hibakeresésben, mögöttes tartalmak megismerésében, eredmények ellenőrzésében

2.6 Elemző felületek és vizuális megjelenítés

A legtöbb adatbányászati szoftver változatos, hasznos lehetőségeket biztosít a kapott eredmények megjelenítéséhez

2.7 Jelentéskészítés

Rendszeres jelentések

Formailag kötöttek
Például: Kiegyensúlyozott stratégiai mutatószámrendszer (Balanced Scorecard, BSC)
- A vezetés az üzleti stratégia megvalósulását tudja követni és ellenőrzés alatt tartani
Nagy futási igényűek - futtatás éjszaka

Az adattárház aggregációs rétegében kerülnek elraktározásra a már elkészült riportok

2.8 Fokozatos építkezés

A sikeres adattárház beépül a vállalat mindennapi életébe
Az adattárház döntően a nála kisebb adatpiacokat látja el információval
Használatba vétele, bevezetése fokozatosan történik
Az adattárházból elvileg lehetetlen egymásnak ellentmondó adatok kinyerése

2.9 Adattárház és adatpiac

Adatpiac (*Datamart*)
Az adattárháznál kisebb, lokális - a vállalat valamely szakterülete számára készült - adattár és a hozzá kapcsolódó eszközök

Különbség: A tárolt adatok komplexitása

DM-DW ÖSSZEHASONLÍTÁS 36. oldal

2.9.1 Tárhely és sebesség

A multidimenzionális tárolás sokkal több helyet foglal, mint a redundancia mentes relációs struktúra
Nagy feladat egyensúlyt találni a felhasználók ideje és a tárolókapacitások költsége között
Hibrid megoldások

2.10 Az adatbányászat, mint lehetőség

Olyan kérdésekre tud választ adni, amik fel sem merülnek
Rejtett összefüggések feltárása

3. AZ üzleti intelligencia alkalmazásai

3.1 Az alkalmazás fő területei

3.1.1 Pénzügyi jelentések készítése

Fontos szerep jut a vállalat helyzetét tükröző pénzügyi jelentéseknek

Adatok megértése
Adatok elhelyezése jól definiált üzleti dimenziók mentén
Elemzés
- Dimenziók közötti összefüggések meghatározása
- Mutatószámok létrehozása
Komolyabb összehasonlító elemzések

3.1.2 Kontrolling - jövedelmezőség

A kontrolling három szinten méri a jövedelmezőséget

CPS - Ügyféljövedelmezőség
PPS - Termékjövedelmezőség
OPS - Szervezeti jövedelmezőség

3.1.3 SCM, SRM, SNM

Beszállítói lánc kezelése: SCM Supply Chain Management
Beszállítói hálózat kezelése: SNM Supply Network Management
Beszállítói kapcsolat kezelése: SRM Supply Realtionship Management

Logisztika: Vállalati folyamat, melynek célja a nyersanyagok hatékony áramlásának megtervezése, megvalósítása és ellenőrzése, a hasonló folyamatok integrációja

Legfőbb célkitűzése a költségek optimalizálása és a szolgáltatási színvonal emelése
CIL: Computer Integrated Logistics
JIT: Just in Time
CIM: Computer Integrated Manufacture

A vállalat minden területének egyazon információs adatbázisba integrálása
Alapvető cél a vállalati teljesítmény mérhetővé tétele
Mind az eladás, mind a termékfejlesztés közelebb kerül a végfelhasználóhoz

SCM
Élő láncnak tekintett struktúra, szoros kölcsönhatás

Végső fogyasztók - Marketing
Kiskereskedők - Eladás
Beszállítók - Beszállítás
Gyártók - Gyártás
Disztribútorok - Kiszállítás

SNM
Magasabb szinten integrált mint az SCM

SRN
Beszállítók teljesítményének mérése

3.2 Ügyfélkapcsolat-menedzsment

CRM - Customer Relationship Management
Előtérbe kerül az ügyfél, az ügyfélismeret felértékelődik
Szemléletmód, új üzleti modell

3.2.1 Termékközpontú marketing

A cégek a szellemi és anyagi tőkéjüket a termékek mentén csoportosítják, a termékek köré szervezik tevékenységüket
Az ilyen marketing viszonylag egységesen szól az ügyfélhez, nem lehetséges megszólítani a különböző ügyfélcsoportokat, mindegyikhez egységes üzenetet lehet csak eljuttatni

3.2.2 Ügyfélközpontú marketing

Az ügyfelet helyezi a középpontba

MARKETING SZEMLÉLETEK ÖSSZEHASONLÍTÁSA 46. oldal

Az ügyfélismeretnek óriási értéke van
A jobb előállítása annyit jelent, hogy jobban megfelel az ügyfeleknek mint a versenytárs terméke
Jobban illeszkedő értékkosár (termékből és/vagy szolgáltatásból)
Ha a piac viszonylag telített, akkor az ügyfélismeret mentén lehet a keresztértékesítési stratégiákat kialakítani (cross-selling)

3.3 Az ügyfélkapcsolat-kezelés elemei

Analitikus CRM - Analitika Operatív CRM - Működtetés, Információelosztás

3.3.1 Operatív CRM-rendszerek

A vállalat értéket nyújt fogyasztóinak, eközben információk gyűlnek róla a vállalat számára

3.3.2 Működtetés

Működtetés: információk rendszeres gyűjtése, elektronikus kapcsolatok vezérlése, front office és back office tevékenységek közötti információáramlás megszervezése, marketing kampányok lebonyolítása

ÜGYFÉLKAPCSOLAT-MODELL: 49. oldal

3.3.3 Információelosztás

Összetett feladat, hogy a megfelelő információ a megfelelő személy számára, a megfelelő helyen, formában és időben rendelkezésre álljon
Megvalósítás valamilyen hálózati technikával

3.3.4 Analitikus CRM

Elemzés (Folyamat: Adattárház > Rendszeres jelentések (Adatbányászati technológiával is) )

3.3.5 Mire jó a CRM?

A CRM három pillére:

Elemzés
Információelosztás
Megfelelő működtetés

Példa: Üzletember - repülőtér - új jegy foglalása

3.4 Az üzleti intelligencia és az adatbányászat kapcsolata

ÁBRA: 51. oldal

Körben: ... > Operatív rendszerek (Alaprendszerek) > Üzleti intelligencia rendszerek > Analitikus CRM rendszerek (Kiaknázó rendszerek) > ...
Az alaprendszerek által folyamatosan előállított adatok feldolgozását és elemzését végzik el az üzleti intelligencia rendszerei. Ezután az adatelemző rendszer adatbányászat segítségével az üzleti intelligencia rendszerek által előkészített adatokon végez elemzéseket. Végül a visszacsatolásban a megszületett eredmények alapján az üzleti céloknak legmegfelelőbben alakítjuk át az alaprendszereket

4. Az adatbányászat alkalmazásai

4.1 Marketingkampány

Az üzleti feladat a hatékony marketing kampány lebonyolításához szükséges tudás megszerzése - kik a legvalószínűbb vásárlók
Szeretnénk olyan modellt alkotni, melynek segítségével egy ügyfél tulajdonságai alapján meg tudjuk jósolni a vásárlói hajlandóságát
Tehát a vásárlói hajlandóság a célváltozó

4.1.1 Modellek felállítása

4.1.1.1 Döntési fa

Fastruktúra, melyben a levelek tartalmazzák bizonyos lényeges jellemzők tekintetében az azonos/hasonló egyedeket
A fastruktúra építését mindig csak a szükséges mélységig kell folytatni
Egy jól használható döntési fához ki kell választani azt a dimenziót és vágási értéket, amely a leginkább elkülöníti egy sokaság csoportjait a célváltozó szempontjából

Ehhez minden dimenziót végig kell fésülni

4.1.1.2 Logisztikus regresszió

Kategorizálási feladatokhoz használható
Cél: Megadjuk azokat a súlyokat, amelyek az egyes változók szerepét leírják

Logisztikus függvény ÁBRA: 56. oldal

Például: Vásárlási valószínűség értéke: logit(A*kor + B*jövedelem + C*ügyfélidő + D)

4.1.1.3 Neurális háló

Egy hálózat, az egyes neuronokban egy logisztikus aktiválási függvény van, aminek bemenő értéke az előző réteg neuronjainak kimenete és a nyilakhoz tartozó súlyok szorzataként adódik
A háló tanulása a súlyok változásában nyilvánul meg

4.1.2 A modellek értékelése

Tanuló és validáló állomány segítségével állapítjuk meg a egyes modellek paramétereit
Tesztállomány
A modellek erősségének értékelését egy grafikon segítségével végezhetjük el, erről leolvashatjuk a legjobb modellt

4.1.3 A modellek liftje

Lift*:

Asszociációs szabály esetén annak hatékonyságát jellemző érték, amely a konfidencia és az elvárt konfidencia hányadosaként áll elő
Bináris, változó prediktív modellezés esetén liftnek nevezzük a modell által legvalószínűbbnek tekintett csoportban a találati arány és egy véletlen minta találati arányának hányadosát
A lift azt mutatja, hogy pl. célzott kampány hányszoros eredményt ad egy célzatlanhoz képest, ugyanakkora erőráfordítással
Modell liftje: hányszorosára javítottuk a kampány hatékonyságát
Mennyiben térünk el a valószínű értéktől

4.1.4 Haszon-költség diagramok

Haszon-költség mátrix felállítása

4.1.5 Haszon-költség elemzés

A modell sorba rakja valószínűség szerint az egyedeket
A haszon-költség elemzés meghúzza a vonalat, ahol optimális a célcsoport nagysága

4.2 Adósminősítés

Több ügyfél nem mindig jobb
Pontszámrendszer (scorecard) alkalmazása
Lehetőséget ad a haszon-kockázat profil megismerésére
Túl szigorú feltételek meghatározása ugyanúgy alacsony haszonnal jár, mint a túl engedékeny hitelkihelyezés
Haszon-kockázat diagram: 60. oldal

4.2.1 Célváltozó definiálása

El kell dönteni, hogy kit tekintünk jó és rossz adósnak
A határ meghúzása üzleti döntés, de elemzési szempontok is szerepet játszhatnak
Szigorúbb kritériumok esetleg túl kevés egyedszámot eredményeznek egy bizonyos csoportban, így a modellek eredményei nem lesznek elég szignifikánsak

4.2.2 Nyers és képzett bemeni változók

Nyers adat*: Amit az ügyfél megad

(Nyers) adatok fajtái

Folytonos (intervallum); pl. kor, jövedelem
Sorrend típusú (ordinális) - diszkrét; pl. végzettség, beosztás
Kategóriaváltozó (nominális) - diszkrét; pl. hitelcél, családi állapot - nem lehet sorrendet fellálítani
Bináris - diszkrét;

A (nyers) adatokból új változókat képezhetünk
Fontos képzett változók:

Eladósodottsági ráta (törlesztés/jövedelem arány)
- 30% felett semmiképp sem adnak hitelt
Fedezettségi ráta (hitelösszeg/tulajdonolt ingatlan értéke)
- 60% felett nem adnak jelzáloghitelt

4.2.3 A siker kulcsa: a képzett változó

Fontos feladat a megfelelő képzett változók megalkotása, megtalálni a legjobban diszkrimináló változókat

4.2.4 A változók információs értékei

Delinkvenciaszint*: Rossz adósok aránya

Egy változó annál több információt hordoz, minél eltérőbbek a delinkvenciaszintek az egyes értékek esetén

4.2.5 Folytonos változók kezelése

Nincsenek természetes csoportok, tartományokat lehet jellemezni
Probléma: túl kis szakaszokon kevés ügyfél van, túl nagy szakaszokon viszont lényeges különböző csoportokat mosunk össze
Bizonyítéksúly - Weight of Evidence WOE

A delinkvencia logaritmusa

4.2.6 A pontszámrendszer

Pontszámelemzés során diszkriminanciaanalízist végeznek, és megkeresik azokat az attribútumokat, amelyekben szignifikánsan különböznek a jó és rossz adósok a múltbeli adatok alapján
Ezután pontokat rendelnek az adatokhoz annak függvényében, hogy mennyire valószínűsíthető a vissza nem fizetés a WOE vagy más algoritmus alapján
Egyes tulajdonságokra kapott pontok jobban hajlamosítanak a hátralékba kerülésre
Minden jelentkező egy összesített pontszámot kap (score), ami a tulajdonságok súlyozott összegeként adódik

4.2.7 A modell eredményessége

A jóslás sikerességét tesztállománnyal lehet lemérni
A haszon-kockázat diagram a jók által termelt haszon és a rosszak által okozott veszteség ismeretében készül el

4.2.8 A pontszámítási módszer hiányossága

A változók közötti interakciót is figyelembe kell venni
Például: villamos-busz, csúcsfogalom-este

4.2.9 Metaváltozós regresszió

Metaváltozók bevezetése, melyeket két vagy több változó tartományaiból lehet képezni
Ilyen módon olyan fontos részletekre is fény derülhet, melyeket egyébként elfedne a modell
Például: Egy adott korcsoport a egy adott jövedelemsávon belül elmosódhat, minden korcsoportot egybe sorolnánk

4.2.10 Interpretálhatóság

Fontos, hogy a kapott eredmény mennyire interpretálható
A neuronháló jobb eredményeket adhat, de nehéz megérteni mi történik a hálón belül
A döntési fa is jó eredményeket adhat, de előfordulhat, hogy az adott adósnyilvántartó rendszerben a fa döntési logikáját nem lehet alkalmazni, mert például pontszerű értékelésre van felkészítve

4.3 Ügyfélszegmentációról általában

Ügyfélszegmentáció Olyan csoportokra osztjuk fel az ügyfeleket, amelyekben lényegesen eltérnek az bizonyos kulcsfontosságú tulajdonságok, például profitabilitás, kockázat, lemorzsolódási valószínűség, lifetime value, stb.

A szegmentációt háromféle adatcsoport alapján lehet végezni:

Demográfiai adat (pl kor, nem végzettség)
Tranzakciós adatok (pl mikor mit vett, reklamációk)
Dinamikus tulajdonságok (pl tendenciák)

Az ügyfélszegmentáció tipikus lépései

Ügyfélazonosítók egységesítése
Adathiányok kezelése
Adatok transzformációja
Modellezés
Szegmentumok tulajdonságainak feltárása

4.3.1 Ügyfélazonosítók egységesítése

Adatbázisok konszolidációja, entitások összevonása
Nehéz feladat

4.3.2 Adathiányok kezelése

Adathiány-kezelő módszerek

Kategorikus változók
- Ismeretlenre állítás
Számszerű változók
- Helyettesítési módszer - átlag, módusz, medián
A nem üres értékek alapján véletlenszerűen töltjük fel az üres helyeket
Jól korreláló másik változó
Egyedi módszer

Fontos: meg kell jelölni azokat a rekordokat, ahol mi töltöttük ki az üres értékek helyét

4.3.3 Adatok transzformációja

Szegmentáció ritkán végezhető közvetlenül az eredeti adatokon
Módszerek:

Az adatok eloszlásának átalakítása statisztikailag jól kezelhető eloszlássá
Új változók képzése
Folytonos változók diszkretizálása

4.3.3.1 Az eloszlás átalakítása

Statisztikailag használható: normális eloszlású, extrém értékektől mentes valószínűségi változók
Adatok ábrázolása több szempontból, egy vagy két dimenziós hisztogramokkal
Az adatbányászati szoftverek sokszor felajánlják a kiugró (outlier) értékek kivágását
Ezzel óvatosan kell bánni, mert a kiugró értékek lehetnek kis elemszámú, speciális szegmensek is

4.3.3.2 Új változók képzése

A lényeg gyakran nem az abszolút számokban, hanem arányokban és különbségekben van

4.3.3.3 Diszkretizálás

Az eredetileg folytonos értékű változók diszkretizálása
Kvantilisek képzése

4.3.4 Modellezés

Két alapinformációra van szükség

Maximum hány különböző csoport kezelhető
Távolságmetrikát kell definiálni
- A különböző paraméterekben való eltérést teszi összemérhetővé

4.3.5 Szegmentumok tulajdonságainak feltárása

Statisztikák készítése a kapott szegmentumokra
Ezáltal üzletileg értelmezhetően lehet jellemezni őket

4.4 Banki szegmentáció

4.4.1 Dimenziók definiálása

Bank lakossági ügyfeleinek vizsgálata
Az igénybe vett tranzakciók összege alapján
Tranzakciótípusok
Legfontosabb cél: Csoportra szabott akciók indítása
Akkor jó a szegmentáció, ha a profilozás után nevet tudunk adni a szegmenseknek

4.4.2 Klaszterek profiljai

Szegmensek:

távbankoló
megtakarító
bérfelhasználó
pénztárba járó

4.4.3 A szegmentáció üzleti haszna

A szegmentáció eredményére nem lehet azonnali megtérülést számolni, de jó megtérüléssel rendelkező akciók indíthatóak
Megtérülés - Return On Investment ROI

4.5 Áramszolgáltatói szegmentáció

4.5.1 Az árampiac

Az áram speciális árucikk, nem lehet raktározni
Minden pillanatban pontosan annyi kell belőle, amennyit a fogyasztók elfogyasztanak
A termelésnek maximálisan kell igazodni a fogyasztáshoz
Áramot termelni egyenletes mennyiségben hatékony
A profit meredeken emelkedik a fogyasztók igényeinek megjóslásának pontosságával

4.5.2 Szegmentáció eredménye

Fontos a fogyasztó mérete
Fontos dimenzió: fogyasztás ingadozása napi, heti havi szinten

4.5.3 Nyers adatok

Lognormális eloszlás - (kb mint a haranggörbe)
Nagyon gyakori

4.5.4 A korreláció csapdája

3 jól elkülöníthető klaszter

Kis fogyasztó
Közepes fogyasztó
Nagy fogyasztó

Az új tudás teremtésének legnagyobb ellensége, ha a változók együtt mozognak, azaz korrelálnak

4.5.5 A kompromisszum keresése

Az ipari fogyasztó teljesítménygazdálkodásának minőségét azzal jellemezheti, hogy átlagosan mennyit téved
Egy matematikailag optimálisabb módszer néha kevesebbet ér, mint egy pontatlanabb, de jobban interpretálható és üzleti fogalmakhoz köthető megoldás

4.5.6 Klaszterek

A klaszterekkel szemben támasztott követelmények a projektben

legnagyobb klaszter darabszám ne haladja meg a sokaság felét
legalább 4-5 klaszter
erős legyen a homogenitás
klaszterek jól profilozhatók legyenek (legalább egy-egy dimenzió mentén váljanak el egymástól)

4.5.7 Továbbfejlesztés

4.6 Ügyfélanalitikai alkalmazások

CRM

A CRM-KIÉPÍTÉS FOLYAMATA ÁBRA: 82. oldal

1. szakasz: Ügyfél megismerése
2. szakasz: Stratégia kialakítása
- Kollaboratív CRM
- Operatív CRM
- Analitikus CRM
3. szakasz: Üzleti alkalmazás
- Kampánymenedzsment - az értékesítés támogatása
- Kockázatkezelés
- Keresztértékesítés
- Csatornaoptimalizáció
- Lemorzsolódás megelőzése
4. szakasz: Tanulás (visszacsatolás)

4.6.1 Ügyfél megismerése

Ügyféladattár kiépítése
- Lehetőséget biztosít, hogy különböző adatokra keressünk rá egy adott ügyféllel kapcsolatban
Adatminőség biztosítása
Szegmentáció - profilozás
Ügyfélérték megállapítása

4.6.1.1 Az ügyfélszegmentáció

Az analitikus CRM legalapvetőbb és egyben legfontosabb eleme
Az adatbányászati eljárásokkal meghatározott szegmenseket különböző jellemzőkkel írhatjuk le
Szegmensek közötti migrációs hatás

4.6.1.2 Ügyfélérték-potenciál

Egy szám - Lifetime Value LV
Mennyi a várható haszon az üzleti kapcsolat teljes ideje alatt
Kiinduló értéke a jelenlegi ügyfélérték
Ezt módosítja a vásárlási hajlandóság és a nagyobb jövedelemtartalmú termékek iránti affinitás

4.6.1.3 Ügyfélérték alapú szegmentáció

Csoportok

Sztárok (jobbra fent)
Fejőstehenek (balra fent)
- (első két csoport)
- tipikusan nagy forgalmat bonyolító ügyfelek
- cél: hosszú távú megtartás, lojalitás erősítése, igényeik feltárása és maximális kielégítése
Kérdőjelek (jobbra lent)
- kockázat a konkurencia vonzása
- aktív marketingakciók
Kutyaütők (balra lent)
- ráfordítások minimalizálása
- hagyni vagy bátorítani az elhagyást

Tengelyek

Y ügyfél által hozott haszon
X üzleti potenciál

4.6.2 Stratégia kialakítása

A szegmentációk mind viselkedési, mind pénzügyi oldalról átvilágítják az ügyfélbázist
Meg kell határozni, hogy a háromféle CRM-stratégia (kollaboratív, operatív és analitikus) milyen arányára van szükség

Kollaboratív
- A CRM-mel foglalkozók egymás közti munkamegosztását és együttműködését támogatja
Operatív
- Az ügyfelekkel való napi szintű kapcsolattartást segíti elő és a keletkező adatok megőrzését biztosítja
Analitikus
- Az ügyféladatok vezető információvá alakítását és a döntések előkészítését végzi

4.6.3 Ügyfélanalitikai (üzleti) alkalmazások

Az ügyfél státuszának változásával jelennek meg újabb és újabb elemzési lehetőségek

4.6.3.1 Kampánymenedzsment - az értékesítés támogatása

Kampányok fajtái

Ügyfélszerző
Keresztértékesítési (cross selling)
Többletértékesítési (up selling)
Megtartó, lemorzsolódást megelőző

Kulcsfontosságú az eredmények folyamatos mérése
A pozitív és negatív válaszokat később a célcsoport azonosítására lehet használni
Célrendszerek
A kampány lebonyolításához szükséges legfontosabb funkcionális elemeket egyesítik

4.6.3.2 Kockázatkezelés

Kockázatok azonosítása, azok modellezése és elemzése
Főleg befektetési és hitelezési döntéseknél
A saját populáción fejlesztett pontszámrendszer sokkal pontosabb lehet mint a kívülről beszerzett
Elfogadható maximális kockázati szint meghatározása
Csalásfelderítés - Tipikusan csalásra utaló tranzakciós szokások

4.6.3.3 Keresztértékesítés

Elsősorban a más telített piacokon alkalmazható eredményességgel

4.6.3.4 Csatornaoptimalizáció

A disztribúciós csatorna költségei jelentősek
Célja a disztribúciós költségeket csükkenteni oly módon, hogy az ügyfeleket befolyásolni igyekszik, a költségtakarékosabb formák felé terelve őket
A keresztértékesítéssel rokon eljárás

4.6.3.5 Lemorzsolódás megelőzése - az ügyfelek lojalitása

Lemorzsolódás (churn, attrition) Ügyfélszinten mérik a lemorzsolódási hajlandóságot, pontszámot képeznek (score), így meghatározható a veszélyeztetett ógyfelek köre
Az ügyfélmegtartó programokra szánt erőforrások felhasználása optimalizálható

4.6.4 Az analitikus CRM felhasználói

Felsővezetés
Marketing
Értékesítés
Beszerzés
Pénzügy, kontrolling
IT

4.6.5 Szektorok

Legelső felhasználók a telekommunikációs cégek voltak

Pénzintézetek
Biztosítók
Közművek
Kereskedelem
Egészségügy
Kormányzati-közigazgatási

4.6.6 Az ügyfélkapcsolat kezelés legfontosabb kérdései

Stratégiai kérdések
- Hogyan definiáljuk az ügyfelet?
- Melyek a legfontosabb ügyfélcsoportjaink?
- Milyen utak vezetnek a nyereségességhez?
Pozícionálási kérdések
- Hogyan állapítsuk meg az ügyfélszegmenseket?
- Melyik kommunikációs csatornákat használjuk?
- Milyen az egyes kampányok eredményessége?
- Belső folyamatok hatékonysága
  - Hogyan csoportosítsuk az erőforrásainkat az ügyfélszegmensek között?
  - Milyen és mekkora kapacitással kell rendelkeznünk?
- Mutatók
  - Hány ügyfelünk van?
  - Milyen az elvándorlás mértéke?

4.7 Ipari alkalmazás

Acélipar
Pár százalékos selejtarány természetes

4.7.1 Adatok és adatbázisok a meleghengerlésnél

Minden berendezés önálló számítógépi vezérléssel rendelkezik
Több hierarchia szint
Minden kihengerelt szalagról keletkező nagy mennyiségű információt egy egységes adatbázisba (adattárházba) kell összehozni
Adatok egységes alakra konvertálása, mérési hibák és zajok leválasztása

4.7.2 A módszer: önszervező neuronhálók alkalmazása

Önszervező neuronháló - Self-Organising Map SOM A mesterséges neuronhálós algoritmusok felügyelet nélküli tanulást használó változata Anélkül használható csoportosításra, hogy előre megadnánk a bemenő adatokból képzett csoportok jellegét N-dimenziós teret kétdimenziós képek sorozatára bontja le
Több, mint egyszerű korreláció- vagy regresszióvizsgálat
Nincs szükség az összefüggés várható jellegének ismeretére
Különösen alkalmas például nemlineáris összefüggések kimutatására

4.7.3 Neuronhálón alapuló modell kialakítása

A modellalkotás kezdő fázisában alegységeket kell definiálni
Ezek a részmodellek egymástól fizikailag is elhatárolható hatásmechanizmusokat kell, hogy leírjanak
El kell különíteni a célértékeket (alapjelek) és a tiszta változókat (célérték követéséhez a jelenlegi szabályzó rendszertől függően változnak)
Tanításhoz használt mérési adatok rendszerezése, szűrése
E módszer nem alkalmas extrapolációra, csak a tanulási ciklusban látott térrészekben történő interpolációra

4.7.4 Kiértékelés, várható és realizált pontosság

A felépített modelleket összeillesztés előtt tesztelni kell, szükség esetén további hibrid egységekre bonthatóak

4.7.5 Alkalmazhatóság, illesztés, gazdasági haszon

A neuronháló által szolgáltatott előrejelzések alkalmazhatóak tesztelésre vagy valós technológiai monitorozásra, online beavatkozások megvalósítására

5. Adatbányászati projektek szervezése

Három különböző erőforrást kell összehangolni

Az üzletről a fejekben felhalmozódott tudást
Az adatbázisokban levő adatvagyont
Az adatbányászati technikák lehetőségeit

AZ ADATBÁNYÁSZAT ÖSSZETEVŐI ÁBRA: 100. oldal

Fontos lépés a módszertan kialakítása
Több nagyobb vállalat dolgozott ki módszertant
Például két fontos módszertan:

SEMMA
CRISP-DM

5.1 Adatbányászati módszertanok

5.1.1 SEMMA

SAS Institute fejlesztette ki
A technikai lépésekre koncentrál

Sampling
- Mintavételezés
Exploration
- Feltárás
Manipulation, modification
- Módosítás
Modelling
- Modellezés
Assessment
- Kiértékelés

A folyamat felépülését, az adatbányászati elemzés sorrendiségét határozza meg
Beilleszkedik a RWM-ba (Rapid Warhouse Methodology)

0. Az üzleti környezet megismerése

Meg kell határozni, hgy milyen ismeretek megszerzése jelent üzleti előnyt
Az adatbányászat feladata ezeknek az összefüggéseknek a megismertetése

1. Sampling (Mintavételezés)

A belső rendszerekben rendelkezésre álló nagy mennyiségű adatot gyakran külső adatokkal egészítjük ki
Például: demográfiai adatok, közvélemény kutatások
Ugyanolyan pontos modelleket lehet létrehozni kisebb tömegű adatokkal
Különféle mintavételezési eljárások

- Egyszerű (véletlen)
- Első N elem
- Minden N-edik elemet kiválasztó
- Csoportos mintavételezés

Rétegezett mintavétel: minden csoportból a megfelelő számú egyedet kell kiválasztani
Túlsúlyozás: Egy csoportból relatíve több elemet választunk ki

2. Exploration (Feltárás)

Fel kell tárni az adatállományt, megvizsgálásra kerülnek az adatok, hogy nincsenek-e hiányzó vagy extrém értékek
Egyes változók összevonása vagy más módszer a számuk redukálására

3. Manipulation, modification (Módosítás)

A feltárás során szerzett tapasztalatok felhasználásával az adatbázis módosítása
Hiányzó adatok pótlása, extrém értékek kiszűrése
Összevonni vagy elhagyni a szükségtelen változókat
Változók más eloszlásba való transzformálása

4. Modelling (Modellezés)

A legfontosabb fázis
Azt a modellt keressük meg, amelyik a legjobban leírja az eredmény változó alakulását a bemeneti változók függvényében
Javasolt modellezési lehetőségek

- neurális hálók
- döntési fák
- regressziós eljárások
- példány alapú tanulás

Fontos, hogy az adatbányászati szoftver mint a mesterséges intelligencia, mind pedig a hagyományos statisztikai alapú eljárásokat ismerje

5. Assessment (Kiértékelés)

Lehetőség van a különböző modellek összehasonlítására vagy egy modell több beállításának összevetésére
Grafikus és analitikus eszközök
Ha szükség van rá, vissza lehet térni valamelyik előző fázishoz

6. Application (Alkalmazás)

Az eredményekre alapozva a döntéshozók meghatározhatják, mely döntések meghozatala és milyen változtatások végrehajtása a legelőnyösebb a cég számára

5.1.2 CRISP-DM módszertan

Erőssége az üzleti aspektusok kidolgozottságában rejlik
CRISP - Cross Industry Standard Process for Data Mining
Átfogó adatbányászati folyamatszabvány 1996-ban dolgozták ki számos nagyobb cég képviselői

1. Az üzleti folyamat megismerése (Business Understanding)

Fel kell mérni, hogy milyen ismeretek megszerzése, illetve milyen összefüggések megismerése jelent üzleti előnyt
Célok kitűzése

2. Az adatok megismerése (Data Understanding)

Releváns bemenő adatok gyűjtése
Minőségi problémák, hiányosságok azonosítása

3. Az adatok előkészítése (Data Preparation)

A modellhez szükséges rekordok (sorok) és mezők (attribútumok) kiválasztása
Adatstruktúra létrehozása

4. Modellezés (Modelling)

Különböző modellezési technikák alkalmazása és a paraméterek optimális értékeinek megkeresése

5. Kiértékelés (Evaluation)

Különböző tesztekkel kiválasztjuk a legjobb modellt
A lépések vizsgálata abból a szempontból, hogy megvalósítja-e az üzleti feltételeket

6. Alkalmazás (Deployment)

A megfelelően prezentált riportok, elemzések segítik az ügyfelet abban, hogy a vállalat számára a legelőnyüsebb döntéseket meghozza

5.2 A projektlépések időigénye

Tisztában kell lenni a költségekkel - Ennek döntő része a szakértők ideje
Az adatbányászatnak nem követelménye az adattárház megléte, de rengeteg időt lehet vele megtakarítani
Az adatmegismerés és -előkészítés gyakran az idő 60%-át is kiteszi

Üzleti elemzés 20%
Adatelemzés 25%
Adatgyűjtés 10%
Adatelőkészítés 15%
Modellezés 10%
Értékelés 10%
Üzleti alkalmazás 5%
Üzleti visszacsatolás 5%

5.3 Adatbányászati sikertényezők

Az adatbányászat az egyik leggyorsabban megtérülő informatikai tevékenység lehet
Gyors megtérülés csak akkor valósulhat meg, ha az adatbányászat értékteremtő folyamatának valamennyi lépését végigjárjuk
De nem minden modellezhető, a megtalált összefüggések egy részének nem lesz üzleti haszna

5.3.1 A kérdésfelvetés

Némely kérdésnek/felismerésnek nincs üzleti haszna
A siker egyik kulcsa a jól feltett kérdés
Jó kérdés: A vállalat időben megteheti s szükséges lépéseket és lemérheti az eredményt
Üzleti szakértelemre és a vállalati adatok ismeretére is szükség van

5.3.2 A válaszadás

Az eredmények interpretálása és közérthető prezentálása egy másik nagyon fontos sikertényező
Ha nagyobb eltérés mutatkozik a modell és a valóság között, meg kell vizsgálni, hogy nem-e elhanyagoltunk egy fontos tényezőt

5.3.3 A visszacsatolás

A monitorozás, mely minimalizálhatja az akció kockázatát, gyorsíthatja az adatbányászat megtérülését
Meg kell vizsgálni a hosszú távú hatásokat is

5.3.4 A tanácsadás

Kritikus sikertényező a külső szakértők bevonása

6. Az adatminőség kérdése

Az adatminőség sokszor probléma
Az adatminőség gyengeségét leginkább adatbányászati technikákkal lehet felfedni
Az adattisztításban is használhatók adatbányászati módszerek

6.1.1 Adatminőség alaptétele

Minden rendszerben olyan az adatminőség, amely éppen megfelelő az adott rendszer folyamatos működéséhez
Az adatminőség-menedzsment tevékenységciklusa (SAS)

Folytonos minőségjavítás
- Definiálás (~megadjuk, mit tekintünk normálisnak)
- Mérés (~diagnosztika)
- Jelentés (~utólagos megfigyelés)
- Tisztítás (~terápia)

Adattisztító eszköz: adatklinika

6.1.2 Szervezeti szempontok

A megelőzés lényegesen olcsóbb, mint az utólagos kezelés

6.2 Az adatminőség-biztosítás folyamata

1. szint - Ad hoc (Bizonytalanság)
2. szint - Megismételhető (Felébredés)
3. szint - Kialakított (Megvilágosodás)
4. szint - Irányított (Bölcsesség)
5. szint - Optimalizáló (Bizonyosság)

6.2.1 Az adatokkal szembeni elvárások

Mezőszintű adathibák

Úgy kezelhetők, hogy az üzleti szakértők által definiált elvárásokat dokumentáljuk, és rendszeresen ellenőrző programokat futtatunk
Típushibák esetén metabázis alapú kritériumrendszer generált ellenőrzőprogramokkal
Speciális esetekben egyedileg fejlesztett ellenőrzőprogramok

Rendszerszintű hibák

Rekordok összessége jelent hibát
Fontos az adatminőség-ellenőrzés

6.2.2 Referenciapontok

Olyan ismérvek, amelyekhez képest az adatok eltérése hibának minősül
Nem a valósághoz, hanem annak vállalatbeli képéhez való konvergenciát segítik elő
Segít, ha szakértők véleményét kikérjük a teszteredmények kiértékeléséhez
Referenciapont az adatok önmagukhoz mért folytonossága

pl. szokásos méret, rekordszám

Üzleti és tapasztalati szabályoknak is meg kell felelni

6.2.3 Kockázatok

Stratégiai kérdés a gyenge adatminőség következményeinek felismerése
Az elvárt pontosság növekedésével meredeken nő a tisztítás ráfordításigénye
Nagy kockázatú területeken azonban ez nem számít
Adatbányászat esetén az adathibák zajként jelentkeznek
Az adatminőség maga is befolyásolhatja az adatbányászati módszer kiválasztását

6.2.4 Az adatminőség javításának rendszere

A hibákat két szinten kell kimutatni

Vevői szinten
Részletes, rekordszintű hibaleírások

Fontossági sorrend (ha a hibák nem egyenrangúak)
A hibajavítási erőforrásokat a súlyosabb hibák kezelésére kell fordítani
Felelőst kell kijelölni

Eredményességét adatminőségi indikátorokkal jellemezni
Visszacsatolás

Nyilván kell tartani, ha egy hibát már kiszignáltak
Gyökérhiba kezelése után leállítani a következményhibák javítását

6.3 Törzsadat-tisztítás és értéknövelés

6.3.1 Ügyfélazonosítás link analízissel

Ügyfelek azonosítása
Mindenkihez egy természetes azonosító paraméterekből képzett kulcsot rendelni

Nem tudja kezelni a gépelési hibákat

Megoldás: Linkanalízis
Adott ügyfélhez tartozó adatok alapján összekötjük azokat az ügyfeleket, ahol megegyezés található
Gyanúsak a párok, ahol egy adott értéknél több az egyezés
Ha gyanús, de nem egyazon ügyfél, akkor rokoni kapcsolatra utal(hat)
Alkalmazási példa:
Minden tranzakció szereplőit összekötik egy, a tranzakció nagyságával arányosan vastag vonallal
A vonalak vastagsága alapján következtetéseket lehet levonni (pl pénzmosás)

6.3.2 Egységes ügyféltörzs

Célszerű egységes ügyféltörzset létrehozni

Tiszta, duplikátummentes, lehető legjobb adatminőség
Értéknövelt adatokat is tartalmazhat
- Pl különböző csoportok azonosítása

Tisztítótáblák létrehozása
Az eredeti rendszerekből származó adatok mellett tartalmazzák az egységesített és tisztított adatokat

Adategységesítés
- Annak biztosítása, hogy ugyanannak az információnak egységes legyen az írásmódja
Duplikátumszűrés
Adatbázisok közötti kulcsolás azonosító nélkül
Csoportazonosítás
- Sokszor célszerű bizonyos adatokat egy csoportba sorolni
- Pl.: családegyesítés, cégközpont-telephely struktúra, termékcsoportosítás

6.4 Törzsadattisztítási példa: hadifogolyazonosítás

Teljes folyamat

Kontrakció
- A tényleges, összehasonlítást segítő, információt jelentő részek kinyerése az egyes adatmezőkből
Normalizálás
- A mezők tartalmának egységesítése valamely külső, egyéb adatforrásból származó adatbázissal
Linkanalízis
- Két adatbázis összetartozó rekordjainak hasonlóságának mérése
Párok osztályozása
- A hasonlóságokat egy számmal lehet jellemezni, és ezeket a számokat összegezve a rekordok között egy hasonlósági sorrendet lehet felállítani
- Meg kell határozni egy határértéket

6.5 Ügyféltörzs minőségének átfogó, folyamatos biztosítása

Nem elegendő a törzsadatokat egy alkalommal átvizsgálni és javítani
Bizonyos időközönként újabb tisztítás szükséges
Léteznek olyan adatminőség-kezelő szoftverek, melyen folyamatosan vizsgálják, szűrik az adatok esetleges hibáit
Az adatminőség biztosítása az informatikai stratégia fontos része, összhangban kell lennie az üzlet információigényeivel, felelősöket kell kijelölni, folyamatosan monitorozni kell a javulást

7. Az adatbányászat technológiai háttere

7.1 Tanulás

7.1.1 Tanuló ágens

Egy mesterséges intelligencián alapuló ágens négy komponensből áll

Cselekvő (Operatív) - Performance Element
- A külvilággal kapcsolatos megfelelő cselekvés kiválasztásáért felelős
Tanuló (Analitikus) - Learning Element
- A teljesítőképesség javításáért felelős
Kritikus
- Feladata annak közlése a tanuló komponenssel, hogy az ágens működése mennyire sikeres
- Megfelelője az adatbányászati szoftverekben a profitmátrix/profitfüggvény vagy a hibafüggvény (ha folytonos a célváltozó)
Problémagenerátor
- Feladata új problémahelyzetek létrehozása annak érdekében, hogy a jelenlegi tudás szerinti megoldásnál még jobb megoldást találhasson az ágens

Felügyelt tanulás (supervised learning)

A tanuló komponens mind a bemenetet, mind a kimenetet észlelni tudja

Megerősítéses tanulás (reinforcement learning)

A tanuló komponens csak egy értékelést kap, de az egyes cselekvési elemekről nem tudja, hogy helyesek vagy sem

Felügyelet nélküli tanulás (unsupervised learning)

A tanuló komponensnek nincs információja arról, hogy mi a helyes
Kell valami hasznossági függvény

Az adatbányászat során lényegében a tanuló és kritikus komponenst kell megtervezni vagy beállítani

7.1.2 Állományok és minták a tanuláshoz

Tanuló (tréning) állomány létrehozása

Mintavételezés - az adatok mely részhalmaza képezze a tanuló állományt?
A mintavételezés gyakran adatbányászati módszerekkel is megoldható

Validációs állomány létrehozása

Ezen lehet ellenőrizni a modell jóságának ellenőrzését

Tesztállomány létrehozása

Funkcionális és általános hibaellenőrzést végezhetünk rajta, ezen az állományon mérhető az elkészült modell jósága a profitmátrix vagy a hibafüggvény felhasználásával

7.1.3 Tanulási típusok

Kötegelt tanulás (batch learning)

Az egész adatállomány feldolgozása után kapunk eredményt
A validáló állomány felhasználható a többkimenetelű modell véglegesítésére

Fokozatos tanulás (incremental learning)

Tanulási ciklusonként egyre jobban megtanulja a modell a tanuló állományba levő mintákat
A validáló állomány felhasználható az iterációszám beállítására

Két veszély (a tanuló és tesztállományokkal lehet kivédeni)

Zaj (noise)
- Ha a jel/zaj arány egy bizonyos szint alá kerül, akkor a zaj véletlen szabályszerűségét tanulja meg
Túltanulás (overfitting)
- A tanuló minta tulajdonságaiból azt is megtanulja, ami a teljes állományra már nem igaz

7.1.4 Háttértudás és elfogultság (előítélet)

Korlátozni tudjuk a lehetséges összefüggések körét
Ocham borotvája (Ocham's razor)

A közel ugyanolyan sikerességű modellek közül az egyszerűbbet választjuk
Kevesebb egyszerű modell van mint bonyolult

7.2 Vizuális adatfeltárás

Adatbányászati eljárások értékelése:

Törvényszerűségek megtalálása
Eredmények értelmezhetősége

Vizualizáció előnye: bizonyos dimenziószámig nagyon hatékony ("szemre")

De sohasem olyan pontos, mint a matematikai elemzés

Az adatok betöltése után a tényleges elemzés az adatok megismerésével kezdődik

Diagramok megjelenítése
Egyszerű összefüggések, trendek és kiugró értékek felismerése

7.2.1 Adattranszformációk

A nyers adatok betöltése után következhet a származtatott adatok előállítása
A fogalomhierarchiák segítik az egyedi értékektől való elvonatkoztatást, az adatok alaposabb megismerését

7.2.2 Adatbázismezők fajtái

Rekord: Ugyanolyan típusú információkkal rendelkező adategység Tábla: Az azonos típusú rekordok alkotják Mező: A táblák oszlopai Mezőtípusok

Azonosító
- Ez alapján történik a rekordok egyedi azonosítása
- Értéke minden rekordnál különböző
- Több azonosító is létezhet egy rekordra
Numerikus
- Tetszőleges számadat
- Ábrázolhatjuk pl az eloszlásfüggvényét
Diszkrét
- Tartalma néhány különböző érték
- Értékei nem számok (ekkor csak diszkrét lehet) vagy az előforduló értékek néhány különböző szám

7.2.3 Alapstatisztikák

Statisztikai függvény (statisztika): minden olyan függvény amelynek értelmezési tartománya mintatér

Bármi, ami az adatok valamilyen mintájából egy képlettel kiszámítható, vagy más módon meghatározható

Leíró statisztika: Egy adathalmazt néhány jellemző tulajdonságának megadásával jellemzünk. Ezek a paraméterek a leíró statisztikák.

Elhelyezkedési paraméterek (measures of location, central tendency)
- Azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak
Szóródási paraméterek (measures of spread)
- Értékeink mennyire szorosan vagy lazán helyezkednek el az adott pont körül
Korrelációs paraméterek (measures of correlation)
- Általában összetartozó értékpárok jönnek létre. Ezen értékpárok közötti összefüggésről adnak információt a korrelációs paraméterek

7.2.3.1 A főbb leíró statisztikák

A minta elemszáma (sample size)
- "n" betű
Maximum
Minimum
Terjedelem (range)
- Max-min
Számtani átlag (mean)
- Minta értékeinek összege / minta elemszáma
- Erősen érzékeny a kiugró értékekre
Variancia, tapasztalati szórásnégyzet (variance)
- Az adatoknak az átlagtól való négyzetes eltéréseinek átlaga
Szórás, tapasztalati szórás (standard deviation)
- Variancia négyzetgyöke, SD
- Értéke függ az adatok mértékegységétől
Rendezett minta
Kvantilisek (quantiles)
- A rendezett mintát több egyenlő részre osztjuk
Medián (median)
- Annak az adatnak a számértéke, ami a rendezett minta közepén van
- Ordinális skála esetén is értelmezhető (az átlag NEM)
Korrelációs együttható (correlation coefficient)
- Összetartozó értékpárok lineáris kapcsolatát jellemző, dimenzió nélküli szám
- R; R^2: determinációs együttható (coefficient of determination)
- Független: R=0; Tökéletes pozitív lineáris összefüggés: R=1
Rang (rank)
Rangkorreláció (rank correlation)
- A rangokból számított korrelációs együttható
- Használata
  - ha kiugró értékek vannak a mintában
  - ha az értékpárok közül legalább egy nem numerikus, hanem ordinális

7.3 Ábrázolási technikák

Diagramtípusok

oszlopdiagram
kördiagram
relációs diagram
hisztogram
dobozdiagram (box and whiskers)
háromdimenziós szkettergram
párhuzamos koordináták
vizuális attribútumok
fraktálbuborékok
többablakos, dinamikus megjelenítés

7.3.1 Oszlopdiagram

Az egyes kategóriák arányát mutatja
Másik megjelenítési módja az eloszlásdiagram
Kényelmesen lehet kategóriákat kijelölni és szűrési műveleteket végezni velük

7.3.2 Kördiagram

Arányok kifejezésére használják

7.3.3 Relációs diagram

Két numerikus adatmező viszonyának elemzését teszi lehetővé

Egyik tengely egyik adatmező, másik tengely másik adatmező
Az adatbázis rekordjait pontok jelzik

Kivételek gyors kiszűrése
Mutatja a tendenciákat

7.3.4 Hisztogram

Minden értékhez függőlegesen ábrázoljuk, hogy hányszor fordult elő a mintában

Gyakorisági eloszlás

7.3.5 Dobozdiagram

A hisztogramnál egyszerűbb, de mégis informatív

7.3.6 Háromdimenziós szkettergram (scatterplot)

Adataink térbeli elhelyezkedésének vizsgálatára
Az ábrázolt adatokat perspektivikusan látjuk (lehetőség van forgatásra)
Hasznos sokváltozós adatok vizsgálatakor
Klaszterezéskor előnyös a klaszterek más-más színnel történő színezése

7.3.7 Vizuális attribútumok használata

Célszerű az alcsoportok adatait úgy ábrázolni, hogy jól láthatóan elkülönüljenek egymástól
Akár hat dimenziót is lehetséges átfogni

7.3.8 Fraktálbuborékok

Változók közti korrelációk feltárására
Lépések

Minden változóhoz egy színt rendelünk
Kiindulunk egy központi változóból
Köré minden vele korreláló változóra akkora kört rajzolunk, amennyire vele korrelál
A kapott körökkel újrakezdjük

7.3.9 Többablakos, dinamikus megjelenítés

A többváltozós adatok közötti összefüggések jól vizsgálhatók

7.4 Vizuális linkanalízis

Adatok közötti kapcsolatok vizsgálatára
A gráfelméleten alapszik
Lényege az adatok közötti összefüggések (kapcsolatok) erősségének vizsgálata
Példa: távközlési szolgáltatóknál az ügyfelek közötti hívások vizsgálata
Előnyei:

jól hasznosítható kapcsolatok feltárására
könnyen megérthető
származtatott karkaterisztikák állíthatók elő belőle

Hátrányai:

nem alkalmazható folytonos adatok esetén
kevés alkalmazás támogatja

7.4.1 Asszociáció- és szekvenciaanalízis

Asszociatív feltárás

Szabályokat keres olyan elemekről, amelyek együtt mutatkoznak bizonyos eseményeknél (tranzakciókon belül érvényesek)
Asszociációs szabálygenerátor
Pl: Vásárlói kosár analízise
Asszociációk (társítások) leírhatók úgy, mint egy A => B kapcsolat, ahol
- A: előzmény (left-hand side, LHS)
- B: konzekvencia (right-hand side, RHS)
Támogatottság (support) vagy Gyakoriság (prevalence)
- Azon tranzakciók aránya, amelyik csak különálló elemeket vagy csak társított elemcsoportokat tartalmaznak
Figyelni kell az egyes elemek előfordulásának és ezek kombinációinak relatív gyakoriság (frequency)
Konfidencia (bizalmi index, confidence)
- A és B esemény bekövetkezési gyakoriságának, és az A esemény gyakoriságának hányadosa (frequencyQ(A and B) / frequency(A))
PÉLDA: 145-146. oldal
Lift
- Nagyobb liftértéknél nagyobb annak a valószínűsége, hogy A előfordulásakor B is be fog következni
- A => B konfidenciájának és B gyakoriságának a hányadosa (confidence(A=>B) / frequency(B))
Néhány algoritmus konfidenciafaktorokkal és támogatottsági indexszel ellátott szabályadatbázist is készít, a könnyebb áttekinthetőségért
Elemhierarchia meghatározása

Szekvenciális feltárás

Tranzakciók között mondanak ki összefüggéseket
Hasonlít az asszociációs feltáráshoz, de időbeli függéssel is rendelkezik

Az asszociáció- és szekvenciaszabályok nem igazi szabályok, hanem csak kapcsolatoknak, összefüggéseknek a leírása
Nincs formális tesztelési mód
Azzal a feltételezéssel élünk, hogy a múltbeli viselkedés folytatódni fog a jövőben

7.5 Faktoranalízis

Az adatok leegyszerűsítését teszi lehetővé a kiindulási adatmátrix dimenziójának csökkentésével
Kisszámú háttérváltozó (underlying factor) segítségével a teljes mátrixot viszonylag jól (adott hibával) reprezentálni kehet
Az új változók korrelálatlanok (ortogonálisak) és csökkenő sajátérték sorrendjében szokás sorba rakni őket
Nincs egyértelmű szabály, hogy hány faktorváltozót célszerű a modellben tartani
Az eredményként kapott új változóknak (absztrakt faktoroknak) nem mindig lehet megtalálni a fizikai értelmét

7.6 Szegmentáció (egyszerű felosztás)

Az egész projekt sikere múlhat azon, hogy megtaláljuk a legjobban diszkrimináló változókat
Gondoskodni kell arról, hogy viszonylag homogén csoportokat vizsgáljunk

Csoportonként külön-külön kell modelleket építeni

Általában sokdimenziós térben kell vizsgálódni

3D limit (az áttekinthetőség miatt)
Ezért klaszterezési eljáráshoz kell folyamodni

Szegmentáció

Valamilyen szempont(ok)ból homogén tulajdonságokkal rendelkező csoportokat hozzunk létre - Ezek az osztályok
Az osztályok számát nem célszerű nagyra választani
Az osztályokat egymástól való elhatárolására használt szempontokat csoportképző ismérveknek nevezzük

Követelmények

Teljes legyen
- A sokaság minden elemét tartalmazza
Átfedés mentes legyen
- A sokaság minden egyes eleme csakis egy osztályba tartozzon
Homogén osztályokat eredményezzen

7.7 Klaszterezés

Klaszteranalízissel egy halmaz elemeit olyan csoportokra oszthatjuk fel, amelyeken belül viszonylag hasonló egyedek vannak
A csoportok viszont számottevően különböznek egymástól
Fejlett klaszterképző algoritmusok - Az adatbányász feladata a sikeres implementáció megválasztása
A csoportosítás alapja valamilyen felhasználási szempontból definiált közös tulajdonság
Az azonos tulajdonsággal bíró adatrekordokat egy csoportba szeretnénk gyűjteni
Meg kell találni azon tulajdonságokat, amelyek alapján lényeges különböző csoportokat lehet létrehozni
Cél:

következtetések levonása
adatok mozgásterének meghatározása
új adatrekordok mezőinek értékének megjósolása

A klaszterelemzés:

Politetikus osztályokat definiál
- Nem feltétlenül ekvivalens, de hasonló egyedek
Nem definiál típusokat azelőtt, mielőtt kijelölné az objektumokat

Alapvető fogalom az adatrekordok között értelmezhető távolság
A klaszterképzés jól használható:

Mi következik az adatainkból? típusú kérdések
Kiugró esetek szűrése

7.7.1 Távolságok számítása

Többdimenziós térben való távolságmegadáskor több jellemzőt is figyelembe vehetünk
Távolságok kezeléséhez különböző metrikák

Euklideszi
- Adatok különbségének négyzetösszegéből vont gyök
Manhattan
- Adatok különbségének abszolútérték-összege

KÉPLET + PÉLDA: 155. oldal
A jellemzők normalizálásával kiküszöbölhető a numerikus értékből eredő nagyobb hatás
Nem numerikus adatok esetén a távolság értelmezéséhez le kell képezni az adatokat numerikus értékekre
Perfekt illeszkedési szabály

Ha a két rekord azonos, akkor távolság = 0
Minden más esetben távolság = 1
Akkor érdemes használni, ha nincs meghatározható értéksorrend

Értékek leképzése az egész számok egy részhalmazára

Akkor érdemes használni, ha a sorban egymástól távolabb álló értékek nagyobb differenciát jelentenek, mint a közeliek

7.7.2 Klaszterező algoritmusok

Két alapvető algoritmus

Hierarchikus
- Az elemekből képzett csoportokon végzünk további csoportosítást
- A hierarchia legalsó szintjén van a legtöbb csoport
- Előnye: a szakértő kiválaszthatja, melyik a legtöbb információt rejtő csoportosítási szint
Nem hierarchikus
- Előre el kell dönteni, hány csoport lesz, VAGY hogy mi legyen a csoportképző küszöb

7.7.2.1 Nem hierarchikus klaszterképzés

Alapja az újracsoportosítás, melynek módszere: K-átlag (K-Means)

Algoritmus:

Többdimenziós terek
n-elemű vektorokkal leírt pontok
Kijelölünk K db pontot - magok (seed)
- Minden egyes mag egy elemi klaszter, egyetlen elemmel
(*) Minden elemet besorolunk abba a klaszterbe, amelynek középpontja a legközelebb van
- (A klaszterhatárok n-dimenziós térben n-1 dimenziós hiperfelületek)
Kiszámítjuk az új klaszterek magjait
- Egyszerű átlagszámítás - minden egyes klaszterben levő pont koordinátáinak átlaga
Újrakezdjük a (*)-tól - addig, amíg a klaszterhatárok változása meg nem áll

Jelentősége van annak, hogy milyen csoportszámot választunk, lehet hogy nem is lesz sikeres a csoportosítás

7.7.2.2 Hierarchikus klaszterképzés

Egymásra épülő csoportokat képez az adatokból
A módszer eredménye csak az adatoktól és a választott algoritmustó függ
Kétféle mód van a fa építésére

Összevonó (gyűjtő) csoportosítás
- Egyelemű klaszterekből indulnak (a hierarchikus fa aljáról)
- Minden rekord egy csoport, ezeket a csoportokat gyűjti további csoportokba
- Végül az egész minta egy csoportba kerül
- A pontos lépések:
  - (1) Kiindul n db csoportból
  - (2) Egyel csökkenti a klaszterek számát úgy, hogy összevonja a két leghasonlóbb klasztert
  - (3) Az új klaszter távolságát a többitől újra számítja
  - (4) A 2. és 3. lépést n-1-szer elvégezve minden egyed egy klaszterbe kerül
Felosztó (szortírozó) csoportosítás
- A fa tetejéről indul
- Addig tart a csoportosítás, amíg minden rekord külön csoportot nem képez

Az összevonást többféle statisztika szerint végezhetjük

Egyszerű összekapcsolás (Single Linkage)
- Klaszterek közötti távolság: Két klaszter legközelebbi elempárosának távolsága
- D1(K,L) = min d(xi, xj)
- A csoportok elnyúltak lehetnek
Komplett Kapcsolás (Complete Linkage)
- Klaszterek közötti távolság: Az elempárok közötti legnagyobb távolság
- Kis klasztereket eredményez
Súlypont módszer (Centroid Method)
- Klaszterek közötti távolság: A csoportbeli elemek súlypontjai közötti távolság
- Kiegyenlíti az egyszerű és a komplett kapcsolás torzításait
Ward módszere
- Úgy csoportosít, hogy a csoportok súlypontja és a csoport elemei közötti távolságösszeg minimális legyen
- Nem támogatja az elszakadó elemcsoportokat, mert szimmetrikus fákat eredményez

7.7.3 Osztályozásos előrejelzés a klaszterképzés segítségével

A leggyakoribb alkalmazás
Egy adatrekord egy ismeretlen mezőjének értékét szeretnénk előre jelezni a rekord többi mezőjének ismeretében

7.8 Regresszióelemzés

A regresszióval megfigyelt eseményeket explicit függvénnyel modellezzük
Van egy független változónk - ezt hiba nélkül mérjük
A függő változót ugyanakkor mérjük, de hibával
Olyan matematikai modellt keresünk, amely kellő pontosan jelzi előre az Y paraméter értékeit, ha ismerjük a modellt
A regressziós analízis céljai

A modell paramétereinek (a,b) meghatározása
A legjobb modell kiválasztása
A modell használata előrejelzésre

Példa: kerékpáros

7.8.1 Regressziós feladat általános megoldása

Kulcslépés: a regressziós paraméterek becslése - ez általában egy minimalizálási feladat

Lineáris - egyszerűen számolható
Nem lineáris - nincs garantált módszer

7.8.2 Lineáris regresszió

7.8.2.1 Egyváltozós lineáris regresszió

Modell

yi = a*xi + b (i=1..n)

Interpretálás

Tipikus alkalmazás: kalibrációs görbe

Megoldás

Gyakorlatilag minden program tartalmazza
Eredmény:
- a (slope), b (intercept) becslése
- a és b hibája (standard error)
- r^2 (determinációs együttható)
  - értéke megadja, hogy a megfigyelési adatok teljes varianciáját mekkora részben magyarázza meg a modell

Korrelációs együttható: r

Azt méri, hogy két változó mennyire van lineáris kapcsolatban

7.8.2.2 Többváltozós lineáris regresszió

N változós lineáris regresszió modellje: KÉPLET 164. old
Nagy adatbázisoknál gyakran sok a változó
Probléma: melyik változót vegyék be az egyenletbe

Lehetőleg a minimális, független változókat
Ezek kiválasztására számos eljárás ismert
Az ordinális változókat is be lehet venni!

7.8.2.3 Súlyozott lineáris regresszió

Mérés hibája: 5-10% - ez RELATÍV HIBA
A súlyfaktort úgy kell megadnunk, hogy ahol nagy az abszolút hiba, ott kicsi legyen a súly és fordítva

7.8.3 Nemlineáris regresszió

A legtöbb összefüggés nemlineáris
Módszerek:

Linearizálás (változó behelyettesítése)
Logaritmikus transzformáció

7.8.4 Logisztikus regresszió

Gyakran bináris a célváltozó

7.9 Diszkriminanciaanalízis

Azt vizsgáljuk, melyik változókban különbözik a legjobban a különböző célértékkel rendelkező két csoport
Előrelépéses (forward stepwise) algoritmus

A kiválasztott változókat többváltozós regresszióval becsüljük
- Ezért csak folytonos bemeneti változók használhatóak
Ezután megvizsgáljuk hogy a következő diszkrimináló változó bevonásával jobb lesz-e a modell

Visszalépéses (backward stepwise) algoritmus

Először az összes változót használjuk fel, majd a kevésbé diszkriminálókat kihagyjuk

Eredménye egy hipersík

Amely a lehető legjobban kettéválasztja a célváltozó várható értéke szerint az állományt

7.10 Döntési fák

Adatok alapján, logikai értéket produkáló következtetési szabályok hierarchikus sorozatának ábrázolási módja
A csomópontok olyan függvények, melyek az adatoktól függően produkálnak logikai értékeket
A leveleknél megkapjuk a választ a kérdésre
Fa gyökere: az első következtető függvény
Fa levele: az utolsó szint

Bináris fa: a csomópontokból két ág indul Többutas fa: a csomópontokból több ág indul

(1) Többváltozós logikai függvény értéktáblázata
- Minden egyes sora egy bejárás
- Bizonyos paraméterértékek esetén más paramétereknek nincs hatásuk
- Sok paraméter esetén nem jól kezelhető
- Csak memóriaként működik, ezért nem alkalmazható következtetések kialakítására
(2) Legfontosabb paraméter módszer
- Ami legjobban szétszórja az adatokat
- Válasszuk ezt a paramétert gyökérnek
- Rekurzívan építjük a fát a paraméterek fontosságának sorrendjében

A fa ágai a csoportosító kérdések, levelei ezen kérdések által alkotott részcsoportok A döntési fa egy speciális csoportosító technika

Célja hogy adatok között összefüggéseket fedezzünk fel, vagy osztályozási szabályokat alkossunk

Olyan iteratív folyamat során jöhet létre, amely az adatokat diszkrét csoportokra bontja

Elsődleges cél a csoportok közötti távolság maximalizálása
Letisztult csoportok jöhetnek létre
A megfelelő kritériumnak csak a csoportok egyikének a tagjaira szabad illeszkednie

Osztályozó fa

Diszkrét változók jóslására

Regressziós fák

Folytonos változók jóslására

Az egyértelműség és pontosság félrevezető lehet
A felépítés gyorsan végezhető, mert szintenként csak egyszer kell átvizsgálni a teljes adathalmazt

A fák mérete kordában tartható:

Leállási feltételekkel
- Mélység korlátozása
- Csomópontok elágazásainak korlátozása
Metszéssel (hagyjuk a fát növekedni, majd heurisztikus függvények alapján lemetszéseket hajtunk végre)
- CART algoritmus (Classification And Regression Trees)
  - keresztellenőrzéseket használ

Hátrány

Az algoritmusok egy adott elágaztatás esetén nem veszik figyelembe, hogy az adott elágazás milyen hatással lehet a későbbi elágaztatásokra
Az elágazások egyirányúak, tehát minden döntés függ az ősétől

Döntések

Egyváltozós
Több változó lineáris kombinációja

Nagyon hatékonyan kezelik a nem numerikus adatokat is, kategorikus adatokat is elfogadnak

Ez minimalizálja az adattranszformációk mértékét, nem vezet a változók robbanásszerű növekedéséhez

Döntési fákat használnak: CHAID, CART, Quest, C5.0

7.11 Példány alapú tanulás:

K-nearest neighbor, K-NN, memory-based reasoning
Lényege:

El kell dönteni, hogy az adott esemény mely osztályba kerüljön
Azáltal, hogy k elemre megvizsgáljuk a hasonlóság mértékét a már meglévő elemekhez képest

Elvégezni

Meg kell keresni a távolság mértékét az adatok attribútumai között, és kiszámítani a távolságokat
Kiválasztani egy már csoportosított elemhalmazt és ezt használni alapként
Eldönteni
- Milyen nagy legyen a szomszédság
- Hogyan számoljuk meg a szomszédokat

Nagy számítási igény

Teljes újraszámítást végez minden új elemnél

A hatékonyság növelésére célszerű az adatokat a memóriában tartani

7.12 Mesterséges neurális hálók

Idegsejt-hálózat
A kereszteződésekben levő csomópontok (neuronok) a különböző összeköttetésekből érkező információt feldongozzák, és a megfelelő irányba továbbítják
Az összeköttetések erőssége rugalmasan változtatható

Ez a változás jelenti az intelligens tanulást

Ismert kezdeti változók alapján kíván meghatározni egy ismeretlen célváltozót

A bementi réteg többelemű
A kimeneti réteg általában egyelemű

Általában csak normalizált adatokon működnek
A rejtett rétegek a felhasználók számára nem láthatók

7.12.1 A neurális háló működése és tanítása

Az összeköttetések mentén egy-egy neuronból kilépő értékek megszorzódnak az összeköttetés súlyával és összegződve képzik a következő neuron értékét
Aktiváló függvény

Ennek segítségével képződik egy neuron kimenete a bemenetből

Tanítás menete

Tanuló állomány
Összeköttetések feltöltése véletlen számokkal
Tanuló állomány összes elemét beadni a bemenetre
A tanulás során a súlyok módosulnak, az aktiváló függvények nem
A súlyokat egy visszaterjesztési függvény (backpropagation) állítgatja
- Ezeket matematikusok tökéletesítették

Jellemző a több konkurens háló versenyeztetése

7.12.2 A neurális háló használata

Előrejelzés
Előny:

Nem igényel előfeltételezéseket a bemeneti és a célváltozó közötti összefüggések jellegére vonatkozóan
Az adaptív súlyok képesek bonyolultabb összefüggések megtanulására is
Pontos becslés

Hátrány:

Belső bonyolultság
Nem igazán alkalmas olyankor, amikor kialakult modellek felett szakértői elemzést kívánnak gyakorolni
Jól megfogalmazott problémák és jó adatminőség szükséges

7.12.3 Önszervező neurális hálók

SOM - Self Organizing Maps
Felügyelet nélküli tanulás
Cél: A modell az adathalmazban egy rejtett, belső struktúrát fedjen fel
Általában csak bemeneti és kimeneti réteg van
Trükk:

A kimeneti rétegre sok neuront raknak
Mindegyik neuron mindegyik másikkal össze van kötve (a kimenetiek is, ezek közötti távolságot írják le a súlyok)

Úgy tanítják, hogy a közeli kimenetek közel eső bemeneteknek feleljenek meg
Csoportokba sorolhatók a bemeneti adatok aszerint, hogy a kialakuló térképen egymáshoz mennyire kerülnek közel

Jól vizualizálható

8. Függelék

8.1 További alkalmazási területek

8.1.1 Az adatbányászat rövid története

Ügyfélanalitikai feladatok megoldása
Szövegbányászat
Webbányászat
MI 50'
Adattárházak 90'

8.1.2 Webbányászat

Webes adatok feltárására

8.1.2.1 A weboldalak rangsorolása

A kereséshez elengedhetetlen
PageRank - egy felhasználót próbál modellezni

Értéke a normalizált linkmátrix legnagyobb sajátértékéhez tartozó sajátvektornak felel meg
- Gyorsan számolható a megfelelő iteratív algoritmussal
Brin és Page (Stanford University). A Google-ban implementálták
p lap befelé mutató linkje: egy másik lapról p-re mutató link
p kimutató linkje: p lapról egy másik lapra

A rangsor elejére rangsorolunk egy lapot, ha van néhány nagy rangsorértékű befelé mutató linkje vagy ha van nagyon sok bármilyen befelé mutató linkje.

8.1.2.2 Kattintássorok elemzése

8.1.2.3 Intelligens internetes keresés

8.1.3 Szövegbányászat

8.1.3.1 Az üzleti intelligencia

8.1.3.2 Online tartalom publikálása

8.1.3.3 Email monitorozás

8.1.3.4 Kapcsolattartás az ügyfelekkel

8.1.3.5 Tudáskinyerés a szövegekből

8.1.3.6 Legális hírszerzés

8.1.4 Olajkutatás

Újabb olajmezők feltárása a régebbi, pl mágnesszalagokon tárolt adathalmazok elemzésével

8.1.5 Kereskedelmi és kiskereskedelmi rendszerek

Vásárlói csoportok létrehozása klaszterezéssel

Hatékonyabb marketingstratégia
Célzottabb, személyre szabottabb marketingkampányok

8.1.5.1 Keresztértékesítés

8.1.5.2 Asszociációs elemzések

Vásárlási adatok alapján következtetések termékhasználati szokásokra, együttvásárlásokra
Fontos a megfelelő termékhierarchia definiálása

8.1.5.3 Szekvenciaelemzések

Nem időben egyszerre vásárolt tételeket vizsgálnak
Jellegzetes, időben egymást követő, szekvenciális előfordulásokat keresnek

8.1.5.4 Vásárlói kosár elemzés

MBA - Market Basket Analysis
Konfidencia
Támogatottság
Lift

Megmutatja, hogy mennyiben térünk el a véletlentől
Csak jelentős számú tranzakció esetén lehet figyelembe venni

8.1.5.5 Új üzletek elhelyezéseinek elemzése

8.1.5.6 Ügyfelek elégedettségének vizsgálata, eladások növelése

8.1.6 Televíziós nézettségi adatok elemzése és előrejelzése

8.1.7 Árrugalmasság-elemzések

Maximális össznyereséget biztosító ár-volumen összhang
Megfelelő árrugalmasság függvény

Maximális nyereség
Tervezhetőbb értékesítési tevékenység

Bizonyos termékek jobban modellezhetők

Újonnan bevezetett piacvezető termékek (informatívabb árhatásgörbe)

Töréspontok az árrugalmassági függvényen belül

Olyan tipikus határértékek, amelyek mentén a fogyasztás radikálisan változhat

8.1.8 Egészségügy

Betegutak elemzése
Kezelési költség előrejelzés
Veszélyességi faktorok
Gyógyulás sikerességének előrejelzése
Beavatkozási kockázat meghatározása

8.1.8.1 Betegutak elemzése (sick-stream)

A betegeket a lehető legrövidebb úton a megfelelő szakterület felé irányítsák

8.1.8.2 DNS-láncok elemzése

Az egészséges szövetben gyakran előforduló mintázatok alapot adhatnak a megfelelő gyógyszerek kifejlesztéséhez

8.1.8.3 Személyzeti igények elemzése

8.1.8.4 Betegségek és kockázatok felismerése

8.1.9 Közgazdaság

8.2 Neuronhálók matematikai alapjai

MI (Mesterséges Intelligencia) kutatásának célja

Az emberi agy képességeinek modellezése numerikus megközelítésben

Az agy működése teljesen párhuzamos
Az agyi folyamatokat modellező gépek viszont soros feldolgozásra képesek

Működés mechanizmusának részleges modellezése

Előrecsatolt (feedforward) neuronhálók modellje

Atomi átviteli függvények olyan rekurzívan beágyazott függvénye, mely képes összetartozó diszkrét bemenő és kimenő vektorpárok esetén megtanulni azok összefüggéseit
Olyan regressziós függvénymodell, melynek előállításához nincs szükség az eredeti függvény típusának ismeretére
- Csak a függvény néhány pontjának helyvektorára

8.2.1 Mesterséges neuronmodellek

8.2.1.1 A mesterséges neuron

Az informatikai megközelítés az általános tulajdonságokra helyezi a hangsúlyt

Absztraktabb és egyszerűbb modellek építhetők

Mai számítógépek sebessége messze meghaladja az agyét
Szimulációk egyszerű, időben soros feldolgozást adnak
Számítási egység: neuron (csomópont)
Szinaptikus kapcsolat - kapcsolatok súlya
Szinaptikus tanulás - a súly változása
A mesterséges neuron a bemenetek súlyozott összegének egy f függvényét számítja ki
yi = f(neti)
neti: a neuron összesített bemenete

Legegyszerűbb eset: azonosság fv

Lineáris neuron

8.2.2 Differenciálható aktiváló függvények

A tanításhoz meg kell tudni vizsgálni, hogy a kimeneti értékek mennyire térnek el a tanítandó függvénytől
Hibafüggvény

A hálózat kimenete és a tapasztalati függvény közötti eltérés
N-dimenziós felület, létezik minimuma
Ezt a minimumot kell meghatározni
- Ehhez szükség van a felület meredekségére
Követelmény: Az aktiváló függvény folytonos és differenciálható legyen

Csak akkor van kimenet, ha a bemenetek összege elér egy kritikus értéket

Egységugrás
- A lineáris kombinációja nem folytonos, ezért NEM JÓ
Előjel aktiváló függvény
- Leggyakrabban: szigmoid (logisztikus eloszlásfüggvény)
  - Valós fv, ÉT: R, ÉK: (0,1)
  - sc(x)= 1 / (1 + e^(-cx))
  - 1/c: hőfok tényező
  - A szigmoid alakja megváltozik a c paraméter függvényében
  - c -> végtelen: egységugrásfüggvényhez konvergál
  - ÁBRA: 201. oldal
- Alternatíva: szimmetrikus szigmoid
  - S(x) = tanh (x/2)
  - ÁBRA: 202. oldal

-- LatoBalazs - 2007.06.13.