„‘Big Data’ elemzési eszközök nyílt forráskódú platformokon” változatai közötti eltérés

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez
a (Hibás adatlap javítása (a tárgykódba nem lehet BME))
 
(20 közbenső módosítás, amit 5 másik szerkesztő végzett, nincs mutatva)
1. sor: 1. sor:
{{Szabvál
+
{{Tantárgy
|nev=‘Big Data’ elemzési eszközök<br>nyílt forráskódú platformokon
+
| név = ‘Big Data’ elemzési eszközök<br>nyílt forráskódú platformokon
|kredit=2
+
| tárgykód = VITMAV15
|tárgykód=BMEVITMAV15
+
| szak =
|tanszék=TMIT
+
| kredit = 2
|kiszh=nincs
+
| félév =
|nagyzh=1 db
+
| kereszt =  
|vizsga=nincs
+
| tanszék = TMIT
|hf=van
+
| jelenlét = ajánlott (nincs jegyzet)
|jelenlét=ajánlott (nincs jegyzet)
+
| minmunka = kis utánaolvasás
|minmunka=kis utánaolvasás
+
| labor =
|tad=https://www.vik.bme.hu/kepzes/targyak/VITMAV15/
+
| kiszh = nincs
|targyhonlap=http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013
+
| nagyzh = 1 db
 +
| hf = van
 +
| vizsga = nincs
 +
| levlista =  
 +
| tad = https://www.vik.bme.hu/kepzes/targyak/VITMAV15/
 +
| tárgyhonlap = http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013
 
}}
 
}}
  
20. sor: 25. sor:
 
== Követelmények ==
 
== Követelmények ==
  
*'''Jelenlét:''' Ajánlott mert nincs jegyzet
+
*'''Jelenlét:''' Ajánlott mert nincs mindenről jegyzet
 
*'''NagyZH:''' TODO
 
*'''NagyZH:''' TODO
 
*'''Házi:''' TODO
 
*'''Házi:''' TODO
  
"A tárgy jegyének megszerzéséhez a ZH legalább elégséges teljesítése szükséges, valamint egy házi feladat elkészítése és megvédése. Az érdemjegyet a ZH illetve a házifeladat érdemjegyének átlagával számítjuk ki, a 0.5-re végződő eredményeket felfele kerekítjük. ZH a 8. vagy a 9. héten, pótZH és házifeladat bemutatása a 14. héten lesz."
+
"A tárgy jegyének megszerzéséhez a ZH legalább elégséges teljesítése szükséges, valamint a házi feladat elkészítése és megvédése. Az érdemjegyet a ZH illetve a házifeladat érdemjegyének átlagával számítjuk ki, a 0.5-re végződő eredményeket felfele kerekítjük. A ZH várhatóan a 10. héten, pótZH és házifeladat bemutatása a 14. héten lesz."
  
 
==Számonkérések==
 
==Számonkérések==
  
 
===Házifeladat===
 
===Házifeladat===
TODO
+
Részletesen: http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2014Hazi
 +
 
 +
====2013-as információk====
 +
 
 +
=====Feladatok és eszközök kiválasztása=====
 +
Az alábbi feladatok közül a használt eszközök fényében kell néhány darabot kiválasztani. A használható eszközök és a megoldandó feladatok száma:
 +
* Java MapReduce programozás: 1 feladat
 +
* Hadoop Streaming programozás más programnyelven (Python, R, stb.): 2 feladat
 +
* Hive és Pig: 3 feladat
 +
Ha tehát valaki Hive-ban és Pig-ben akar dolgozni, akkor az alábbi feladatok közül 3-at is meg kell oldania és mindkét eszközt használnia kell, tehát mondjuk 2 feladat Hive-ban, 1 feladat Pig-ben. Ezzel szemben ha valaki Java programozással akar MapReduce elemzést csinálni, akkor az alábbiak közül elegendő egyetlen szabadon választott feladat megoldása. Hadoop Streaming esetén 2 feladat megoldása szükséges.
 +
 
 +
=====Választható feladatok=====
 +
* '''HTML lapletöltések hisztogramja''': az adatokból egy olyan grafikont kell kirajzolni, mely bemutatja, hogy hány olyan kliens (host) volt, aki 0 darab html oldalt töltött le, hány olyan aki 1-et, 2-t, stb. Az elemzés kimenete tehát egy két oszlopot tartalmazó tábla (html letöltésszám, hostok száma), illetve egy grafikon, amely bármely megjelenítő programmal (pl. Excel) előállítható.
 +
* '''Utolsó 2 letöltött HTML oldal''': minden egyes kliens (host) esetén ki kell gyűjteni az (időben) utolsó 2 letöltött HTML oldalt. Az eredmény tehát egy három oszlopot tartalmazó tábla (host, utolsó html oldal, utolsó előtti html oldal). Ha egy kliens (host) nem töltött le két html oldalt, akkor a megfelelő mezők üresen maradjanak.
 +
* '''Napi egyedi látogatók (hosztok) száma''': számítsuk ki minden napra, hogy hány egyedi látogató (host) volt aznap az oldalon, majd ezt ábrázoljuk grafikonon.
 +
* '''Visszatérő látogatók (hosztok) listája''': Visszatérő látogatónak tekintjük azt a hostot, ami két (vagy több) különböző napon is meglátogatta az oldalt és a legkorábbi és legkésőbbi lapletöltése között legalább 6 óra telt el. Ezzel kiszűrjük azokat a látogatókat, akik éjfél előtt és éjfél után közvetlenül látogatják meg az oldalt. A megoldás ezen látogatók listája és darabszáma.
  
 
===Zárthelyi===
 
===Zárthelyi===
TODO
+
* Nem elvárás a papíron programozás, de pszeudokódot (tipikusan MapReduce) kérhetnek. Pl:
 +
 
 +
Kell: minden nap hány külöböző sessionid volt egy nap?
 +
    SELECT date, COUNT(DISTINCT sessionid) FROM table GROUP BY date
 +
M:(sorid,sor)->(date+session, 1)
 +
R:(date+session,list(1))->(date+sessionid,1)
 +
M:(date+sessionid,1)->(date,1)
 +
R:(date, list(1))->(date,sum)
  
 
== Segédanyagok ==
 
== Segédanyagok ==
42. sor: 69. sor:
  
 
=== 2013/2014 ===
 
=== 2013/2014 ===
TODO
+
A tárgy először 2013/2014 őszén került meghirdetésre.
 +
 
 +
Én MapReduce-os házit csináltam, az egyáltalán nem volt gáz. A kiadott VM-en minden megvan ami kell, csak legyen min futtatni magát a VM-et. Ha elég jól megy a Java és megvan, hogy elvben mit csinál a Map és mit a Reduce, akkor hamar meg lehet csinálni.
 +
 
 +
=== 2013/2014 ===
 +
Pontositas: Kiadott VM = Hortonworks hivatalos Sandbox. Nekem volt azert szivas vele, de a 2.X versio mar ment jol. Egy i5 os laptopot 4 GB rammal azert elegge leterhel, de meg kezelheto.
 +
En a Pig/Hive hazit csinaltam, ahhoz nagy segitseg volt a webes UI. Viszont minnel tobb eszkozt hasznalsz, annal nehezebb a hibauzeneteket ertelmezni. Sokszor belefutottam semmit mondo exceptionbe.
 +
 
 +
[ocsi]
  
[[Category:Gazdhuman]]
+
[[Category:Valaszthato]]

A lap jelenlegi, 2018. január 28., 17:53-kori változata

‘Big Data’ elemzési eszközök
nyílt forráskódú platformokon
Tárgykód
VITMAV15
Általános infók
Kredit
2
Tanszék
TMIT
Követelmények
Jelenlét
ajánlott (nincs jegyzet)
Minimális munka
kis utánaolvasás
KisZH
nincs
NagyZH
1 db
Házi feladat
van
Vizsga
nincs
Elérhetőségek


A tárgy célja, hogy megismertesse a hallgatókkal a big data elemzésére alkalmas módszereket és algoritmusokat, különös tekintettel a széles körben elterjedt nyílt forráskódú technológiákra. A példák és a házi feladatok a Hadoop keretrendszerhez és más hozzá kapcsolódó technológiákhoz nyújtanak gyakorlati ismereteket. A hallgatók képesek lesznek nagy adatok elemzésére alkalmas rendszerek megtervezésére, létrehozására és elemzési feladatok megvalósítására.

Követelmények

  • Jelenlét: Ajánlott mert nincs mindenről jegyzet
  • NagyZH: TODO
  • Házi: TODO

"A tárgy jegyének megszerzéséhez a ZH legalább elégséges teljesítése szükséges, valamint a házi feladat elkészítése és megvédése. Az érdemjegyet a ZH illetve a házifeladat érdemjegyének átlagával számítjuk ki, a 0.5-re végződő eredményeket felfele kerekítjük. A ZH várhatóan a 10. héten, pótZH és házifeladat bemutatása a 14. héten lesz."

Számonkérések

Házifeladat

Részletesen: http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2014Hazi

2013-as információk

Feladatok és eszközök kiválasztása

Az alábbi feladatok közül a használt eszközök fényében kell néhány darabot kiválasztani. A használható eszközök és a megoldandó feladatok száma:

  • Java MapReduce programozás: 1 feladat
  • Hadoop Streaming programozás más programnyelven (Python, R, stb.): 2 feladat
  • Hive és Pig: 3 feladat

Ha tehát valaki Hive-ban és Pig-ben akar dolgozni, akkor az alábbi feladatok közül 3-at is meg kell oldania és mindkét eszközt használnia kell, tehát mondjuk 2 feladat Hive-ban, 1 feladat Pig-ben. Ezzel szemben ha valaki Java programozással akar MapReduce elemzést csinálni, akkor az alábbiak közül elegendő egyetlen szabadon választott feladat megoldása. Hadoop Streaming esetén 2 feladat megoldása szükséges.

Választható feladatok
  • HTML lapletöltések hisztogramja: az adatokból egy olyan grafikont kell kirajzolni, mely bemutatja, hogy hány olyan kliens (host) volt, aki 0 darab html oldalt töltött le, hány olyan aki 1-et, 2-t, stb. Az elemzés kimenete tehát egy két oszlopot tartalmazó tábla (html letöltésszám, hostok száma), illetve egy grafikon, amely bármely megjelenítő programmal (pl. Excel) előállítható.
  • Utolsó 2 letöltött HTML oldal: minden egyes kliens (host) esetén ki kell gyűjteni az (időben) utolsó 2 letöltött HTML oldalt. Az eredmény tehát egy három oszlopot tartalmazó tábla (host, utolsó html oldal, utolsó előtti html oldal). Ha egy kliens (host) nem töltött le két html oldalt, akkor a megfelelő mezők üresen maradjanak.
  • Napi egyedi látogatók (hosztok) száma: számítsuk ki minden napra, hogy hány egyedi látogató (host) volt aznap az oldalon, majd ezt ábrázoljuk grafikonon.
  • Visszatérő látogatók (hosztok) listája: Visszatérő látogatónak tekintjük azt a hostot, ami két (vagy több) különböző napon is meglátogatta az oldalt és a legkorábbi és legkésőbbi lapletöltése között legalább 6 óra telt el. Ezzel kiszűrjük azokat a látogatókat, akik éjfél előtt és éjfél után közvetlenül látogatják meg az oldalt. A megoldás ezen látogatók listája és darabszáma.

Zárthelyi

  • Nem elvárás a papíron programozás, de pszeudokódot (tipikusan MapReduce) kérhetnek. Pl:
Kell: minden nap hány külöböző sessionid volt egy nap?
   SELECT date, COUNT(DISTINCT sessionid) FROM table GROUP BY date
M:(sorid,sor)->(date+session, 1)
R:(date+session,list(1))->(date+sessionid,1)
M:(date+sessionid,1)->(date,1)
R:(date, list(1))->(date,sum)

Segédanyagok

A kurzusok anyagai a TMIT honlapján:

Tapasztalatok

2013/2014

A tárgy először 2013/2014 őszén került meghirdetésre.

Én MapReduce-os házit csináltam, az egyáltalán nem volt gáz. A kiadott VM-en minden megvan ami kell, csak legyen min futtatni magát a VM-et. Ha elég jól megy a Java és megvan, hogy elvben mit csinál a Map és mit a Reduce, akkor hamar meg lehet csinálni.

2013/2014

Pontositas: Kiadott VM = Hortonworks hivatalos Sandbox. Nekem volt azert szivas vele, de a 2.X versio mar ment jol. Egy i5 os laptopot 4 GB rammal azert elegge leterhel, de meg kezelheto. En a Pig/Hive hazit csinaltam, ahhoz nagy segitseg volt a webes UI. Viszont minnel tobb eszkozt hasznalsz, annal nehezebb a hibauzeneteket ertelmezni. Sokszor belefutottam semmit mondo exceptionbe.

[ocsi]