Tamás Ferenc: Big Data –

 

avagy az irdatlan adatmennyiség és annak feldolgozása

 

A „Big Data” fogalma egy komplex technológiai környezetet jelent, amely egyaránt tartalmazza az adatokat, a tároláshoz szükséges szoftvereket, hardvereket, valamint a hálózati eszközöket is, amelyek az óriási adatmennyiség feldolgozását teszi lehetővé. Ezek az adatállományok már olyan komplexek, hogy közelítő viszonyban sincsenek sem a hagyományos Excel-táblázatokkal, sem a kisebb adatmennyiséget feldolgozni képes Access-állományokkal. Leegyszerűsítve a „Big Data” fogalom a nagyon nagy mennyiségű és igen gyorsan változó adatmennyiség kielemzését és feldolgozását jelenti. A 2010-es évek egyik legizgalmasabb témája a „Big Data”.

 

Maga a „Big Data” nem egy konkrét technológia, hanem régi bevált és új technológiák összessége. Ezek a technológiák képesek biztosítani a különféle rendszerek által a hálózatokra, illetve az internetre öntött irdatlan mennyiségű adat feldolgozását, illetve a létezett információkból való adatnyerést. A „Big Data” legfontosabb jellemzői angolul a 3 V:

 

- Volume: nagyon nagy adatmennyiség,

 

- Velocity: nagyon gyors adatfeldolgozás,

 

- Variety: nagyon változatos adatok.

 

 

 

 

 

Az internetes adatfeldolgozás múltja és jelene

 

Több korszakra oszthatjuk fel a számítógépes adatfeldolgozást. A számítástechnika megjelenésekor (1950-es és ’60-as években) az adatok leginkább szekvenciálisan, azaz sorban egymás után voltak csak elérhetők. Az akkori jellegzetes tárolási technika a mágnesszalag volt.

 

A következő korszakban elterjedtek a relációs adatbázisok, illetve az ezeket feldolgozó SQL-nyelvek. Ám ezen adatbázisok létrehozása és fenntartása meglehetősen költséges, időigényes és lassú volt (’70-es és ’80-as évek). Ekkor kezdtek megjelenni az adattárházak és a bennük feldolgozásra kerülő Entity-Relationship modell. A relációs adatbázisok használata a ’90-es évektől teljes körűen elfogadottá vált.

 

Nagyjából ilyenkor, 1998-ban alkotta meg maga a „Big Data” fogalmát John Mashey.

 

Utána következtek a skálázható hardvereken elterjedt virtualizációs technikát használó relációs adatbázisokon alapuló óriási adatfarmok, illetve adattárházak. A tárolókapacitások radikális növekedésével megjelentek a BLOB-ok (binary large objects), illetve az objektum orientált adatbázis-kezelő rendszerek. Gazdaságossá vált az adatmennyiség valós idejű feldolgozása, amely az egyre jobban elterjedő optikai hálózatoknak köszönhetően radikálisan felgyorsult. Jó hasznot termelő üzletté viszont leginkább a felhő-alapú számítási rendszerek elterjedésével vált nagyjából a századvég idején. A nagy teljesítményű hardverek szolgáltatta irdatlan adatmennyiség feldolgozására új technológiákra volt szükség a már meglévő adatbányászat és tartalom-menedzsment eljárások mellett. Ilyen például a párhuzamos adatfeldolgozás is, illetve a szerverfürtökön lévő párhuzamos, kötegelt futtatás.

 

 

 

A szükséges hardver

 

Az óriási adatmennyiségek feldolgozásához elengedhetetlenül fontos a felhő-alapú tároló rendszerek megléte. Ezek a helytől függetlenül képesek a felmerült adatokat feldolgozni, illetve megfelelő kezelő rendszer esetén szolgáltatásokat/applikációkat is futtatni. Maguk a felhő-szolgáltatásokat nyújtó szerverek amúgy egyszerű, de nagy teljesítményű PC-kompatibilis gépek.

 

A felhő-szolgáltatások jellegzetessége, hogy helytől és platformtól függetlenek, de ez sok vállalatnak nem tetszett, így létrejöttek az úgynevezett „Fog-” (köd-) farmok, amelyek logikailag a helyi szerverek felett, de a felhő-farmok alatt helyezkednek el; míg fizikailag a helyi szerverek közelében, pl. városon belül. Szolgáltatásaik megegyeznek a felhőkével, tehát lehet sima tárhelyként is használni, de elképzelhető applikációk/programok futtatása is.

 

 

 

Példák a „Big Data” alkalmazására

 

- BKK Futár: A budapesti tömegközlekedés minden résztvevője rendelkezik GPS-jeladóval, amely folyamatosan önti az adatokat a központba. Ez alapján a központ kielemzi a pillanatnyi forgalmat, a várható menetidőt, illetve a köztéri kamerák adatainak bekapcsolásával reagál az esetleges vészhelyzetekre eldöntve, hogy mikor és hol szükséges emberi beavatkozás.

 

- Google App Engine: A Google túllépve a hagyományos keresőszolgáltatásokon nem csupán tárhelyet kínál, hanem ennek segítségével programok/alkalmazások futtatását is lehetővé teszi, valamint képes webes alkalmazások futtatására is – segítve ezzel a tárhelyen tárolt adatok, illetve dokumentumok korrekt feldolgozását.

 

- Amazon EC2: ez röviden egy virtuális számítógép-kölcsönző. A felhasználónak lehetősége van a felhőben meglévő adatok alapján összeállítani a saját tárhely és CPU-konfigurációját, amin aztán futtathatja a saját szoftvereit, illetve tesztelheti az alkalmazásait. Így a viszonylag kicsi saját gépparkkal rendelkező cégek számára is elérhetővé válnak – virtuálisan – az óriási teljesítményű gépek. Maguk a virtuális gépek fizikailag az Amazon adatközpontjának gépein futnak.

 

- Heroku: egy klasszikus felhőplatform, amely több különböző webes applikáció összeállítására is alkalmas programnyelvet támogat. A platform kezdetben csak a Ruby nyelvet támogatta, de később ezt kiterjesztették egyéb nyelvekre is (Node.js, Java, PHP, Python, …)

 

- Talend: egy olyan felhő-platform, ami az összegyűjtött adatokat érthető grafikonokká, illetve kimutatásokká alakítja át megfelelő programozással.

 

- Tableau: az előzőhöz hasonló szolgáltatásokat nyújtó felhő-platform, amely adatfeldolgozási és analizáló eszközei segítségével segít az üzleti modellek megoldásában, illetve a helyes üzleti döntések meghozatalában.

 

- Hadoop: egy nyílt forráskódú rendszer, ami elosztott alkalmazásokat támogat. Hatékonyan alkalmazható nagy mennyiségű, alacsony költségű, általánosan elérhető hardverből épített szerverfürtök építésére.

 

 

 

Magyar cég a Big Datában

 

Az egyik legsikeresebb és leggyorsabban növekvő „Big Data”-feldolgozó cég a magyar Starschema, amely bekerült a Fortune magazin leggyorsabban növekvő cégeket felsoroló TOP500-as listájába. A budapesti székhelyű cég ügyfelei többek között az Audi, az Avon, a Bosch, az Erste Bank, a Facebook, a Shell, a NetFlix, a Raiffeisen Bank, a Vodafone, a Walt Disney,… Ráadásul jó hír, hogy elég gyakran keres (angolul jól beszélő) ifjú programozókat.

 

 

 

 

 

Felhasznált irodalom:

 

 

 

http://www.origo.hu/tudomany/20131014-big-data-adatelemzes-tudomany-adatbanyaszat-informatika.html

 

http://hvg.hu/cimke/Big_Data

 

https://www.it-services.hu/hirek/mi-az-a-big-data/

 

https://hu.wikipedia.org/wiki/Big_data

 

http://piackutatas.blog.hu/2012/10/03/mit_jelent_es_mire_jo_a_big_data

 

https://www.bme.hu/hirek/20150202/Big_data_adatvezerelt_kulturank_uj_mozgatorugoja

 

http://hvg.hu/kkv/20170223_Starschema_sikersztori

 

http://hvg.hu/vallalat_vezeto/20170105_big_data_starschema

 

http://hvg.hu/vallalat_vezeto/20150812_Akik_sikerrel_lovagoljak_meg_a_big_datah

 

http://www.uti.bme.hu/

 

http://www.starschema.hu/