Tamás Ferenc: Big Data –

avagy az irdatlan adatmennyiség és annak feldolgozása

A „Big Data” fogalma egy komplex technológiai környezetet jelent, amely egyaránt tartalmazza az adatokat, a tároláshoz szükséges szoftvereket, hardvereket, valamint a hálózati eszközöket is, amelyek az óriási adatmennyiség feldolgozását teszi lehetővé. Ezek az adatállományok már olyan komplexek, hogy közelítő viszonyban sincsenek sem a hagyományos Excel-táblázatokkal, sem a kisebb adatmennyiséget feldolgozni képes Access-állományokkal. Leegyszerűsítve a „Big Data” fogalom a nagyon nagy mennyiségű és igen gyorsan változó adatmennyiség kielemzését és feldolgozását jelenti. A 2010-es évek egyik legizgalmasabb témája a „Big Data”.

Maga a „Big Data” nem egy konkrét technológia, hanem régi bevált és új technológiák összessége. Ezek a technológiák képesek biztosítani a különféle rendszerek által a hálózatokra, illetve az internetre öntött irdatlan mennyiségű adat feldolgozását, illetve a létezett információkból való adatnyerést. A „Big Data” legfontosabb jellemzői angolul a 3 V:

- Volume: nagyon nagy adatmennyiség,

- Velocity: nagyon gyors adatfeldolgozás,

- Variety: nagyon változatos adatok.

Az internetes adatfeldolgozás múltja és jelene

Több korszakra oszthatjuk fel a számítógépes adatfeldolgozást. A számítástechnika megjelenésekor (1950-es és ’60-as években) az adatok leginkább szekvenciálisan, azaz sorban egymás után voltak csak elérhetők. Az akkori jellegzetes tárolási technika a mágnesszalag volt.

A következő korszakban elterjedtek a relációs adatbázisok, illetve az ezeket feldolgozó SQL-nyelvek. Ám ezen adatbázisok létrehozása és fenntartása meglehetősen költséges, időigényes és lassú volt (’70-es és ’80-as évek). Ekkor kezdtek megjelenni az adattárházak és a bennük feldolgozásra kerülő Entity-Relationship modell. A relációs adatbázisok használata a ’90-es évektől teljes körűen elfogadottá vált.

Nagyjából ilyenkor, 1998-ban alkotta meg maga a „Big Data” fogalmát John Mashey.

Utána következtek a skálázható hardvereken elterjedt virtualizációs technikát használó relációs adatbázisokon alapuló óriási adatfarmok, illetve adattárházak. A tárolókapacitások radikális növekedésével megjelentek a BLOB-ok (binary large objects), illetve az objektum orientált adatbázis-kezelő rendszerek. Gazdaságossá vált az adatmennyiség valós idejű feldolgozása, amely az egyre jobban elterjedő optikai hálózatoknak köszönhetően radikálisan felgyorsult. Jó hasznot termelő üzletté viszont leginkább a felhő-alapú számítási rendszerek elterjedésével vált nagyjából a századvég idején. A nagy teljesítményű hardverek szolgáltatta irdatlan adatmennyiség feldolgozására új technológiákra volt szükség a már meglévő adatbányászat és tartalom-menedzsment eljárások mellett. Ilyen például a párhuzamos adatfeldolgozás is, illetve a szerverfürtökön lévő párhuzamos, kötegelt futtatás.

A szükséges hardver

Az óriási adatmennyiségek feldolgozásához elengedhetetlenül fontos a felhő-alapú tároló rendszerek megléte. Ezek a helytől függetlenül képesek a felmerült adatokat feldolgozni, illetve megfelelő kezelő rendszer esetén szolgáltatásokat/applikációkat is futtatni. Maguk a felhő-szolgáltatásokat nyújtó szerverek amúgy egyszerű, de nagy teljesítményű PC-kompatibilis gépek.

A felhő-szolgáltatások jellegzetessége, hogy helytől és platformtól függetlenek, de ez sok vállalatnak nem tetszett, így létrejöttek az úgynevezett „Fog-” (köd-) farmok, amelyek logikailag a helyi szerverek felett, de a felhő-farmok alatt helyezkednek el; míg fizikailag a helyi szerverek közelében, pl. városon belül. Szolgáltatásaik megegyeznek a felhőkével, tehát lehet sima tárhelyként is használni, de elképzelhető applikációk/programok futtatása is.

Példák a „Big Data” alkalmazására

- BKK Futár: A budapesti tömegközlekedés minden résztvevője rendelkezik GPS-jeladóval, amely folyamatosan önti az adatokat a központba. Ez alapján a központ kielemzi a pillanatnyi forgalmat, a várható menetidőt, illetve a köztéri kamerák adatainak bekapcsolásával reagál az esetleges vészhelyzetekre eldöntve, hogy mikor és hol szükséges emberi beavatkozás.
- Google App Engine: A Google túllépve a hagyományos keresőszolgáltatásokon nem csupán tárhelyet kínál, hanem ennek segítségével programok/alkalmazások futtatását is lehetővé teszi, valamint képes webes alkalmazások futtatására is – segítve ezzel a tárhelyen tárolt adatok, illetve dokumentumok korrekt feldolgozását.
- Amazon EC2: ez röviden egy virtuális számítógép-kölcsönző. A felhasználónak lehetősége van a felhőben meglévő adatok alapján összeállítani a saját tárhely és CPU-konfigurációját, amin aztán futtathatja a saját szoftvereit, illetve tesztelheti az alkalmazásait. Így a viszonylag kicsi saját gépparkkal rendelkező cégek számára is elérhetővé válnak – virtuálisan – az óriási teljesítményű gépek. Maguk a virtuális gépek fizikailag az Amazon adatközpontjának gépein futnak.
- Heroku: egy klasszikus felhőplatform, amely több különböző webes applikáció összeállítására is alkalmas programnyelvet támogat. A platform kezdetben csak a Ruby nyelvet támogatta, de később ezt kiterjesztették egyéb nyelvekre is (Node.js, Java, PHP, Python, …)
- Talend: egy olyan felhő-platform, ami az összegyűjtött adatokat érthető grafikonokká, illetve kimutatásokká alakítja át megfelelő programozással.
- Tableau: az előzőhöz hasonló szolgáltatásokat nyújtó felhő-platform, amely adatfeldolgozási és analizáló eszközei segítségével segít az üzleti modellek megoldásában, illetve a helyes üzleti döntések meghozatalában.
- Hadoop: egy nyílt forráskódú rendszer, ami elosztott alkalmazásokat támogat. Hatékonyan alkalmazható nagy mennyiségű, alacsony költségű, általánosan elérhető hardverből épített szerverfürtök építésére.
- Tinder: az egyik legnépszerűbb mobiltelefonos társkereső oldal, ami egy igen könnyű regisztráció után finomított találatok tucatjait vagy éppen százait adja. Ehhez egy igen bonyolult algoritmus kell és a regisztrált felhasználók óriási tömege nemzetközileg.
- US Xpress Inc.: A cég logisztikával, azon belül is főleg szállítással foglalkozik. Nem csupán érzékelőkkel tömte tele a szállítókocsijait, hanem a döntéseket is automatikus mechanizmusokra bízta, így tudta optimalizálni a szükséges útvonalakat, benzin- és emberi munka árait.

Magyar cég a Big Datában

Az egyik legsikeresebb és leggyorsabban növekvő „Big Data”-feldolgozó cég a magyar Starschema, amely bekerült a Fortune magazin leggyorsabban növekvő cégeket felsoroló TOP500-as listájába. A budapesti székhelyű cég ügyfelei többek között az Audi, az Avon, a Bosch, az Erste Bank, a Facebook, a Shell, a NetFlix, a Raiffeisen Bank, a Vodafone, a Walt Disney,… Ráadásul jó hír, hogy elég gyakran keres (angolul jól beszélő) ifjú programozókat.

Újabb példák

- Target áruházlánc – elemzi a gyereket váró női fogyasztók szokásait és rendeléseit. Egyszer például egy minnesotai férfi felháborodva telefonált, hogy középiskolás lánya bébivárós kuponokat kapott. Indok: az áruház előbb tudott a lány terhességéről, mint a lány apja.
- Waze – telefonos alkalmazás, amely navigációs adatokat közöl a telefonba épített GPS segítségével. Ötletük a közösségi megvalósítás, vagyis az úton lévők segítségével közölnek valós forgalmi adatokat – ingyen. Így válik lehetővé pl. a forgalmi dugók elkerülése.
- Twitter.com – ismeretségi hálózat és mikroblog-szolgáltatás. Itt a felhasználók rövid bejegyzéseket és üzeneteket hozhatnak létre, melyek segítségével tarthatják egymással a kapcsolatot vagy (pl. híres emberként) hírt adhatnak magukról.
- Facebook.com – a jelenlegi piacvezető közösségi kapcsolati szolgáltatás. A felhasználók rövid üzenetek mellett szövegeket, videókat, vagy fájlokat is küldhetnek egymásnak, illetve hírt adhatnak magukról. A felhasználási feltételek ingyenesek, de az ott megjelenő hirdetésekért pénzt kell letenni. A bejegyzések mellett megjelentek a játékok, a nyitott és zárt csoportok, illetve egyéb kényelmi szolgáltatások is.
- Linkedin.com – a világ legnagyobb üzleti közösségi hálózata, amely üzleti kapcsolatok létesítésére szolgál. A jó szolgáltatások miatt a cég nagyon erős növekedésnek indult és egyre több taggal rendelkezik. 2016-ban felvásárolta a Microsoft.
- Amazon.com – a vásárlások alapján a cég elemzi a felhasználók szokásait, az eddig látogatott oldalakat és a látogatások hosszát, illetve a pénzköltésük alapján személyre szabott ajánlatokat is ad a felhasználónak.

 

Felhasznált irodalom:

© TFeri.hu, 2017. márc.
Felújítva: 2017.okt.