Média

Az vagy, amire klikkelsz: az internet azt is tudja rólunk, amiről nekünk sejtelmünk sincs

Seth Stephens-Davidowitz szerint az internetes adatok sokasága lesz a közgazdaság, a pszichológia, a szociológia és a politológia jövője. Segítségével megmagyarázza a politika kiszámíthatatlanságát, az amerikai rasszizmust és freudi kérdésekre keres választ Mindenki hazudik című könyvében. 

A világ összes internethasználója napi 2,5 millió trillió bájt adatot termel – ezek az adatok mind a virtuális lábnyom részét képezik. A Big Data, ami napjainkra már nem csak big, azaz nagy, hanem gigantikus, az egész emberiség, egy ország, megye, város vagy egy társadalmi csoport viselkedési mintáit tudja megmutatni, ha a megfelelő elemzési módszereknek vetik alá. A Big Data része minden Google- vagy Bing-keresés, Facebook- vagy Twitter-poszt és -kedvelés, hirdetéskattintás vagy weblaplátogatás.

Seth Stephens-Davidowitz: Mindenki hazudik – Az vagy, amire klikkelsz
2019, Athenaeum Kiadó Kft.
358 oldal, 3799 Ft

Többmillió ember adataiból kifejezetten változatos társadalmi jelenségekre világíthatunk rá, felvetésekre kaphatunk választ, mint például:

Hány meleg férfi van valójában az USA-ban? Vajon a freudi elméletek mennyire alkalmazhatóak azokra az álmokra, amiket a felhasználók az internetre töltenek fel? A gazdagság és a várható életkor hogyan függnek össze, ha a lakhelyet, mint változót is bevonjuk az egyenletbe? Vajon melyik városban van a legnagyobb esélye az embernek arra, hogy a Wikipedián saját szócikke legyen? A terhes nők keresései elárulják, hogy mennyiben más tapasztalat Amerikában vagy Mexikóban várandósnak lenni? Megemelkedik a gyilkosságok száma az erőszakos filmek bemutatását követő órákban?

Ilyen, és hasonló kérdéseket tesz fel és válaszol meg Stephens-Davidowitz, hogy szemléltesse a Big Data működését, hatásosságát, és hibáit. Továbbá elmagyarázza, hogy miért nem számítottak a kutatók Trump nyereségére, és bemutatja, hogy mi alapján számíthattak volna rá, leírja a legfurcsább Google-kereséseket és a legnépszerűbb témákat.

Mindezt azon az elven, hogy az is adat, amire az ember rákeres.

Hiszen feltehető, hogy a terhességmegszakítás kifejezésre keresők nagy része abortuszt szeretne; hogy a muszlimok megölése szókapcsolattal iszlamofób internethasználók próbálkoznak; hogy azok a gyerekek, akik beírják a keresőben, hogy apa megütött, családon belüli erőszak áldozatai; és azok, akik Trump nevét Clintoné előtt írták be, az előbbire fognak szavazni.

A Big Data megmutatja azt is, hogy az utóbbi 5 év alatt Orbán Viktor nevére messze a legtöbben 2018 április 8. és 14. között kerestek rá. Hogy a nemi erőszak kifejezést 2016. április 3. és 9. között kiugróan sokan írták be a keresőbe a Kiss László botrány kirobbanása miatt. Vagy hogy az egész országban Pest megyében keresnek rá a legkevesebben a pornó címszóra, és hogy Tolna, Somogy és Nógrád megyében az utóbbi öt évben nem kerestek rá annyiszor az ellenzék keresőszóra, hogy azt a Google keresőmotorja értékelni tudja. Ezek az információk azonban nem a könyvből származnak, hiszen az csak és kizárólag amerikai adatokkal dolgozik, de a keresési módszerek a könyv olvasása közben könnyen elsajátíthatóak.

Bár az adatok, amiket a Big Data tartalmaz, anonimak, tehát nem köthetőek konkrét emberekhez, kimutatható például az a terület, város, megye, állam vagy ország, ahol többen kerestek rá valamire. Például rasszizmusra, Trumpra, gyilkosságokra vagy a magyar ellenzékre.

A Big Data legnagyobb előnyei közé tartozik az, hogy hatalmas mennyiségű adat alapján akár a legkisebb csoportok szokásait is tanulmányozni lehet. Vegyük például a Nem York állambeli általános iskolai tanárokat vagy a mexikói férfiakat, akiknek a felesége gyereket vár – korábban csak nagyon körülményesen, drágán és hosszú idő alatt lehetett eljutni hozzájuk, az adattudósoknak most viszont csak pár kattintásba kerül.

A Big Data választ adhat olyan kérdésekre, amik kisebb, kevésbé részletes mintával megválaszolatlanok maradnának.

Visszatérve egy korábbi példára: az USA-ban az erőszakos filmek bemutatása utáni órákban a gyilkosságok száma csökkent, de ezt csak az órára, sőt, percre pontos adatok segítségével lehetett igazolni, a napi bontással aligha. Ugyanis csak a film bemutatása utáni órákban csökkent valóban, hiszen addig a potenciális elkövetők moziban voltak, és nem fogyasztottak alkoholt.

Emellett a legnagyobb előnye a gigantikus adatfelhőnek az, hogy a valóságot mutatja. Ahogy a könyv címe is írja, mindenki hazudik, legalábbis amikor egy kutatás kedvéért a kérdezőbiztos arról érdeklődik, hogy mennyi pornót néz, vagy mennyi óvszert használ, biztosan. Ezzel ellentétben a PornHub adatai vagy az óvszergyárak eredményei csalhatatlan és valódi statisztikákat közölnek. Így megtudhatjuk például, hogy sokkal több amerikai férfi kattint melegpornóra, mint amennyien felvállalják, hogy homoszexuálisok lennének. A bevallott és a mért adatok különbsége egy városban pedig például a pszichológiai szolgálatok fejlesztését segítheti.

Az internet segíteségével meg lehet mérni, hogy melyik színű reklámokra kattintanak a legtöbben, hogy milyen betűtípust a legkönnyebb memorizálni, vagy hogy mikor a leghatékonyabb egy telefonos jelzés.

Az adatok felhasználásával így lehet például javítani az oktatási rendszer hatékonyságát, vagy rá lehet venni a felhasználókat, hogy többet aludjanak.

A szerző ugyanakkor felhívja a figyelmet a Big Data veszélyeire is: a nagy cégek ennek segítségével monitorozni tudják, hogy mennyit tud egy vásárló a termékért fizetni. Vagy a kaszinók meg tudják határozni, hogy mennyi ideig hagyhatják a törzsvendéget veszíteni, mielőtt kiábrándul.

Leírja azt is, hogy a Big Data véletlen összefüggéseket is mutathat, ha túl sok változót figyel az ember: nem biztos, hogy az amerikai kosárlabdázók szüleinek a házassága befolyásolja a sikerességet, ha pár száz esetben volt összefüggés, hiszen az anyagi helyzet, az iskolai nevelés, a táplálkozás és ezer másik dolog is közrejátszhat. Így ez a kutatási módszer sem használható önmagában, szüksége van kisebb, de részletesebb adatokkal dolgozó kutatási eredményekre is ahhoz, hogy pontos eredményeket tudjon prezentálni.

Stephens-Davidowitz könyve nem csak szociológusoknak élvezhető, kifejezetten olvasmányos, színes, humoros és érdekes mű. Nagy előnye, hogy nem használja a kelletnél többször a regressziós modell, a korreláció vagy a randomizált kísérlet kifejezéseket, és nem próbálja megtanítani a Kolmogorov-Szmirnov próbát sem.

Viszont megmagyarázza az amerikai elnökválasztás sokak számára meglepő eredményét, bevezet a Google Trends rejtelmeibe és az online adatok legizgalmasabb és legolvasmányosabb részét mutatja be.

Rutai Lili

Adj 1 százalékot az Átlátszónak! Adószám: 18516641-1-42 Az Átlátszó nonprofit szervezet: cikkeink ingyen is olvashatóak, nincsenek állami hirdetések, és nem politikusok fizetik a számláinkat. Ez teszi lehetővé, hogy szabadon írhassunk a valóságról. Ha fontosnak tartod a független, tényfeltáró újságírás fennmaradását, támogasd a szerkesztőség munkáját egyszeri vagy rendszeres adománnyal, vagy az szja 1 százalékod felajánlásával!

Megosztás