A világ a Wikipedia szemüvegén keresztül

Németországban, Hamburgban az elmúlt hónapban egy konferenciát rendeztek, ahol többek között az adatbányászatról is szó esett. Lapunk erről kapott beszámolót, amit ugyan mintegy kéthetes késéssel tudunk csak közölni, de szerkesztőségünkben az a vélemény alakult ki, hogy jobb később, mint soha. Szerkesztőségünkben arról is vita folyik, hogy mennyiben fogadható el a Wikipédia, mint hivatkozás.  A magunk részéről nem szeretnénk most abban a vitában állást foglalni, hogy mennyire hitelesek az ott található bejegyzések. Beszámolunk arról, ami a Wikipédiával kapcsolatosan a konferencián elhangzott.

 

A világ a Wikipedia  szemüvegén  keresztül

Mit végezhetünk el egy nap alatt a világ legnagyobb in-memory adatbányászó rendszere, az új SGI® UV™ 2000 segítségével?
/Nemzetközi Supercomputing Konferencia 2012

A műszaki számítástechnikai megoldások terén elismert vezető cég, az SGI (NASDAQ:SGI) összefogott az Illinois Egyetem munkatársával, Kalev H. Leetaruval, hogy a világon elsőként elkészítsék a Wikipédia angol nyelvű változatának történelmi térképét, és feltárják a szövegtartalmakat mind térben, mind időben. Az eredmények közt van a modernkori történelem képi megjelenítése egynapos adatbányászati technikák alkalmazása révén. A Wikipedia teljes angol nyelvű változatának feltöltésével az SGI® UV™ 2000-be, Leetaru úr bemutatta, hogyan látta/láttatta a Wikipedia az elmúlt kétszáz év történelmét. A hivatkozásokhoz hozzákapcsolták a helyszínt, az évet és a pozitív vagy negatív hangulatot.

 

Bár korábban már több projekt keretében is feltérképezték a Wikipédia cikkeit kézileg, egy szerkesztő által hozzárendelt metaadatok segítségével, ezek a korábbi kísérletek a Wikipédia helyszínekre vonatkozó adatainak csak egy töredékét tudták feldolgozni. A jelenlegi projekt keretében azonban  dekódolták  a cikkek tartalmát, azonosítva a négy millió oldalon szereplő összes helyszínt és dátumot, és a köztük fennálló kapcsolatokat, melynek
eredményeként egy masszív adathálót kaptak.

 

A Wikipédia teljesen új szemszögből

Ezzel az elemzéssel lehetővé válik az emberiség számára, hogy hátralépjen egy lépést , azaz elvonatkoztasson az egyes cikkek és szövegek egyedi vonásaitól, és az egyes lapokon szereplő elszigetelt információk, azaz a ‘fa’ helyett az ‘erdőt’ lássa: azt a hatalmas tudásanyagot, amely a Wikipédiában felhalmozódott. Figyelemmel kísérhetjük, hogyan fejlődött az emberi tudás egyik legnagyobb tárháza, és láthatunk olyan dolgokat, amiket még soha ezelőtt: például az általános hangulatot egy adott időben és helyen, vagy hogy hol vannak még tudásunkban  vakfoltok  – magyarázta Franz Aman,
az SGI értékesítési és stratégiai igazgatója.  A Google Earth alkalmazást azért szeretjük, mert kisebbre véve a felbontást nagyobb léptékű képet kaphatunk. Az SGI UV 2 segítségével ugyanezt megtehetjük az  átfogó  adatokkal, hogy azok alapján  átfogó  képet kapjunk.

Az elemzés azt mutatja, hogy a Wikipédia négy fejlődési szakaszon ment keresztül a történelmi események rögzítését illetően: 1001-1500 (Középkor), 1501-1729 (Korai modernkor), 1730-2003 (A Felvilágosodás kora), 2004-2011 (a Wikipédia Éra) és mostani fejlődése a történelmi események alaposabb lefedését célozza ahelyett, hogy a jelen történéseit dokumentálná bővebben. A Wikipédia általános hangvétele, hangulata az egyes évek krónikájának rögzítésében szorosan követi a főbb nemzetközi eseményeket. Az elmúlt 1000 évben a legnegatívabb hangulatú az Amerikai Polgárháború, majd a II. Világháború idején volt. Az elemzés azt is kimutatja, hogy az ún.  szerzői jogi szakadék , amely miatt a 20. századra vonatkozó digitalizált nyomtatott szövegek nagy része nem követhető, nem jelent problémát a Wikipédia esetében, ahol folyamatos, exponenciális növekedés figyelhető meg az 1924-es évtől kezdve a mai napig rögzített cikkek, bejegyzések tekintetében.

A kutatók az átfogó adatokat most már  nagy sebességgel bányászhatják  A Wikipédia egyirányú kapcsolódásai, a kapcsolódások hiánya, és az Infódobozok egyenetlen eloszlása egyaránt azt mutatja, hogy az olyan gyűjtemények, mint a Wikipédia esetében a metaadatokon alapuló adatbányászatnak megvannak a maga korlátai,  – fejtette ki Leetaru úr.  Az SGI UV 2 nagy megosztott memóriája révén a teljes adatkészletre vonatkozó kérdéseket tehettem fel gyakorlatilag valós időben. A rendelkezésemre álló hatalmas cache-koherens megosztott memória lehetővé tette számomra, hogy néhány soros kódot írva a teljes adathalmazon átfuttassak bármilyen kérdést, ami csak az eszembe jut. Erre egy horizontális skálázású megközelítéssel nem lett volna esélyem. Hasonlatképpen a számítógépes szövegszerkesztő program és az írógép közti hatalmas funkcionalitásbeli különbséget tudnám felhozni – amely fennáll az SGI UV 2 és más számítógépek közt – az UV 2-t használva teljesen máshogy végezhetem a kutatást, és a kimenetekre összpontosíthatok az algoritmusok helyett.

Az alkalmazott elemzési módszer

Az SGI® UV™ 2000 szuperszámítógépbe való feltöltést követően ez rendkívül nagy adathalmaz teljes szöveg-geokódoláson és dátum-kódoláson esett át, olyan algoritmusok használatának segítségével, amelyek minden megemlített helyszínt és dátumot azonosítottak a Wikipédia összes bejegyzésének szövegében. Több, mint 80 millió helyszínt és 42 millió dátumot rögzítettünk i.e.1000-től 2012-ig. Átlagosan 19 helyszín és 11 dátum szerepelt
egy-egy cikkben (minden 44 szó helyszínre, és minden 75 szó dátumra vonatkozott). A dátumok és helyszínek közti kapcsolódásokat egy
masszív adathálóra vittük fel, amely a Wikipédia történelemről alkotott nézeteit tükrözte. Ennek az eszköznek a segítségével Leetaru úr majdhogynem valós idejű elemzést végezhetett az SGI UV 2-be feltöltött teljes adatbázisban abból a célból, hogy vizuális térképet készítsen az idő- és helyadatok folyamáról, láttatva nem csak a történelmi események kibontakozását, hanem a világ általános hangulatát is az elmúlt ezer évben, és interaktív módon vizsgáljon meg számos elméletet és kutatási kérdést alig egy napi munkával.

Az új SGI UV szuperszámítógép

Az  SGI UV 2 termékcsalád lehetővé teszi a felhasználók számára, hogy gyakorlatilag egy egyszerű munkaállomáshoz hasonlóan könnyen kezelhető rendszer segítségével választ kapjanak akár a világ legnehezebb problémáira is. Az Intel® Xeon® processzor E5 családját tartalmazó, szabvány Linuxon futó, és számos tárolási opciót biztosító SGI UV 2 teljes körű, ipari szabványokra épülő, nagy számításigény kielégítésére alkalmas megoldást kínál.
A mindössze 16 magos és 32 gigabájt memóriával rendelkező belépő szintű SGI UV 2 rendkívül egyszerűen, könnyen építhető tovább, és
zökkenőmentesen bővíthető. Ez a következő generációs platform az előző generációhoz képest kétszer annyi (akár 4096) magot tartalmaz,
és négyszeres koherens főmemóriát (akár 64 terabájt), amely egy egységes SSI rendszer in-memory működtetésére teszi képessé.Az  SGI
UV 2 nyolc petabájt osztott memóriáig skálázható, és négy terabájtos I/O rate csúcssávszélességével (14
PB/óra) az Amerikai Egyesült
Államok Kongresszusi Könyvtárának teljes nyomtatott anyagát kevesebb, mint három másodperc alatt lenne képes letölteni.

 

Forrás: Business Wire/ MTI /OTS (Hamburg, Németország, 2012. június 19.)