Németországban, Hamburgban az elmúlt hónapban egy konferenciát rendeztek, ahol többek között az adatbányászatról is szó esett. Lapunk erről kapott beszámolót, amit ugyan mintegy kéthetes késéssel tudunk csak közölni, de szerkesztőségünkben az a vélemény alakult ki, hogy jobb később, mint soha. Szerkesztőségünkben arról is vita folyik, hogy mennyiben fogadható el a Wikipédia, mint hivatkozás. A magunk részéről nem szeretnénk most abban a vitában állást foglalni, hogy mennyire hitelesek az ott található bejegyzések. Beszámolunk arról, ami a Wikipédiával kapcsolatosan a konferencián elhangzott.
A világ a Wikipedia szemüvegén keresztül
– Mit végezhetünk el egy nap alatt a világ legnagyobb in-memory adatbányászó rendszere, az új SGI® UV™ 2000 segítségével?
/Nemzetközi Supercomputing Konferencia 2012
A műszaki számítástechnikai megoldások terén elismert vezető cég, az SGI (NASDAQ:SGI) összefogott az Illinois Egyetem munkatársával, Kalev H. Leetaruval, hogy a világon elsőként elkészítsék a Wikipédia angol nyelvű változatának történelmi térképét, és feltárják a szövegtartalmakat mind térben, mind időben. Az eredmények közt van a modernkori történelem képi megjelenítése egynapos adatbányászati technikák alkalmazása révén. A Wikipedia teljes angol nyelvű változatának feltöltésével az SGI® UV™ 2000-be, Leetaru úr bemutatta, hogyan látta/láttatta a Wikipedia az elmúlt kétszáz év történelmét. A hivatkozásokhoz hozzákapcsolták a helyszínt, az évet és a pozitív vagy negatív hangulatot.
Bár korábban már több projekt keretében is feltérképezték a Wikipédia cikkeit kézileg, egy szerkesztő által hozzárendelt metaadatok segítségével, ezek a korábbi kísérletek a Wikipédia helyszínekre vonatkozó adatainak csak egy töredékét tudták feldolgozni. A jelenlegi projekt keretében azonban dekódolták a cikkek tartalmát, azonosítva a négy millió oldalon szereplő összes helyszínt és dátumot, és a köztük fennálló kapcsolatokat, melynek
eredményeként egy masszív adathálót kaptak.
A Wikipédia teljesen új szemszögből
Ezzel az elemzéssel lehetővé válik az emberiség számára, hogy hátralépjen egy lépést , azaz elvonatkoztasson az egyes cikkek és szövegek egyedi vonásaitól, és az egyes lapokon szereplő elszigetelt információk, azaz a ‘fa’ helyett az ‘erdőt’ lássa: azt a hatalmas tudásanyagot, amely a Wikipédiában felhalmozódott. Figyelemmel kísérhetjük, hogyan fejlődött az emberi tudás egyik legnagyobb tárháza, és láthatunk olyan dolgokat, amiket még soha ezelőtt: például az általános hangulatot egy adott időben és helyen, vagy hogy hol vannak még tudásunkban vakfoltok – magyarázta Franz Aman,
az SGI értékesítési és stratégiai igazgatója. A Google Earth alkalmazást azért szeretjük, mert kisebbre véve a felbontást nagyobb léptékű képet kaphatunk. Az SGI UV 2 segítségével ugyanezt megtehetjük az átfogó adatokkal, hogy azok alapján átfogó képet kapjunk.
Az elemzés azt mutatja, hogy a Wikipédia négy fejlődési szakaszon ment keresztül a történelmi események rögzítését illetően: 1001-1500 (Középkor), 1501-1729 (Korai modernkor), 1730-2003 (A Felvilágosodás kora), 2004-2011 (a Wikipédia Éra) és mostani fejlődése a történelmi események alaposabb lefedését célozza ahelyett, hogy a jelen történéseit dokumentálná bővebben. A Wikipédia általános hangvétele, hangulata az egyes évek krónikájának rögzítésében szorosan követi a főbb nemzetközi eseményeket. Az elmúlt 1000 évben a legnegatívabb hangulatú az Amerikai Polgárháború, majd a II. Világháború idején volt. Az elemzés azt is kimutatja, hogy az ún. szerzői jogi szakadék , amely miatt a 20. századra vonatkozó digitalizált nyomtatott szövegek nagy része nem követhető, nem jelent problémát a Wikipédia esetében, ahol folyamatos, exponenciális növekedés figyelhető meg az 1924-es évtől kezdve a mai napig rögzített cikkek, bejegyzések tekintetében.
A kutatók az átfogó adatokat most már nagy sebességgel bányászhatják A Wikipédia egyirányú kapcsolódásai, a kapcsolódások hiánya, és az Infódobozok egyenetlen eloszlása egyaránt azt mutatja, hogy az olyan gyűjtemények, mint a Wikipédia esetében a metaadatokon alapuló adatbányászatnak megvannak a maga korlátai, – fejtette ki Leetaru úr. Az SGI UV 2 nagy megosztott memóriája révén a teljes adatkészletre vonatkozó kérdéseket tehettem fel gyakorlatilag valós időben. A rendelkezésemre álló hatalmas cache-koherens megosztott memória lehetővé tette számomra, hogy néhány soros kódot írva a teljes adathalmazon átfuttassak bármilyen kérdést, ami csak az eszembe jut. Erre egy horizontális skálázású megközelítéssel nem lett volna esélyem. Hasonlatképpen a számítógépes szövegszerkesztő program és az írógép közti hatalmas funkcionalitásbeli különbséget tudnám felhozni – amely fennáll az SGI UV 2 és más számítógépek közt – az UV 2-t használva teljesen máshogy végezhetem a kutatást, és a kimenetekre összpontosíthatok az algoritmusok helyett.
Az alkalmazott elemzési módszer
Az SGI® UV™ 2000 szuperszámítógépbe való feltöltést követően ez rendkívül nagy adathalmaz teljes szöveg-geokódoláson és dátum-kódoláson esett át, olyan algoritmusok használatának segítségével, amelyek minden megemlített helyszínt és dátumot azonosítottak a Wikipédia összes bejegyzésének szövegében. Több, mint 80 millió helyszínt és 42 millió dátumot rögzítettünk i.e.1000-től 2012-ig. Átlagosan 19 helyszín és 11 dátum szerepelt
egy-egy cikkben (minden 44 szó helyszínre, és minden 75 szó dátumra vonatkozott). A dátumok és helyszínek közti kapcsolódásokat egy
masszív adathálóra vittük fel, amely a Wikipédia történelemről alkotott nézeteit tükrözte. Ennek az eszköznek a segítségével Leetaru úr majdhogynem valós idejű elemzést végezhetett az SGI UV 2-be feltöltött teljes adatbázisban abból a célból, hogy vizuális térképet készítsen az idő- és helyadatok folyamáról, láttatva nem csak a történelmi események kibontakozását, hanem a világ általános hangulatát is az elmúlt ezer évben, és interaktív módon vizsgáljon meg számos elméletet és kutatási kérdést alig egy napi munkával.
Az új SGI UV szuperszámítógép
Az SGI UV 2 termékcsalád lehetővé teszi a felhasználók számára, hogy gyakorlatilag egy egyszerű munkaállomáshoz hasonlóan könnyen kezelhető rendszer segítségével választ kapjanak akár a világ legnehezebb problémáira is. Az Intel® Xeon® processzor E5 családját tartalmazó, szabvány Linuxon futó, és számos tárolási opciót biztosító SGI UV 2 teljes körű, ipari szabványokra épülő, nagy számításigény kielégítésére alkalmas megoldást kínál.
A mindössze 16 magos és 32 gigabájt memóriával rendelkező belépő szintű SGI UV 2 rendkívül egyszerűen, könnyen építhető tovább, és
zökkenőmentesen bővíthető. Ez a következő generációs platform az előző generációhoz képest kétszer annyi (akár 4096) magot tartalmaz,
és négyszeres koherens főmemóriát (akár 64 terabájt), amely egy egységes SSI rendszer in-memory működtetésére teszi képessé.Az SGI
UV 2 nyolc petabájt osztott memóriáig skálázható, és négy terabájtos I/O rate csúcssávszélességével (14
PB/óra) az Amerikai Egyesült
Államok Kongresszusi Könyvtárának teljes nyomtatott anyagát kevesebb, mint három másodperc alatt lenne képes letölteni.
Forrás: Business Wire/ MTI /OTS (Hamburg, Németország, 2012. június 19.)