Belefulladhat a tudományos kutatás a big datába?

Egészen szokatlan, a normális piaci versennyel szembemenő és bejósolhatatlan hatásokat kiváltó javaslatot hagytak jóvá a napokban Brüsszelben: az elkövetkező néhány évben a tudományos publikációkat teljesen ingyenesen elérhetővé kellene tenni.

A cikkben felvázolok egy hipotetikus világot, amiben olyan módon lenne teljesen ingyenes a szaklapok elérése, hogy azokért senki sem fizet.

Hogy a teljes ingyenesség miért is hordozhat beláthatatlan veszélyeket és végeredményben miért nem valósítható meg illetve lassítaná a tudományos kutatásokat azzal, hogy látszólag paradox módon az információk elérését nehezítené, végképp nem elképzelhetetlen forgatókönyv. Korábbi tapasztalatokból pedig lehetne tanulni, analógiákat is találunk, amiket érdemes szemügyre venni: íme néhány gondolat a cloud computing, a közösségi web, a túlzott netpenetráció társadalomra gyakorolt hatásáról. Vigyázat, messziről indítok!

Globálisan tekintve a cloud ökoszisztémája nem tesz különbséget 1 TB mennyiségű hűtőmágnes bölcsességet tartalmazó kép és 1 TB igényes, egyedi tartalom közt. Az erőforrások viszont közösek. Az egyre növekvő mennyiségű, főleg a social weben keresztül gyarapított felhasználói információ minden téren egyre nagyobb IT erőforrásigényt jelent, legyen szó akár sávszélesség használatról, akár tárolókapacitásról, akár egy-egy szerverfürt számításigényéről, ennek megfelelően ezeknek a fenntartására is többet kell költeni. Ahogy írtam, a cloud computing jellegéből adódik, hogy nem tesz különbséget tartalom és tartalom közt, azok közösen osztoznak az erőforrásokon. Azaz teoretikailag például egy-egy tudományos cikk elérése annál drágább lesz, minél több, mások számára érdektelen ostobaságot hány fel valaki a közösségi webre, hiszen még ha ezek nincsenek is egy adatközpontban vagy felhőben, a kereséskor is az adatközpontok közti információcserét biztosítani kell, ami eszelős adatátvitellel jár. Hogy egy kevésbé elméleti példát említsek, a Facebooknak annál többet kellett költenie – és persze leverni a felhasználókon – minél többen beregisztráltak a Harvard diákjai után, hogy majd feltöltsék kedvenc cicás-kutyás-paolocoelhós képeiket. Ha nem vezettek volna be radikális újításokat a felhalmozódó adattömeg miatt, ami leválogatja, hogy mi jelenjen meg előttünk és mi nem, a Facebook ma egy használhatatlan rendszer lenne.

A helyzeten tovább bonyolít még valami. Tény, hogy csak az az információ létezik, ami ésszerű idő- és energiabefektetéssel kereshető. Viszont ahogyan a weben tárolt információ mennyisége akkorára duzzadt, hogy azt ma már ésszel be sem lehet látni, új feladatok elé állítja az adattudósokat, különben egyszerűen nem lenne anyagilag fenntartható például egy keresőrendszer a jelenlegi formájában, hiszen a felhasználó elvárja, hogy ésszerű idő alatt meg is találja, amit keres, az információk ne vesszenek el és így tovább. Hiba lenne azt gondolni, hogy a webes óriások ezt a feladatot biztosan csont nélkül meg tudják oldani. 2007-től 2011-ig el nem tudtuk volna képzelni,  hogy például a Youtube-on reklámokat kell megnéznünk ahhoz, hogy megnézzük a tényleges tartalmat, máskülönben egyszerűen az egész nem lenne fenntartható. Az ugyan nagyon meredeknek tűnik, hogy a Google/Yahoo/Yandex keresés valaha fizetősség váljon, viszont az eddig leírtakkal egybevetve, ahogy ezeknek a keresőknek az üzemeltetése is egyre több IT erőforrást emészt fel az egyre növekvő információtömeg miatt, egyre költségesebb is lesz, amit valahogyan be kell hozniuk az üzemeltető cégeknek.

Adja magát a probléma, hogy idővel egyre kifinomultabb és hatékonyabb keresési technológiák bevezetése válik majd szükségessé. Elég csak arra gondolnunk, hogy bizonyos területeken az általános célú keresőmotorok – amik ugye főként abból tanulnak, hogy egy-egy keresés után a felhasználó melyik találatra kattintott – halomra dobják az irreleváns találatokat az első néhány oldalon bizonyos témák esetén. Közismert, hogy különböző egészségmegőrzéssel és betegségekkel kapcsolatos témák esetén a vezető keresőmotorok mennyire rosszul teljesítenek a kiadott információ minősége szempontjából még akkor is, ha a helyzet azért látványosan javult az elmúlt 2-3 évben a Google esetén. Elég csak az orvos által felírt NSAID fájdalomcsillapító Cataflamra rákeresni, a vezető találatok közt vagy olyan fórumok fognak megjelenni, amikben a teljesen laikus fórumozók arról írnak, hogy majdnem meghaltak tőle, ezen kívül a vezető találatok közt lesz, hogy honnan lehet megrendelni a feketepiacról, majd ezeket a találatokat követi az illető hatóanyag Wikipedia-szócikke illetve farmakológiai adatbázisokra mutató találatok. Amik persze annyira százarak, hogy a laikusnak esélye sincs megérteni valami hasznosat is belőle, pláne helyes következtetést levonni az elé kerülő információból. Most csak egy egyszerű fájdalomcsillapítót hoztam példaként, de a jelenség markánsabban jelentkezik, ha a szorongáscsökkentő Xanaxra vagy éppen a teljesítményfokozásra is alkalmas Ritalinra keres rá valaki, arról nem is beszélve, hogy – ahogy arról korábban cikkeztem – a gondolkodásmódunkat és a véleményünket észrevétlenül befolyásolja az, amit a kereső elénk dob, így a példánál maradva a gyógyszerellenesség, oltásellenesség is érthetőbbé válik.

Ahogy írtam, a relevancia meghatározásánál a háttérben a keresőmotorok machine learning algoritmusai azt veszik különös súllyal figyelembe, hogy egy-egy keresés után a felhasználók melyik találtra kattintottak, hiszen ebből arra következtet a rendszer, hogy annak a találatnak az értéke, relevanciája nagyobb a többihez képest. Nem nehéz rájönni, hogy a bökkenőt az emberi természetnek az a sajátossága okozza, hogy a kevés energiabefektetéssel, könnyen megérthető, befogadható információt fogják preferálják az emberek tömegesen – a gyógyszeres példa esetén akkor is, ha az eléjük kerülő információ veszélyes hülyeség.

Tévedés lenne azt gondolni, hogy más területen más a helyzet: a kutató is ember. Nemrég lehetett olvasni róla, hogy azoknak a cikkeknek a citációja szignifikánsan magasabb, amik minél kevesebb matematikai képletet és az adott tudományban ritkán használt absztrakciós készséget igénylő leírást tartalmaznak! Azaz még a kutatók is inkább azt használják forrásként a kutatás folyamán, ami számukra gyorsabban megérthető, természetesen itt is igaz, hogy éppen ezért egyáltalán nem biztos, hogy a legjobbat.

Kérdéses, hogy a Google Scholar hogyan varázsol közvetetten tőkét, de sejthetően van kapcsolat a Scholarban és a sima Search-ben indított keresések közt, esetleg a tudományos kereső az általános célú kereső találatait pontosíthatja, segíthet kiszűrni a zajt. Viszont a Scholar használatakor is megfigyelhető az, ami az általános célú kereséskor, azaz a kutató akaratlanul is, de azokra a cikkekre nagyobb hajlandósággal, ilyen módon nagyobb valószínűséggel kattint, amik számára érdekesebbnek vagy könnyebben emészthetőnek tűnnek. Valószínűsíthető, hogy a Scholarban megjelenő találatok rangsorolásakor a Google motorja kőkemény tudománymetriai adatokat használ fel, azaz például a citáción, impakt faktoron túl azt, hogy a cikk szerzői mennyi cikkben voltak társszerzők más, magasan vagy éppenséggel kevéssé értékes cikkek szerzőivel.

Mielőtt rátérnék arra, hogy kell-e tartani valamiféle armageddontól az összes, most tudományos lapkiadás „ingyenesítésével”, együnk egy történeti kitekintést. A nyílt forráskód és a szabad szoftver gyakran együttjáró, de teljesen más fogalom, egyszerűen csak szabad szoftverként fogom hivatkozni az ingyenesen elérhető, többnyire nyílt forráskódú szoftvereket. A nyílt forráskód hívői idestova legalább 30-20 éve mondják, hogy a szellemi crowdfounding idővel el fogja söpörni vagy legalábbis háttérbe fogja szorítani a kereskedelmi forgalomba kapható szoftverrendszereket és átszabja a teljes szoftverpiacot egyszerűen azért, mert mindenki számára elérhető és persze fejleszthető lesz. Nem így történt, nem így történik. Ehhez képest azt látjuk, hogy a szabad szoftver szépen megvan a kereskedelmi forgalomban kapható, zárt forráskódú mellett, de hozzáértő egyszerűen nem jelenthet ki felelősségteljesen még olyat sem, hogy az egyik vagy a másik szoftver lenne jobb, ezzel kapcsolatban legfeljebb bizonyos specifikus feladatok szempontjából lehetne mondani bármit is. Ahogyan a világ elképzelhetetlen lenne Apache webszerver nélkül, ugyanúgy Microsoft Office nélkül is, hiába mondják, a mai napig nem sikerült megteremteni a kompatibilitást az MS Office és a szabad szoftveres Office-klónok közt, így nyilván bonyolultabb szoftverrendszerek esetében még annyira sem lehetne felváltani a kereskedelmi verziót a szabad szoftveresre.

Amit a szabad szoftver közösség példájából megtanulhatunk, hogy ez a típusú szabadság számos értékes szoftver mellett elképesztő mennyiségű szemetet is kitermel, amiknek egy részét ráadásul használják is, aminek persze ugyancsak megvan az ára, ha egy ingyenesen telepíthető óriási szoftverrendszerhez kell szakértőt hívni idővel. Normális ember persze nem állítaná, hogy a szabad szoftver egy kudarc volt, az viszont teljesen világos, hogy messze nem érte el a sok-sok éve kitűzött célját.

Időszerű rátérni, hogy milyen kockázatokat rejt magában ha a kétségtelenül pofátlanul nagy haszonkulccsal dolgozó és szerte a világon a kutatásban esélyegyenlőtlenséget szülő tudományos lapkiadót, mint szereplőt, illetve a jelenlegi formájában működő peer-review rendszert képzeletben egy az egyben kiiktatjuk a tudományos publikálás rendszeréből, az összes cikk ingyen elérhetővé válna?

A SciHub, mint a kutatók legnagyobb torrentoldala azzal, hogy 50 millió, nagyrészt eredetileg fizetős cikket ingyenesen elérhetővé tesz, egy speciális eset, hiszen a jelenlegi rendszerben született cikkek válnak elérhetővé rajta keresztül.

Viszont az, ha teljesen ingyenesen lennének elérhetőek a tudományos cikkek, azaz  a kiadásnak nem lenne költsége, a újságok és adatbázisok elérése ingyenessé válna, szükségszerűen rántaná magával azt a hatást, hogy sokkal többen írhatnának gyakorlatilag bármit kontroll nélkül – ne legyenek illúzióink, írnának is, ahogy tömegesen készülnek csapnivaló nyílt forrású és ingyenes szoftverek is csak sokkal lassabban hullanak ki, mint a kereskedelmi forgalomban kaphatók.

Képzeljünk el egy olyan világot, ahol szakmai kompetenciájukban erősen eltérő kutatók tényleg azt írnak, amit akarnak vagy legalábbis sokkal kevesebb kontroll mellett. Az akadémiai életben jól ismert publikációs nyomás már önmagában is azt eredményezné, hogy a mostanitól jóval nagyobb mennyiségben jelennének meg egymással átfedő, megtévesztő vagy egyszerűen silány minőségű szakcikkek, ennek eredményeként teljesen más tudománymetriai módszertant kellene bevezetni, hogy megkülönböztethető legyen az értékes a selejttől, ami viszont jóval több ideig tart, mint néhány év, nem menne csak úgy, olyan gyorsan az öntisztulás, mint a rossz minőségűre sikerült szabad szoftverek esetén. Addig viszont könnyen lehet, hogy a világot elöntené a publikációs szenny. Egy ismerősöm említette, hogy az internetpenetráció kiterjedésének azért voltak olyan pozitív hozadékai is, mint a Wikipedia vagy annak klónai. Igen ám, viszont a Wikipediára és a Wikipedia alapértékei alapján dolgozó tudományos wiki-oldalakra egyrészt nem hat semmiféle publikációs nyomás, másrészt már meglévő, kellően validált forrásokból dolgoznak.

És akkor visszaköszön ismét a jó öreg keresés. A tudományos publikációk közti keresés már így sem egyszerű, ha viszont elöntené a veszélyes hulladék, azaz az egészet és kezelhetetlenül megszaporodnának az értéktelenen művek, túlzás nélkül írom, hogy egy technológiai szingularitással néznénk szembe, hiszen korábban sosem látott helyzetbe hozná az egész tudományos világot.

Gyakran elhangzik érvként, hogy „ami nem érdekel, nem olvasom el”. Igen ám, viszont néhány nagyon fontos dolgot illene ezzel kapcsolatban figyelembe venni. Az egyik, hogy ahhoz, hogy egy keresés eredményei alapján megállapítsuk, hogy mi nem érdekel minket, ahhoz legalább az absztraktot át kell futni, azaz energia- és időbefektetést jelent emberi oldalról. Másrészt mivel jóval nagyobb mennyiségű adatban kellene keresnie a keresőnek, ezért az a gépek számára is többlet energia- és időbefektetésbe kerülne, ami nyilván a megnövekedett IT-erőforráshasználatban, ilyen módon megnövekedett fenntartási költséggel járna abban az esetben, ha a keresőket szeretnénk továbbra is elfogadható hatékonysággal használni! Végezzük gondolatkísérletet! Az Országos Széchenyi Könyvtár körülbelül nyolcmillió tétellel rendelkezik. Képzeljük el, hogy mindenki irkálhat bármilyen kontár könyveket és beteheti az OSZK-ba, így rövid idő alatt a könyvtárnak mondjuk 80 millió tételt, nagyrészt könyvet kellene tárolnia. Jól hangzik nem? Csak éppen plusz kilenc hasonló méretű épületet kellene építeni a könyvek elhelyezéséhez, arról nem is beszélve, hogy még az elképzelhető legkorszerűbb könyvtári katalógusban is a releváns infó megtalálása sokkal több ideig tartana, hiszen a korábbi mondjuk 3% keresési feltételnek megfelel, de irreleváns információforrás helyett például 90% totálisan irreleváns információforrást kellene figyelmen kívül hagynunk, amikor arról döntünk, hogy milyen köteteket kérünk fel a raktárból és persze annak is megnőne a sansza, hogy végül nem is olyan könyveket kapnánk kézhez, amik valóban használhatóak. Igaz, éppen amiatt, hogy bárki bármilyen könyvet betehet, néhány százalékkal nőne a hasznos információk össz-mennyisége az egész eredményeként az információáramlás, ilyen módon maga a kutatás is lassulna!
A gépek kapacitása persze kevésbé korlátozott, viszont egy-egy állam, egyetem, kutatóintézet, kutató pénze és ideje már sokkal inkább.

A 90-es évek derekán többen szentül hittek benne, hogy sokak számára kiugrási lehetőséget jelent, csökkenti a társadalmi esélyegyenlőtlenséget és egyéb civilizációs léptékű jótékony hatással jár, ha az internet mindenhova – már bocsánat, de még a csirkeólba is – eljut. Egyenlőre úgy néz ki, hogy hatalmas tévedés volt, legalábbis ezek az ideák annyira kis mértékben valósultak meg, hogy az nem is mérhető, ugyanakkor a neten szinte bármerre nézünk, mindenhonnan ömlik a szenny, de még a legprofibb, legtudatosabb felhasználóknak is tengernyi irreleváns információt kell kerülgetniük nap, mint nap. Lehet, hogy először életszerűtlennek tűnik párhuzamot vonni aközött a tanyasi, sokszor elképesztően kultúrálatlan, ámde okosmobilt bökdöső fiatalok és a kutatók és „meg nem értett őrült zsenik” közt, azért van egy „apró” közös vonásuk: ugyanúgy emberek. Nincs tökéletes analógia, de azért – egy olyan képzeletbeli világban, ahol nincs forintosítható értéke a tudományos információforrásoknak, együtt jár azzal, hogy bárki kiadhat bármit, egy ilyen világban a tudományos diskurzusok teljesen átformálódnak. Átformálódnak hasonlóan ahhoz, hogy míg a net hajnalán a kommentek például kimondottan hozzáadtak egy-egy neten megjelent cikk értékéhez, lehetett tanulni belőlük, ma már a legtöbb helyen teljesen értelmetlen kommenteket olvasni, azt, hogy a jelenség mennyire eszkalálódott, jól mutatja, hogy olyan oldalak, mint a Popular Science vagy a Reuters egyszerűen letiltották a kommentelést. Megint más helyeken vagy szigorúan korlátozták, például előmoderációhoz kötötték azt.

Míg a szabad szoftvert nem csak, hogy túléltük, de konkrétan nagyon sokat köszönhet neki a világ, a tudományos publikációk teljesen ingyenessé tétele beláthatatlan következményekkel járna, még ha a tudományos világ nem is pusztulna bele, a fenntarthatóság miatt olyan változásoknak kellene végbemenniük amik előre bejósolhatatlanok. Persze lehet rajta fantáziálni, hogy esetleg a szakcikkek eléréséhez is valahogy hirdetési modellt illesztenek, ami biztos, hogy hiteles és gyorsan elérhető információra szükség van, ingyen ebéd pedig nincs.

Nagyon fontos megjegyezni, hogy a felvázolt jövőkép az elképzelhető legrosszabb forgatókönyvet mutatja be, egy szélsőséges hipotetikus esetet, holott a brüsszeli döntésben ilyenről azért szó sincs, ahogyan arról sincs szó, hogy az eredetileg minőséget garantálni hivatott peer-review-rendszerbe belenyúlnának, ami viszont egy ilyen folyamat szükségszerű velejárója lenne. Hiszen a kiadók továbbra sem fognak ingyen dolgozni, a megjelent lapokat és adatbázis-előfizetéseket továbbra is valakinek fizetnie kell. Viszont ha nem konkrétan a végfelhasználóként jelenlévő egyetem fizeti meg ezeket a költségeket, már annak is jelentős piactorzító hatása lehet, az elképzelt hatások mind érvényesülhetnek, csak éppenséggel kicsiben. Kicsiben, de közel sem biztos, hogy kontrollálható módon.

Reklámok

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés / Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés / Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés / Módosítás )

Google+ kép

Hozzászólhat a Google+ felhasználói fiók használatával. Kilépés / Módosítás )

Kapcsolódás: %s