
19.3.2025
Internet Archive on vaarassa kadota, kun levy-yhtiöt vaativat satojen miljoonien dollarien korvauksia
Internet Archive on tallentanut internetiä jälkipolville 29 vuoden ajan. Se on ollut valmiina taistelemaan Trumpin hallinnon sensurointioperaatioita vastaan. Nyt tämä korvaamaton kirjasto on vaarassa.
Tammi-helmikuun vaihteessa Yhdysvaltain liittovaltion verkkosivustoilla tapahtui suuri puhdistus. Yli kahdeksan tuhatta virallista .gov-päätteistä sivua katosi verkosta. Osa palautettiin myöhemmin, mutta tietoja oli kadonnut tai sanamuotoja muutettu.
The New York Timesin analyysin mukaan tautien ehkäisystä vastaavan viraston (Center for Disease Control and Prevention, eli CDC) verkkosivustolta oli poistettu yli 3000 sivua. Ne sisälsivät muun muassa tutkimusdataa, rokotusohjeistuksia ja seksuaaliterveyteen liittyviä suosituksia.
Poistojen takana olivat kasvottomat byrokraatit, jotka riensivät toteuttamaan presidentti Donald Trumpin uusia määräyksiä diversiteettiohjelmien lakkauttamisesta ja käskyä ”suojella naisia gender-ideologian ekstremismiltä”. Jälkimmäinen määräys on johtanut esimerkiksi transsukupuolisuuteen liittyvien mainintojen poistamiseen.
Lääkärit ja lääketieteen tutkijat alkoivat välittömästi kartoittaa ja tallentaa kadotettua dataa. 31. tammikuuta nimimerkki SheWhoExists oli jo ladannut melkein kolme tuhatta CDC:n datasettiä Internet Archiveen.
CDC:n sivuilta hävitettiin tärkeää tietoa poliittisista syistä, mutta sen pelastaminen oli verrattain helppoa, koska Internet Archive on olemassa. Maailman suurin internet-kirjasto on digitaalisen aikamme kollektiivinen muisti, ja siksi korvaamaton. Nyt se on kuitenkin vaarassa kuluvana vuonna käytävän oikeudenkäynnin takia.
INTERNET ARCHIVEN perusti nettipioneeri Brewster Kahle vuonna 1996. Hän ymmärsi varhain, kuinka katoavaista uusi digitaalinen media oli. Ensimmäinen www-sivu julkaistiin jo vuonna 1991, ja valtaosa noista webin ensimmäisestä viidestä vuodesta on kadonnut kokonaan.
Internet Archive on tähän mennessä arkistoinut 835 miljardia verkkosivua. Sen suurelle yleisölle näkyvin ja helppokäyttöisin osa on vuonna 2001 käynnistetty Wayback Machine, jonka avulla kuka tahansa voi katsella vanhoja versioita verkkosivuista ympäri maailman. Wayback Machinessa on tallessa sivuja vuodesta 1996 alkaen.
”Vuonna 1997 koko kyseisen vuoden verkkoarkisto vei kaksi teratavua tilaa. Nykyään me arkistoimme reilut 80 teratavua joka päivä”, sanoo Wayback Machinen johtaja Mark Graham videopuhelussa San Franciscosta.
Internet Archive ei toki pysty tallentamaan joka ikistä verkkosivua kaikkina aikoina. Se käyttää crawlereiksi kutsuttuja tietokoneohjelmia, jotka haravoivat verkkoa ja nappaavat tallenteita sivustoilta, joilla ne vierailevat. Crawlerit seuraavat linkkejä liikkuakseen sivulta toiselle. Jokainen käyttäjä voi myös itse tallentaa kiinnostavia sivustoja Wayback Machineen.
Jotkut verkkosivustot sisältävät niin kutsutun robots.txt-tiedoston, jolla ne kieltävät crawlereita tallentamasta sisältöään.
Internet Archiven kirjasto sijaitsee servereinä ja kovalevypinoina entisessä kirkossa San Franciscossa. Kirkon penkit on säilytetty, ja nyt niitä kansoittavat kirjaston pitkäaikaisia työntekijöitä esittävät veistokset.
Arkistolla on varastotilaa myös muualla San Franciscon lahden alueella. Mark Graham kuvaa arkiston fyysistä kokoa selittämällä, miten paljon tallentamiseen kuluu kovalevyjä viiden päivän välein. “Otetaan 20:n teratavun kovalevyjä ja laitetaan niitä 36 kappaletta tietokoneeseen. Näitä tietokoneita on yhdessä telineessä kymmenen kappaletta. Näin saadaan tallennettua suunnilleen yhden petatavun verran viidessä päivässä.”
Petatavu on tuhat teratavu. Kenties nollien määrä auttaa hahmottamaan petatavun kokoa: siinä on 15 nollaa.
”Me ostamme kovalevyjä lavoittain”, Graham sanoo.
WAYBACK MACHINESTA löytää asioita vain, jos tietää url:n eli verkko-osoitteen. Helpottaakseen aineistojen selaamista Internet Archive on alkanut julkaista kokoelmia, joiden aineistoihin voi tehdä asiasanahakuja.
Tällaisia on esimerkiksi turkkilaisista uutissivustoista, jotka suljettiin vuoden 2016 epäonnistuneen vallankaappausyrityksen jälkeen. Muita esimerkkejä ovat sensuurin vuoksi lakkautetut uutismediat Hongkongissa ja Venäjällä.
Pohjois-Koreasta kiinnostuneen on mahdollista selata kokoelmaa kaikista suljetun maan julkisista verkkosivustoista.
Internet Archive pyrkii aktiivisesti säilyttämään myös kotimaansa journalismia. 2000- ja 2010-luvuilla varsin suosittu yhdysvaltalainen Gawker-lehti kaatui oikeudessa määrättyihin korvauksiin, koska se oli julkaissut showpainija Hulk Hoganin yksityisen seksivideon. Kun Gawkerin 14-vuotinen arkisto satoine tuhansine artikkeleineen oli vaarassa kadota kokonaan verkosta, lehdistönvapausjärjestö tallensi sen kokonaisuudessaan Internet Archiveen.
Kesäkuussa 2024 internetistä katosi MTV Newsin verkkosivusto, ja sen mukana vuosikymmenten verran musiikkijournalismia ja popkulttuurihistoriaa. Nyt liki puoli miljoonaa MTV Newsin artikkelia löytyy Wayback Machinesta.
Tällaisessa arkistointityössä tekoälystä on verratonta hyötyä: sen avulla voidaan litteroida, kääntää, indeksoida ja tehdä tiivistelmiä. Se auttaa aineistojen löydettävyydessä.
INTERNET ARCHIVE on siis ennenkin toiminut sensuurin vastaisena työkaluna. On vain luontevaa, että se toimii siten myös silloin, kun sensuuria harjoittaa Yhdysvaltain hallinto.
Vapaaehtoisten, kuten SheWhoExists-nimimerkin, työ USA:n hallinnon verkkosivujen ja datasettien tallentamisessa on ollut tärkeää, mutta Internet Archive oli asian päällä itsekin. Se on koonnut vuodesta 2008 alkaen End of Term Archivea, jonne säilytetään mahdollisimman suuri osa .gov-päätteisistä sivustoista sellaisina kuin ne ovat olleet kunkin presidentin kauden päättyessä. Muutoksia on havaittu ennenkin, mutta ei koskaan niin suuria kuin Trumpin kakkoskauden alkaessa.
Mark Graham kertoo, että End of Term Archive koostetaan aina kolmessa vaiheessa.
”Ensimmäinen tallennustyö tehdään ennen presidentinvaaleja, toinen vaalien jälkeen. Nyt olemme vaiheessa kolme, eli uuden kauden alun tallentamisessa. Tällä kertaa olemme onnistuneet tallentamaan enemmän materiaalia kuin aiempiin End of Term -arkistoihin yhteensä.”
Nyt kun Trumpin hallinto tosiaan haluaa kieltää esimerkiksi maininnat sukupuolen moninaisuudesta, olisiko sen mahdollista sensuroida myös Internet Archivea? Entä jos hallinto vaatii kirjastoa poistamaan tallennetut verkkosivut?
”En usko, että näin tapahtuu. Yleensä poistopyynnöt tulevat yksilöiltä ja yrityksiltä, ja käymme ne aina huolellisesti läpi. Liittovaltion hallinnolta tällaisia pyyntöjä ei ole juurikaan tullut, paitsi joissain todella harvinaisissa tapauksissa, joissa kyse on ollut kansallisesta turvallisuudesta.”
Graham mainitsee, että Internet Archive ei ole saatavilla Kiinassa, koska se ei suostu Kiinan valtion sensuuriin.
Ehkä Graham asettelee sanojaan varovaisesti. Jo Trumpin edellisen presidenttikauden alkaessa Internet Archive ilmoitti alkavansa rakentaa fyysistä kopiota koko arkistostaan Kanadaan. Mikäli Yhdysvallat säätäisi lain, joka antaisi mahdollisuuden kajota internet-historiaan, Kanadassa tiedot pysyisivät turvassa.
Osittaisia kopioita on jo olemassa Kanadan lisäksi Amsterdamissa ja Egyptin Aleksandriassa, joka on kuuluisa antiikin ajan merkittävimmästä kirjastosta.
INTERNET ARCHIVE on arkistoinut 29 vuotta internetin historiaa, ja siinä sivussa paljon muutakin digitaalista mediaa, kuten televisiokanavia ja tietokoneohjelmia. Se on digitoinut myös kirjoja ja musiikkia, ja tämä voi koitua internet-kirjaston tuhoksi.
Kirjaston toiminta on vaarassa satojen miljoonien dollarien oikeuskanteen takia. Suuret levy-yhtiöt, kuten Universal ja Sony, ovat haastaneet Internet Archiven oikeuteen tekijänoikeusrikkomuksista. Syynä on projekti, jota kirjasto kutsuu nimellä Great 78 Project. Se on 78 kierrosta minuutissa pyörivien sellakkalevyjen digitointihanke, joka sisältää yli 400 000 digitoitua savikiekkoa. 78-levyjä soitettiin gramofoneilla, kunnes vinyylilevyt syrjäyttivät ne 1940- ja 1950-lukujen aikana.
Valtaosaa näistä äänitteistä ei ole saatavilla digitaalisesti missään muualla, ja suurin osa on peräisin kauan sitten kuopattujen levy-yhtiöiden katalogeista. Lukuisat savikiekkojen keräilijät ovat auttaneet projektissa.
Kanteen nostaneet levy-yhtiöt vaativat Internet Archivelta 621 miljoonaa dollaria vahingonkorvauksina. Mark Graham sanoo, että toteutuessaan tämä olisi Internet Archivelle ”murskaavaa”.
Grahamin mukaan Internet Archiven viime vuoden budjetti oli noin 28 miljoonaa dollaria. ”Kolmasosa siitä tuli yksittäisiltä lahjoittajilta, joita oli noin 200 000. Toinen kolmannes tuli varakkailta yksilöiltä ja säätiöiltä. Viimeinen kolmannes muodostuu palveluiden myymisestä museoille, hallituksille ja kirjastoille. Yritämme saada jatkossa lisää kaikkiin noihin kolmeen ämpäriin.”
Oikeuskanne koskee reilua neljää tuhatta äänitettä. Levy-yhtiöt vaativat Internet Archivelta 150 000 dollaria per äänite. Ne tosiaan ovat tunnettujen artistien levyjä, joista merkittävä osa on edelleen saatavilla. Mukana on esimerkiksi Elvis Presleyn, Chuck Berryn, Louis Armstrongin, Frank Sinatran ja Billie Holidayn levytyksiä. Kanteen nostaneiden levy-yhtiöiden mielestä kulttuuriperinnön säilyttäminen on pelkkä savuverho ”suoranaiselle varkaudelle”. Näin ne sanovat kanteessaan. Kyseessä on niiden mielestä ”laiton levykauppa”.
Siinä missä levy-yhtiöt julkaisevat savikiekoilla aikoinaan julkaistua musiikkia huolellisesti uudelleen masteroituina versioina, Internet Archive tallentaa äänen sellaisena kuin se fyysiseltä savikiekolta kuulostaa: rahisevana, suhisevana ja poksuvana.
Arkistossa on paljon sellaisia levyjä, joissa levy-yhtiöt eivät näe kaupallista potentiaalia, eivätkä ne ole mukana kanteessa. Niitä ei löydy Spotifysta. Ne ovat juuri sellaista unohdettua historiaa, jota Wayback Machine on pullollaan.
LEVY-YHTIÖIDEN kanne ei ole ensimmäinen merkittävä tekijänoikeusjuttu, johon Internet Archive on joutunut vastaamaan oikeudessa. Mikäli ensimmäistä juttua voi pitää ennakkotapauksena, Internet Archivelle voi käydä sekä huonosti että tavallaan hyvin.
Vuonna 2020 useat kirjankustantamot haastoivat Internet Archiven oikeuteen sen pandemia-aikana perustaman National Emergency Libraryn vuoksi. Tämän virtuaalisen hätätilakirjaston piti tarjota ihmisille pääsy kirjoihin aikana, jolloin koulut, yliopistot ja kirjastot olivat kiinni. Tavallisesti Internet Archiven Open Libraryn e-kirjoja voi lainata yksi käyttäjä kerrallaan, mutta pandemian aikaan kirjasto poisti rajoitukset ja antoi kenelle tahansa vapaan pääsyn kirjoihin.
Internet Archive hävisi jutun, mutta ei mitä ilmeisimmin joutunut maksamaan kustantamojen vaatimia miljoonakorvauksia täysimittaisesti. Osapuolet sopivat korvauksista suljettujen ovien takana, eikä summaa ole kerrottu julkisuuteen. Eli: kävi sekä huonosti että hyvin.
Mark Graham sanoo, ettei osaa eikä voi kommentoida levy-yhtiöiden kanssa meneillään olevaa oikeudenkäyntiä. Tämän takia pyydän häntä kuvittelemaan tilannetta, jossa Internet Archive lakkaisi olemasta.
Hän ei oikeastaan vastaa kysymykseen, vaan alkaa muistella viime lokakuuta, jolloin kirjastoon kohdistui palvelunestohyökkäys. Koko sivusto oli alhaalla useita päiviä.
”Se herätti monet kysymään juuri tuon kysymyksen. Moni halusi sen jälkeen auttaa meitä, lahjoittaa rahaa”, Graham sanoo.
”Ja nyt kun näemme, miten Yhdysvaltain liittovaltion verkkosivuja katoaa, tai niiden sisältöjä muutetaan ilman ennakkovaroitusta, se on toisenlainen herätys.”
Graham sanoo joskus ajattelevansa, miten kummallista on, että internetin arkistoiminen ja säilyttäminen on verrattain pienen sanfranciscolaisen organisaation harteilla. Hän muistaa mainita, että Wikipedia listaa noin 80 verkkoarkistoa, mutta näistä valtaosa on kovin pieniä ja monilla niistä on teknologisia tai muita yhteyksiä Internet Archiveen.
”Tämä uusi todellisuus motivoi meitä olemaan parempia, tekemään enemmän. Meidän pitää arkistoida enemmän ja paremmin”, Graham sanoo.
MITÄ MENETTÄISIMME, jos Internet Archive lakkaisi olemasta? Vastaan itse: Kadottaisimme näkymän vanhaan internetiin. Siihen, miltä siellä näytti ennen kuin meidät oli paimennettu muutamien nettijättien hallinnoimiin karsinoihin, joissa kaikkien nurkat näyttävät aika lailla samalta. Olemme näiden zuckerbergien armoilla, ja meillä on hyvin vähän keinoja vaikuttaa tekno-oligarkkien toimintaan.
1990-luvulla piti kirjoitella foorumeille tai pystyttää kotisivu, jos halusi vuorovaikutusta verkossa. Kotisivut olivat söpöjä, rumia, anarkistisia ja kaoottisia, mutta ennen kaikkea tekijöidensä näköisiä. Siitä on pitkä matka Facebookin siniseen ja valkoiseen. Ennen alustojen aikakautta käyttäjillä oli enemmän valtaa ja vapautta tehdä omista internet-kulmistaan oman mielensä mukaisia.
Vanha internet oli vähän kuin harhailu kiinnostavassa kaupunginosassa ennen gentrifikaatiota. Itse asiassa iso osa internetiä oli 1990-luvulla rakennettu ikään kuin kaupungiksi. Geocities (1994–2009) oli tavallaan maailman suurin kaupunki, jossa asui 38 miljoonaa netizeniä.
Geocities oli järjestetty naapurustoihin. Siellä oli Silicon Valley teknologiatyypeille, Capitol Hill politiikkanörteille ja Area 51 scifi-faneille. Kukin asukas sai 15 megatavua omaa tonttimaata, eli tilaa kotisivulle. Geocities-sivujen ysäriestetiikkaan voi tutustua selailemalla taideprojektina perustettua blogia A Terabyte of Kilobyte Age, joka on ohjelmoitu julkaisemaan satunnainen Geocities-sivu joka päivä vuoteen 2027 asti.
Kun Geocitiesin omistaja Yahoo päätti vuonna 2009 sulkea saitin, se ilmoitti aikeistaan etukäteen. Vapaaehtoiset arkistoaktivistit ja verkkoarkeologit suivaantuivat. Iso siivu Geocities-sivustoja löytyy nykyään peräti neljästä eri tallennusprojektista, myös Internet Archivesta.
Wayback Machine antaa meille kaikille mahdollisuuden aikamatkailuun. Ehkä se antaa joskus joillekin idun siitä, miten rakentaa uutta, nykyistä parempaa internetiä. Sellaista, joka ei ole muutaman jättiläisfirman hallussa.
Oikaisu 19.3. klo 16.12: Jutussa puhuttiin alun perin virheellisesti mega-, tera- ja petabiteistä. Kyseessä ovat mega-, tera- ja petatavut.
Tilaa Long Play niin saat kaiken.
Liity joukkoomme! Tilaajana saat joka kuukausi kuratoidun lukupaketin Suomen parhailta kirjoittajilta. Koko laaja juttuarkisto on käytössäsi ja kerran viikossa meiliisi kilahtaa Perjantaikirje. Ei klikkiotsikoita, vain juttuja, joilla on väliä.
Oletko jo tilaaja? Kirjaudu sisään.