Kuidas kopeerida veebisaiti?

Internet ei ole kivist, et iseenesest püsti seisab. Internetti raiutud tekstid pole raamatukogu hästi turvatud keldrikorrustel, kus niiskus ja \”marodööritsevad\” lugejad neile ligi ei saa. Interneti võivad uppi lüüa häired ühendusi loovate ruuteritega, aga veel tõenäolisemalt juhtub probleeme serveritega, mille kõvakettad/muidu riistvara ei pea investeeringute puudumisel vastu või näiteks mida haldavad ettevõtted pankrotistuvad. Veebisaidid surevad ja sünnivad ning erinevalt kirjastustest ei jää nende töö tulemus arhiividesse tallele. Ometi on veebisaitidel põnevat materjali, mida tahaks säilitada. Kuidas seda teha?

Kuidas saada kätte veebilehe vanemat versiooni või lehte, mis hetkel maas on?

Ajamasin tagasikäigul

Ajamasin tagasikäigul

Esmalt veidi sellest, mida võib proovida siis, kui leht juba päriselt maas on, kas ajutiselt või igaveseks. Veebisaitide muutuva sisu vanemaid versioone talletavad \”The Way Back Machine\” lehel http://www.archive.org ja Google oma puhvrites. Archive.org ei suuda kahjuks kõike – nähtavale ilmuvad alles veebilehtede vähemalt pool aastat vanad versioonid. Näiteks http://www.arvutikasutaja.ee saidist on olemas tõmmis 31. märtsist 2002, viimane tõmmis aga 15. veebruarist 2008. Archive.org ei suuda enam oma eesmärki täita ja kogu asjalikumat interneti varundada, kahjuks. Hiljuti muutunud asjade puhul on võimalus kasutada Google vahemälu, selleks tuleb esmalt lehekülg Google otsingust märksõnade abil üles leida, mis eestikeelses ruumis eriti raske ei ole. Otsingu tulemuste juures näidatakse ka linki Puhverdatud (inglise keeles Cached), millelt saabki lehe vanema versiooni kätte. Seda ka juhul kui lehekülg on maas. Tõsi, pildimaterjali ja videotega on probleem – neid ei jaksa puhvrid ja arhiiv küll talletada. Arhiivi ja puhvri kaudu vaadates võivad lehed välja näha ka äärmiselt kehvad, see oleneb viisist, kuidas veebileht üles ehitatud on. Puhvrid moodsamaid välimuse muutmise viise (nt CSS) üldjuhul ei toeta. Näiteks saab puhvrist kätte hiljuti hingusele läinud sisutühja meelelahutusportaali toptop.ee tekstilise osa. Google puhvri eluiga on aga piiratud – see on nii hea kui ka halb, sest see tähendab et kogemata hooletusest veebi sattunud materjalid jäävad peale kustutamist puhvritesse veel pikaks ajaks nähtavaks. Aeg varieerub, aga alla mõne nädala ei tasu muutust lootagi. Minna võib ka mitmeid kuid.

Kuidas veebilehte endale varundada?
Mida aga teha juhul, kui on hirm, et lehekülg on kadumas, kuid tahaks siiski endale päästa varukoopiat? Siinkohal olgu öeldud, et seda varukoopiat netti avalikult saadavaks teha ei tohi, sest veebilehed sisaldavad enamasti siiski autoriõigusega kaitstud materjale. Küll aga võib avalikuks tehtud materjali enda kasutamiseks kohalikule kõvakettale kopeerida. Tänasel kiirelt muutuvate veebilinkide ning kiirete internetiühenduste ajastul on see valdkond küll mõnevõrra kahanenud, kuid just sellistel pankrotistumisel kaduda ähvardava veebilehe juhtumitel ometi aktuaalne.

HTTrack'i kopeerimisseaded
Üks võimalikke abimehi on programm HTTrack Website Copier (http://www.httrack.com). Sellest vabavaralisest programmist on versioonid Windowsile ja Linuxile, ka on Mac OS X pakett olemas. Ka saab seadistada programmi kasutama eestikeelset kasutajaliidest, mille tõlkel on küll auke sees. Ilmselt põhjuseks küllaltki aktiivne programmi täienemine, mis pole vabatahtlikule tõlgile andnud aega järgi jõuda.

Programm tirib veebilehe alla ja asendab lingid nõnda, et peale alla tõmbamist saab saidil kenasti navigeerida. Programm on vaikimisi liigagi usin ja kukub tõmbama ka välislinke teistele saitidele, mida esialgu ilmselt küll vaja ei lähe. Ometi tähendab see seda, et varundada saab tervet suuremat portsu internetti korraga. Nupp seadistuste defineerimiseks on küllaltki silmatorkamatu, kuid võimaldab siiski seada väga paljut.

Kellele selle programmi võimalustest väheks jääb, siis leidub ka tasuta järgiproovitavaid tasulisi programme, näiteks WebCopier (http://www.maximumsoft.com) või suisa konsoolipõhised spetsiaalprogramme. Mõne sarnasega muuseas otsivad spämmijad veebist inimeste meiliaadresse taga.

(Artikkel on kirjutatud ajakirja endise lugeja küsimuse peale.)

Lisa kommentaar

Täida nõutavad väljad või kliki ikoonile, et sisse logida:

WordPress.com Logo

Sa kommenteerid kasutades oma WordPress.com kontot. Logi välja /  Muuda )

Google photo

Sa kommenteerid kasutades oma Google kontot. Logi välja /  Muuda )

Twitter picture

Sa kommenteerid kasutades oma Twitter kontot. Logi välja /  Muuda )

Facebook photo

Sa kommenteerid kasutades oma Facebook kontot. Logi välja /  Muuda )

Connecting to %s

%d bloggers like this: