"Internet Archive" dibinātāji 2001. gadā radīja "Wayback Machine",[2][3] lai risinātu problēmas ar tīmekļa vietņu satura izzušanu, kad tā mainaURL vai tiek slēgta. Serviss ļauj lietotājiem redzēt tīmekļa lapu arhivētās versijas, ko arhīvs sauc par "trīsdimensiju indeksu".[4] Viņi izveidoja servisu, cerot arhivēt visu internetu un nodrošināt "vispārēju piekļuvi visām zināšanām".[5]
"Wayback Machine" jau 1996. gadā sāka glabāt kešatmiņā glabātās tīmekļa lapas ar mērķi padarīt pakalpojumu publiski pieejamu piecus gadus vēlāk.[6] No 1996. līdz 2001. gadam informācijai nebija publiskas pieejas, lai gan veidotāji reizēm ļāva pētniekiem un zinātniekiem pameklēt vēl trūcīgajā datu bāzē.[7] Kad arhīvs 2001. gadā sasniedza piekto gadadienu, tas tika atklāts sabiedrībai ceremonijāKalifornijas Universitātē Bērklijā.[8] Uz brīdi, kad "Wayback Machine" tika palaista oficiāli, tajā jau bija vairāk nekā 10 miljardi arhivēto lapu.
Mūsdienās dati tiek glabāti lielā "Internet Archive" klasterīLinux mezglā.[5] Mašīna pārskata un arhivē jaunas tīmekļa vietņu versijas.[9] Vietnes var arī ierakstīt manuāli, ievadot meklēšanas lodziņā vietnesURL, ja vietne ļauj Wayback Machine to "pārmeklēt" un saglabāt datus.[6] Serviss vairs nesavāc datus par visām vietnēm, izvēloties tās pēc sava algoritma.[9]
Programmatūra tika izstrādāta, lai pārmeklētu Tīmekli un lejupielādētu visas publiski pieejamās tīmekļa vietnes, Gopher hierarhiju, Netnews (Usenet) ziņojumu dēļu sistēmu un lejupielādējamu programmatūru.[10] Šo "rāpuļprogrammu" apkopotā informācija neietvēra visu informāciju, kas pieejama internetā, jo lielāko daļu datu izplatību ierobežo to īpašnieki vai saglabā to datu bāzēs, kas nav publiski pieejamas. Lai pārvarētu nepilnīgi saglabātajās tīmekļa vietnēs, 2005. gadā "Internet Archive" izstrādāja "Archive-It.org", kas ļāva iestādēm un satura veidotājiem brīvprātīgi saglabāt digitālā satura kolekcijas un izveidot digitālos arhīvus.[11]
Pārmeklēšanu veic no dažādiem avotiem, no kuriem daži tiek importēti no trešām pusēm un citus ģenerē pats arhīvs.[9] "Worldwide Web Crawls" darbojas kopš 2010. gada un caurskata globālo Tīmekli.[12]
Vietņu un lappušu tveršanas biežums dažādās tīmekļa vietnēs atšķiras. Daļa vietņu ir iekļautas "pārmeklēšanas sarakstā", un vietne tiek arhivēta vairākkārtīgi. Vietnes pārmeklēšana var ilgt mēnešus vai pat gadus. Tomēr vietne var būt iekļauta vairāk nekā vienā pārmeklēšanas sarakstā, tāpēc top pārmeklēta biežāk un dziļāk.[9]
Tā kā tehnoloģijas gadu gaitā ir attīstījušās, "Wayback Machine" uzglabāšanas jauda ir palielinājusies. 2003. gadā pēc tikai divu gadu publiskās piekļuves "Wayback Machine" apjoms palielinājās par 12 terabaitiem mēnesī. Dati tika glabāti "Internet Archive" personāla izstrādātajās PetaBox plauktu sistēmās. Pirmais 100TB plaukts pilnībā sāka darboties 2004. gada jūnijā, taču drīz kļuva skaidrs, ka viņiem būs nepieciešams daudz vairāk uzglabāšanas vietas.[13][14]
"Internet Archive" 2009. gadā pārvietoja savu pielāgoto uzglabāšanas arhitektūru uz "Sun Open Storage" un saņēma jaunu datu centru "Sun Modular Datacenter" iekš "Sun Microsystems" Kalifornijas Universitātē.[15] Kopš 2009. gada "Wayback Machine" saturēja aptuveni trīspetabaitus datu un katru mēnesi auga par 100 terabaitiem.[16]
2011. gadā publiskai testēšanai kļuva pieejama jauna, uzlabota "Wayback Machine" versija ar atjauninātu saskarni un jaunāku arhivētā satura rādītāju.[17] Šā gada martā "Wayback Machine" forumā tika ziņots, ka "jaunajā beta versijā ir pilnīgāks un aktuālāks indeksēto materiālu indekss, un tas tiks regulāri atjaunināts.”[18]
2013. gada janvārī uzņēmums paziņoja par sasniegto 240 miljardu URL robežu.[19] 2013. gada oktobrī uzņēmums radīja funkciju "Saglabāt lapu", kas ļauj jebkuram interneta lietotājam arhivēt URL saturu.[20]
Uz 2014. gada decembri "Wayback Machine" saturēja 435 miljardus tīmekļa lapu — gandrīz deviņus petabaitus datu, un tas palielinājās par aptuveni 20 terabaitiem nedēļā.[21][22][23] 2016. gada jūlijā tajā bija aptuveni 15 petabaitu datu,[24] bet 2018. gada septembrī vairāk nekā 25 petabaitu datu.[25][26]
Vēsturiski "Wayback Machine" ir ievērojusi robotu izslēgšanas standartu (robots.txt), nosakot, vai vietne tiks pārmeklēta vai nē. Tīmekļa vietņu īpašniekiem bija iespēja atteikties no "Wayback Machine", izmantojot robots.txt. Tā piemēroja robots.txt noteikumus ar atpakaļejošu datumu; ja vietne bloķēja arhīvu, visas iepriekš arhivētās lapas no domēna nekavējoties tika izņemtas.[27] Turklāt "Internet Archive" norādīja, ka "dažreiz tīmekļa vietnes īpašnieks sazinās ar mums tieši un lūdz mūs pārtraukt vietnes pārmeklēšanu vai arhivēšanu. Mēs izpildām šādus pieprasījumus." Viņu tīmekļa vietnē teikts: ""Internet Archive" nav ieinteresēts saglabāt vai piedāvāt piekļuvi tīmekļa vietnēm vai citiem Interneta dokumentiem personām, kuras nevēlas savu materiālu vākšanu."[28][29] Tomēr kopš 2017. gada arhīvs sācis ignorēt standartu robots.txt, īpaši attiecībā uz ASV iestāžu vietnēm.[30][31][32][33]
Kopš 2001. gada publiskās atklāšanas studenti un zinātnieki ir pētījuši gan to, kā "Wayback Machine" tiek glabāti un apkopoti dati, gan tās arhīvā esošās lapas. 2013. gadā bija uzrakstīti aptuveni 350 pētnieciski raksti par "Wayback Machine", galvenokārt par informācijas tehnoloģiju, bibliotēku zinātnes un sociālās zinātnes jomām. Sociālo zinātņu pētnieki ir izmantojuši "Wayback Machine", lai analizētu, kā tīmekļa vietņu attīstība no 90. gadu vidus līdz mūsdienām ir ietekmējusi uzņēmuma izaugsmi.[22]
Kad "Wayback Machine" arhivē lapu, tā parasti ietver lielāko daļuhipersaišu, saglabājot tās saites aktīvas, lai tās netiktu bojātas ar interneta nestabilitāti. ZinātniekiIndijā pētīja "Wayback Machine" spēju saglabāt hipersaites tiešsaistes zinātniskajās publikācijās un konstatēja, ka tā saglabā nedaudz vairāk nekā pusi no tām.[34]
Žurnālisti izmanto "Wayback Machine", lai apskatītu mirušās vietnes, datētu ziņojumus un izmaiņas tīmekļa vietnes saturā. Tās saturs ir izmantots, lai uzspiestu politiķiem atbildību un atklātu melus.[35] Tā, 2014. gadāUkrainas Donbasa separātistu līdera Igora Girkina arhivēta sociālā medija lapa apliecināja, ka viņš ar savu militāro grupu notriecis domājamu Ukrainas militāru lidmašīnu, pirms kļuva zināms, ka lidmašīna patiesībā bijacivilā Malaizijas aviokompānijas lidmašīna; pēc tam viņš izdzēsa ziņojumu un vainoja Ukrainas armiju par lidmašīnas notriekšanu.[35][36] 2017. gada apmeklētāji archive.org bija atklājuši, ka visas atsauces uzklimata pārmaiņām ir pazudušas noBaltā nama tīmekļa vietnes.[37][38][39]
Turklāt vietne tiek izmantota verificēšanai, nodrošinotVikipēdijas redaktoriem piekļuvi atsauču un satura veidošanai.
Neskatoties uz tās iespējām, "Wayback Machine" ir arī daži svarīgi ierobežojumi. 2014. gadā bija sešu mēnešu kavēšanās laiks starp brīžiem, kad tīmekļa vietne ir pārmeklēta un kad tā ir pieejama skatīšanās mašīnā.[40] Pašlaik kavēšanās laiks ir no 3 līdz 10 stundām.[41] "Wayback Machine" nav "vēsturisksGoogle"; lietotājiem ir jāzina to vietņu URL, ko viņi vēlas redzēt.[42] Tajā ir funkcija "vietnes meklēšana", kas ļauj lietotājiem atrast vietni, pamatojoties uz vārdiem, kas apraksta vietni, nevis vārdiem, kas atrodami pašās tīmekļa lapās.
"Wayback Machine" neietver katru tīmekļa lapu, kas jebkad radīta, dēļ tās tīmekļa pārmeklēšanas ierobežojumiem. "Wayback Machine" nevar pilnībā arhivēt tīmekļa lapas, kurās ir interaktīvas funkcijas, piemēram, Flash platformas unJavaScript, jo šīm funkcijām ir nepieciešama mijiedarbība ar mītnes vietni. Viņu tīmekļa pārmeklētājam ir grūti iegūt visu, kas nav kodēts HTML (vai kādā no tā variantiem), kas bieži izraisa bojātas hipersaites un trūkstošus attēlus. Turklāttīmekļa rāpuļprogramma nevar arhivēt "bāreņu lapas", kas nesatur saites uz citām lapām. Īpaši noteikumi, kas reglamentē "Wayback Machine" rāpuļprogrammu, var sekot tikai iepriekš noteiktam hipersaišu skaitam, pamatojoties uz iepriekš iestatītu dziļuma ierobežojumu, tāpēc tā nevar arhivēt katru hipersaiti katrā lapā.[12][42][43]
Daži īpašnieki savā tīmekļa vietnē ievieto robots.txt failu, kas parasti novērš "Wayback Machine" tās atklāšanu un arhivēšanu. Turklāt tīmekļa vietņu īpašnieki var arī tiešā kontaktā pieprasīt, lai viņu lapas tiktu izslēgtas no arhīva.[43]