2001 року засновникиInternet ArchiveБрюстер Кале іБрюс Джилліат[en] запустили проєкт Wayback Machine, щоб розв'язати проблему зникнення контенту вебсайтів щоразу, коли їх змінюють або закривають[4]. Сервіс дозволяє користувачам переглядати архівні версіївебсторінок, як вони змінювались з часом, які в архіві називаються «тривимірним індексом»[5]. Кале і Джилліат створили сервіс, сподіваючись заархівувати весь інтернет і забезпечити «загальний доступ до всіх знань»[6].
У травні 1996 року Wayback Machine почала архівуватикешовані вебсторінки з метою через п'ять років зробити послугу доступною громадськості[9]. Від 1996 до 2001 року інформація зберігалася намагнітних стрічках, а Кале зрідка дозволяв дослідникам і науковцям під'єднуватись до громіздкоїбази даних[10]. 2001 року, коли архівові виповнилося п'ять років, відбулась церемонія його відкриття громадськості вУніверситеті Каліфорнії (Берклі)[11]. На час запуску Wayback Machine вона вже містила понад 10 мільярдів архівованих сторінок[12].
Нині дані зберігаються на великомукластері обчислювальних вузлівLinux компанії Internet Archive[6]. Він час від часу заново відвідує і архівує нові версії вебсайтів (див. технічні дані нижче)[13]. Сторінки також можна архівувати вручну, вводячи їхURL-адреси в поле пошуку, за умови, що вебсайти дозволяють пошуковому роботу Wayback Machine просканувати їх і зберегти дані[9].
Wayback Machine за допомогою спеціальногопошукового робота сканує Інтернет і завантажує всі загальнодоступні вебсторінки, ієрархіюGopher, електронну дошку оголошеньUsenet, а також завантажуване програмне забезпечення[14]. Ці роботи можуть відсканувати не всю доступну в Інтернеті інформацію, оскільки доступ до значної частини даних обмежують власники сайтів, або ж ці дані зберігається в недоступних базах даних. Щоб подолати неузгодженості частково кешованих вебсайтів,2005 року компанія Internet Archive створила сайт Archive-It.org як засіб, що дозволяє установам і творцям контенту за власним бажанням збирати і зберігати зібрання цифрового контенту та створювати цифрові архіви[15].
Частота зроблених знімків сторінок змінюється в залежності від вебсайту[13]. Сайти у «Worldwide Web Crawls» вміщені в «список сканувань». Один сайт архівується раз за сканування[13]. Сканування може тривати кілька місяців або навіть років у залежності від розміру[13]. Наприклад, «Wide Crawl Number 13» розпочався 9 січня 2015 року й завершився 11 липня 2016 року[17]. Однак, в один і той самий час може відбуватись кілька сканувань, і сайт може бути вміщено в понад один список сканувань, тож частота сканування сайтів змінюється в широких межах[13].
Разом з розвитком технології впродовж років зростала й місткість сховища Wayback Machine.2003 року, через два роки після того, як доступ став публічним, Wayback Machine зростала зі швидкістю 12 терабайтів на місяць. Дані зберігаються на зробленій на замовлення системі стелажуванняPetaBox[en], розробленій співробітниками інтернет-архіву. Перший стелаж на 100ТВ повністю увійшов у дію вчервні2004 року, хоча невдовзі стало зрозуміло, що потрібно набагато більше обсягу пам'яті, ніж він має[18][19].
Нова, поліпшена версія Wayback Machine, з оновленим інтерфейсом і новішим покажчиком архівних матеріалів, стала доступною для публічного тестування у2011 році[22]. Уберезні того самого року на форумі Wayback Machine було сказано, що «бета-версія нової Wayback Machine має повніший і актуальніший покажчик всіх відсканованих матеріалів до 2010 року, й продовжить регулярно оновлюватися. Покажчик, який управляв старою Wayback Machine, має небагато матеріалів після 2008 року, і жодних його подальших оновлень не заплановано, оскільки цього року його припинять використовувати»[23]. Також 2011 року інтернет-архів встановив свою шосту пару стелажів PetaBox, що дозволило збільшити місткість Wayback Machine на 700 терабайт[24].
У січні 2013 року Internet Archive оголосила про нову віху — 240 мільярдів відсканованих URL-адрес[25]. У жовтні 2013 року компанія оголосила про введення функції «Save a Page»[26], що дозволяє користувачам Інтернету заархівувати вміст URL-адреси і швидко створюєпостійне посилання на відміну від попередньої функціїliveweb. Це стало загрозою зловживань з боку сервісу якхостингу шкідливих двійкових файлів[en][27][28].
Станом на грудень 2014 Wayback Machine містила 435 мільярдів вебсторінок обсягом майже дев'ять петабайтів, і зростала приблизно на 20 терабайтів щотижня[29][12][30].
Станом на липень 2016 Wayback Machine містила близько 15 петабайт даних[31].
Станом навересень2018 року Wayback Machine містила понад 25 петабайтів даних[32][33].
Станом на грудень 2020 року Wayback Machine містила понад 70 петабайтів даних[34].
За період з жовтня 2013 року по березень 2015 року в глобальному рейтингу Alexa сайт Wayback Machine опустився зі 163-го[35] на 208-ме місце[36]. У березні2019 сайт був на 244-му місці[37].
Історично, Wayback Machine поважав стандарт винятків для роботів (Robots.txt), визначаючи коли сайт можна сканувати; або ж, якщо вже робот його обійшов, чи ці архіви будуть у відкритому доступі. Власники вебсайту мають можливість зробити його недоступним для Wayback Machine за допомогою robots.txt. Правила robots.txt застосовуються заднім числом; якщо власник сайту заблокував для інтернет-архіву доступ до нього, то всі заархівовані раніше сторінки з цього домену також одразу ж стають недоступними. Крім того, працівники Internet Archive заявили, що «іноді власник сайту зв'язується з нами і просить зупинити сканування та архівацію сайту. Ми виконуємо ці запити»[40]. Крім того, на сайті написано: «Internet Archive не зацікавлений у скануванні вебсайту та інших інтернет-документів, або наданні доступу до них, якщо власники не хочуть, щоб вони були в зібранні»[41][42].
Політика винятку заднім числом Wayback Machine частково ґрунтується нарекомендаціях з управління запитами на вилучення і збереження архівної цілісності (англ.Recommendations for Managing Removal Requests and Preserving Archival Integrity), опублікованихШколою інформаційного управління і систем вУніверситеті Каліфорнії (Берклі) у2002 році, які дають власникові сайту право заблокувати доступ до архіву сайту[43]. Wayback дотримується цієї політики, щоб за можливості уникнути дорогих судових розглядів[44].
Політика винятку заднім числом Wayback почала послаблюватися2017 року, коли він перестав зважати на файли robots.txt на американських урядових і військових вебсайтах як для їх сканування, так і показу відсканованих вебсторінок. Станом наквітень 2017 Wayback ігнорує robots.txt в ширших межах, не тільки для урядових сайтів США[45][46][47][48].
Від 2001 року, коли Wayback Machine стала доступною громадськості, науковці вивчали як способи, якими вона зберігає і збирає дані, так і самі сторінки, що вже містяться в її архіві. Станом на 2013 рік науковці написали близько 350 статей про Wayback Machine, здебільшого в галузяхінформаційних технологій,бібліотекознавства тасуспільних наук. Представники суспільних наук скористалися Wayback Machine, щоб проаналізувати, як розвиток вебсайтів, починаючи з середини 1990-х років і дотепер вплинув на темпи зростання компаній[12].
Коли Wayback Machine архівує сторінку, вона зазвичай вміщує більшістьгіперпосилань, зберігаючи ці посилання активними, коли вони запросто могли бути порушені нестабільністю Інтернету.Індійські вчені вивчали здатність Wayback Machine зберігати гіперпосилання в наукових онлайн-публікаціях і визначили, що вона зберігає трохи більш як половину з них[49].
Журналісти використовують Wayback Machine, щоб переглядати мертві сайти, застарілі новини і зміни в змісті сайту. Його зміст використовують, щоб притягатиполітиків до відповідальності й викривати брехню в зображенні подій на полі бою[50]. 2014 року заархівована з соціальної мережі сторінкаІгоря Гіркина засвідчила, як він хвалиться, що його бійці збили нібито український військовий літак. Коли ж стало відомо, щонасправді це цивільний літак Малайзійських авіаліній, Гіркін видалив пост і звинуватив українських військових у знищенні літака[50][51].Марш за науку в березні 2017 року розпочався з обговорення наReddit, яке показало, що хтось відвідав Archive.org і виявив, що з сайтуБілого дому вилучено всі посилання назміну клімату. У відповідь один з користувачів написав: «Має бути хода науковців наВашингтон»[52][53][54].
Крім того, сайт активно використовують дляверифікації, забезпечуючиредакторам Вікіпедії доступ до посилань і можливість створювати контент[55].
Попри свої можливості, Wayback Machine також має деякі обмеження. 2014 року затримка між скануванням вмісту сайтів і часом, коли він був доступним на Wayback Machine, становила шість місяців[56]. Станом налистопад 2018 року час затримки становив від 3 до 10 годин[57]. Wayback Machine не є «історичнимGoogle»; користувачі самі мають знати URL-адреси вебсайтів, які вони хочуть переглянути[58]. Існує функція «Site Search» (пошук сайту), яка дозволяє користувачам знайти сайт на основі слів, що описують сайт, а не слів, знайдених на самих вебсторінках[58].
Wayback Machine не містить усіх сторінок, коли-небудь створених, через обмеження своговебкраулера. Wayback Machine не може повністю архівувати вебсторінки, які містять інтерактивні функції, як-от Флеш-платформи і форми, написані наJavaScript, бо ці функції вимагають взаємодії з хост-сайтом. Вебкраулеру складно відсканувати все, що закодовано не вHTML (або одному з його варіантів), що часто призводить до зламаних гіперпосилань та відсутніх зображень. Через це вебкраулер не архівує «сторінок-сиріт», які не містять посилань на інші сторінки[59][58]. Краулер Wayback Machine може відсканувати лише наперед визначену кількість гіперпосилань, згідно з наперед заданим обмеженням глибини, тому він не може заархівувати всі гіперпосилання на кожній сторінці[16].
Деякі власники поміщають на свій сайтфайл robots.txt, який не дозволяє Wayback Machine знаходити та архівувати їх. Крім того, власники вебсайтів також можуть безпосередньо зв'язатися з Інтернет-архівом і просити, щоб їх сторінки було вилучено з архіву[59].
У справі 2009 рокуNetbula, LLC проти Chordiant Software Inc відповідач Chordiant подав клопотання, щоб Netbula на своєму сайті вимкнула файлrobots.txt, який змушував Wayback Machine заднім числом закривати доступ до попередніх версій сторінок, заархівованих з сайту Netbula, які, на думку Chordiant могли б свідчити на користь захисту[60].
Netbula заперечила проти цього клопотання на тій підставі, що відповідач звертався з проханням змінити сайт Netbula, а йому слід було безпосередньо зробити запит до Інтернет-архіву за доступом до заархівованих сторінок[61]. Проте, співробітник Internet Archive подав заяву під присягою, в якій підтримав дію Chordiant, заявивши, що він не може видати вебсторінки за допомогою інших засобів «без значного навантаження, витрат і перебоїв у його роботі»[60].
Суддя Говард Ллойд у Північному окрузі Каліфорнії, відділі Сан-Хосе, відхилив заперечення Netbula і наказав йому тимчасово вимкнути блокування robots.txt для того, щоб Chordiant отримав архівні сторінки[60].
У жовтні 2004 року у справіTelewizja Polska USA, Inc. проти Echostar Satellite, No. 02 °C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004) позивач, мабуть вперше в історії, намагався використати Wayback Machine як джерело допустимих доказів. Компанія Telewizja Polska є провайдеромTVP Polonia іEchoStar[en], яка управляєDish Network. До початку судового розгляду EchoStar вказала, що має намір запропонувати знімки Wayback Machine як доказ минулого змісту сайту Telewizja Polska. Компанія Telewizja Polska подалаКлопотання про нерозголошення[en], щоб завадити використанню знімків на тій підставі, що нібито цечутки і неперевірене джерело, але суддя Арландер, відхилив твердження Telewizja Polska, що нібито це чутки, й відмовив у клопотанніпро нерозголошення щодо вилучення доказів з процесу[62][63].
За умови виконання деяких додаткових вимог (наприклад, надання авторитетної заяви архівіста),Відомство з патентів і торгових знаків США[en] іЄвропейське патентне відомство приймають від Інтернет-архіву відмітки часу як доказ того, коли ця вебсторінка була доступна громадськості. Ці дані використовують для визначення, чи вебсторінку можна вважатиprior art, наприклад, під час розгляду заявки на патент[64].
Елісон Макріна, директорка Library Freedom Project, зазначає, що «хоча бібліотекарі глибоко цінують недоторканість приватного життя, ми також рішуче виступаємо проти цензури»[50].
Відомі окремі випадки, коли сайт закрив онлайн-доступ до матеріалів, через які «випадкові» люди опинились у небезпеці[50].
Серед інших загроз: стихійні лиха[67], знищення (дистанційне або фізичне), маніпуляція вмістом архіву (див. також:хакерська атака,резервне копіювання), проблематичне авторське право[68] і спостереження за користувачами сайту[69].
Кевін Воен підозрює, що в довгостроковій перспективі багатьох поколінь «майже нічого» не залишиться такого, щоб цим можна було практично скористатись, але «якщо збережеться наступність нашої технологічної цивілізації», то «значну частину голих даних можна буде знайти й дослідити»[70].
Власники Інтернет-архіву заявляють, що він побудований з розрахунком на тривалу перспективу[71]. Втім, автори статті у журналіThe Atlantic описують його роботу як "несамовите намагання вихопити дані перш ніж вони зникнуть, не маючи для цього якоїсь більш-менш надійної тривалої інфраструктури[72].
↑абвArora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip (5 травня 2015). Using the wayback machine to mine websites in the social sciences: A methodological resource.Journal of the Association for Information Science and Technology(англ.).67 (8): 1904—1915.doi:10.1002/asi.23503.ISSN2330-1635.
↑Rossi, Alexis (25 жовтня 2013).Fixing Broken Links on the Internet.archive.org. San Francisco, CA, US: Collections Team, the Internet Archive.Архів оригіналу за 7 листопада 2014. Процитовано 25 березня 2015.We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.
↑The VirusTotal Team (25 березня 2015).207.241.226.190 IP address information.virustotal.com. Dublin 2, Ireland:VirusTotal.Архів оригіналу за 14 липня 2014. Процитовано 25 березня 2015.2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe
↑Advisory provided by Google (25 березня 2015).Safe Browsing Diagnostic page for archive.org.google.com/safebrowsing. Mountain View, CA, US:Google.Архів оригіналу за 6 квітня 2015. Процитовано 25 березня 2015.2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).
↑Sampath Kumar, B.T.; Prithviraj, K.R. (21 жовтня 2014). Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs.Journal of Information Science(англ.).41 (1): 71—81.doi:10.1177/0165551514552752.ISSN0165-5515.