DasInternet Archive inSan Francisco ist eingemeinnütziges Projekt, das1996 vonBrewster Kahle gegründet wurde und seit2007 den offiziellen Status einer Bibliothek hat.[1][2] Gestartet wurde es als reinesWebarchiv, bei dem man mit der sogenanntenWayback Machine archivierteWebsites betrachten kann. Schon von1999 an wurde es um weitere Archive erweitert, sodass es nunmehr einedigitale Bibliothek ist, die bedeutende Sammlungen von Texten und Büchern, Audiodateien, Videos, Bildern und Software umfasst. Das Internet Archive hat sich dieLangzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht und legt dabei auch Wert auf Zugangsmöglichkeiten für blinde oder anders eingeschränkte Nutzer.[3] Beispielsweise wird auch dieWikipedia archiviert. Die erste Speicherung der deutschen Wikipedia ist vom 21. September2002.[4]
Neben der Funktion als Archiv versteht sich das Internet Archive auch alsAktivist für ein offenes und freies Internet sowie den Erhalt und die Verbreitunggemeinfreier Werke.[5]
Von 1999 an wurde durch die Aufnahme derPrelinger Archives und später weiterer Sammlungen das Ziel auf eine umfassende frei zugängliche Bibliothek erweitert.
Das Archiv ist vom US-BundesstaatKalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.[7]
Veranlasst durch diePräsidentschaftswahl vom 8. November 2016 rief das Internetarchiv zu Spenden auf, um eine permanent aktualisierte Kopie des Archives inKanada zu hinterlegen.[8] Im Juni 2022 wurde das dortige Hauptquartier inVancouver eröffnet.[9]
Anlässlich des 25. Jahrestags seines Bestehens veröffentlichte das Internet Archive am 30. September2021 die „Wayforward Machine“; einedystopische Website, welche ein starkzensiertes Internet im Jahre 2046 darstellt.[10]
Das Webarchiv derWayback Machine enthielt Ende 2023 mehr als 839 Milliarden Webseiten.[6]
Am 7. Oktober2025 wurde die Archivierung dereinbillionsten Webseite verkündet und gefeiert.[11]
Das Internet Archive finanziert sich durch Spenden und Zuwendungen diverser Stiftungen, Institute und Vereinigungen aus den Bereichen Bildung, Forschung, Wissenschaften etc. Im April 2019 wurden vom Internet Archive folgende Geldgeber angegeben:Andrew W. Mellon Foundation, Council on Library and Information Resources, United Nations Democracy Fund,Federal Communications Commission Universal Service Program for Schools and Libraries (E-Rate), Institute of Museum and Library Services (IMLS),Knight Foundation,Laura and John Arnold Foundation,National Endowment for the Humanities (Office of Digital Humanities),National Science Foundation, The Peter and Carmen Lucia Buck Foundation, The Philadelphia Foundation, Rita Allen Foundation.[6]
Das Internet Archive betreibt seine eigeneIT-Infrastruktur. EinSpiegelserver der Daten von San Francisco befindet sich unter anderem in der ägyptischenBibliotheca Alexandrina. Letztere wurde in seiner Geschichte schwer beschädigt und verlor große Mengen an Wissen. Das Internet Archive setzt hier ein symbolische Zeichen für die Bewahrung von Wissen.
Eine weitere Kopie ist inAmsterdam,Niederlande seit Juni 2004 (ursprüngliche Speicherkapazität 100 TB) in Betrieb und 2021 erneuert wurde.[12]
Für 2021 berichtete das Projekt, dass die Daten in vierRechenzentren auf 28.000Festplatten gespeichert würden. Im Dezember 2021 erreichte die Sammlung eine Größe von über 212Petabytes.[12]
Das Internet Archive bemüht sich, auch Inhalte mit veralteter Web-Technik, die von modernen Plattformen nicht mehr unterstützt werden, abrufbar zu halten. So benutzt es bereits seit 2020 den EmulatorRuffle, umFlash-Animationen in seiner Softwarebibliothek darzustellen,[13] was inzwischen auch auf archivierte Websites ausgeweitet wurde, die Teile ihrer Inhalte mit Flash darstellen. Diese können mit aktuellen Browserversionen genutzt werden und es ist nicht nötig, ein Plugin zu installieren, da die Animationen serverseitig emuliert werden.[14]
Das Internet Archive betreibt verschiedene Dienste für unterschiedliche Medienformate. Im Folgenden wird eine Übersicht gegeben.
Internet Archive in San Francisco (1996–2009)Neue Zentrale des Internet Archive seit November 2009 in einer ehemaligen „Christian Science“-Kirche (2008)Internet Archive in derBibliotheca Alexandrina. Hinter den Glasscheiben stehen die Racks mit den Archivcomputern. (2008)Video einer Vorführung der Digitalisierungstechnik des Internet Archive von Brewster Kahle, 29. März 2013
Das Audioarchiv enthält über 13,5 MillionenTonaufnahmen (Stand: Juli 2025).[15]Diese reichen von Hörfunksendungen undRadio-Features überHörbücher,Dichterlesungen, Live-Konzertmitschnitten bis hin zu Musik, die von Benutzern hochgeladen wurde. Das Archiv kann auch genutzt werden, umPodcasts zu veröffentlichen.[16] Das Archiv enthält auch eine Vielzahl von digitalisierten altenSchellackplatten aus der ersten Hälfte des 20. Jahrhunderts. Deswegen wurde das Internet Archive 2023 von der Musikindustrie auf Schadensersatz von bis zu 412 Millionen US-Dollar verklagt.[17]
DieLibrary of Congress hat im Dezember 2006 sechs Ausnahmen des US-Copyright-GesetzesDigital Millennium Copyright Act gewährt.[19] Das Internet Archive darf somitSoftware oder‑Spiele, welche zuAbandonware[20] wurden, mit der Absicht der Erhaltung speichern, wenn die Originalhardware, ‑formate oder ‑technik veraltet sind. 2013 begann das Internet Archive damit, Spieleklassiker als spielbaresWebbrowser-Streaming viaMESS-Emulation anzubieten,[21] z. B. dasAtari-2600-VideospielE.T. the Extra-Terrestrial.[22] Vom 23. Dezember 2014 an werden zu Lehr- und Forschungszwecken[23] mithilfe vonDOSBox-Emulation im Browser tausende von klassischenDOS-Computerspielen und -programmen präsentiert.[24][25][26][27] Bisher wurden 1,2 Millionen Software-Titel archiviert,[28] darunter 16.000 PC-Spiele (Stand: Juli 2025).[29]
In demMillion Book Project werden durch das Internet Archive Bücher, die durch das Ablaufen desCopyrights (US-amerikanischesUrheberrecht) oder aus anderen Gründengemeinfrei geworden sind, digitalisiert und zum Herunterladen zur Verfügung gestellt. DieDigitalisate sind Teil derOpen Library. Inzwischen sind mehr als 44,5 Millionen Bücher und Texte archiviert (Stand: Juli 2025).[30]
Es werden mehrere Scan-Center (2009 insgesamt zwölf) unterhalten, zum Beispiel inRichmond. Gescannt wird per Auftrag, berechnet werden pro Seite 14US-Cent (Stand 2023).[31] Die Auftraggeber, meist Bibliotheken, erhalten das Digitalisat, eine perOCR erzeugte Textdatei, einepersistente Internetadresse sowie die Möglichkeit, die Digitalisate auf den Servern des Internet Archivs zu speichern.[32] Weiterhin bestehen Kooperationsvereinbarungen mit selbst digitalisierenden Bibliotheken für einzelne Dienste, wie OCR und redundantes Hosting.
Um die Glaubwürdigkeit von referenzierten Zitaten aus Büchern in derWikipedia zu verbessern, gibt es seit 2019 eine Kooperation zwischen der Wikipedia und dem Internet Archive. Es wurde damit begonnen, den Quellenangaben in Wikipedia-Artikeln digitale Scans der zitierten Bücher anzufügen.[33] Auf jeweils zwei Seiten wird die fragliche Passage dargestellt.
Im September 2020 stellte das Internet Archive eine Initiative zur Archivierung und Bereitstellung vonOpen-Access-Publikationen unter dem Namen „Internet Archive Scholar“ vor.[34]
Die Aufnahme derPrelinger Archives[35] im Jahr 1999 war die erste über die Webarchivierung hinausgehende Erweiterung des Internet Archive. Es enthält Millionen Videos undFilme, die unter freier Lizenz oder Public Domain stehen. Es wird hier auch an einem Archiv fürFernsehsendungen gearbeitet.
Unter der Rubrik „Video“ bietet das Internet Archive über 14 Millionen Videos (Stand: Juli 2025) an.[36] Die Unterrubrik „Movies“ enthält über 88.000 Videodateien, darunter zahlreiche alte Filmklassiker.Trailer und Kurzfilme gehören ebenso zum Angebot wie diversePropagandafilme aus der Zeit desZweiten Weltkrieges.[37]
Die mehr als 3500Stummfilme beinhalten unter anderem 443 Filme in der Rubrik „Silent Hall of Fame“ mit frühen Werken vonCharlie Chaplin oderBuster Keaton, aber auch deutschen Regisseuren wieRobert Wiene (vertreten u. a. mitDas Cabinet des Dr. Caligari von 1920).Ergänzt wird das Spielfilmangebot durch frühe Dokumentarfilme, die z. B. die Ankunft europäischer Einwanderer 1906 aufEllis Island zeigen (vonBilly Bitzer).[38] In der separat gelisteten Kollektion vonGeorges Méliès sind natürlich dessen bekannte Genre-Klassiker vertreten, wie der 16-minütige StummfilmDie Reise zum Mond von 1902.[39]
Außerdem gibt es über 8900 Filme und Videos aus dem ThemenbereichSport,[44] 6700 animierte Filme und Kurzfilme,[45] sowie über 18.300 Inhalte aus den Themenbereichen Kunst und Musik[46] und über 136.000 visuelle Beiträge zuReligion undSpiritualität.[47]
Logo der Wayback MachineWachstum des gesicherten Webseitenbestandes. Der Knick um 2016 geht auf ein verändertes Zählkriterium zurück
DieWayback Machine („Take Me Back“–Bring mich zurück) ist einOnlinedienst, mit dem man die gespeicherten Webseiten in verschiedenen Versionen abrufen kann. Die zu speichernden Seiten wurden ursprünglich über den DienstAlexa Internet – seit 1999 ein Tochterunternehmen vonAmazon.com – ausgewählt, bis dieser Dienst am 1. Mai 2022 eingestellt wurde.[48] Alle bei Wayback Machine hinterlegtenURLs werden regelmäßig aufgerufen und archiviert. Man kann eine noch nicht gespeicherte Internet-Ressource auch von Hand, durch Suchen nach der Seite und anschließendes Bestätigen der Aufnahme, aufnehmen lassen (Dateiinhalte, z. B.JPG-Bilder, werden ohne vorherige Nachfrage gespeichert).
Der Gesamtumfang betrug im November 2009 etwa 150 Milliarden Seiten und wuchs bis Juli 2023 auf über 821 Milliarden Seiten an. Im Oktober 2025 erreichten die archivierten Seiten einen Gesamtumfang von über eine Billion.[49]
MitArchive-It wurde 2006 ein weiteres Webarchiv-Service für individuelle Webarchivierung bereitgestellt. Hierbei haben Institutionen und Einzelpersonen die Möglichkeit, digitale Sicherungen ihrer Sammlungen anzulegen und die Freigabe der Daten selbst festzulegen. Archive-It verfügt über 400 Partner aus 16 Staaten weltweit, wobei sich diese vor allem aus Universitäten, staatlichen Archiven, Museen und Kunstbibliotheken, öffentlichen Bibliotheken sowie weiterenöffentlich-rechtlichen Institutionen undNGOs zusammensetzen. Archive-It bietet für teilnehmende Partner eineVolltextsuche auf ihre Inhalte, aber auch die Möglichkeit, mit Metadaten angereicherte strukturierte Datensätze für Forscher zu exportieren.[50]
Da während derCOVID-19-Pandemie viele Büchereien geschlossen waren, eröffnete das Internet Archive im März 2020 dieNational Emergency Library: Für 1,4 Millionen digitalisierte Bücher wurden die Beschränkungen im digitalen Verleih aufgehoben, sodass dasselbe Exemplar von mehreren Benutzern gleichzeitig ausgeliehen werden konnte.[51] Eine Reihe amerikanischer Verlage verklagten daraufhin das Projekt. Sie verlangten für 127 mutmaßlicheUrheberrechtsverletzungen etwa 19 Millionen US-Dollar Schadenersatz, was etwa dem Jahresbudget des Internet Archive entspricht. DieElectronic Frontier Foundation (EFF) kritisierte, die Klage der Verlage ziele darauf ab, das Ausleihen in Bibliotheken zu kriminalisieren.[52] Im März 2023 urteilte derUnited States District Court for the Southern District of New York, dass die Aktion nicht von derFair-Use-Doktrin gedeckt gewesen sei. Das Internet Archive und die Verlage einigten sich auf einenVergleich in unbekannter Höhe.[53] Im September 2023 legte das Internet Archive Berufung gegen die Entscheidung ein.[54]
In der Woche ab dem 27. Mai 2024 wurde das Internet Archive durch mehrereDistributed-Denial-of-Service-Attacken (DDoS) mehrfach für teilweise mehrere Stunden lahmgelegt.[55][56][57][58] Am 9. und 10. Oktober 2024 wurde die Plattform erneut Ziel von zweiDDoS-Attacken. In diesem Zuge wurde bekannt, dass durch eine Cyberattacke E-Mail-Adressen und weitere Benutzerdaten von 31 Millionen angemeldeten Benutzern erbeutet wurden.[59] Das Internet Archive wurde daraufhin vorübergehend vom Netz genommen, um Sicherheitsupdates durchzuführen. Kommentare sehen die Ursache teilweise in der seit Jahren prekären finanziellen Lage des Internet Archive, wegen der das System nicht wie nötig gewartet werden könne, was die Angreifbarkeit erhöhe.[60] Der Cyberangriff wurde von den Tätern selbst im Webarchiv in einem Pop-up-Fenster bekanntgegeben: „Haben Sie nicht auch das Gefühl, dass das Internet Archive auf Stelzen rennt und konstant vor einer katastrophalen Sicherheitspanne steht?“[61]
Alexis Rossi:Föderale Vielfalt – globale Vernetzung: Strategien der Bundesländer für das kulturelle Erbe in der digitalen Welt. Hrsg.: Ellen Euler, Stiftung Preußischer Kulturbesitz (= Kulturelles Erbe in der digitalen Welt). 1. Auflage. Hamburg University Press, Verlag der Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky, Hamburg 2016,ISBN 978-3-943423-34-1, Internet Archive,S.224–237 (d-nb.info [PDF;6,1MB] Alternativ;ISBN 978-3-943423-35-8 [E-Book];ISBN 978-3-943423-36-5 [PDF]).
Niels Brügger, Ralph Schroeder (Hrsg.):The Web as History. Using Web Archives to Understand the Past and the Present. UCL Press, London 2017,ISBN 978-1-911307-55-6 (englisch).
↑Tilman Baumgärte: Timothy Leary, der Games-Entwicklerl. In: zeit.de.Zeit Online, 14. November 2013, abgerufen am 14. November 2013: „Wie erhält man historische Computerspiele? Das Internet-Archive streamt Dutzende Klassiker, in New York werden Games von Timothy Leary für die Forschung aufgearbeitet – Weil das Internet Archive die Spiele ‚streamt‘, man sie also nicht auf den eigenen Rechner lädt, verletzt man auch das Urheberrecht nicht, wenn man die Programme benutzt.“
↑Jason Scott: Each New Boot a Miracle. ASCII by Jason Scott. In: ascii.textfiles.com. 23. Dezember 2014, abgerufen am 25. September 2022 (amerikanisches Englisch).