Movatterモバイル変換

Webarchivierung

aus Wikipedia, der freien Enzyklopädie

Webarchivierung bezeichnet das Sammeln und dauerhafte Ablegen vonNetzpublikationen mit dem Zweck, in der Zukunft Öffentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu können. Ergebnis des Vorgangs ist einWeb-Archiv.

Die größte internationale Einrichtung zur Webarchivierung ist dasInternet Archive in San Francisco (USA), das sich als Archiv des gesamten World Wide Web versteht. Staatliche Archive und Bibliotheken in vielen Ländern unternehmen Anstrengungen zur Sicherung der Netzüberlieferung in ihrem Bereich.

Die deutschenArchivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags läuft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag derDeutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt. Auch die Bundesländer planen, ihrePflichtexemplar-Gesetze in diesem Sinne zu ändern, oder haben die Änderung bereits vollzogen.

Archivierungsziele

[Bearbeiten |Quelltext bearbeiten]

Webarchivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Präsenzen in systematischer Form abzubilden. Hierfür sind eine übergreifende Sammlungspolitik, ein Auswahlverfahren und die Häufigkeit der Archivierung vorab zu klären.

Eine archivierte Website sollte mit allen multimedialen Funktionen (HTML-Code,Stylesheets,JavaScript, Bilder und Video) auf Dauer erhalten werden. Der späteren Beschreibung, Nutzung und Erhaltung dienenMetadaten wieProvenienz, Übernahmezeitpunkt,MIME-Type und Umfang der Daten. Die Metadaten sichernAuthentizität undIntegrität der digitalen Archivalien.

Nach der Übernahme sind technische und juristische Vorkehrungen zu treffen, um eine ständige öffentliche Zugänglichkeit zu garantieren und eine nachträgliche Veränderung der Archivalien zu verhindern.^[1]

Begrifflichkeiten

[Bearbeiten |Quelltext bearbeiten]

Original Resource: Eine originale Quelle, die aktuell im Internet vorhanden ist oder vorhanden sein sollte und für die ein Zugriff auf einen früheren Zustand benötigt wird.^[2]^[3]
Memento: EinMemento einer originalen Quelle ist eineRessource, die den originalen Zustand einer Quelle zu einem definierten Zeitpunkt kapselt.^[2]^[3]
TimeGate: EinTimeGate ist eine Ressource, die auf Basis eines vorgegebenen Datums und einer Zeitangabe jenes Memento findet, welches dieser zeitlichen Vorgabe am besten entspricht.^[2]^[3]
TimeMap: EineTimeMap ist eine Ressource, welche eine Liste aller Mementos ausgibt, die für die originale Quelle je angelegt wurden.^[2]^[3]

Auswahlverfahren

[Bearbeiten |Quelltext bearbeiten]

Unspezifisch: Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben. Das Verfahren funktioniert wegen des großen Speicherbedarfs nur bei kleineren Domains (netarkivet.dk).
Auswahlliste: Eine Liste von Institutionen wird vorab festgelegt. Die Stabilität der mit den Institutionen verbundenen URLs ist regelmäßig zu prüfen.
Nutzung von Zugriffsstatistiken: In Zukunft ist ein „intelligentes“Harvesting (deutsch „Ernten“) denkbar, das aufgrund von Zugriffszählungen diejenigen Teile des Web (oder einer Auswahl) archiviert, die besonders hohe Zugriffsraten aufweisen.

Übernahmemethoden

[Bearbeiten |Quelltext bearbeiten]

Remote harvesting

[Bearbeiten |Quelltext bearbeiten]

Die üblichste Archivierungsmethode ist die Nutzung einesWebcrawlers. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt. Genauer betrachtet bedeutet das einrekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmäßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschränkungen (Abbruchbedingungen) hinsichtlich Tiefe,Domain und der zu archivierenden Dateiarten möglich.

Bei größeren Projekten kommt hierbei der Bewertung von Webseiten zurURL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges können sich unter Umständen sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach demFIFO-Verfahren oder alsPrioritätswarteschlange abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenenHeap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorität durch neue Einträge ersetzt werden.

Die Ausgangsstruktur auf dem Server lässt sich allerdings im Archiv nur selten exakt nachbauen. Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschließen zu können, bietet es sich an, vorab eine Analyse der Webseite durchzuführen. Dies verdoppelt zwar in den meisten Fällen den Datenverkehr, verkürzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich.^[4]

Beispiele für Webcrawler sind:

Heritrix
HTTrack
Offline Explorer

Archivierung desHidden Web

[Bearbeiten |Quelltext bearbeiten]

Das Hidden Web oderDeep Web bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website repräsentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch ändert sich das Web ständig und es erscheint, als würde dieses eine unendliche Größe besitzen. Zur Übernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist aufXML beruht. Für einen solchen Zugang sind die ToolsDeepArc (Bibliothèque nationale de France) undXinq (National Library of Australia) entwickelt worden.

Transactional archiving

[Bearbeiten |Quelltext bearbeiten]

Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites. Es ist für Einrichtungen von Bedeutung, die aus rechtlichen Gründen einen Nachweis über ihre Nutzung zu führen haben. Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver.

Webarchivierung in Deutschland

[Bearbeiten |Quelltext bearbeiten]

Auf Bundesebene hat die Deutsche Nationalbibliothek (DNB) seit 2006 den gesetzlichen Auftrag zur Webarchivierung. Seit 2012 werden Webseiten thematisch und bei bestimmten Ereignissen archiviert, also selektiv und nicht vollumfänglich. Die DNB arbeitet dabei mit einem externen Dienstleister zusammen. Außerdem wurden 2014 bisher einmalig alle DE-Domainsgecrawlt. Der Zugriff auf das Webarchiv erfolgt hauptsächlich in den Lesesälen.^[5]

Neben der Webarchivierung der DNB gibt es in verschiedenen Bundesländern Initiativen:

Baden-Württemberg: Das Baden-Württembergische Online-Archiv (BOA) sammelte bis 2019 digitale Publikationen und ausgewählte Webseiten.^[6] Seit 2020 benutzt das Landesarchiv Baden-Württemberg dasDIMAG-Modul DIWI, für die bibliothekarischen Aufgaben hat das Bibliotheksservice-Zentrum den Dienst Archive-It desInternet Archive beauftragt.
Bayern: DieBayerische Staatsbibliothek sammelt seit 2010 ausgewählte Webseiten.^[7]^[8]
Berlin: DieZentrale Landesbibliothek Berlin baut seit 2024 ein Webarchiv mit verschiedenen Webseitensammlungen auf.^[9]
Nordrhein-Westfalen: Die nordrhein-westfälischen Landesbibliotheken (Landesbibliotheken inBonn,Düsseldorf undMünster) archivieren seit 2024 auch Webseiten mit Bezug zu Nordrhein-Westfalen.^[10]
Rheinland-Pfalz: DieRheinische Landesbibliothek sammelt seit 2003 im Projekt edoweb ausgewählte Webseiten.^[11]
Sachsen: DieSächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden baut seit 2024 ein eigenes Webarchiv auf. Technische Grundlage bildet der Service „Archive-It“ desInternet Archive.^[12]

Außerdem gibt es in Deutschland weitere Webarchivierungsinitiativen beispielsweise vonparteinahen Stiftungen, vomSWR, von derDeutschen Post oder vom Biotechnologie-/PharmaunternehmenAbbvie.

Siehe auch

[Bearbeiten |Quelltext bearbeiten]

Compliant Transaction Recording
Content-Lifecycle
Elektronische Archivierung
Langzeitarchivierung
nestor – Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen in Deutschlande.V.
Open Archives Initiative
Web ARChive

Umsetzungen

[Bearbeiten |Quelltext bearbeiten]

Die „Wayback Machine“ desInternet Archives
Archive.today
DIMAG
WebCite
Google-Cache (Die letzte Version einer Webadresse in der für Google-Server optimierten Variante wird für einige Wochen bereitgestellt)

Weblinks

[Bearbeiten |Quelltext bearbeiten]

Time Travel (Metasuche in ca. 25 Internet-Archiven)
Gyo/Megalodon (Japanische Metasuche in Internet-Archiven)
International Internet Preservation Consortium (IIPC) – Internationales Konsortium mit der Aufgabe, Informationen und Wissen aus dem Internet für künftige Generationen zu übernehmen, zu erhalten und zugänglich zu machen
International Web Archiving Workshop (IWAW) – Jährlich stattfindender Workshop zur Webarchivierung
Digital Collections and Programs. Library of Congress.
Web Archiving. Library of Congress.
Web archiving bibliography. tuwien.ac.at; Literaturliste zur Webarchivierung.
Web archiving discussion list. cru.fr; Diskutiert technische, organisatorische und rechtliche Fragen der Webarchivierung.
Literatur von Michael L. Nelson – wissenschaftliche Artikel auf dblp.uni-trier.de

Einzelnachweise

[Bearbeiten |Quelltext bearbeiten]

↑Steffen Fritz: Rewriting History. (PDF) with WARC files. Januar 2016, archiviert vom Original (nicht mehr online verfügbar) am 9. November 2017; abgerufen am 9. November 2017 (englisch).
↑^a^b^c^dRFC:7089 –HTTP Framework for Time-Based Access to Resource States – Memento. (englisch).
↑^a^b^c^dMemento Guide: Introduction. Abgerufen am 5. Oktober 2018 (englisch).
↑Steffen Fritz:Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten. In:ABI Technik. Nr. 2, 2015, S. 117–120.doi:10.1515/abitech-2015-0015
↑Tobias Steinke:Das deutsche Internet archivieren? Zwischen selektivem Ansatz und .de-Domain-Crawl. Deutsche Nationalbibliothek, 26. Juni 2014 (dnb.de [PDF]).
↑Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf:Zum Stand der Webarchivierung in Baden-Württemberg. In:Bibliotheksdienst.Band 51,Nr. 6, 1. Juni 2017,ISSN 2194-9646,S. 481–489,doi:10.1515/bd-2017-0051 (degruyter.com [abgerufen am 24. März 2020]).
↑Tobias Beinert:Webarchivierung an der Bayerischen Staatsbibliothek. In:Bibliotheksdienst.Band 51,Nr. 6, 1. Juni 2017,ISSN 2194-9646,S. 490–499,doi:10.1515/bd-2017-0052 (degruyter.com [abgerufen am 24. März 2020]).
↑Workflow Web-Archivierung in der Langzeitarchivierung an der Bayerischen Staatsbibliothek | BABS. Abgerufen am 24. März 2020.
↑Webarchivierung. Zentral- und Landesbibliothek Berlin, abgerufen am 6. Juni 2025.
↑Webarchivierung. Landesbibliotheken NRW, abgerufen am 6. Juni 2025.
↑Edoweb: Rheinland-pfälzischer Archivserver für elektronische Dokumente und Websites. Abgerufen am 24. März 2020.
↑Archivierung von Websites. Sächsische Landesbibliothek — Staats- und Universitätsbibliothek Dresden (SLUB), abgerufen am 6. Juni 2025.

Abgerufen von „https://de.wikipedia.org/w/index.php?title=Webarchivierung&oldid=263106218“

Kategorien:

[8]ページ先頭