Indexierung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springenZur Suche springen

Dieser Artikel beschäftigt sich mit der Verschlagwortung.

AlsIndexierung (möglicherAnglizismus auchTagging), auchVerschlagwortung (Österreich, Bayern: Beschlagwortung) oderVerstichwortung, bezeichnet man die Zuordnung vonDeskriptoren zu einemDokument zurErschließung der darin enthaltenen Sachverhalte. Es lassen sich diekontrollierte Indexierung (mit einemThesaurus oderSchlagwortkatalog bzw.Notationen einerKlassifikation) und diefreie Indexierung bzw. freie Verschlagwortung (mit nicht vorgegebenen Deskriptoren) unterscheiden.

Inhaltsverzeichnis

Ziele und Herausforderungen

[Bearbeiten |Quelltext bearbeiten]

Als Mittel derKatalogisierung soll die Indexierung die Nutzung von verfügbarem Wissen (Bücher, Anleitungen etc.) ermöglichen. So zum Beispiel wird dieSuchbarkeit inKatalogen erleichtert, indem durch die Suche bestimmter Schlagwörter ein Werk auffindbar gemacht wird. Oder auch ähnliche Werke werden verfügbar, wenn gleiche Kategorien vergeben werden.[1] Formal ausgedrückt wird die Nutzung durch Personen und auch Maschinen „Erleichtert oder sogar erst ermöglicht“, da „die Informationsobjekte formal und inhaltlich aufbereitet worden sind“, welche vorher nur als reines „Wissen“ existierten.[2]

Zu einer „Diskussion der Qualität derMetadaten“ führen aktuelle Herausforderungen hinsichtlich derBestandserschließung fürBibliotheken, also die Katalogisierung zunehmender „unselbstständiger Literatur“ wie zum Beispiel Daten überAufsätze, als auch der Anstieg der Produktion neuerLiteratur.[3]

Methoden

[Bearbeiten |Quelltext bearbeiten]
Dieser Abschnitt ist nicht hinreichend mitBelegen (beispielsweiseEinzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst undgute Belege einfügst.

Nach verschiedenen Gesichtspunkten lassen sich jeweils unterschiedliche Indexierungsarten und -methoden unterscheiden:

Probleme derIndexierungskonsistenz gibt es sowohl bei maschinellen wie auch bei manuellen Indexierungen.[4]

Manuelle Indexierung

[Bearbeiten |Quelltext bearbeiten]

DieManuelle Indexierung,Intellektuelle Indexierung oderVerschlagwortung ist ein Verfahren derSacherschließung von Dokumenten, bei der einem Dokument repräsentativeSchlagwörter (engl. „Subjects“) durch einen Indexierer zugewiesen werden. Diese Zuweisung erfolgt auf Grundlage einer Analyse des Inhalts. Für die Inhaltsanalyse können unter anderem Titel, Zusammenfassungen und Kapitelüberschriften des Dokuments von besonderem Nutzen sein. Jedenfalls muss sichergestellt werden, dass wesentliche Informationen nicht übersehen werden. Nach der Analyse des Inhalts müssen angemessene Begriffe ermittelt werden, die den Inhalt des vorliegenden Dokuments wiedergeben. Die Begriffsermittlung kann durch Indexierungshilfen unterstützt werden. Nachdem die Begriffe, die den wesentlichen Inhalt des Dokuments wiedergeben, ermittelt wurden, müssen nun dieDeskriptoren vergeben werden. Diese kann man entweder dem Vokabular einerDokumentationssprache entnehmen (gebundenes Indexieren) oder aber selbst formulieren (freies Indexieren), falls keine Dokumentationssprache vorliegt.[5] Beim freien Indexieren muss der Indexierer eine konsistente Erschließung ohne Dokumentationssprache erreichen. Beim gebundenen Indexieren muss er hingegen die Dokumentbegriffe in eine Dokumentationssprache übersetzen. Die manuelle Indexierung wird von Experten mittels Indexierregeln, Terminologielisten und kontrollierten Vokabulars (Thesaurus) durchgeführt. Sie besitzt aber den Nachteil, dass sie aufwendig, langsam und teuer ist, ihre Qualität von der konsistenten Arbeitsweise des Personals abhängt und der vordefinierte Wortschatz statisch ist. Zudem muss der Benutzer das Indexierungsvokabular kennen, um Dokumente gezielt zu recherchieren. Eine begriffsorientierte Inhaltserfassung und eine große Variabilität im Ausdruck sind für die intellektuelle Indexierung essentiell.[6]

BeimGemeinschaftlichen Indexieren mit Hilfe vonSozialer Software spricht man auch vonTagging anstelle von Indexierung und vonTags anstatt von Deskriptoren.

Automatische Indexierung

[Bearbeiten |Quelltext bearbeiten]

Ein simples Verfahren derautomatischen Indexierung ist dieVolltextindexierung, bei der bis aufStoppwörter alle Wörter eines Textes in den Index aufgenommen werden. Möglicherweise werden Wörter mittelsStemming (dt.Reduktion) auf einen gemeinsamen Wortstamm zurückgeführt. Komplexere Methoden zur Analyse von Text und Sprachdaten sind hierbei Thema derComputerlinguistik.

Mit statistischen Indexierungsverfahren wird durch die Ermittlung von Worthäufigkeiten eine Auswahl getroffen und somit nur Wörter in den Index aufgenommen, die mit einer gewissen Frequenz im Text auftreten. Ein einfaches Verfahren der Termgewichtung ist die inverse Dokumenthäufigkeit. Bei diesem Verfahren wird die Häufigkeit eines Begriffs in einem Dokument ermittelt. Dieser Wert wird mit der Häufigkeit der Dokumente, in denen der Begriff vorkommt, ins Verhältnis gesetzt. So lässt sich leicht der Wert oder die Gewichtung des Begriffs alsDeskriptor ablesen. Die Gewichtung eines Begriffs ist höher, je weniger Dokumente mit diesem Begriff es im Archiv gibt und je häufiger der Begriff im zu indexierenden Dokument vorkommt. An der Häufigkeit des Begriffs kann man die Signifikanz ablesen. In diesem Dokument wird zum Beispiel häufig „Begriff“ verwendet, denn dieses Wort ist wichtig für das Thema. Nur: „Begriff“ ist ein zu weiterBegriff per se. Daran kann man sehen, dass allein an der Häufigkeit nicht erkannt werden kann, ob es ein guter oder schlechter Deskriptor ist. Nur im Zusammenspiel mit dem o. g. Gewichtungsverfahren lassen sich signifikante Deskriptoren erstellen.

Besonders beimBibliothekskatalog nennt man die automatische Indexerstellung – auch innerhalb mehrgliedrigerSchlagwortketten einer syntaktischen Indizierung, die bei einer manuellen Verschlagwortung durch Fachpersonal vergeben wurden (Schlagwortkatalog) –Verstichwortung, woraus derStichwortkatalog entsteht. Auch die automatische Extrahierung vonStichwörtern aus einem Volltext – etwa zur Indexerstellung – wird so genannt.

Zur Indexierung für online verfügbare Ressourcen wie Webseiten werden vonSuchmaschinen sogenannteWebcrawler eingesetzt.

Im Vergleich zu statistischen Methoden oder dem Einsatz künstlicher Intelligenz, bietet der Einsatz einerBeschreibungslogik zur indexierung den Vorteil, dass die Einteilung immer nachvollziehbar ist. So können einzelne Zuweisungen von Deskriptoren analysiert werden. Die Beschreibungslogik kann hier durch einenThesaurus beschrieben werden.[4]

Computergestützte Indexierung

[Bearbeiten |Quelltext bearbeiten]

Bei dercomputergestützten oder halbautomatischen Indexierung (auch Indizierung) werden Deskriptoren maschinell vorgeschlagen und manuell ausgewählt. Hierbei erfolgt die Indexierung durch Computer mit Vor- oder Nachbereitung durch Menschen bzw. in Interaktion mit Menschen.

Verschlagwortung von Bildern

[Bearbeiten |Quelltext bearbeiten]

Zur inhaltlichen Verschlagwortung von Bildern wird in vielenMuseen die KlassifikationIconclass eingesetzt. Auch dieSchlagwortnormdatei findet zunehmend im Museumsbereich Verwendung. VieleBildagenturen undBildarchive verwenden denIPTC-IIM-Standard und die darin enthaltenen Regeln für Kategorien und Schlagwörter. Eine große Rolle spielen allerdings auch noch hausinterne Schlagwortlisten. Daneben gibt es verschiedene Verfahren, mit denen sich Bilder mittels Ähnlichkeitssuche undRelevance Feedback recherchieren lassen.

Weitere Anwendungsbeispiele

[Bearbeiten |Quelltext bearbeiten]

Fachkategoriendigitaler Medien werden innerhalb derDeutschen Nationalbibliothek per rein automatisiertem Verfahren eingegliedert.[7][8] Innerhalb von Datenbanken für wissenschaftliche Artikel wiePubMed, werden beispielsweise Kategorien perSupport Vector Machine zugeteilt.[4]

Eine systematische Methologie zur Validierung von Indexierungen wurde vonKoraljka Golub vorgestellt.[9] Zum Beispiel kann mithilfe vonThesauri in einer maschinenlesbarer Sprache, wie zum BeispielSKOS, Indexierungen maschinell automatisch auf Fehler überprüft werden.[4]

Bibliotheken ermöglichen Zugang zu ihrem Inventar, früher überZettelkataloge, heutzutage überOPACs und zunehmend überDiscovery-Systeme.[3]

Siehe auch

[Bearbeiten |Quelltext bearbeiten]
Wiktionary: verschlagworten – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
Wiktionary: Verstichwortung

Literatur

[Bearbeiten |Quelltext bearbeiten]
  • Holger Nohr:Grundlagen der automatischen Indexierung. Ein Lehrbuch. 3. Auflage. Logos-Verlag, Berlin 2005,ISBN 3-8325-0121-5. 
  • Jutta Bertram:Einführung in die inhaltliche Erschließung. Grundlagen – Methoden – Instrumente (=Content and communication. Band 2). Ergon-Verlag, Würzburg 2005,ISBN 3-89913-442-7.
  • Martin Kästner:Vergleich ausgewählter Methoden zur Verschlagwortung und Validierung der Methoden durch ein Test-Verfahren. Diplomarbeit. Techn. Univ., Ilmenau 2006. 
  • Norm DIN 31623-1:1988-09Indexierung zur inhaltlichen Erschließung von Dokumenten; Begriffe, Grundlagen
  • Norm DIN 31623-2:1988-09Indexierung zur inhaltlichen Erschließung von Dokumenten; Gleichordnende Indexierung mit Deskriptoren
  • Rainer Kuhlen et al. (Hrsg.):Grundlagen der Informationswissenschaft. 7. Auflage. De Gruyter Saur, Berlin/Boston 2022,ISBN 978-3-11-076904-3 (online).

Weblinks

[Bearbeiten |Quelltext bearbeiten]

Einzelnachweise

[Bearbeiten |Quelltext bearbeiten]
  1. Recherchetipp: Was ist ein Thesaurus? In: www.wiso.uni-hamburg.de. 24. April 2018, abgerufen am 17. Januar 2024. 
  2. Grundlagen der Informationswissenschaft. In:Grundlagen der Informationswissenschaft. De Gruyter Saur, 2022,ISBN 978-3-11-076904-3,S. 3–4,doi:10.1515/9783110769043 (degruyter.com [abgerufen am 14. Januar 2024]). 
  3. abGrundlagen der Informationswissenschaft. In:Grundlagen der Informationswissenschaft. De Gruyter Saur, 2022,ISBN 978-3-11-076904-3,S. 88,doi:10.1515/9783110769043 (degruyter.com [abgerufen am 16. Januar 2024]). 
  4. abcdSebastian Gabler:Thesauri – a Toolbox for Information Retrieval. In:Bibliothek Forschung und Praxis.Band 47,Nr. 2, 30. September 2023,ISSN 1865-7648,S. 189–199,doi:10.1515/bfp-2023-0003 (degruyter.com [abgerufen am 13. Januar 2024]). 
  5. vgl. Norm DIN 31623-1:1988-09
  6. vgl. Bertram 2005
  7. Heidrun Wiesenmüller:Maschinelle Indexierung am Beispiel der DNB: Analyse und Entwicklungsmöglichkeiten. In:o-bib. Das offene Bibliotheksjournal / Herausgeber VDB.Band 5,Nr. 4, 10. Dezember 2018,ISSN 2363-9814,S. 141–153,doi:10.5282/o-bib/2018H4S141-153 (o-bib.de [abgerufen am 13. Januar 2024]). 
  8. Bernd Schleh:RSWK reloaded. Verbale Sacherschließung im Jahr 2018.Band 70. Forum Bibliothek und Information,S. 26–29 (archive.org [PDF]). 
  9. Koraljka Golub:Automated Subject Indexing: An Overview. In:Cataloging & Classification Quarterly.Band 59,Nr. 8, 17. November 2021,ISSN 0163-9374,S. 702–719,doi:10.1080/01639374.2021.2012311 (tandfonline.com [abgerufen am 13. Januar 2024]). 
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Indexierung&oldid=247524226
Kategorien:
Versteckte Kategorie: