Indexierung
Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und IndizierungAls Indexierung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren aus einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte.
Table of contents |
|
Indexierungsmethoden
Es lassen sich verschiedene Indexierungsarten und -methoden unterscheiden.
siehe auch unter: Deskriptor
Manuelle Indexierung
Die Manuelle Indexierung, Intellektuelle Indexierung oder Verschlagwortung ist ein
Verfahren der Sacherschließung von Dokumenten, bei der einem
Dokument repräsentative Schlagwörter (Keywords) zugewiesen
werden. Da die freie Indexierung mit beliebigen Wörtern sehr ungenau
ist, sollten Schlagwörter aus einem
kontrolliertem Vokabular
(z.B der Schlagwortnormdatei) oder einer anderen
Dokumentationssprache verwendet werden.
Automatische Indexierung
Ein häufiges Verfahren der automatischen Indexierung ist die
Volltextindexierung bei der bis auf Stoppwörter
alle Wörter eines Textes in den Index aufgenommen werden
(z.B. für eine Suchmaschine). Ggf. werden Wörter mittels Stemming auf einen gemeinsamen Wortstamm zurückgeführt.
Mit statistischen Indexierungsverfahren wird durch die Ermittlung von Worthäufigkeiten eine Auswahl getroffen und somit nur Wörter in den Index aufgenommen, die mit einer gewissen Frequenz im Text auftreten. Ein einfaches Verfahren der Termgewichtung ist die inverse Dokumenthäufigkeit. Bei diesem Verfahren wird die Häufigkeit eines Begriffs in einem Dokument ermittelt. Dieser Wert wird mit der Häufigkeit der Dokumente, in denen der Begriff vorkommt, ins Verhältnis gesetzt. So läßt leicht der Wert oder die Gewichtung des Begriffs als Deskriptor ablesen. Der Wert eines Begriffs ist am höchsten wenn es wenige Dokumente, in denen der Begriff enthalten ist, im Archiv gibt, und der Begriff im zu indexierenden Dokument am meisten vorkommt. An der Häufigkeit des Begriffs kann man die Signifikanz ablesen. Ich habe zum Beispiel in diesem Dokument häufig „Begriff“ verwendet, denn darum geht es, dieses Wort ist wichtig für das Thema. Nur: „Begriff“ ist ein zu weiter Begriff in spe. Also man sieht, allein an der Häufigkeit kann man nicht erkennen, ob es ein guter oder schlechter Deskriptor ist. Nur im Zusammenspiel mit dem o. g. Gewichtungsverfahren lassen sich signifikante Deskriptoren erstellen.
Mit Hilfe der Computerlinguistik sind auch intelligentere automatische Verfahren möglich, die zwar nicht an die manuelle Indexierung heranreichen, aber wesentlich stabiler hinsichtlich der Indexierungskonsistenz sind.
Computergestütze Indexierung
Bei der computergestützen Indexierung werden Vorschläge zu Deskriptoren vorgeschlagen und manuell ausgewählt.Literatur
siehe auch: