Information-Retrieval
Begriffsdefinition
Information-Retrieval (IR) (Informationswiedergewinnung, gelegentlich Informationsbeschaffung) ist ein Fachgebiet, das sich mit computergestützten inhaltsorientierten Suche beschäftigt. Es ist ein Teilgebiet der Dokumentationswissenschaft.
Wie der Begriff retrieval (deutsch Wiedergewinnung, Auffindung) sagt, sind Informationen in großen Datenbeständen zunächst verloren und müssen wiedergewonnen bzw. wiedergefunden werden. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:
- Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z.B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
- Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z.B. Homonyme (Worte, die gleich geschrieben werden; z.B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).
Generell sind am IR zwei (sich unter Umständen überschneidende) Personenkreise involviert (vgl. Abbildung rechts). Der erste Personenkreis sind die Autoren, die Dokumente in einem IR-System zur Verfügung stellen. Dieses kann sowohl aktiv geschehen, indem die Autoren die Dokumente selber in das System einstellen, oder auch passiv geschehen, indem das System über Kommunikationsmittel die Dokumente aus anderen verfügbaren Informationssystemen ausliest (wie es z.B. die Internet-Suchmaschinen praktizieren). Die in das System eingestellten Dokumente werden vom IR-System gemäß dem System-internen Modell der Repräsentation von Dokumenten in eine für die Verarbeitung günstige Form (Dokumentenrepräsentation) umgewandelt.
Die zweite Benutzergruppe, die Anwender, haben bestimmte, zum Zeitpunkt der Arbeit am IR-System akute Ziele oder Aufgaben, für deren Lösung ihnen Informationen fehlen. Diese Informationsbedarfe beabsichtigen die Anwender mit Hilfe des Systems zu befriedigen. Dafür müssen sie ihre Informationsbedarfe in einer adäquaten Form als Anfragen formulieren. Die Form, in der die Informationsbedarfe formuliert werden müssen, hängt dabei von dem verwendeten Modell der Repräsentation von Dokumenten ab. Wie der Vorgang der Modellierung der Informationsbedarfe als Interaktion mit dem System abläuft (z.B. als einfache Eingabe von Suchbegriffen), wird vom Modell der Interaktion festgelegt. Sind die Anfragen formuliert, dann ist es die Aufgabe des IR-Systems, die Anfragen mit den im System eingestellten Dokumenten unter Verwendung der Dokumentenrepräsentationen zu vergleichen und eine Liste der zu den Anfragen passenden Dokumente an die Benutzer zurückzugeben. Der Benutzer steht nun vor der Aufgabe, die gefundenen Dokumente gemäß seiner Aufgabe auf die Lösungsrelevanz hin zu bewerten. Das Resultat ist die Bewertungen zu den Dokumenten. Anschließend haben die Benutzer drei Möglichkeiten: Erstens, sie können (meist nur in einem engen Rahmen) Modifikationen an den Repräsentationen der Dokumente vornehmen (z.B. indem sie neue Schlüsselwörter für die Indexierung eines Dokuments definieren). Zweitens, die Benutzer verfeinern ihre formulierten Anfragen (zumeist um das Suchergebnis weiter einzuschränken) und drittens, die Benutzer ändern ihre Informationsbedarfe, weil sie nach dem Durchführen der Recherche feststellen, dass sie zur Lösung ihrer Aufgaben weitere, zuvor nicht als relevant eingestufte Informationen benötigen. Der genaue Ablauf der drei Modifikationsformen wird vom Modell der Interaktion bestimmt. Z.B. gibt es Systeme, die den Benutzern bei der Reformulierung der Anfrage unterstützen, indem sie die Anfrage unter Verwendung von, vom Benutzer explizierter (d. h. dem System in irgendeiner Form mitgeteilter) Dokumentenbewertungen, automatisiert reformulieren.
Formalisierung
Ein Information-Retrieval-System IRS ist eine Spezialisierung eines Informationssystems und kann formal als 7-Tupel beschrieben werden (ohne Berücksichtigung von Relevanz-Feedback):
- AIR(D): Dokument-Indexierungsfunktion als Abbildung eines Dokumentes Di auf eine Dokumentrepräsentation xi.
- W: Menge aller möglichen Dokumentrepräsentationsmengen.
- Q: Menge aller zugelassenen Suchfragen Qj.
- AIR(Q): Query-Indexierungsfunktion als Abbildung einer Anfrage Qj auf eine Queryrepräsentation qj.
- E: Menge aller möglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking).
- ret(.): Retrievalfunktion als Abbildung einer indexierten Suchfrage qj auf eine Teilmenge der Dokumentrepräsentationsmenge.
- rank(.): Rankingfunktion als Abbildung der ermittelten Dokumentrepräsentationsteilmenge auf eine Liste der Dokumentrepräsentationen.
Modelle zur Repräsentation natürlichsprachlicher Dokumente
Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt worden:Klassifikation von Modellen zur Repräsentation natürlichsprachlicher Dokumente
Eine zweidimensionale Klassifikation von IR-Modellen zeigt die rechte Abbildung. Folgende Eigenschaften lassen sich bei den verschiedenen Modellen in Abhängigkeit von Ihrer Einordnung in der Matrix beobachten:
Information-Retrieval hat Querbezüge zu verschiedenen anderen Gebieten, z. B. Wahrscheinlichkeitstheorie der Computerlinguistik.
Siehe auch: Recall und Precision, Information Extraction
Literatur