Stoppwort
Stoppwörter nennt man im Information-Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von'), sowie die Negation 'nicht'. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen.
Diesen Wörtern ist gemeinsam, daß sie vor allem grammatische/syntaktische Funktionen übernehmen, daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.
Eine weitere Gemeinsamkeit ist ihre Große Zahl: sie treten in jedem Dokument sehr zahlreich auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente sehr viel Aufwand machen würden, wenn man sie berücksichtigen würde.
Stoppwörter dienen der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einem Suchauftrag beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Das Suchergebnis wäre unscharf, sein Nutzwert gering.
Links
http://smirnoff.rz.uni-frankfurt.de/bib/arbeitshilfen/hebis-handbuch/listen/stopwort.pdf
- Stoppwörter bei Google
- Stoppwörter bei seekport.com