Korpuslinguistik
Die Korpuslinguistik untersucht sprachliche Erscheinungen auf der Grundlage von Corpora, die von systematischen Aufzeichnungen realer Gespräche, Abhandlungen und anderer Texte stammen.Zum Beispiel untersucht sie Sprache anhand von großen Datenbanken (Textkorpora) "echter", realer Texte mit Mitteln der Statistik.
Sie nimmt an, dass Sprache sinnvoll durch automatisierte Untersuchung großer Textmengen erforscht werden könne, ohne dass dabei die Untersuchung zu sehr von performanzbedingten Fehlern durchsetzt sei, die deren eigentliche Struktur verdecken. Eine Unterscheidung zwischen Sprachkompetenz und -performanz wird bewusst verworfen und stattdessen unterstellt, dass relevante und zuverlässige Erkenntnisse über Sprache anhand realer Anwendungsfälle erforscht werden können.
Table of contents |
2 Geschichte und Anwendungsgebiete 3 Noam Chomskys Sicht der Korpuslinguistik 4 Literatur 5 Weblinks |
Der heutige Stand der Korpuslinguistik wurde erst durch elektronische Datenverarbeitung möglich, da enorme Datenmengen bearbeitet werden müssen um zu statistisch tragbaren Aussagen über komplexe Zusammenhänge zu gelangen. Um beispielsweise Aussagen über die Nachbarschaft (Kollokation) zweier Wörter machen zu können (Bsp. Heißt es *der Auto, *die Auto oder das Auto?), müssen diese Wortpaare erst einmal häufig genug im Korpus enthalten sein, damit ein falsch positiver Eintrag ("die, die Auto fahren") nicht zu einer insgesamt falschen Aussage führt. Eine Anwendung aus der Zeit vor dem Computer, die heute der Korpuslinguistik zugerechnet werden kann ist die Konkordanz.
Auch heute noch stellen viele Anwendungen der Korpuslinguistik selbst leistungsfähige Computer vor Herausforderungen. Dies ist ein Grund dafür, dass einige Textverarbeitungen in neuen Versionen auf alten Computern langsamer laufen als ihre Vorgängerversionen, da sie Elemente der Korpuslinguistik für ihre Rechtschreib- und Grammatikprüfung integrieren.
Da die Flexion von Wörtern im Englischen weitgehend unbekannt ist, genügen kleinere Textkorpora eher als für viele andere Sprachen: Während das Englische mit den Wörtern house und houses auskommt, muss im Deutschen ein Zusammenhang zwischen Haus und seinen flektierten Formen wie Häuser, Hauses, Hause, Häusern erst hergestellt werden. Dies ist, neben einer allgemeinen Tendenz zur angewandten Forschung im anglo-amerikanischen Raum ein Grund, weshalb sich die Anwendung von Computern für die Korpuslinguistik dort zuerst entwickelt hat.
Computerbasierte Korpuslinguistik wurde 1967 von Henry Kucera und Nelson Francis durch ihr Werk Computational Analysis of Present-Day American English begründet, in dem sie das Brown Corpus diversen rechnergestützten Analysen unterziehen und die linguistischen, psychologischen, statistischen und soziologischen Aspekte der Ergebnisse diskutieren.
Das Brown Corpus wurde von denselben Forschern an der Brown University gesammelt und schon 1964 veröffentlicht. Es enthält fünfhundert, 1961 erschienene Texte in fünfzehn Kategorien mit zusammen etwa einer Million Wörtern. Es war das erste allgemeine und computerlesbare Korpus und gilt, obwohl es heute teilweise veraltet ist, durch seine prägende Wirkung auf andere Korpora immernoch als eines der wichtigsten überhaupt.
Die Korpuslinguistik wurde zuerst zur Entwicklung von Wörterbüchern, namentlich des American Heritage Dictionary (1969) genutzt, die von da an nicht nur präskriptive Beschreibungen (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) enthielten. Zudem kann durch Worthäufigkeitsstatistiken die Relevanz von Einträgen zum Beispiel für zweisprachige Wörterbücher oder Lernerwörterbücher quantitativ ermittelt werden. Ein deutsches Online-Wörterbuch, das mit Mitteln der Korpuslinguistik erstellt wurde, ist das Wortschatzlexikon der Universität Leipzig. Es enthält eine Reihe anderer Angaben und Möglichkeiten gegenüber "normalen" Wörterbüchern. So kann man Assoziationsgraphen anzeigen und die relative Häufigkeit eines Wortes ermitteln. Durch Auswertung von Tageszeitungen wird eine Wortliste mit "Wörtern des Tages" erstellt.
Weitere Anwendungsgebiete sind der Aufbau von semantischen Netzen und damit die Sortierung von Texten oder des Wortschatzes (zur Suche nach Synonymen, Antonymen oder sinnverwandten Wörtern und damit als automatisch erzeugter Thesaurus). Mehrsprachige Korpora können zur (teil-)automatischen Übersetzung oder für vergleichende Betrachtungen der Sprachen genutzt werden.
Noam Chomsky unterschied bei seinen Untersuchungen zwischen "E-Language" (der Menge der grammatisch korrekten Sätze) und "I-Language" (deren Repräsentation im menschlichen Sprachzentrum). Dabei konzentrierte er sich mehr und mehr auf letztere und stellte fest, dass für deren Untersuchung Textkorpora nicht geeignet sind. Er konzentrierte sich daher auf kurze Texte, die unter Laborbedingungen aus von Muttersprachlern gewonnenen Textproben erforscht wurden. Für seine Untersuchungen der I-Language schloss Chomsky die Korpuslinguistik als irrelevant aus. Die Textlinguistik dagegen erforscht nur die E-Language (in Chomskys Terminologie). Beide betrachten also grundlegend unterschiedliche Teilbereiche der Linguistik. Die Korpuslinguistik verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.
Siehe auch: Linguistik, Künstliche Intelligenz, Maschinenlernen, Data-Mining, Komplexität (Informatik)
Korpuslinguistik und angewandte Informatik
Geschichte und Anwendungsgebiete
Noam Chomskys Sicht der Korpuslinguistik
Literatur
Weblinks
Dieser Artikel befindet sich derzeit im Reviewprozess. Hilf mit, ihn zu verbessern!