Korpuslinguistik<meta http-equiv="Content-type" content="text/html; charset=utf-8"> <link rel="shortcut icon" href="../../favicon.ico"><link rel="stylesheet" href="../../wikistatic.css"></head> <body><div id=topbar><table width='98%' border=0><tr><td><a href="../../h/ha/hauptseite.html" title="Hauptseite">Hauptseite</a> | <b><a href="http://de.wikipedia.org/wiki/Korpuslinguistik" title="Korpuslinguistik">Aktueller Wikipedia-Artikel</a></b></td> <td align=right nowrap><form name=search class=inline method=get action="../../../search/search.html"><input name=search size=19><input type=submit value=Search></form></td></tr></table></div> <div id=article><h1>Korpuslinguistik</h1>Die <strong>Korpuslinguistik</strong> untersucht sprachliche Erscheinungen auf der Grundlage von Corpora, die von systematischen Aufzeichnungen realer Gespräche, Abhandlungen und anderer Texte stammen.<p> Zum Beispiel untersucht sie <A HREF="../../s/sp/sprache.html" title="Sprache">Sprache</A> anhand von großen <A HREF="../../d/da/datenbank.html" title="Datenbank">Datenbanken</A> (Textkorpora) "echter", realer Texte mit Mitteln der <A HREF="../../s/st/statistik.html" title="Statistik">Statistik</A>. <p> Sie nimmt an, dass Sprache sinnvoll durch automatisierte Untersuchung großer Textmengen erforscht werden könne, ohne dass dabei die Untersuchung zu sehr von performanzbedingten Fehlern durchsetzt sei, die deren eigentliche Struktur verdecken. Eine Unterscheidung zwischen Sprachkompetenz und -performanz wird bewusst verworfen und stattdessen unterstellt, dass relevante und zuverlässige Erkenntnisse über Sprache anhand realer Anwendungsfälle erforscht werden können.<p> <p><table border="0" id="toc"><tr><td align="center"> <b>Table of contents</b> <script type='text/javascript'>showTocToggle("show","hide")</script></td></tr><tr id='tocinside'><td align="left"> <div style="margin-left:2em;"> </div> </div> <A CLASS="internal" HREF="#Korpuslinguistik und angewandte Informatik">1 Korpuslinguistik und angewandte Informatik</A><BR> <A CLASS="internal" HREF="#Geschichte und Anwendungsgebiete">2 Geschichte und Anwendungsgebiete</A><BR> <A CLASS="internal" HREF="#Noam Chomskys Sicht der Korpuslinguistik">3 Noam Chomskys Sicht der Korpuslinguistik</A><BR> <A CLASS="internal" HREF="#Literatur">4 Literatur</A><BR> <A CLASS="internal" HREF="#Weblinks">5 Weblinks</A><BR> </td></tr></table><P> <A NAME="Korpuslinguistik und angewandte Informatik"><H2>Korpuslinguistik und angewandte Informatik</H2><p> Der heutige Stand der Korpuslinguistik wurde erst durch <A HREF="../../e/ed/edv.html" title="EDV">elektronische Datenverarbeitung</A> möglich, da enorme Datenmengen bearbeitet werden müssen um zu statistisch tragbaren Aussagen über komplexe Zusammenhänge zu gelangen. Um beispielsweise Aussagen über die Nachbarschaft (<A HREF="../../k/ko/kollokation.html" title="Kollokation">Kollokation</A>) zweier Wörter machen zu können (Bsp. Heißt es *<em>der Auto</em>, *<em>die Auto</em> oder <em>das Auto</em>?), müssen diese Wortpaare erst einmal häufig genug im Korpus enthalten sein, damit ein falsch positiver Eintrag ("<em>die, die Auto fahren</em>") nicht zu einer insgesamt falschen Aussage führt. Eine Anwendung aus der Zeit vor dem Computer, die heute der Korpuslinguistik zugerechnet werden kann ist die <A HREF="../../k/ko/konkordanz.html" title="Konkordanz">Konkordanz</A>.<p> Auch heute noch stellen viele Anwendungen der Korpuslinguistik selbst leistungsfähige Computer vor Herausforderungen. Dies ist ein Grund dafür, dass einige Textverarbeitungen in neuen Versionen auf alten Computern langsamer laufen als ihre Vorgängerversionen, da sie Elemente der Korpuslinguistik für ihre Rechtschreib- und Grammatikprüfung integrieren.<p> <A NAME="Geschichte und Anwendungsgebiete"><H2>Geschichte und Anwendungsgebiete</H2><p> Da die <A HREF="../../f/fl/flexion.html" title="Flexion">Flexion</A> von Wörtern im <A HREF="../../e/en/englische_sprache.html" title="Englische Sprache">Englischen</A> weitgehend unbekannt ist, genügen kleinere Textkorpora eher als für viele andere Sprachen: Während das Englische mit den Wörtern <em>house</em> und <em>houses</em> auskommt, muss im Deutschen ein Zusammenhang zwischen <em>Haus</em> und seinen flektierten Formen wie <em>Häuser</em>, <em>Hauses</em>, <em>Hause</em>, <em>Häusern</em> erst hergestellt werden. Dies ist, neben einer allgemeinen Tendenz zur angewandten Forschung im anglo-amerikanischen Raum ein Grund, weshalb sich die Anwendung von Computern für die Korpuslinguistik dort zuerst entwickelt hat.<p> Computerbasierte Korpuslinguistik wurde <A HREF="../../1/19/1967.html" title="1967">1967</A> von Henry Kucera und Nelson Francis durch ihr Werk <em>Computational Analysis of Present-Day American English</em> begründet, in dem sie das <em>Brown Corpus</em> diversen rechnergestützten Analysen unterziehen und die linguistischen, psychologischen, statistischen und soziologischen Aspekte der Ergebnisse diskutieren.<p> Das <strong>Brown Corpus</strong> wurde von denselben Forschern an der Brown University gesammelt und schon <A HREF="../../1/19/1964.html" title="1964">1964</A> veröffentlicht. Es enthält fünfhundert, <A HREF="../../1/19/1961.html" title="1961">1961</A> erschienene Texte in fünfzehn Kategorien mit zusammen etwa einer Million Wörtern. Es war das erste allgemeine und computerlesbare Korpus und gilt, obwohl es heute teilweise veraltet ist, durch seine prägende Wirkung auf andere Korpora immernoch als eines der wichtigsten überhaupt.<p> Die Korpuslinguistik wurde zuerst zur Entwicklung von <A HREF="../../w/wa/wa_rterbuch.html" title="Wörterbuch">Wörterbüchern</A>, namentlich des <em>American Heritage Dictionary</em> (<A HREF="../../1/19/1969.html" title="1969">1969</A>) genutzt, die von da an nicht nur präskriptive Beschreibungen (wie <em>soll</em> ein Wort benutzt werden), sondern auch deskriptive (wie <em>wird</em> ein Wort tatsächlich benutzt) enthielten. Zudem kann durch Worthäufigkeitsstatistiken die Relevanz von Einträgen zum Beispiel für zweisprachige Wörterbücher oder Lernerwörterbücher quantitativ ermittelt werden. Ein deutsches Online-Wörterbuch, das mit Mitteln der Korpuslinguistik erstellt wurde, ist das Wortschatzlexikon der Universität Leipzig. Es enthält eine Reihe anderer Angaben und Möglichkeiten gegenüber "normalen" Wörterbüchern. So kann man Assoziationsgraphen anzeigen und die relative Häufigkeit eines Wortes ermitteln. Durch Auswertung von Tageszeitungen wird eine Wortliste mit "Wörtern des Tages" erstellt.<p> Weitere Anwendungsgebiete sind der Aufbau von semantischen Netzen und damit die Sortierung von Texten oder des Wortschatzes (zur Suche nach Synonymen, Antonymen oder sinnverwandten Wörtern und damit als automatisch erzeugter <A HREF="../../t/th/thesaurus.html" title="Thesaurus">Thesaurus</A>). Mehrsprachige Korpora können zur (teil-)automatischen Übersetzung oder für vergleichende Betrachtungen der Sprachen genutzt werden.<p> <A NAME="Noam Chomskys Sicht der Korpuslinguistik"><H2>Noam Chomskys Sicht der Korpuslinguistik</H2><p> <A HREF="../../n/no/noam_chomsky.html" title="Noam Chomsky">Noam Chomsky</A> unterschied bei seinen Untersuchungen zwischen "E-Language" (der Menge der grammatisch korrekten Sätze) und "I-Language" (deren Repräsentation im menschlichen Sprachzentrum). Dabei konzentrierte er sich mehr und mehr auf letztere und stellte fest, dass für deren Untersuchung Textkorpora nicht geeignet sind. Er konzentrierte sich daher auf kurze Texte, die unter Laborbedingungen aus von Muttersprachlern gewonnenen Textproben erforscht wurden. Für seine Untersuchungen der I-Language schloss Chomsky die Korpuslinguistik als irrelevant aus. Die Textlinguistik dagegen erforscht nur die E-Language (in Chomskys Terminologie). Beide betrachten also grundlegend unterschiedliche Teilbereiche der Linguistik. Die Korpuslinguistik verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.<p> <em>Siehe auch:</em> <A HREF="../../s/sp/sprachwissenschaft.html" title="Sprachwissenschaft">Linguistik</A>, <A HREF="../../k/ka/ka_nstliche_intelligenz.html" title="Künstliche Intelligenz">Künstliche Intelligenz</A>, Maschinenlernen, <A HREF="../../d/da/data_mining.html" title="Data-Mining">Data-Mining</A>, <A HREF="../../k/ko/komplexita_t__informatik_.html" title="Komplexität (Informatik)">Komplexität (Informatik)</A><p> <A NAME="Literatur"><H2>Literatur</H2><p> <ul><li> Tony McEnery, Andrew Wilson: <em>Corpus linguistics: an introduction</em>. 2. ed. Edinburgh University Press 2001. ISBN 0-7486-1165-7 <p> </li></ul><A NAME="Weblinks"><H2>Weblinks</H2> <ul><li><A HREF="http://luna.lili.uni-bielefeld.de/lion/korpusmodul_start.html" class="external">http://luna.lili.uni-bielefeld.de/lion/korpusmodul_start.html</A> - Lernmodul über Korpuslinguistik </li><li><A HREF="http://www.linguistik-online.de/2_99/quasthoff.html" class="external">http://www.linguistik-online.de/2_99/quasthoff.html</A> Uwe Quasthoff & Christian Wolff (Leipzig): Korpuslinguistik und große einsprachige Wörterbücher </li><li><A HREF="http://wortschatz.informatik.uni-leipzig.de/" class="external">http://wortschatz.informatik.uni-leipzig.de/</A> Wortschatzlexikon (mit Mitteln der Korpuslinguistik erstellt) </li><li><A HREF="http://wortschatz.informatik.uni-leipzig.de/cgi-bin/wort_www?site=23&Wort=Moore&Graph=1&stpw=5" class="external">http://wortschatz.informatik.uni-leipzig.de/cgi-bin/wort_www?site=23&Wort=Moore&Graph=1&stpw=5</A> Assoziationsgraph für "Moore" </li><li><A HREF="http://www.linguistik.uni-erlangen.de/tree/html/corsica/zierl97/node5.html" class="external">http://www.linguistik.uni-erlangen.de/tree/html/corsica/zierl97/node5.html</A> Marco Zierl: Korpora und Korpuslinguistik <p> </li></ul><small>Dieser Artikel befindet sich derzeit im Reviewprozess. Hilf mit, ihn zu verbessern! <strong></strong></small><p> <p></div><br><div id=footer><table border=0><tr><td> <small>Dies ist ein Artikel aus der freien Enzyklopädie <a href="http://de.wikipedia.org">Wikipedia</a>. Stand: August 2004. Der Artikel steht unter der <a href="http://www.gnu.org/licenses/fdl.txt">GNU Free Documentation License</a>.</small></td></tr></table></div>