Zipfsches Gesetz<meta http-equiv="Content-type" content="text/html; charset=utf-8"> <link rel="shortcut icon" href="../../favicon.ico"><link rel="stylesheet" href="../../wikistatic.css"></head> <body><div id=topbar><table width='98%' border=0><tr><td><a href="../../h/ha/hauptseite.html" title="Hauptseite">Hauptseite</a> | <b><a href="http://de.wikipedia.org/wiki/Zipfsches_Gesetz" title="Zipfsches Gesetz">Aktueller Wikipedia-Artikel</a></b></td> <td align=right nowrap><form name=search class=inline method=get action="../../../search/search.html"><input name=search size=19><input type=submit value=Search></form></td></tr></table></div> <div id=article><h1>Zipfsches Gesetz</h1>Das <strong>zipfsche Gesetz</strong>, nach dem <A HREF="../../h/ha/harvard.html" title="Harvard">Harvard</A>-Professor für <A HREF="../../s/sp/sprachwissenschaft.html" title="Sprachwissenschaft">Linguistik</A> George Kingsley Zipf (<A HREF="../../1/19/1902.html" title="1902">1902</A>-<A HREF="../../1/19/1950.html" title="1950">1950</A>) benannt, <A HREF="../../k/ko/korrelation.html" title="Korrelation">korreliert</A> die empirisch gefundenen <A HREF="../../h/ha/ha_ufigkeit.html" title="Häufigkeit">Häufigkeit</A> <em>P</em> von Worten eines ausreichend langen Textes mit deren <A HREF="../../r/ra/rang.html" title="Rang">Rang</A> <em>i</em> ihrer Häufigkeit, in einem <A HREF="../../s/sk/skalengesetz.html" title="Skalengesetz">Skalengesetz</A>:<p> <p> Durch <A HREF="../../l/lo/logarithmus.html" title="Logarithmus">Logarithmierung</A> beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.<p> <p> Im einfachen Fall wird für den <A HREF="../../p/po/potenz__mathematik_.html" title="Potenz (Mathematik)">Exponentenen</A> der Wert 1 angenommen, und es gilt<p> <p> Bei der Berechnung relativer Häufigkeiten wird so gewählt, dass gilt:<p> <p> Für große mit kann <pre>über </pre>die Näherungsformel für harmonische Reihen berechnet werden.<p> Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form<p> <p> vorgeschlagen (für das einfache Gesetz von Zipf ist und ).<p> Eine Interpretation des zipfsches Gesetzes als <A HREF="../../w/wa/wahrscheinlichkeitsverteilung.html" title="Wahrscheinlichkeitsverteilung">Wahrscheinlichkeitsverteilung</A> ist die <A HREF="../../z/zi/zipf_verteilung.html" title="Zipf-Verteilung">Zeta-Verteilung</A>, die deshalb auch <A HREF="../../z/zi/zipf_verteilung.html" title="Zipf-Verteilung">Zipf-Verteilung</A> genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die <A HREF="../../p/pa/pareto_verteilung.html" title="Pareto-Verteilung">Pareto-Verteilung</A>.<p> <em>Siehe auch:</em> Yule-Verteilung, <A HREF="../../b/br/bradfords_gesetz.html" title="Bradfords Gesetz">Bradfordsches Gesetz</A><p> <p><table border="0" id="toc"><tr><td align="center"> <b>Table of contents</b> <script type='text/javascript'>showTocToggle("show","hide")</script></td></tr><tr id='tocinside'><td align="left"> <div style="margin-left:2em;"> </div> </div> <A CLASS="internal" HREF="#Eigenschaften">1 Eigenschaften</A><BR> <A CLASS="internal" HREF="#Auftreten in der Praxis">2 Auftreten in der Praxis</A><BR> <A CLASS="internal" HREF="#Beispiel 1, Worthäufigkeiten">3 Beispiel 1, Worthäufigkeiten</A><BR> <A CLASS="internal" HREF="#Beispiel 2, Buchstabenhäufigkeiten">4 Beispiel 2, Buchstabenhäufigkeiten</A><BR> <A CLASS="internal" HREF="#Weblinks">5 Weblinks</A><BR> </td></tr></table><P> <A NAME="Eigenschaften"><H2>Eigenschaften</H2><p> Wie jedes empirische Gesetz ist auch das zipfsche Gesetz nur näherungsweise gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr gut wiedergibt, ist die Übereinstimmung bei sehr häufigen (siehe "<A HREF="../../s/st/stoppwort.html" title="Stoppwort">Stoppwort</A>") und sehr seltenen Wörtern geringer.<p> Das zipfsche Gesetz markierte den Beginn der quantitativen <A HREF="../../s/sp/sprachwissenschaft.html" title="Sprachwissenschaft">Linguistik</A> (<A HREF="http://www.nzz.ch/2001/11/21/ft/page-article7SC34.html" class="external">nzz.ch</A>).<p> Ein unabhängig vom Gesetz von Zipf festgestellter Spezialfall ist das <A HREF="../../b/be/benfordsches_gesetz.html" title="Benfordsches Gesetz">Gesetz von Benford</A> betreffend die Häufigkeit von Anfangsziffern.<p> <A NAME="Auftreten in der Praxis"><H2>Auftreten in der Praxis</H2> Interessanterweise gilt diese Beziehung nicht nur für Wörter und Buchstaben in Texten menschlicher <A HREF="../../l/li/liste_von_sprachen.html" title="Liste von Sprachen">Sprachen</A> oder Noten in der Musik, sondern für so gut wie alle natürlichen Symbolsequenzen mit langreichweitigen Korrelationen, wie z.B. der <A HREF="../../d/de/desoxyribonukleinsa_ure.html" title="Desoxyribonukleinsäure">DNA</A>. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten ist Zipf-verteilt (weitere Beispiele siehe <A HREF="../../p/pa/pareto_verteilung.html" title="Pareto-Verteilung">Pareto-Verteilung</A>).<p> <A NAME="Beispiel 1, Worthäufigkeiten"><H2>Beispiel 1, Worthäufigkeiten</H2><p> Die Verteilung der Worthäufigkeiten in einem Text gehorcht annähernd einer einfachen zipfschen Verteilung.<p> In einem Beispieltext tritt das Wort <em>und</em> mit einer Häufigkeit von ca. 8 % auf, gefolgt von <em>die</em> und <em>der</em> mit ca. 5 %, siehe Tabelle.<p> <pre>Die 14 häufigsten Worte in einem deutschen Text: Rang Wort rel. Häuf. zipfsche Häufigkeit 1 UND 0.08427 0.14027 2 DIE 0.05390 0.07014 3 DER 0.05383 0.04676 4 IN 0.02164 0.03507 5 WIR 0.01676 0.02805 6 ZU 0.01564 0.02338 7 FÜR 0.01536 0.02004 8 SIE 0.01306 0.01753 9 VON 0.01285 0.01559 10 DEN 0.01208 0.01403 11 DES 0.01131 0.01275 12 IST 0.01068 0.01169 13 EINE 0.01047 0.01079 14 NICHT 0.00991 0.01002<p> </pre>Beschränken wir uns auf die ersten 700 Ränge, beträgt die Summe der <A HREF="../../h/ha/harmonische_reihe.html" title="Harmonische Reihe">harmonischen Reihe</A><p> <pre>und damit <p> </pre>Gemäß der Zipfschen Verteilung sollte das häufigste Wort mit einem Anteil von , das zweithäufigste mit etc. auftauchen. Den Vergleich zwischen gemessener Verteilung und der Verteilung nach Zipf zeigt die Abbildung rechts.<p> <A NAME="Beispiel 2, Buchstabenhäufigkeiten"><H2>Beispiel 2, Buchstabenhäufigkeiten</H2><p> Auch die Verteilung der Buchstaben-Häufigkeiten ähnelt einer zipfschen Verteilung. Der Buchstabe <em>E</em> und das Leerzeichen sind mit einem Anteil von ca. 13% vertreten, gefolgt vom Buchstaben <em>N</em> mit 9%. Nach Zipf erwartete man eine Häufigkeit von 24% bzw. 12% für die beiden häufigsten Zeichen. <pre>Die 14 häufigsten Worte in einem deutschen Text: Rang Wort rel. Häuf. zipfsche Häufigkeit 1 E 0.13678 0.23955 2 Leerz. 0.13048 0.11977 3 N 0.09034 0.07985 4 I 0.06908 0.05989 5 R 0.06501 0.04791 6 S 0.05426 0.03992 7 T 0.05386 0.03422 8 D 0.04119 0.02994 9 A 0.04011 0.02662 10 U 0.03947 0.02395 11 H 0.03565 0.02178 12 L 0.03449 0.01996 13 G 0.02820 0.01843 14 C 0.02565 0.01711 15 O 0.02016 0.01597 16 M 0.01938 0.01497 17 B 0.01743 0.01409 18 F 0.01663 0.01331 19 W 0.01409 0.01261 20 K 0.01230 0.01198 21 Z 0.01032 0.01141 22 . 0.00818 0.01089 23 , 0.00790 0.01042 24 V 0.00755 0.00998 25 Ü 0.00613 0.00958 26 P 0.00560 0.00921 27 Ä 0.00537 0.00887 28 Ö 0.00289 0.00856 29 J 0.00064 0.00826 30 Q 0.00033 0.00798 31 Y 0.00027 0.00773 32 X 0.00014 0.00749<p> </pre><A NAME="Weblinks"><H2>Weblinks</H2> <ul><li> <A HREF="http://linkage.rockefeller.edu/wli/zipf/" class="external">http://linkage.rockefeller.edu/wli/zipf/</A> - Umfangreiche Bibliografie </li><li> <A HREF="http://arxiv.org/abs/cs.CL/0406015" class="external">http://arxiv.org/abs/cs.CL/0406015</A> - <em>Zipf's law and the creation of musical context</em><p> </li></ul><pre></pre></div><br><div id=footer><table border=0><tr><td> <small>Dies ist ein Artikel aus der freien Enzyklopädie <a href="http://de.wikipedia.org">Wikipedia</a>. Stand: August 2004. Der Artikel steht unter der <a href="http://www.gnu.org/licenses/fdl.txt">GNU Free Documentation License</a>.</small></td></tr></table></div>