Zipfsches Gesetz
Das zipfsche Gesetz, nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950) benannt, korreliert die empirisch gefundenen Häufigkeit P von Worten eines ausreichend langen Textes mit deren Rang i ihrer Häufigkeit, in einem Skalengesetz:
Durch Logarithmierung beider Skalen lässt sich die Gleichung in lineare Form bringen, so dass sie sich im Diagramm als Gerade darstellen lässt.
Im einfachen Fall wird für den Exponentenen der Wert 1 angenommen, und es gilt
Bei der Berechnung relativer Häufigkeiten wird so gewählt, dass gilt:
Für große mit kann
überdie Näherungsformel für harmonische Reihen berechnet werden.
Als Erweiterung (auch Zipf-Mandelbrot-Gesetz) hat Mandelbrot die Form
vorgeschlagen (für das einfache Gesetz von Zipf ist und ).
Eine Interpretation des zipfsches Gesetzes als Wahrscheinlichkeitsverteilung ist die Zeta-Verteilung, die deshalb auch Zipf-Verteilung genannt wird. Das Gegenstück für den Fall kontinuierlicher Werte ist die Pareto-Verteilung.
Siehe auch: Yule-Verteilung, Bradfordsches Gesetz
Table of contents |
2 Auftreten in der Praxis 3 Beispiel 1, Worthäufigkeiten 4 Beispiel 2, Buchstabenhäufigkeiten 5 Weblinks |
Wie jedes empirische Gesetz ist auch das zipfsche Gesetz nur näherungsweise
gültig. Während es in dem mittleren Bereich die Häufigkeitsverteilung sehr
gut wiedergibt, ist die Übereinstimmung bei sehr häufigen
(siehe "Stoppwort") und sehr seltenen Wörtern geringer.
Das zipfsche Gesetz markierte den Beginn der
quantitativen Linguistik (nzz.ch).
Ein unabhängig vom Gesetz von Zipf festgestellter Spezialfall ist
das Gesetz von Benford betreffend die Häufigkeit von Anfangsziffern.
Die Verteilung der Worthäufigkeiten in einem Text gehorcht
annähernd einer einfachen zipfschen Verteilung.
In einem Beispieltext tritt das Wort und
mit einer Häufigkeit von ca. 8 % auf, gefolgt von die und der mit ca. 5 %, siehe Tabelle.
Auch die Verteilung der Buchstaben-Häufigkeiten ähnelt einer zipfschen Verteilung.
Der Buchstabe E und das Leerzeichen sind mit einem Anteil von ca. 13% vertreten, gefolgt
vom Buchstaben N mit 9%. Nach Zipf erwartete man eine Häufigkeit von 24% bzw. 12% für die beiden
häufigsten Zeichen.
Eigenschaften
Auftreten in der Praxis
Interessanterweise gilt diese Beziehung nicht nur für Wörter und Buchstaben
in Texten menschlicher
Sprachen oder Noten in der Musik, sondern für so gut wie
alle natürlichen Symbolsequenzen mit
langreichweitigen Korrelationen, wie z.B.
der DNA. Auch die Anfragewahrscheinlichkeit und Häufigkeit von Webseiten
ist Zipf-verteilt (weitere Beispiele siehe Pareto-Verteilung).Beispiel 1, Worthäufigkeiten
Die 14 häufigsten Worte in einem deutschen Text:
Rang Wort rel. Häuf. zipfsche Häufigkeit
1 UND 0.08427 0.14027
2 DIE 0.05390 0.07014
3 DER 0.05383 0.04676
4 IN 0.02164 0.03507
5 WIR 0.01676 0.02805
6 ZU 0.01564 0.02338
7 FÜR 0.01536 0.02004
8 SIE 0.01306 0.01753
9 VON 0.01285 0.01559
10 DEN 0.01208 0.01403
11 DES 0.01131 0.01275
12 IST 0.01068 0.01169
13 EINE 0.01047 0.01079
14 NICHT 0.00991 0.01002
Beschränken wir uns auf die ersten
700 Ränge, beträgt die Summe der harmonischen Reiheund damit
Gemäß der Zipfschen Verteilung sollte das häufigste Wort mit einem Anteil von ,
das zweithäufigste mit etc. auftauchen. Den Vergleich zwischen
gemessener Verteilung und der Verteilung nach Zipf zeigt die Abbildung rechts.Beispiel 2, Buchstabenhäufigkeiten
Die 14 häufigsten Worte in einem deutschen Text:
Rang Wort rel. Häuf. zipfsche Häufigkeit
1 E 0.13678 0.23955
2 Leerz. 0.13048 0.11977
3 N 0.09034 0.07985
4 I 0.06908 0.05989
5 R 0.06501 0.04791
6 S 0.05426 0.03992
7 T 0.05386 0.03422
8 D 0.04119 0.02994
9 A 0.04011 0.02662
10 U 0.03947 0.02395
11 H 0.03565 0.02178
12 L 0.03449 0.01996
13 G 0.02820 0.01843
14 C 0.02565 0.01711
15 O 0.02016 0.01597
16 M 0.01938 0.01497
17 B 0.01743 0.01409
18 F 0.01663 0.01331
19 W 0.01409 0.01261
20 K 0.01230 0.01198
21 Z 0.01032 0.01141
22 . 0.00818 0.01089
23 , 0.00790 0.01042
24 V 0.00755 0.00998
25 Ü 0.00613 0.00958
26 P 0.00560 0.00921
27 Ä 0.00537 0.00887
28 Ö 0.00289 0.00856
29 J 0.00064 0.00826
30 Q 0.00033 0.00798
31 Y 0.00027 0.00773
32 X 0.00014 0.00749
Weblinks