WEB LEXIKON: Ein Blick zurück
Hauptseite | Aktueller Wikipedia-Artikel

Schätzen und Testen



Mit Hilfe Schätzen und Testen möchte man Informationen über eine unbekannte statistische Grundgesamtheit erhalten.

Table of contents
1 Konzept
2 Schätzfunktion
3 Konfidenzintervall
4 Hypothesentest

Konzept

Man interessiert sich für Wahrscheinlichkeitsverteilung und Parameter einer Zufallsvariablen. Die Menge aller Realisationen dieser Zufallsvariablen wird Grundgesamtheit genannt.

Grundgesamtheit bekannt

Kann diese Grundgesamheit vollständig beobachtet werden, liefert sie die gewünschten Informationen.

Beispiel

In einer Urne sind fünf rote und vier blaue Kugeln. Es werden drei Kugeln ohne Zurücklegen aus dieser Urne gezogen. Definiert man die Zufallsvariable X: Zahl der roten Kugeln unter den drei gezogenen, ist X hypergeometrisch verteilt mit M=5 als Zahl der roten Kugeln in der Urne, N=9 als Gesamtzahl der Kugeln in der Urne und n=3 als Zahl der Versuche. Hier können alle Informationen über die Verteilung von X gewonnen werden.

Grundgesamtheit unbekannt

In den meisten Fällen kann jedoch die Grundgesamtheit nicht vollständig beobachtet werden, weil sie zu groß ist. Interessiert man sich etwa für die mittlere Größe eines 18jährigen Knaben in der EU, müsste man alle 18jährigen messen, was praktisch undurchführbar ist. In diesem Sinne könnte man das Urnenbeispiel von oben etwa so abwandeln:

Beispiel

Ein Lebensmittelgroßmarkt bekommt eine Lieferung von 2000 Gläsern mit Pflaumenkompott. Problematisch sind in den Früchten verbliebene Kerne. Der Kunde toleriert einen Anteil von Gläsern mit Kernen von 5%. Er möchte sich bei dieser Lieferung vergewissern, dass diese Quote nicht überschritten wird. Eine komplette Erhebung der Grundgesamtheit von 2000 Gläsern ist allerdings nicht durchführbar, denn 2000 Gläser zu kontrollieren ist zu aufwendig und außerdem zerstört das Öffnen eines Glases die Ware.

Allerdings könnte man eine kleine Zahl von Gläsern zufällig aussuchen, also eine Stichprobe nehmen, und die Zahl der zu beanstandenden Gläser zählen. Übersteigt die Zahl eine bestimmte Grenze, den kritischen Wert der Prüfgröße, geht man davon aus, dass auch in der Lieferung zu viele zu beanstandende Gläser sind. Man hofft, dass die Stichprobe die Grundgesamheit wiederspiegelt. Geht die Lieferung deswegen zurück, besteht die Möglichkeit, dass die Entscheidung richtig war, dass also zu viele Gläser mit Kernen in der Lieferung sind, aber es kann auch die Stichprobe untypisch ausgefallen sein und man lehnt die Lieferung fälschlicherweise ab.

Ist die Grundgesamtheit einer Zufallsvariablen unbekannt, nimmt man eine Stichprobe: Man wählt n viele Elemente zufällig aus der Grundgesamtheit aus. Mit Hilfe dieser Stichprobenelemente schätzt man den unbekannten Parameter der Grundgesamtheit. Diese Schätzung wird als Schätzfunktion bezeichnet. Da jede Stichprobe aufgrund der Zufälligkeit anders ausfällt, sind auch diese Schätzfunktionen Zufallsvariablen, deren Verteilung von der Verteilung des Merkmals in der Grundgesamtheit abhängt. Mit Hilfe dieser Verteilung kann man Wahrscheinlichkeiten für Intervalle angeben, in denen sich mit größter Wahrscheinlichkeit der wahre Parameter befindet, oder man testet, ob eine bestimmte Vermutung, eine Hypothese, über den Parameter bestätigt werden kann.

Schätzfunktion

Man betrachtet ein quantitatives statistisches Merkmal x. Modelltheoretisch wird dieses Merkmal idealisiert: Man geht davon aus, dass es sich in Wahrheit um eine Zufallsvariable X handelt, deren tatsächliche, „wahre“ Verteilung und „wahre“ Verteilungsparameter unbekannt sind. Man nennt dies die Grundgesamtheit des Merkmals.

Diese Informationen erhofft man sich durch eine Stichprobe: Man entnimmt der Grundgesamtheit zufällig n viele Elemente. Mit Hilfe dieser Stichprobenelemente schätzt man dann die Parameter.

Definition der Schätzfunktion

Um einen Parameter γ einer Verteilung zu schätzen, nimmt man aus der Grundgesamtheit eine uneingeschränkte Zufallsstichprobe vom Umfang n, es werden also n Realisationen xi (i = 1, ... , n) der Zufallsvariablen X beobachtet. Man fasst die n Realisationen wahrscheinlichkeitstheoretisch als unabhängige Folge von n Zufallsvariablen Xi auf. Um den Parameter γ zu schätzen, werden die Xi in geeigneter Weise zusammengefasst. Sie bilden eine Schätzfunktion g(X1, X2, ..., Xn) oder Stichprobenfunktion. Da die Stichprobe zufällig erfolgt, ist die Schätzfunktion wiederum eine Zufallsvariable.

Ausgewählte Schätzfunktionen

Metrisches Merkmal

Der Erwartungswert wird mit dem arithmetischen Mittel der Stichprobe geschätzt,

.

Ist die Verteilung symmetrisch, kann auch der Median der Stichprobe als Schätzer für den Erwartungswert verwendet werden:

,

wobei die Position des Medians in der Mitte einer der Größe nach geordneten Liste bezeichnet.

Für die Varianz der Grundgesamtheit verwendet man die Stichprobenvarianz als Schätzfunktion

.

Die Verteilung der Schätzfunktionen hängt von der Verteilung des Merkmals in der Grundgesamtheit ab.

Das Merkmal ist normalverteilt mit Erwartungswert μ und Varianz σ 2:

Es ist als lineare Transformation der Xi der Schätzer normalverteilt,

.

Der Varianzschätzer S2 enthält eine Quadratsumme von bezüglich zentrierten normalverteilten Zufallsvariablen. Deshalb ist der Ausdruck

zentral χ2-verteilt mit n-1 Freiheitsgraden.

Ist die Verteilung des Merkmal unbekannt, kann bei genügend großem Stichprobenumfang die Verteilung der Schätzfunktion näherungsweise mit der Normalverteilung angegeben werden.

Dichotome Grundgesamtheit

Man betrachtet hier das Urnenmodell mit zwei Sorten Kugeln. Es soll der Anteilswert der Kugeln erster Sorte in der Grundgesamtheit geschätzt werden. Als Schätzfunktion verwendet man den Anteil der Kugeln erster Sorte in der Stichprobe,

mit X: Zahl der Kugeln erster Sorte in der Stichprobe. Die Verteilung von P ist die gleiche wie die der entsprechenden Zufallsvariablen X, also eine Binomialverteilung im Modell mit Zurücklegen und eine hypergeometrische Verteilung im Modell ohne Zurücklegen.

Wünschenswerte Eigenschaften von Schätzfunktionen

Konsistenz

Die Schätzfunktion soll konsistent sein.

Konsistenz, mit einfachen Worten, besagt, dass sich die Schätzfunktion mit wachsendem n immer mehr dem wahren Parameter γ nähert.

Die formale Definition lautet:

Eine Schätzfunktion ist konsistent, wenn für jedes ε>0 gilt:

.

mit gn. = g(X1, X2, ..., Xn).

Man spricht hier von stochastischer Konvergenz.

Erwartungstreue

Die Schätzfunktion soll im Mittel gleich dem wahren Parameter γ sein:

Weicht Eg systematisch von γ ab, ist der Schätzer verzerrt (“biased“). Die Verzerrung b ist

.

Minimale Varianz

Die Schätzfunktion soll eine möglichst kleine Varianz haben. Die Schätzfunktion g* aus allen erwartungstreuen Schätzfunktionen gk , die die kleinste Varianz hat, wird als beste oder wirksamste Schätzfunktion bezeichnet.

Weitere Stichworte

Beispiel

Die Ausführungen sollen zum besseren Verständnis anhand eines (frei erfundenen) Beispiels erläutert werden.

In einem privat betriebenen medizinischen Labor ist eine neue Methode zur Vermehrung von Gewebezellen entwickelt worden. Dieses Gewebe soll vor allem bei großflächigen Verbrennungen auf die beschädigte Haut transplantiert werden. Um weiter planen zu können, braucht man nähere Informationen über die Schnelligkeit des Zellwachstums. Man interessiert sich für die Frage: “Wie schwer ist ein Zellklumpen bestimmten Gewichts nach vier Wochen Zucht?“.

Man definiert nun die Zufallsvariable X: Gewicht eines Zellklumpens [g]. Da es sich dabei um ein natürliches Phänomen handelt, kann man nach dem zentralen Grenzwertsatz vermuten, dass X normalverteilt ist. Es geht nun aber darum, Informationen über die Parameter der Verteilung zu erhalten: Wie schwer ist so ein Zellklumpen im Mittel und wie sehr schwanken die einzelnen Gewichte? Man sucht Informationen über den Erwartungswert und die Varianz der Zufallsvariablen.

Tatsächlich ist das Gewicht eines Zellklumpens normalverteilt mit dem Erwartungwert μ = 10 [g] und der Varianz σ2 = 4 [g2]. Diese "wahren" Parameter regieren also die Stichprobe, sie sind den Laborbetreibern aber unbekannt.

Ergebnis des iten Röhrchens x1 x2 x3 x4 x5
Gewicht der Zellen x 7,4 9,4 10,2 9,6 11,7

Man kann nun den Erwartungswert schätzen, z.B. mit dem arithmetischen Mittel als Schätzfunktion g1,

Da jede Stichprobe vom Umfang 5 anders ausfallen kann, ist das Mittel selbst eine Zufallsvariable.

Es wäre aber als Schätzer g2 für μ auch der Median z denkbar. Es ist der drittgrößte Wert:

Zur Veranschaulichung wurde 1000 mal eine solche Stichprobe per Zufallszahlen erzeugt. Die ersten 18 Stichproben werden in der unten folgenden Tabelle gezeigt. Die ersten fünf Spalten zeigen die einzelnen Ergebnisse, dann folgen einige Schätzfunktionen.

Man sieht, dass beispielsweise der arithmetische Mittelwert von 7 bis 11,2 schwankt. Auch die Mediane variieren stark.

Wir könnten noch weitere Schätzfunktionen für μ vorschlagen, etwa

den Durchschnitt zwischen der kleinsten und größten Beobachtung, oder

Welche Schätzfunktion soll man nun verwenden? Ein Kriterium ist die Erwartungstreue. Erwartungstreu sind vermutlich das arithmetische Mittel und der Median, aber auch die Schätzfunktion g3. g4 ist offensichtlich Unsinn, wie auch ein Blick auf die Tabelle zeigt.

Aus den drei akzeptablen Schätzfunktionen wird nun die mit der kleinsten Varianz ausgewählt, denn da ist der Schätzwert am verlässlichsten. Man kann zeigen, dass das arithmetische Mittel die kleinste Varianz hat. ist also ein bester Schätzer.

Die nächste Tabelle zeigt die Durchschnitte der vier Schätzfunktionen und auch ihre Varianz.

Schätzfunktion für μ Arithmetisches Mittel Median ((min(x) + max(x))/2 Wurzel(x1)
Mittelwert der 1000 Schätzer 10,00 9,97 10,02 3,15
Varianz der 1000 Schätzer 0,79 1,22 1,01 0,10
.

Das Labor schätzt also den Erwartungswert mit 9,7 und die Varianz mit

Konfidenzintervall

Siehe

Hypothesentest

Siehe




     
Das Web Lexikon "Ein Blick zurück" bietet die Moeglichkeit auf einfache Art und Weise in den "alten" Wikipedia-Beiträgen zu blättern. Das Lexikon spiegelt den Stand der freien Wikipedia-Enzyklopädie vom August 2004 wider. Sie finden hier in rund 120.000 Artikel aus dieser Zeit Informationen, Erklärungen, Definitionen, Empfehlungen, Beschreibungen, Auskünfte und Bilder. Ebenso kommen Begriffserklärung, Zusammenfassung, Theorie, Information, Beschreibung, Erklärung, Definition und Geschichte nicht zu kurz. Ein Lexikon das Auskunft, Bericht, Hinweis, Bedeutung, Bild, Aufklärung, Darstellung und Schilderung zu unterschiedlichsten Themen kompakt auf einer Seite bietet.
Impressum ^ nach oben ^