Beurteilung eines Klassifikators
Bei der Einteilung von Sachverhalten in zwei Gruppen (Klassifizierung) können verschiedene Arten von Fehlern auftreten. In der Statistik werden diese unter anderem als Fehler 1. und 2. Art bezeichnet. Zur Beurteilung eines Klassifikators, das heißt eines Verfahrens zur Gruppeneinteilung lassen sich verschiedene Kennwerte wie Sensitivität, Spezifität, Relevanz und Segreganz angeben. Ein häufiges Verfahren ist ein statistischen Tests, bei dem eine Nullhypothese aufgestellt wird und eine Einteilung danach stattfindet, ob die Nullhypothese zutrifft oder nicht.
Person ist krank (a+c) | Person ist gesund (b+d) | |
---|---|---|
Test positiv (a+b) | richtig positiv (a) | falsch positiv (b) |
Test negativ (c+d) | falsch negativ (c) | richtig negativ (d) |
In den Fällen a (Person ist krank und die Krankheit wird erkannt) und d (Person ist gesund und der Test meldet keine Krankheit) ist die Einteilung richtig. In den Fällen b (Falsche Diagnose auf Krankheit) und c (Krankheit wird nicht erkannt) liegt ein Fehler vor. Fall b (falsch positiv) bezeichnet man auch als Fehler 1. Art und Fall c (falsch negativ) als Fehler 2. Art.
Aus den verschiedenen Fehlerraten eines Einteilungsverfahrens (Klassifikator) lassen sich verschiedene Kenngrößen zur Beurteilung der Qualität der Einteilung angeben (Hierbei sind a bis d jeweils Wahrscheinlichkeiten für die 4 Fälle):
Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte Screening-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch-negativer Ergebnisse vorliegt. Die produzierten falsch-positiven Testergebnisse werden anschließend durch einen Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von HIV sogar gefordert.
Je nach Einsatzgebiet kann eine Fehlklassifikation mehr- oder weniger schlimme Folgen haben. Ihre Auswirkungen lassen sich zur Bewertung eines Klassifikators in einer Kostenmatrix angeben.
Diese Parameter sind wichtige Maße in der Statistik und hängen auch von der gewählten Fehlerwahrscheinlichkeit ab (z.B. 68 Prozent für das Zutreffen der Standardabweichung).
Beurteilung eines Klassifikators
Die Kennwerte hängen voneinander ab. Wenn man die Rate der Falsch-positiven Ergebnisse verringert, so erhöht dies in der Regel die Falsch-negativ-Rate und umgekehrt. Je genauer beispielsweise mit einem medizinischen Kranke als solche identifiziert werden können (höhere Sensitivität), um so mehr Gesunde werden auch fälschlich als Kranke klassifiziert.Statistische Betrachtung
Wahrer Sachverhalt: H0 | Wahrer Sachverhalt: H1 | |
---|---|---|
durch einen stat. Test fällt eine Entscheidung für: H0
| 1-alpha
| beta (Fehler 2. Art Falsch negativ) |
durch einen statist.Test fällt eine Entscheidung für: H1
| alpha (Fehler 1. Art, Falsch positiv)
| 1-beta. "Power" |
Vom Fehler 1. Art (alpha) spricht man, wenn man einen Effekt annimmt, der in Wirklichkeit gar nicht vorhanden ist. Mathematisch formuliert:
Beispielsweise wird eine Person zu Unrecht als krank bezeichnet, obwohl sie tatsächlich gesund ist. Falsch Positive (englisch: false positives) sind zu Unrecht als krank bezeichnete Gesunde.
Nota bene: Die Aussage "Ein Unterschied, etwa in einer Methode, wird auf einem Signifikanzniveau von 5% festgestellt" ist nicht gleich bedeutend mit der Ausssage: "Wenn ich annehme, es gibt einen Unterschied, dann irre ich mich in 5% der Fälle." Für diese Aussage ist nämlich die Power (=1-beta) eines Tests zuständig!
Die Häufigkeit für einen Fehler 1. Art wird bei der Berechnung von Signifikanzen als Irrtumswahrscheinlichkeit bezeichnet.
Ein Fehler 2. Art (beta) liegt im umgekehrten Fall vor, wenn man es verabsäumt, einen Effekt als signifikant zu erklären, obwohl es ihn tatsächlich gibt, bzw.:
Beispielsweise wird eine Person wird zu Unrecht als gesund bezeichnet, obwohl sie tatsächlich krank ist. Falsch Negative (englisch: false negatives) sind nicht entdeckte Kranke.
Nota bene:Bei der Berechnung mit Alpha und beta handelt es um sich bedingte Wahrscheinlichkeiten!
Klassifizierungsfehler können überall dort auftreten, wo über die richtige Einteilung in zwei
Klassen entschieden werden soll.
Welche Konsequenzen ein falsch positiver Test haben kann, zeigt das Beispiel eines Menschen der sich auf AIDS testen ließ. Der Test war positiv. Daraufhin beendete der Mensch sein Leben durch Selbsttötung. Hinterher stellte sich heraus, dass er gar nicht von AIDS-Viren befallen war. Der Test war falsch positiv ausgefallen.
In den USA werden pro Jahr etwa 4 Millionen Frauen und Männer aufgrund von Schmerzen in der Brust unter der Verdachtsdiagnose Herzinfarkt in eine Klinik eingewiesen.
Im Verlauf der aufwendigen und teuren Diagnostik stellt sich dann heraus, dass von diesen Patienten nur etwa 32 % tatsächlich einen Infarkt erlitten haben.
Bei 68 % war die Diagnose Infarkt nicht korrekt. (falsch positive Verdachtsdiagnose).
Andererseits werden in jedem Jahr etwa 34.000 Patienten aus dem Krankenhaus entlassen, ohne dass ein tatsächlich vorhandener Herzinfarkt erkannt wurde (ca 0,8 % falsch negative Diagnose).
Wie jeder Test liefert auch die Mammographie falsch positive Testergebnisse. Dies ist der Grund, dass jede zweite Frau, die regelmäßig zu einer (nicht qualitätsgesicherten) Mammographieuntersuchung geht, einen positiven Befund bekommt, obwohl sie gar keinen Brustkrebs hat.
Diagnose, Fehlerwahrscheinlichkeit, Glockenkurve, Signifikanz, Statistik, Testverfahren, statistischer TestFehler 1. Art
Die Ausgangshypothese (H0, "null" für keinen Unterschied) ist hierbei die Annahme, die Testsituation befindet sich im "Normalzustand", d.h. in den oben genannten Beispielen "es brennt nicht", "der Angeklagte ist unschuldig", "der Patient ist gesund" oder "die Person hat Zugangsberechtigung". Wird also dieser "Normalzustand" nicht erkannt, obwohl er tatsächlich vorliegt, handelt es sich um einen Fehler 1. Art.Fehler 2. Art
Hier wird also nicht erkannt, dass nicht der "Normalzustand" vorliegt. Die solcherart falsch klassifizierten Zustände werden falsch negativ genannt.Weitere Beispiele und Klassifizierungsfehler
Beispiele für Fehler
Aids
Herzinfarkt
Mammographie
Siehe auch