Beurteilung eines Klassifikators<meta http-equiv="Content-type" content="text/html; charset=utf-8"> <link rel="shortcut icon" href="../../favicon.ico"><link rel="stylesheet" href="../../wikistatic.css"></head> <body><div id=topbar><table width='98%' border=0><tr><td><a href="../../h/ha/hauptseite.html" title="Hauptseite">Hauptseite</a> | <b><a href="http://de.wikipedia.org/wiki/Beurteilung_eines_Klassifikators" title="Beurteilung eines Klassifikators">Aktueller Wikipedia-Artikel</a></b></td> <td align=right nowrap><form name=search class=inline method=get action="../../../search/search.html"><input name=search size=19><input type=submit value=Search></form></td></tr></table></div> <div id=article><h1>Beurteilung eines Klassifikators</h1>Bei der Einteilung von Sachverhalten in zwei Gruppen (<A HREF="../../k/kl/klassifizierung.html" title="Klassifizierung">Klassifizierung</A>) können verschiedene Arten von Fehlern auftreten. In der <A HREF="../../s/st/statistik.html" title="Statistik">Statistik</A> werden diese unter anderem als <strong>Fehler 1. und 2. Art</strong> bezeichnet. Zur <strong>Beurteilung eines Klassifikators</strong>, das heißt eines Verfahrens zur Gruppeneinteilung lassen sich verschiedene Kennwerte wie <A HREF="../../s/se/sensitivita_t.html" title="Sensitivität">Sensitivität</A>, <A HREF="../../s/sp/spezifita_t__statistik_.html" title="Spezifität (Statistik)">Spezifität</A>, <A HREF="../../r/re/relevanz__statistik_.html" title="Relevanz (Statistik)">Relevanz</A> und Segreganz angeben. Ein häufiges Verfahren ist ein <A HREF="../../s/st/statistischer_test.html" title="Statistischer Test">statistischen Tests</A>, bei dem eine <A HREF="../../n/nu/nullhypothese.html" title="Nullhypothese">Nullhypothese</A> aufgestellt wird und eine Einteilung danach stattfindet, ob die Nullhypothese zutrifft oder nicht.<p> <p><table border="0" id="toc"><tr><td align="center"> <b>Table of contents</b> <script type='text/javascript'>showTocToggle("show","hide")</script></td></tr><tr id='tocinside'><td align="left"> <div style="margin-left:2em;"> </div> </div> <A CLASS="internal" HREF="#Beispiel">1 Beispiel</A><BR> <A CLASS="internal" HREF="#Beurteilung eines Klassifikators">2 Beurteilung eines Klassifikators</A><BR> <A CLASS="internal" HREF="#Statistische Betrachtung">3 Statistische Betrachtung</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#Fehler 1. Art">3.1 Fehler 1. Art</A><BR> <A CLASS="internal" HREF="#Fehler 2. Art">3.2 Fehler 2. Art</A><BR> <A CLASS="internal" HREF="#Weitere Beispiele und Klassifizierungsfehler">3.3 Weitere Beispiele und Klassifizierungsfehler</A><BR> <A CLASS="internal" HREF="#Beispiele für Fehler">3.4 Beispiele für Fehler</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#Aids">3.4.1 Aids</A><BR> <A CLASS="internal" HREF="#Herzinfarkt">3.4.2 Herzinfarkt</A><BR> <A CLASS="internal" HREF="#Mammographie">3.4.3 Mammographie</A><BR> </div> </div> <A CLASS="internal" HREF="#Siehe auch">4 Siehe auch</A><BR> </td></tr></table><P> <A NAME="Beispiel"><H2>Beispiel</H2><p> Mit einem medizinischen Test soll festgestellt werden, ob eine Person eine bestimmte Krankheit hat oder gesund ist. Im Falle eines statistischen Tests ist die Nullhypothese also "Die Person ist krank". Aus dem tatsächlichen Gesundheitszustand des Patienten (gesund/krank) und dem Testergebnis (positiv/negativ) sind folgende Kombinationen möglich:<p> <table border=1 bordercolor=#000000 cellpadding=5 cellspacing=0 ><tr > <td > </th><th > Person ist krank (a+c) </th><th > Person ist gesund (b+d) </td></tr><tr > <th > Test positiv (a+b) </td><td bgcolor=#CCFF99 > richtig positiv (a) </td><td bgcolor=#FF9966 > falsch positiv (b) </td></tr><tr > <th > Test negativ (c+d) </td><td bgcolor=#FF9966 > falsch negativ (c) </td><td bgcolor=#CCFF99 > richtig negativ (d) </td></tr></table><p> In den Fällen <em>a</em> (Person ist krank und die Krankheit wird erkannt) und <em>d</em> (Person ist gesund und der Test meldet keine Krankheit) ist die Einteilung richtig. In den Fällen <em>b</em> (Falsche Diagnose auf Krankheit) und <em>c</em> (Krankheit wird nicht erkannt) liegt ein Fehler vor. Fall <em>b</em> (<strong>falsch positiv</strong>) bezeichnet man auch als <strong>Fehler 1. Art</strong> und Fall <em>c</em> (<strong>falsch negativ</strong>) als <strong>Fehler 2. Art</strong>.<p> <A NAME="Beurteilung eines Klassifikators"><H2>Beurteilung eines Klassifikators</H2><p> Aus den verschiedenen Fehlerraten eines Einteilungsverfahrens (Klassifikator) lassen sich verschiedene Kenngrößen zur Beurteilung der Qualität der Einteilung angeben (Hierbei sind a bis d jeweils Wahrscheinlichkeiten für die 4 Fälle):<p> <ul><li> Die <strong><A HREF="../../s/se/sensitivita_t.html" title="Sensitivität">Sensitivität</A></strong> a/(a+c) ist die Wahrscheinlichkeit, dass eine Krankheit erkannt wird (Empfindlichkeit). </li><li> Die <strong><A HREF="../../s/sp/spezifita_t.html" title="Spezifität">Spezifität</A></strong> d/(b+d) ist die Wahrscheinlichkeit, dass es keinen Fehlalarm gibt (Kennzeichnende Eigenschaft). </li><li> Die <strong><A HREF="../../r/re/relevanz.html" title="Relevanz">Relevanz</A></strong> a/(a+b) ist die Wahrscheinlichkeit, dass bei einer positiven Diagnose die Person wirklich krank ist (Wirksamkeit oder positiver prädiktiver Wert). </li><li> Die <strong>Segreganz</strong> d/(c+d) ist die Wahrscheinlichkeit, dass die Person gesund ist, wenn keine Krankheit erkannt wurde (Trennfähigkeit oder negativer prädikativer Wert). </li><li> Die <strong><A HREF="../../f/fe/fehlklassifikation.html" title="Fehlklassifikation">Korrektklassifikationsrate</A></strong> a+d ist die Wahrscheinlichkeit für eine richtige Diagnose </li><li> Die <strong>Falschklassifikationsrate</strong> b+c ist die Wahrscheinlichkeit für eine falsche Diagnose<p> </li></ul>Die Kennwerte hängen voneinander ab. Wenn man die Rate der Falsch-positiven Ergebnisse verringert, so erhöht dies in der Regel die Falsch-negativ-Rate und umgekehrt. Je genauer beispielsweise mit einem medizinischen Kranke als solche identifiziert werden können (höhere Sensitivität), um so mehr Gesunde werden auch fälschlich als Kranke klassifiziert.<p> Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte <A HREF="../../s/sc/screening.html" title="Screening">Screening</A>-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch-negativer Ergebnisse vorliegt. Die produzierten falsch-positiven Testergebnisse werden anschließend durch einen Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von HIV sogar gefordert.<p> Je nach Einsatzgebiet kann eine <A HREF="../../f/fe/fehlklassifikation.html" title="Fehlklassifikation">Fehlklassifikation</A> mehr- oder weniger schlimme Folgen haben. Ihre Auswirkungen lassen sich zur Bewertung eines Klassifikators in einer <A HREF="../../k/ko/kostenmatrix.html" title="Kostenmatrix">Kostenmatrix</A> angeben.<p> <A NAME="Statistische Betrachtung"><H2>Statistische Betrachtung</H2><p> Diese <A HREF="../../p/pa/parameter.html" title="Parameter">Parameter</A> sind wichtige Maße in der <A HREF="../../s/st/statistik.html" title="Statistik">Statistik</A> und hängen auch von der gewählten Fehlerwahrscheinlichkeit ab (z.B. 68 Prozent für das Zutreffen der <A HREF="../../s/st/standardabweichung.html" title="Standardabweichung">Standardabweichung</A>).<p> <table border bordercolor="lightgrey" bgcolor=#EEEEEE cellspacing="0" cellpadding="10" ><tr bgcolor=#EEEEFF > <th width="140" > </th><th width="210" > Wahrer Sachverhalt: H0 </th><th width="260" > Wahrer Sachverhalt: H1 </td></tr><tr > <td > <em>durch einen <A HREF="../../s/st/statistischer_test.html" title="Statistischer Test">stat. Test</A> fällt eine Entscheidung für</em>: H0<p> </td><td > 1-alpha<p> </td><td > beta (<em>Fehler 2. Art</em> Falsch negativ) </td></tr><tr > <td > <em>durch einen statist.Test fällt eine Entscheidung für</em>: H1<p> </td><td > alpha (<em>Fehler 1. Art</em>, Falsch positiv)<p> </td><td > 1-beta. "Power" </td></tr></table><p> <A NAME="Fehler 1. Art"><H3>Fehler 1. Art</H3><p> Vom Fehler 1. Art (alpha) spricht man, wenn man einen Effekt annimmt, der in Wirklichkeit gar nicht vorhanden ist. Mathematisch formuliert: <ul><li> die so genannte Ausgangshypothese "H0" abgelehnt wird, obwohl sie richtig ist.<p> </li></ul>Die Ausgangshypothese (H0, "null" für keinen Unterschied) ist hierbei die Annahme, die Testsituation befindet sich im "Normalzustand", d.h. in den oben genannten Beispielen "<em>es brennt nicht</em>", "<em>der Angeklagte ist unschuldig</em>", "<em>der Patient ist gesund</em>" oder "<em>die Person hat Zugangsberechtigung</em>". Wird also dieser "Normalzustand" nicht erkannt, obwohl er tatsächlich vorliegt, handelt es sich um einen Fehler 1. Art.<p> Beispielsweise wird eine Person zu Unrecht als krank bezeichnet, obwohl sie tatsächlich gesund ist. Falsch Positive (englisch: <em>false positives</em>) sind <em>zu Unrecht als krank bezeichnete Gesunde</em>.<p> <em>Nota bene</em>: Die Aussage "Ein Unterschied, etwa in einer Methode, wird auf einem Signifikanzniveau von 5% festgestellt" ist <em>nicht</em> gleich bedeutend mit der Ausssage: "Wenn ich annehme, es gibt einen Unterschied, dann irre ich mich in 5% der Fälle." Für diese Aussage ist nämlich die Power (=1-beta) eines Tests zuständig!<p> Die Häufigkeit für einen Fehler 1. Art wird bei der Berechnung von <A HREF="../../s/st/statistische_signifikanz.html" title="Statistische Signifikanz">Signifikanzen</A> als <em><A HREF="../../i/ir/irrtumswahrscheinlichkeit.html" title="Irrtumswahrscheinlichkeit">Irrtumswahrscheinlichkeit</A></em> bezeichnet.<p> <A NAME="Fehler 2. Art"><H3>Fehler 2. Art</H3><p> Ein Fehler 2. Art (beta) liegt im umgekehrten Fall vor, wenn man es verabsäumt, einen Effekt als signifikant zu erklären, obwohl es ihn tatsächlich gibt, bzw.:<p> <ul><li>wenn die Ausgangshypothese nicht abgelehnt wurde, obwohl sie falsch ist.<p> </li></ul>Hier wird also nicht erkannt, dass nicht der "Normalzustand" vorliegt. Die solcherart falsch klassifizierten Zustände werden <em>falsch negativ</em> genannt.<p> Beispielsweise wird eine Person wird zu Unrecht als gesund bezeichnet, obwohl sie tatsächlich krank ist. Falsch Negative (englisch: <em>false negatives</em>) sind <em>nicht entdeckte Kranke</em>.<p> <em>Nota bene</em>:Bei der Berechnung mit Alpha und beta handelt es um sich bedingte Wahrscheinlichkeiten!<p> <A NAME="Weitere Beispiele und Klassifizierungsfehler"><H3>Weitere Beispiele und Klassifizierungsfehler</H3><p> Klassifizierungsfehler können überall dort auftreten, wo über die richtige Einteilung in zwei <A HREF="../../k/ka/kategorie__klassifikation_.html" title="Kategorie (Klassifikation)">Klassen</A> entschieden werden soll.<p> <ul><li> Ein Feuermelder soll einen Brand erkennen aber keinen Fehlalarm auslösen.<p> </li><li> Ein Angeklagter ist schuldig oder unschuldig und soll verurteilt oder freigelassen werden:<p> </li><li> Eine Person ist für einen Sicherheitsbereich zugangsberechtigt oder nicht zugangsberechtig und soll eingelassen oder nicht eingelassen werden:<p> </li><li> Ein Buchstabe in einem Text ist entwender ein A oder kein A und soll mit Hilfe von <A HREF="../../t/te/texterkennung.html" title="Texterkennung">OCR</A> als A erkannt oder als ein anderer Buchstabe erkannt werden<p> </li></ul><A NAME="Beispiele für Fehler"><H3>Beispiele für Fehler</H3><p> <A NAME="Aids"><H4>Aids</H4><p> Welche Konsequenzen ein falsch positiver Test haben kann, zeigt das Beispiel eines Menschen der sich auf <A HREF="../../a/ai/aids_1.html" title="AIDS">AIDS</A> testen ließ. Der Test war positiv. Daraufhin beendete der Mensch sein Leben durch <A HREF="../../s/su/suizid.html" title="Suizid">Selbsttötung</A>. Hinterher stellte sich heraus, dass er gar nicht von <A HREF="../../h/hi/hiv.html" title="HIV">AIDS-Viren</A> befallen war. Der Test war falsch positiv ausgefallen.<p> <A NAME="Herzinfarkt"><H4>Herzinfarkt</H4><p> In den USA werden pro Jahr etwa 4 Millionen Frauen und Männer aufgrund von Schmerzen in der Brust unter der Verdachtsdiagnose <A HREF="../../m/my/myokardinfarkt.html" title="Myokardinfarkt">Herzinfarkt</A> in eine Klinik eingewiesen. Im Verlauf der aufwendigen und teuren Diagnostik stellt sich dann heraus, dass von diesen Patienten nur etwa 32 % tatsächlich einen Infarkt erlitten haben. Bei 68 % war die Diagnose <A HREF="../../i/in/infarkt.html" title="Infarkt">Infarkt</A> nicht korrekt. (falsch positive Verdachtsdiagnose). Andererseits werden in jedem Jahr etwa 34.000 Patienten aus dem Krankenhaus entlassen, ohne dass ein tatsächlich vorhandener Herzinfarkt erkannt wurde (ca 0,8 % falsch negative Diagnose).<p> <A NAME="Mammographie"><H4>Mammographie</H4><p> Wie jeder Test liefert auch die <A HREF="../../m/ma/mammografie.html" title="Mammografie">Mammographie</A> falsch positive Testergebnisse. Dies ist der Grund, dass jede zweite Frau, die regelmäßig zu einer (nicht qualitätsgesicherten) Mammographieuntersuchung geht, einen positiven Befund bekommt, obwohl sie gar keinen <A HREF="../../b/br/brustkrebs.html" title="Brustkrebs">Brustkrebs</A> hat.<p> <A NAME="Siehe auch"><H2>Siehe auch</H2><p> <A HREF="../../d/di/diagnose.html" title="Diagnose">Diagnose</A>, Fehlerwahrscheinlichkeit, <A HREF="../../n/no/normalverteilung.html" title="Normalverteilung">Glockenkurve</A>, <A HREF="../../s/st/statistische_signifikanz.html" title="Statistische Signifikanz">Signifikanz</A>, <A HREF="../../s/st/statistik.html" title="Statistik">Statistik</A>, Testverfahren, <A HREF="../../s/st/statistischer_test.html" title="Statistischer Test">statistischer Test</A><p></div><br><div id=footer><table border=0><tr><td> <small>Dies ist ein Artikel aus der freien Enzyklopädie <a href="http://de.wikipedia.org">Wikipedia</a>. Stand: August 2004. Der Artikel steht unter der <a href="http://www.gnu.org/licenses/fdl.txt">GNU Free Documentation License</a>.</small></td></tr></table></div>