Movatterモバイル変換


[0]ホーム

URL:


Zum Inhalt springen
WikipediaDie freie Enzyklopädie
Suche

Statistischer Test

aus Wikipedia, der freien Enzyklopädie

Einstatistischer Test dient in derTesttheorie, einem Teilgebiet dermathematischen Statistik, dazu, anhand vorliegender Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einerHypothese zu treffen. Aus diesem Grund spricht man auch von einemHypothesentest. Formal ist ein Test also einemathematische Funktion, die einem Beobachtungsergebnis eine Entscheidung zuordnet. Da die vorhandenen DatenRealisierungen vonZufallsvariablen sind, lässt sich in den meisten Fällen nicht mit Sicherheit sagen, ob eine Hypothese wahr ist oder nicht. Man versucht daher, dieWahrscheinlichkeiten für Fehlentscheidungen zu kontrollieren. Meistens wird ein Hypothesentest in der Form einesSignifikanztests durchgeführt, der ein Test zu einem vorgegebenenSignifikanzniveau ist.

Interpretation eines statistischen Tests

[Bearbeiten |Quelltext bearbeiten]

Ein statistisches Testverfahren lässt sich im Prinzip mit einem Gerichtsverfahren vergleichen. Das Verfahren hat (meistens) den Zweck, festzustellen, ob es ausreichend Beweise gibt, den Angeklagten zu verurteilen. Es wird dabei immer von der Unschuld eines Verdächtigen ausgegangen, und solange große Zweifel an den Belegen für ein tatsächliches Vergehen bestehen, wird ein Angeklagter freigesprochen. Nur wenn die Indizien für die Schuld eines Angeklagten deutlich überwiegen, kommt es zu einer Verurteilung.

Es gibt demnach zu Beginn des Verfahrens die beiden HypothesenH0{\displaystyle H_{0}} „der Verdächtige ist unschuldig“ undH1{\displaystyle H_{1}} „der Verdächtige ist schuldig“. Erstere nennt manNullhypothese, von ihr wird vorläufig ausgegangen. Die zweite nennt manGegenhypothese (oderAlternativhypothese). Sie ist diejenige, die zu „beweisen“ versucht wird.

Um einen Unschuldigen nicht zu leicht zu verurteilen, wird die Hypothese der Unschuld erst dann verworfen, wenn ein Irrtum sehr unwahrscheinlich ist. Man spricht auch davon, die Wahrscheinlichkeit für einenFehler 1. Art (also das Verurteilen eines Unschuldigen) zu kontrollieren. Naturgemäß wird durch dieses unsymmetrische Vorgehen die Wahrscheinlichkeit für einenFehler 2. Art (also das Freisprechen eines Schuldigen) „groß“. Aufgrund derstochastischen Struktur des Testproblems lassen sich wie in einem Gerichtsverfahren Fehlentscheidungen grundsätzlich nicht vermeiden. Man versucht in der Statistik allerdings optimale Tests zu konstruieren, die die Fehlerwahrscheinlichkeiten minimieren.

Beispiel

[Bearbeiten |Quelltext bearbeiten]

Test auf hellseherische Fähigkeiten

[Bearbeiten |Quelltext bearbeiten]

Es soll versucht werden, einen Test auf hellseherische Fähigkeiten zu entwickeln.

Einer Testperson wird 25-mal die Rückseite einer rein zufällig gewählten Spielkarte gezeigt und sie wird jeweils danach gefragt, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Die Anzahl der Treffer nennen wirX{\displaystyle X}.

Da die hellseherischen Fähigkeiten der Person getestet werden sollen, gehen wir vorläufig von der Nullhypothese aus, die Testperson sei nicht hellsehend. Die Alternativhypothese lautet entsprechend: Die Testperson ist hellseherisch begabt.

Was bedeutet das für unseren Test? Wenn die Nullhypothese richtig ist, wird die Testperson nur versuchen können, die jeweilige Farbe zu erraten. Für jede Karte gibt es bei vier Farben eine Wahrscheinlichkeit von14{\displaystyle {\tfrac {1}{4}}}, die richtige Farbe zu erraten. Wenn die Alternativhypothese richtig ist, hat die Person für jede Karte eine größere Wahrscheinlichkeit als 1/4. Wir nennen die Wahrscheinlichkeit einer richtigen Vorhersagep{\displaystyle p}.

Die Hypothesen lauten dann:[1]

H0:p=14{\displaystyle H_{0}\colon \;p={\frac {1}{4}}}

und

H1:p>14{\displaystyle H_{1}\colon \;p>{\frac {1}{4}}}.

Wenn die Testperson alle 25 Karten richtig benennt, werden wir sie als Hellseher betrachten und die Alternativhypothese annehmen. Und mit 24 oder 23 Treffern auch. Andererseits gibt es bei nur 5 oder 6 Treffern keinen Grund dazu. Aber was wäre mit 12 Treffern? Was wäre mit 17 Treffern? Wo liegt die kritische Anzahl an Treffernc{\displaystyle c}, von der an wir nicht mehr glauben können, es seien reine Zufallstreffer?

Das kommt darauf an, wie kritisch man genau sein will, also wie oft man eine Fehlentscheidung erster Art zulässt. Mitc=25{\displaystyle c=25} ist die Wahrscheinlichkeit einer solchen Fehlentscheidung, also die Wahrscheinlichkeit, dass eine nicht hellseherische Testperson nur rein zufällig 25-mal richtig geraten hat, extrem klein:

P(TAH0 ist richtig)=P(X25p=14)=(14)251015{\displaystyle P(T\in A\mid H_{0}{\text{ ist richtig}})=P\left(X\geq 25\mid p={\tfrac {1}{4}}\right)=\left({\tfrac {1}{4}}\right)^{25}\approx 10^{-15}},

Hier stellt A denAblehnbereich dar. Wir nehmenH0{\displaystyle H_{0}} an, wenn für dieTeststatistik des Tests gilt, dassTA{\displaystyle T\notin A} und lehnenH0{\displaystyle H_{0}} ab, wennTA{\displaystyle T\in A}.

Weniger kritisch, mitc=10{\displaystyle c=10}, erhalten wir mit derBinomialverteilung,B(p,25){\displaystyle B(\cdot \mid p,25)}, eine wesentlich größere Wahrscheinlichkeit:

P(TAH0 ist richtig)=P(X10p=14)=i=1025B(i14,25)=i=1025(25i)(14)i(114)25i0,07{\displaystyle P(T\in A\mid H_{0}{\text{ ist richtig}})=P\left(X\geq 10\mid p={\tfrac {1}{4}}\right)=\sum _{i=10}^{25}B\left(i\mid {\tfrac {1}{4}},25\right)=\sum _{i=10}^{25}{\binom {25}{i}}\left({\tfrac {1}{4}}\right)^{i}\left(1-{\tfrac {1}{4}}\right)^{25-i}\approx 0{,}07}

Vor dem Test wird eine Wahrscheinlichkeit für den Fehler erster Art festgesetzt, dasSignifikanzniveau α{\displaystyle \alpha }. Typisch sind Werte zwischen 1 % und 5 %. Abhängig davon lässt sich (hier für den Fallα=1%{\displaystyle \alpha =1\%}) dannc{\displaystyle c} so bestimmen, dass

P(TAH0 ist richtig)=P(Xcp=14)0,01{\displaystyle P(T\in A\mid H_{0}{\text{ ist richtig}})=P\left(X\geq c\mid p={\tfrac {1}{4}}\right)\leq 0{,}01}

gilt. Unter allen Zahlenc{\displaystyle c}, die diese Eigenschaft erfüllen, wird man zuletztc{\displaystyle c} als die kleinste Zahl wählen, die diese Eigenschaft erfüllt, um die Wahrscheinlichkeit für den Fehler zweiter Art klein zu halten. In diesem konkreten Beispiel folgt:c=13{\displaystyle c=13}. Ein Test dieser Art heißtBinomialtest, da die Anzahl der Treffer unter der Nullhypothese binomialverteilt ist.

Mögliche Fehlentscheidungen

[Bearbeiten |Quelltext bearbeiten]

Auch wenn es wünschenswert ist, dass der Test aufgrund der vorliegenden Daten „richtig“ entscheidet, besteht die Möglichkeit von Fehlentscheidungen. Im mathematischen Modell bedeutet dies, dass man bei richtiger Nullhypothese und Entscheidung für die Alternative einenFehler 1. Art (α-Fehler) begangen hat. Falls man die Nullhypothese bestätigt sieht, obwohl sie nicht stimmt, begeht man einenFehler 2. Art (β-Fehler).

In der statistischen Praxis macht man aus diesem vordergründig symmetrischen Problem ein asymmetrisches: Man legt also ein Signifikanzniveau α fest, das eine obere Schranke für die Wahrscheinlichkeit eines Fehlers erster Art liefert. Tests mit dieser Eigenschaft heißenTest zum Niveauα{\displaystyle \alpha }. Im Anschluss daran versucht man, einen optimalen Test zum vorgegebenen Niveau dadurch zu erhalten, dass man unter allen Tests zum Niveau α einen sucht, der die geringste Wahrscheinlichkeit für einen Fehler 2. Art aufweist.

Die formale Vorgehensweise

[Bearbeiten |Quelltext bearbeiten]

Generell geht man bei der Anwendung eines Tests in folgenden Schritten vor:

  1. Formulierung einerNullhypotheseH0{\displaystyle H_{0}} und ihrerAlternativhypotheseH1{\displaystyle H_{1}}
  2. Wahl des geeigneten Tests (Testgröße oderTeststatistikT{\displaystyle T})
  3. Bestimmung des kritischen BereichesK{\displaystyle K} zumSignifikanzniveauα{\displaystyle \alpha }, das vorRealisierung der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet.
  4. Berechnung des Werts der Beobachtungtobs{\displaystyle t_{\text{obs}}} der TestgrößeT{\displaystyle T} aus derStichprobe (je nach Testverfahren etwa dent{\displaystyle t}-Wert oderU{\displaystyle U} oderH{\displaystyle H} oderχ2{\displaystyle \chi ^{2}}…).
  5. Treffen der Testentscheidung:

Formale Definition eines statistischen Tests

[Bearbeiten |Quelltext bearbeiten]
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mitBelegen (beispielsweiseEinzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst undgute Belege einfügst.

SeiX{\displaystyle X} eineZufallsvariable, die von einem parametrisiertenWahrscheinlichkeitsraum(Ω,A,Pθ){\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} _{\theta })} in einenMessraum(X,F){\displaystyle ({\mathcal {X}},{\mathcal {F}})} abbildet. Sei zusätzlichP={Pθ:θΘ}{\displaystyle {\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}} die parametrisierte Verteilungsannahme, also eine Familie vonWahrscheinlichkeitsmaßen auf(X,F){\displaystyle ({\mathcal {X}},{\mathcal {F}})}, wobeiΘP;θPθ{\displaystyle \Theta \to {\mathcal {P}};\theta \mapsto P_{\theta }} eine Bijektion ist.[2] Dabei istPθ=PθX1{\displaystyle P_{\theta }=\mathbb {P} _{\theta }\circ X^{-1}} dieVerteilung vonX{\displaystyle X}. Hierbei seiΘ{\displaystyle \Theta } der Parameterraum, der in der Praxis meist eineTeilmenge desRd{\displaystyle \mathbb {R} ^{d}} mitdN{\displaystyle d\in \mathbb {N} } ist. Zwei disjunkte[3] TeilmengenΘ0{\displaystyle \Theta _{0}} undΘ1{\displaystyle \Theta _{1}} vonΘ{\displaystyle \Theta } definieren das Testproblem:

wobeiH0{\displaystyle H_{0}} dieNullhypothese undH1{\displaystyle H_{1}} dieGegenhypothese (oder auch Alternativhypothese) bezeichnet. Dabei bilden häufig, aber nicht notwendig, die beiden MengenΘ0{\displaystyle \Theta _{0}} undΘ1{\displaystyle \Theta _{1}} eine Zerlegung vonΘ{\displaystyle \Theta }.

Nichtrandomisierte Tests

[Bearbeiten |Quelltext bearbeiten]

Entscheidungsregel, Fehler 1. und 2. Art

[Bearbeiten |Quelltext bearbeiten]

Einemessbare Funktionφ:X{0,1}{\displaystyle \varphi \colon {\mathcal {X}}\rightarrow \{0,1\}} heißt (nichtrandomisierter)Test.[4]Die Funktionφ{\displaystyle \varphi } heißt auchTestfunktion und hat folgende inhaltliche Interpretation als Entscheidungsregel:

Das Testergebnis 'H0{\displaystyle H_{0}} wird abgelehnt' wird auch verbal umschrieben als 'H0{\displaystyle H_{0}} ist mit der Beobachtung nicht verträglich', 'H1{\displaystyle H_{1}} ist signifikant' oder 'H1{\displaystyle H_{1}} wird durch die Beobachtung statistisch nachgewiesen'.[5]

Es sind zwei Arten von Fehlentscheidungen möglich: DerFehler 1. Art wird begangen, wennH0{\displaystyle H_{0}} fälschlich abgelehnt wird, derFehler 2. Art wird begangen, wennH0{\displaystyle H_{0}} nicht abgelehnt wird, obwohlH0{\displaystyle H_{0}} falsch ist.

Ablehnbereich (Ablehnbereich und Annahmebereich)

[Bearbeiten |Quelltext bearbeiten]

Die MengeKφ={xXφ(x)=1}{\displaystyle K_{\varphi }=\{x\in {\mathcal {X}}\mid \varphi (x)=1\}} derjenigen Beobachtungsergebnissex{\displaystyle x}, die zu einer Ablehnung vonH0{\displaystyle H_{0}} führen, heißtkritischer Bereich[5] (auchAblehnungsbereich[6] oderAblehnbereich[5]) des Tests. Es gilt die ÄquivalenzxKφφ(x)=1{\displaystyle x\in K_{\varphi }\iff \varphi (x)=1} für die Aussagen und die Gleichheit{XKφ}={φ(X)=1}{\displaystyle \{X\in K_{\varphi }\}=\{\varphi (X)=1\}} der Ereignisse. Die KomplementmengeXKφ{\displaystyle {\mathcal {X}}\setminus K_{\varphi }} heißtNichtablehnungsbereich oderAnnahmebereich.

Gütefunktion, Fehlerwahrscheinlichkeiten 1. und 2. Art

[Bearbeiten |Quelltext bearbeiten]

Die FunktionGφ(θ):Θ[0,1]{\displaystyle G_{\varphi }(\theta )\colon \Theta \to [0,1]} mit

Gφ(θ)=Pθ(XKφ)=Pθ(φ(X)=1)=Pθ(Kφ){\displaystyle G_{\varphi }(\theta )=\mathbb {P} _{\theta }(X\in K_{\varphi })=\mathbb {P} _{\theta }(\varphi (X)=1)=P_{\theta }(K_{\varphi })}

ordnet jedem Parameterwertθ{\displaystyle \theta } die WahrscheinlichkeitPθ(Kφ){\displaystyle P_{\theta }(K_{\varphi })} zu, mit derH0{\displaystyle H_{0}} abgelehnt wird, und heißtGütefunktion des Tests.[7]

DieGütefunktion eines Tests enthält alle Informationen darüber, mit welchen Wahrscheinlichkeiten bei der Testentscheidung die Fehler 1. oder 2. Art begangen werden.Die WahrscheinlichkeitenGφ(θ){\displaystyle G_{\varphi }(\theta )} fürθΘ0{\displaystyle \theta \in \Theta _{0}} sind dieFehlerwahrscheinlichkeiten 1. Art, also die Wahrscheinlichkeiten, dass bei der Testenscheidung ein Fehler 1. Art begegangen wird. Die Wahrscheinlichkeiten1Gφ(θ){\displaystyle 1-G_{\varphi }(\theta )} fürθΘ1{\displaystyle \theta \in \Theta _{1}} sind dieFehlerwahrscheinlichkeiten 2. Art, also die Wahrscheinlichkeiten, dass bei der Testenscheidung ein Fehler 2. Art begegangen wird.

Signifikanzniveau, Niveau-α-Bedingung, Niveau-α-Test

[Bearbeiten |Quelltext bearbeiten]

Sei nun einSignifikanz-Niveauα(0,1){\displaystyle \alpha \in (0,1)} vorgegeben, das auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit heißt. Dann heißt ein Testφ{\displaystyle \varphi } einSignifikanz-Test zum Niveauα{\displaystyle \alpha }[8] für das TestproblemH0{\displaystyle H_{0}} gegenH1{\displaystyle H_{1}} (auchNiveau-α{\displaystyle \alpha }-Test), wenn

Pθ(XKφ)αfür alle θΘ0{\displaystyle \mathbb {P} _{\theta }(X\in K_{\varphi })\leq \alpha \quad {\text{für alle }}\theta \in \Theta _{0}}

gilt. Diese Bedingung heißtNiveau-α{\displaystyle \alpha }-Bedingung[8] und kann auch in der Form

supθΘ0Pθ(XKφ)α{\displaystyle \sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(X\in K_{\varphi })\leq \alpha }

geschrieben werden. Durch die Niveau-α{\displaystyle \alpha }-Bedingung werden dieFehlerwahrscheinlichkeiten 1. Art durchα{\displaystyle \alpha } nach oben beschränkt.

Umfang eines Tests

[Bearbeiten |Quelltext bearbeiten]

Die linke Seite der Ungleichung in der Niveau-α{\displaystyle \alpha }-Bedingung heißt Umfang des Tests[9] odertatsächliches Niveau des Testes[10].

Umfang-α-Test

[Bearbeiten |Quelltext bearbeiten]

Ein Niveau-α{\displaystyle \alpha }-Test heißtTest mit Umfangα{\displaystyle \alpha } (oder kurzUmfang-α{\displaystyle \alpha }-Test), wenn

supθΘ0Pθ(XKφ)=α{\displaystyle \sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(X\in K_{\varphi })=\alpha }

gilt.[11] Man sagt dann auch:der Test schöpft das vorgegebene Signifikanzniveau aus.Wenn der Umfang des Tests kleiner als das vorgegebene Signifikanzniveau ist, heißt der Testkonservativ.[12]

In der Regel sucht man einen Testφ{\displaystyle \varphi }, der bei eingehaltener Niveau-α{\displaystyle \alpha }-Bedingung die Fehlerwahrscheinlichkeiten 2. Art

Pθ(XKφ)=1Pθ(XKφ)für θΘ1{\displaystyle \mathbb {P} _{\theta }(X\notin K_{\varphi })=1-\mathbb {P} _{\theta }(X\in K_{\varphi })\quad {\text{für }}\theta \in \Theta _{1}}

minimiert.[8]

Unverfälschtheit

[Bearbeiten |Quelltext bearbeiten]

Als Minimalanforderung an einen Test gilt dieUnverfälschheit des Tests[13], die besagt, dass die AblehnwahrscheinlichkeitenPθ(XKφ){\displaystyle \mathbb {P} _{\theta }(X\in K_{\varphi })}, wennH0{\displaystyle H_{0}} falsch ist ('unterH1{\displaystyle H_{1}}'), mindestens so groß sein müssen, wie diejenigen, wennH0{\displaystyle H_{0}} richtig ist ('unterH0{\displaystyle H_{0}}'), formal

supθΘ0Pθ(XKφ)infθΘ1Pθ(XKφ){\displaystyle \sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(X\in K_{\varphi })\leq \inf _{\theta \in \Theta _{1}}\mathbb {P} _{\theta }(X\in K_{\varphi })}.

Teststatistik

[Bearbeiten |Quelltext bearbeiten]

Meistens istX{\displaystyle X} einen{\displaystyle n}-dimensionale Zufallsvariable mit Werten inXRn{\displaystyle {\mathcal {X}}\subseteq \mathbb {R} ^{n}}, wobein{\displaystyle n} den Stichprobenumfang bezeichnet. Die formale Definition und die praktische Durchführung eines Tests basiert häufig auf einer eindimensionalen reellwertigen Teststatistik (oder Prüfgröße)T=T(X){\displaystyle T=T(X)} für die ein Ablehnbereich als Teilmenge vonR{\displaystyle \mathbb {R} } angegeben wird.

Randomisierte Tests

[Bearbeiten |Quelltext bearbeiten]

Die Definition eines randomisierten Tests verläuft ähnlich wie beim nichtrandomisierten Test. Jedoch ist ein randomisierter Test einemessbare Funktionφ:X[0,1]{\displaystyle \varphi \colon {\mathcal {X}}\rightarrow [0,1]},

φ(x)={1für xK1,γ(x)für xK010für xK0{\displaystyle \varphi (x)={\begin{cases}1&{\text{für }}x\in K_{1},\\\gamma (x)&{\text{für }}x\in K_{01}\\0&{\text{für }}x\in K_{0}\end{cases}}}

der folgende Interpretation als Entscheidungsregel zugrunde liegt: die NullhypotheseH0{\displaystyle H_{0}} wird abgelehnt, fallsxK1{\displaystyle x\in K_{1}};H0{\displaystyle H_{0}} wird nicht abgelehnt, fallsxK0{\displaystyle x\in K_{0}};H0{\displaystyle H_{0}} wird mit der Wahrscheinlichkeitγ(x){\displaystyle \gamma (x)} abgelehnt, fallsxK01{\displaystyle x\in K_{01}}.[4]Der StichprobenraumX{\displaystyle {\mathcal {X}}} wird durch eine randomisierten Test in drei disjunkte Teilbereiche zerlegt, denstrikten Ablehnungsbereich

K1={xXφ(x)=1},{\displaystyle K_{1}=\{x\in {\mathcal {X}}\mid \varphi (x)=1\}\;,}

denstrikten Annahmebereich

K0={xXφ(x)=0}{\displaystyle K_{0}=\{x\in {\mathcal {X}}\mid \varphi (x)=0\}}

und denRandomisierungsbereich

K01={xX0<φ(x)<1}.{\displaystyle K_{01}=\{x\in {\mathcal {X}}\mid 0<\varphi (x)<1\}\;.}

Wenn eine Beobachtung im Randomisierungsbereich liegt, wirdH0{\displaystyle H_{0}} mit der Wahrscheinlichkeitγ(x){\displaystyle \gamma (x)} abgelehnt und mit der Wahrscheinlichkeit1γ(x){\displaystyle 1-\gamma (x)} nicht abgelehnt, wozu ein weiteresZufallsexperiment erforderlich ist.[4]

Randomisierte Tests spielen für die Konstruktion von Tests eine Rolle, bei denen das vorgegebene Signifikanzniveauα{\displaystyle \alpha } ausgeschöpft, also ein Umfang-α{\displaystyle \alpha }-Test konstruiert werden soll. Die Existenz eines nichtrandomisierten Umfang-α{\displaystyle \alpha }-Test ist im Allgemeinen nicht gewährleistet, z. B. wenn die Teststatistik eine diskrete Verteilung hat. Häufig genügt eine Beschränkung aufTests mit konstanter Randomisierung[14], d. h.γ(x)=γ¯{\displaystyle \gamma (x)={\bar {\gamma }}} für allexK01{\displaystyle x\in K_{01}} mit einer Konstantenγ¯(0,1){\displaystyle {\bar {\gamma }}\in (0,1)}, um einen Umfang-α{\displaystyle \alpha }-Test zu konstruieren.[15] Beispielsweise ist einBinomialtest wegen derDiskretheit der Teststatistik in der Regel konservativ, schöpft also das vorgegebene Signifikanzniveau nicht aus, kann aber in einer randomisierten Variante zu einem Umfang-α{\displaystyle \alpha }-Test modifiziert werden.[16][17]

In der Anwendung von Tests spielen randomisierte Tests eine unbedeutende Rolle. Sie sind nur dann anwendbar, wenn auf Anwenderseite die Bereitschaft besteht, die letztendliche Entscheidung durch einen Zufallsmechanismus, z. B. durch einen Würfelwurf, Benutzung einer Tabelle vonZufallszahlen oder die Verwendung einesZufallsgenerators, fällen zu lassen.

Asymptotisches Verhalten des Tests

[Bearbeiten |Quelltext bearbeiten]
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mitBelegen (beispielsweiseEinzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst undgute Belege einfügst.

In den meisten Fällen ist die exakte Wahrscheinlichkeitsverteilung der Teststatistik unter der Nullhypothese nicht bekannt. Man steht also vor dem Problem, dass kein kritischer Bereich zum vorgegebenen Niveau festgelegt werden kann. In diesen Fällen erweitert man die Klasse der zulässigen Tests auf solche, dieasymptotisch das richtige Niveau besitzen. Formal bedeutet dies, dass man den BereichK{\displaystyle K} so wählt, dass für alleθΘ0{\displaystyle \theta \in \Theta _{0}} die Bedingung

lim supnPθ(T(X)K)α{\displaystyle \limsup _{n\to \infty }\mathbb {P} _{\theta }(T(X)\in K)\leq \alpha }

erfüllt ist. In der Regel erhält man solche asymptotischen Tests via Normalapproximation; man versucht also, die Teststatistik so zu transformieren, dass sie gegen eineNormalverteilung konvergiert.

Einfache Beispiele hierfür sind der einfache und doppeltet-Test für Erwartungswerte. Hier folgt die asymptotische Verteilung direkt aus demzentralen Grenzwertsatz in der Anwendung auf dasarithmetische Mittel.

Daneben gibt es aber eine Reihe weiterer statistischer Methoden, die die Herleitung der asymptotischen Normalverteilung auch für kompliziertere Funktionale erlauben. Hierunter fällt dieDelta-Methode[18] für nichtlineare, differenzierbare Transformationenasymptotisch normalverteilter Zufallsvariablen:

Seic:RpRq{\displaystyle c\colon R^{p}\rightarrow R^{q}} eine differenzierbare Funktion und sei ein Schätzerβ^Rp{\displaystyle {\hat {\beta }}\in R^{p}}n{\displaystyle {\sqrt {n}}}-normalverteilt mit asymptotischer KovarianzmatrixV{\displaystyle V}, dann hatn0,5(β^β){\displaystyle n^{0,5}({\hat {\beta }}-\beta )} folgende Verteilung:N(0,(c/β)V(c/β)){\displaystyle {\mathcal {N}}(0,(\partial c/\partial \beta )'V(\partial c/\partial \beta ))}.

Ferner hat die nichtparametrische Delta-Methode (auch: Einflussfunktionsmethode) einige Fortschritte gebracht:

SeiT(F){\displaystyle T(F)} einFunktional, das von der VerteilungF{\displaystyle F} abhängt. SeiL(x)limδ0(T((1δ)F+δG)T(F))/δ){\displaystyle L(x)\equiv \lim _{\delta \rightarrow 0}(T((1-\delta )F+\delta G)-T(F))/\delta )} dieGâteaux-Ableitung der Statistik beiF{\displaystyle F} (Einflussfunktion) und seiT{\displaystyle T}Hadamard-differenzierbar bezüglichsupx|F(x)G(x)|{\displaystyle \sup _{x}|F(x)-G(x)|}, dann hatn(T(F^)T(F)){\displaystyle {\sqrt {n}}(T({\hat {F}})-T(F))} folgende Verteilung:N(0,L(x)2dF(x)){\displaystyle {\mathcal {N}}\left(0,\int L(x)^{2}\mathrm {d} F(x)\right)}.

Die Deltamethode erlaubt Normalverteilungsapproximationen für nichtlineare, differenzierbare Transformationen (asymptotisch) normalverteilter Zufallsvariablen, während die Einflussfunktionsmethode solche Approximationen für viele interessante Charakteristika einer Verteilung zulässt. Darunter fallen u. a. dieMomente (also etwa: Varianz, Kurtosis usw.), aber auch Funktionen dieser Momente (etwa:Korrelationskoeffizient).

Eine wichtige weitere Anforderung an einen guten Test ist, dass er bei wachsendem Stichprobenumfang empfindlicher wird. In statistischen Termini bedeutet dies, dass bei Vorliegen einerkonsistenten Teststatistik die Wahrscheinlichkeit dafür steigt, dass die Nullhypothese auch tatsächlich zu Gunsten der Alternativhypothese verworfen wird, falls sie nicht stimmt. Speziell wenn der Unterschied zwischen dem tatsächlichen Verhalten der Zufallsvariablen und der Hypothese sehr gering ist, wird er erst bei einem entsprechend großen Stichprobenumfang entdeckt. Ob diese Abweichungen jedoch von praktischer Bedeutung sind und überhaupt den Aufwand einer großen Stichprobe rechtfertigen, hängt von dem zu untersuchenden Aspekt ab.

Problem der Modellwahl

[Bearbeiten |Quelltext bearbeiten]

Die meisten mathematischen Resultate beruhen auf Annahmen, die bezüglich bestimmter Eigenschaften der beobachteten Zufallsvariablen gemacht werden. Je nach Situation werden verschiedene Teststatistiken gewählt, deren (asymptotische) Eigenschaften wesentlich von den Forderungen an die zu Grunde liegende Verteilungsfamilie abhängen. In der Regel müssen diese Modellannahmen zuvor empirisch überprüft werden, um überhaupt angewendet werden zu können. Kritisch ist dabei vor allem, dass die typischen Testverfahren strengen Voraussetzungen unterworfen sind, die in der Praxis selten erfüllt sind.

Typen und Eigenschaften von Tests

[Bearbeiten |Quelltext bearbeiten]
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mitBelegen (beispielsweiseEinzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst undgute Belege einfügst.

Parametrische und nichtparametrische Tests

[Bearbeiten |Quelltext bearbeiten]

Parametrische Tests (parametrisches Prüfverfahren)

[Bearbeiten |Quelltext bearbeiten]

Bei parametrischen Test wird angenommen, dass den beobachteten Daten eineWahrscheinlichkeitsverteilung zugrunde liegt, die in einer Klasse von Verteilungen liegt, welche mittels Parametern charakterisiert werden kann.[19] Beispielsweise wird die Annahme gemacht, dass die Daten normalverteilt sind, also die Verteilung der Daten in der Klasse der Normalverteilungen liegt, welche durch die Parameter Mittelwert und Varianz charakterisiert sind. Nullhypothese und Alternativhypothese lassen sich dann häufig ebenfalls mithilfe von Parametern beschreiben.

Bei parametrischen Tests ist es wichtig, die getroffenen Voraussetzungen zu überprüfen. Die Daten sollten (annähernd) aus der angenommenen Verteilungsklasse stammen. Jedoch sind auch manche parametrischen Testverfahren bei Abweichungen von den Voraussetzungen (gerade bei großen Stichprobenumfang) robust. Beispielsweise ist derT-Test bei großen Stichprobenumfängen noch immer zuverlässig, auch wenn die Daten nicht – wie eigentlich vorausgesetzt – normalverteilt sind.

Sofern die gemachten Verteilungsannahmen nicht stimmen, sind die Ergebnisse des Tests in den meisten Fällen unbrauchbar. Speziell lässt sich die Wahrscheinlichkeit für einen Fehler zweiter Art nicht mehr sinnvoll minimieren. Man spricht dann davon, dass für viele Alternativen dieTrennschärfe sinkt.

Nichtparametrische Tests

[Bearbeiten |Quelltext bearbeiten]

Beinichtparametrischen Tests (auch parameterfreie Tests oder Verteilungstests genannt) wird nicht angenommen, dass dieWahrscheinlichkeitsverteilung, die den Beobachtungen zugrunde liegt, aus einer Familie von Verteilungen stammt, die sich durch Parameter charakterisieren lässt.[19] In der Regel treffen nichtparametrische Tests jedoch ebenfalls Annahmen über die zugrundeliegenden Verteilungen. Oft wird angenommen, dass den Daten eine stetige Verteilung zugrunde liegt, oder dass die Verteilung symmetrisch ist. Die Nullhypothese und Alternativhypothese bei nichtparametrischen Tests kann durchaus mittels Parametern formuliert werden. Beispielsweise liegt demWilcoxon-Vorzeichen-Rang-Test die Nullhypothese zugrunde, dass der Median der Verteilung (die als symmetrisch angenommen wird) kleiner, gleich, oder größer einem gegebenen Wert ist.Nichtparametrische Tests kommen also mit anderen Vorannahmen aus, die Menge der für Hypothese und Alternative zugelassenen Verteilungen lässt sich nicht durch einen Parameter beschreiben.

Typische Beispiele:

Die aufgezählten Tests treffen alle Annahmen über die zugrundeliegendeWahrscheinlichkeitsverteilung der Daten, die erfüllt sein müssen. Beispielsweise geht derWilcoxon-Vorzeichen-Rang-Test von einer symmetrischen stetigen Verteilung aus. Gerade die Voraussetzung einer stetigen Verteilung ist in der Praxis oft nicht gegeben. Bei einer stetigen Verteilung würden Bindungen mit Wahrscheinlichkeit 0 auftreten. Das ist in der Praxis aufgrund von Rundungsfehlern oft nicht erfüllt. In solchen Fällen greift man auf korrigierte Versionen der jeweiligen Verfahren zurück. Da parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Trennschärfe bieten als nichtparametrische, kommen letztere eher selten zum Einsatz.

Verteilungsfreie und verteilungsgebundene Tests

[Bearbeiten |Quelltext bearbeiten]

Beiverteilungsgebundenen oderparametrischen Tests[20] hängt die TeststatistikT{\displaystyle T} von der Verteilung der StichprobenvariablenXi{\displaystyle X_{i}}, also ihrer Verteilung in der Grundgesamtheit, ab. Oft wird eine Normalverteilung vorausgesetzt.

Beiverteilungsfreien Tests, auchnichtparametrische oderparameterfreie Tests genannt[20][21][22], hängt die TeststatistikT{\displaystyle T}nicht von der Verteilung der StichprobenvariablenXi{\displaystyle X_{i}} ab.

Konservativer Test

[Bearbeiten |Quelltext bearbeiten]

Bei einem konservativen Test gilt, dass die Wahrscheinlichkeiten für einen Fehler 1. Art (Annahme der Alternativhypothese als Ergebnis der Testentscheidung, obwohl die Nullhypothese wahr ist) kleiner als das vorgegebene Signifikanzniveauα{\displaystyle \alpha } ist. Dadurch wird der Nichtablehnungsbereich der Nullhypothese größer als eigentlich notwendig und eine richtige Nullhypothese wird seltener abgelehnt, als durch das vorgegebene Signifikanzniveauα{\displaystyle \alpha } erlaubt ist. Der Test ist in dem Sinnkonservativ, dass er die Nichtablehnung einer richtigen Nullhypothese begünstigt und so an der Nullhypothese festhält. Zugleich erhöht ein konservativer Test tendenziell die Fehlerwahrscheinlichkeiten 2. Art.

Ein Beispiel für einen konservativen Test ist derBinomialtest (Test auf Anteilswert, z. B.H0:ππ0{\displaystyle H_{0}\colon \pi \leq \pi _{0}} vs.H1:π>π0{\displaystyle H_{1}\colon \pi >\pi _{0}}). Wegen bestimmter Monotonieeigenschaften kann der Test mit Hilfe der zu dem speziellen Parameterwertπ0{\displaystyle \pi _{0}} gehörenden Wahrscheinlichkeitsverteilung der Teststatistik durchgeführt werden. Aufgrund der Diskretheit der TeststatistikT{\displaystyle T} kann man im Allgemeinen nicht erreichen, dass für den kritischen Wertc{\displaystyle c} gilt:Pπ0(T>c)=α{\displaystyle P_{\pi _{0}}(T>c)=\alpha }. Daher wählt manc{\displaystyle c} möglichst klein, aber, so dassPπ0(T>c)α{\displaystyle P_{\pi _{0}}(T>c)\leq \alpha } noch erfüllt ist. Dadurch erhält man einen Niveau-α-Test, der aber im Allgemeinen kein Umfang-α-Test ist, der also das vorgegebene Signifikanzniveau nicht ausschöpft. Der Umfang des Tests (die maximale Fehlerwahrscheinlich 1. Art) kann erheblich unter dem vorgegebenen Signifikanzniveau liegen.

Exakter Test

[Bearbeiten |Quelltext bearbeiten]

Exakte Tests sind Tests, deren Annahmen in Bezug auf die Verteilung der Teststatistik bei Gültigkeit der Nullhypothese alle exakt sind.Dadurch kann derFehler 1. Art (Ablehnung der Nullhypothese, obwohl diese gültig ist) exakt kontrolliert werden.

Exakte Tests sind etwa derFisher-Test, derPermutationstest oder derBinomialtest.

Ein Beispiel ist auch hier der Binomialtest (Test auf Anteilswert, z. B.H0:ππ0{\displaystyle H_{0}\colon \pi \leq \pi _{0}} vs.H1:π>π0{\displaystyle H_{1}\colon \pi >\pi _{0}}). Aufgrund deszentralen Grenzwertsatzes kann die binomialverteilte TeststatistikT{\displaystyle T} mit der Normalverteilung approximiert werden, z. B. fallsnπ0(1π0)9{\displaystyle n\cdot \pi _{0}\cdot (1-\pi _{0})\geq 9} gilt. Unter Umständen ist in diesem Fall zur besseren Approximation die Anwendung einerStetigkeitskorrektur notwendig.

Ein- und zweiseitige Tests

[Bearbeiten |Quelltext bearbeiten]

Im Falle eines eindimensionalen Parametersθ{\displaystyle \theta } mit Werten in einem ParameterraumΘR{\displaystyle \Theta \subseteq \mathbb {R} } spricht man in den beiden Fällen

H0:θθ0versusH1:θ>θ0{\displaystyle H_{0}\colon \theta \leq \theta _{0}\quad {\text{versus}}\quad H_{1}\colon \theta >\theta _{0}}

und

H0:θθ0versusH1:θ<θ0{\displaystyle H_{0}\colon \theta \geq \theta _{0}\quad {\text{versus}}\quad H_{1}\colon \theta <\theta _{0}}

von einereinseitigen Gegenhypothese und im Fall

H0:θ=θ0versusH1:θθ0{\displaystyle H_{0}\colon \theta =\theta _{0}\quad {\text{versus}}\quad H_{1}\colon \theta \neq \theta _{0}}

von einerzweiseitigen Gegenhypothese. Dabei istθ0{\displaystyle \theta _{0}} ein spezifizierter Parameter inΘ{\displaystyle \Theta }. In den ersten beiden Fällen kann die Nullhypothese auch von der FormH0:θ=θ0{\displaystyle H_{0}\colon \theta =\theta _{0}} sein. Man spricht in diesem Zusammenhang auch voneinseitigen undzweiseitigen Testproblemen oder kürzer voneinseitigen undzweiseitigen Tests.

Häufig, aber nicht immer, ist der Ablehnungsbereich für eine TeststatistikT{\displaystyle T}, die von einerSchätzfunktion für den Parameterθ{\displaystyle \theta } abgeleitet ist, beim ersten Hypothesenpaar ein Intervall der Form(a,){\displaystyle (a,\infty )}, beim zweiten Hypothesenpaar ein Intervall der Form(,b){\displaystyle (-\infty ,b)} und beim dritten Hypothesenpaar von der Form(,c)(d,){\displaystyle (-\infty ,c)\cup (d,\infty )} mitc<d{\displaystyle c<d}. In diesem Fall spricht man bei der Festlegung des Ablehnungsbereichs auch davon, dass man einseitig oder zweiseitig testet. Ablehnungsbereiche können aber auch bei einseitigen Testproblemen komplizierter sein als Intervalle oder Vereinigungen von zwei Intervallen.

Äquivalenztest

[Bearbeiten |Quelltext bearbeiten]

Beim Vergleich der Wirkung (z. B. von zwei Arzneimitteln) ist es manchmal sinnvoll, beim Mittelwertvergleich nicht einen Standardtest mit dem Hypothesenpaar

H0:μ1=μ2versusH1:μ1μ2{\displaystyle H_{0}\colon \mu _{1}=\mu _{2}\quad {\text{versus}}\quad H_{1}\colon \mu _{1}\neq \mu _{2}}

durchzuführen, sondern einen Toleranzbereich zu verwenden, in dem von Äquivalenz (Gleichwertigkeit) ausgegangen wird. Dazu wird eine positive Konstantec{\displaystyle c} zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar

H0:|μ1μ2|>cversusH1:|μ1μ2|c{\displaystyle H_{0}\colon |\mu _{1}-\mu _{2}|>c\quad {\text{versus}}\quad H_{1}\colon |\mu _{1}-\mu _{2}|\leq c}

getestet. WennH0{\displaystyle H_{0}} mit einem Signifikanztest zugunsten vonH1{\displaystyle H_{1}} abgelehnt wird, liegt statistisch gesicherte Äquivalenz vor. Ein solcher Signifikanztest heißtÄquivalenztest.[23][24]

Nichtunterlegenheitstest

[Bearbeiten |Quelltext bearbeiten]

Beim Vergleich der Wirkung eines neuen Wirkstoffs (z. B. eines neuen Arzneimittels) mit einem etablierten Referenzstoff wird manchmal getestet, ob der neue Wirkstoff vergleichbar oder nur unbedeutend schlechter ist. Man spricht dann von derNichtunterlegenheit des neuen Wirkstoffs. Dazu wird eine positive Konstantec{\displaystyle c} zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar

H0:μ1<μ0cversusH1:μ1μ0c{\displaystyle H_{0}\colon \mu _{1}<\mu _{0}-c\quad {\text{versus}}\quad H_{1}\colon \mu _{1}\geq \mu _{0}-c}

getestet. Dabei istμ0{\displaystyle \mu _{0}} die mittlere Wirkung des Referenzstoffes undμ1{\displaystyle \mu _{1}} die mittlere Wirkung des neuen Wirkstoffes. Wenn die Nullhypothese mit einem Signifikanztest zugunsten der Gegenhypothese abgelehnt wird, gilt der neue Wirkstoff statistisch gesichert als nicht unterlegen. Ein solcher Signifikanztest heißtNichtunterlegenheitstest.[23][24]

Will man anstelle der Nichtunterlegenheit die signifikante Überlegenheit des Referenzstoffes nachweisen, so ist

H0:μ1μ0versusH1:μ1>μ0{\displaystyle H_{0}\colon \mu _{1}\leq \mu _{0}\quad {\text{versus}}\quad H_{1}\colon \mu _{1}>\mu _{0}}

zu testen. Will man eine signifikante Überlegenheit des Referenzstoffes nachweisen, die auch relevant ist, wobei die Relevanz des Unterschiedes durch eine positive Konstantec{\displaystyle c} ausgedrückt ist, so ist

H0:μ1μ0+cversusH1:μ1>μ0+c{\displaystyle H_{0}\colon \mu _{1}\leq \mu _{0}+c\quad {\text{versus}}\quad H_{1}\colon \mu _{1}>\mu _{0}+c}

zu testen.

Signifikanztest

[Bearbeiten |Quelltext bearbeiten]

Allgemein heißt ein statistischer Test, bei dem eine NullhypotheseH0{\displaystyle H_{0}} gegen die GegenhypotheseH1{\displaystyle H_{1}} getestet wird,Hypothesentest.

Ein statistischer Test einer NullhypotheseH0{\displaystyle H_{0}} gegen die GegenhypotheseH1{\displaystyle H_{1}} heißtSignifikanztest zum Niveauα{\displaystyle \alpha }, wenn es sich um einen Niveau-α{\displaystyle \alpha }-Test im Sinn derNeyman-Pearson’schen Testtheorie handelt. Dabei „[...] wird für die Wahrscheinlichkeiten des Fehlers erster Art eine obere Schranke α (α nahe bei Null) vorgegeben, so daß auf diese Art der Fehler erster Art unter Kontrolle steht. Für den Fehler zweiter Art ist dies nicht der Fall, seine Wahrscheinlichkeiten können (auch bei einem optimalen Niveau-α-Test) sehr groß sein [...]“[25] Die unsymmetrische Behandlung der beiden Fehler führt zu den beiden möglichen – unsymmetrisch interpretierten – Testentscheidungen

A0:{\displaystyle A_{0}:}H0{\displaystyle H_{0}} wird nicht abgelehnt (keine statistische Signifikanz).
A1:{\displaystyle A_{1}:}H0{\displaystyle H_{0}} wird abgelehnt,H1{\displaystyle H_{1}} ist signifikant.

Der Fehler 1. Art wird kontrolliert, in dem eine Oberschranke für die Fehlerwahrscheinlichkeiten 1. Art vorgegeben wird, das sogenannte Signifikanzniveauα(0,1){\displaystyle \alpha \in (0,1)}. Typische Werte für ein vorgegebenes Signifikanzniveau sind 10 %, 5 %, 1 % und 0,1 %. In einigen Anwendungsbereichen hat sich die Verwendung vonα=5%{\displaystyle \alpha =5\%} verfestigt.

Ein Signifikanztest ist ungeeignet, eine Nullhypothese im Fall der Nichtablehnung mit statistischer Signifikanz zu bestätigen oder zu sichern. Bei Verwendung eines statistischen Signifikanztests ist daher eine zu stützende Forschungshypothese regelmäßig als Gegenhypothese zu formulieren. Kann die Nullhypothese abgelehnt werden, so gilt die Forschungshypothese als signifikant.

Häufig wird von Anwendern die Nichtablehnung der Nullhypothese eines Signifikanztestes falsch interpretiert, nämlich als statistischeBestätigung der Nullhypothese. Diese Interpretation ist aber nur möglich, wenn zusätzlich Aussagen über die Fehlerwahrscheinlichkeit 2. Art gemacht werden können, was aber in der Regel nicht möglich ist, wenn die Gegenhypothese sehr allgemein ist. Typische Fehlanwendungen dieser Art sind der Einsatz einesKolmogorow-Smirnow-Tests zur Bestätigung einer bestimmten Verteilungsannahme, der Einsatz desLilliefors-Tests zur Bestätigung der Normalverteilungsannahme und der Einsatz desLevene-Tests zur Bestätigung der Varianzhomogenität. Aus methodischen Gründen können der Kolmogorow-Smirnow-Test, der Lilliefors-Test bzw. der Levene-Test verwendet werden, um mit statistischer Signifikanz eine bestimmte Verteilungsannahme, die Normalverteilungsannahme bzw. die Homogenitätsannahme der Varianzenabzulehnen.

Ein Hypothesentest, der kein Signifikanztest ist, und eine Alternative behandelt, die aus zwei gleichberechtigten Hypothesen besteht, ist derAlternativtest.

Alternativtest

[Bearbeiten |Quelltext bearbeiten]

Typisch für einenSignifikanztest im Sinn der Neyman-Pearson’schen Testtheorie ist die unsymmetrische Behandlung der Null- und Gegenhypothese durch die vorrangige Kontrolle des Fehlers 1. Art.In bestimmten Fällen ist stattdessen eine symmetrische Behandlung von zwei HypothesenH0{\displaystyle H_{0}} undH1{\displaystyle H_{1}} erwünscht, die eine Alternative bilden. „Ein derartiger Test heißtAlternativtest. Er besitzt die beiden möglichen Testergebnisse (Testaussagen, Testentscheidungen)

A0:{\displaystyle A_{0}:}H1{\displaystyle H_{1}} wird abgelehnt,H0{\displaystyle H_{0}} ist signifikant.
A1:{\displaystyle A_{1}:}H0{\displaystyle H_{0}} wird abgelehnt,H1{\displaystyle H_{1}} ist signifikant.“[26]

Bei Alternativtests erfolgt eine gleichzeitige Kontrolle der Fehler 1. Art und 2. Art.[27][28]

Durchschnitts-Vereinigungs-Test

[Bearbeiten |Quelltext bearbeiten]

Die Durchschnitts-Vereinigungs-Methode[29] zur Testkonstruktion kommt in Frage, wenn für eine zu testende Hypothese die Nullhypothese als Vereinigung

H0:θγΓΘγ{\displaystyle H_{0}\colon \theta \in \bigcup _{\gamma \in \Gamma }\Theta _{\gamma }}

mit einer endlichen oder unendlichen IndexmengeΓ{\displaystyle \Gamma } dargestellt werden kann.Wenn Tests für die einzelnen HypothesenH0,γ:θΘγ{\displaystyle H_{0,\gamma }:\theta \in \Theta _{\gamma }} mit der jeweiligen GegenhypotheseH0,γ:θΘΘγ{\displaystyle H_{0,\gamma }:\theta \in \Theta \setminus \Theta _{\gamma }} zur Verfügung stehenund wennH0{\displaystyle H_{0}} abgelehnt wird, falls alle NullhypothesenH0,γ{\displaystyle H_{0,\gamma }} abgelehnt werden, dann wird einDurchschnitts-Vereinigungs-Test (engl.:intersection-union test) durchgeführt. Der Ablehnungsbereich für den TestH0{\displaystyle H_{0}} ist dann der Durchschnitt der Ablehnungsbereiche der einzelnen Tests. Im Unterschied zummultiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse.

Wenn die einzelnen Tests Umfang-αγ{\displaystyle \alpha _{\gamma }}-Tests mit dem AblehnungsbereichAγ{\displaystyle A_{\gamma }} sind, dann ist der Durchschnitts-Vereinigungs-Test mit dem AblehnungsbereichA=γΓAγ{\displaystyle A=\bigcap _{\gamma \in \Gamma }A_{\gamma }} ein Niveau-α{\displaystyle \alpha }-Test mitα=supγΓαγ.{\displaystyle \alpha =\sup _{\gamma \in \Gamma }\alpha _{\gamma }\;.}[30] Daraus folgt insbesondere, dass der Durchschnitts-Vereinigungs-Test ein Niveau-α{\displaystyle \alpha }-Test ist, wenn alle einzelnen Tests Umfang-α{\displaystyle \alpha }-Tests sind.

Vereinigungs-Durchschnitts-Test

[Bearbeiten |Quelltext bearbeiten]

Die Vereinigungs-Durchschnitts-Methode[31] zur Testkonstruktion kommt in Frage, wenn für eine zu testende Hypothese die Nullhypothese als Durchschnitt

H0:θγΓΘγ{\displaystyle H_{0}\colon \theta \in \bigcap _{\gamma \in \Gamma }\Theta _{\gamma }}

mit einer endlichen oder unendlichen IndexmengeΓ{\displaystyle \Gamma } dargestellt werden kann.Wenn Tests für die einzelnen HypothesenH0,γ:θΘγ{\displaystyle H_{0,\gamma }:\theta \in \Theta _{\gamma }} mit der jeweiligen GegenhypotheseH0,γ:θΘΘγ{\displaystyle H_{0,\gamma }:\theta \in \Theta \setminus \Theta _{\gamma }} zur Verfügung stehenund wennH0{\displaystyle H_{0}} abgelehnt wird, falls irgendeine der HypothesenH0,γ{\displaystyle H_{0,\gamma }} abgelehnt wird, dann wird einVereinigungs-Durchschnitts-Test (engl.:union-intersection test) durchgeführt. Der Ablehnungsbereich für den TestH0{\displaystyle H_{0}} ist dann die Vereinigung der Ablehnungsbereiche der einzelnen Tests.Im Unterschied zummultiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse.

Multiples Testen

[Bearbeiten |Quelltext bearbeiten]

Unter multiplem Testen versteht man die simultane Durchführung mehrerer Tests mit denselben Beobachtungen.Multiples Testen führt im Vergleich zur Durchführung eines einzelnen Tests zu mehreren Aufgaben:

  1. Die Konzepte des Fehlers 1. Art (auch α-Fehler genannt) und der Fehlerwahrscheinlichkeit 1. Art müssen für multiple Tests verallgemeinert werden. Dies erfolgt durch die Konzepte desmultiplen Fehlers 1. Art und dermultiplen Fehlerwahrscheinlichkeit 1. Art.
  2. Die betrachtete Familie der Hypothesen und die Tests sollten bestimmte Konsistenzbedingungen erfüllen, z. B.Kohärenz,Konsonanz undAbgeschlossenheit.
  3. Die vorgegebenen Signifikanzniveaus müssen für mehrere Tests aufeinander abgestimmt werden. Im Zusammenhang mit dieser Fragestellung wird dieAlphafehler-Kumulierung relevant.
Hauptartikel:Multiples Testen

Abgrenzung zu psychologischen und medizinischen Tests

[Bearbeiten |Quelltext bearbeiten]

Ein statistischer Test ist nicht dasselbe wie einpsychologischer Test oder einmedizinischer (Labor-)Test. Dies betrifft nicht nur den Anwendungsbereich, sondern auch die zugrundeliegende Logik. Bei der auf empirischen Studien basierenden Forschung werden selbstverständlich in den beiden Bereichen Psychologie und Medizin auch statistische Tests eingesetzt. Der wesentliche Kern eines statistischen Tests besteht darin, auf Grund des beobachteten Wertes einer zufälligen BeobachtungX{\displaystyle X} mit der unbekannten VerteilungP{\displaystyle P} zwischen zwei disjunkten nicht-leeren VerteilungsmengenP0{\displaystyle {\mathcal {P}}_{0}} undP1{\displaystyle {\mathcal {P}}_{1}} zu unterscheiden, wobeiPP0P1{\displaystyle P\in {\mathcal {P}}_{0}\cup {\mathcal {P}}_{1}} vorausgesetzt ist. Dabei werden bei der Festlegung eines Ablehnungsbereiches im Sinn der Neyman-Pearson’schen Testtheorie bzw. bei einer p-Wert-basierten Testdurchführung die Fehlerwahrscheinlichkeiten 1. und 2. Art unsymmetrisch behandelt.

Psychologischer Test

[Bearbeiten |Quelltext bearbeiten]
Hauptartikel:Psychologischer Test

Ein psychologischer Test versucht, einenicht direkt messbare Eigenschaft von Personen (z. B. Intelligenz) durch mehrerequantifizierbare Hilfsvariablen zu messen. Die Methoden der Konstruktion und die Gütekriterien eines psychologischen Tests sind völlig andere als die Methoden der Konstruktion und die Gütekriterien eines statistischen Tests.

Medizinischer Test

[Bearbeiten |Quelltext bearbeiten]
Hauptartikel:Medizinischer Test

Mit einem medizinischen Test ist meist ein Labor-Test als Hilfsmittel zur Diagnose gemeint. Dabei wird mit Hilfe der Menge einer z. B. im Blut, Speichel, Urin usw. gemessenen Indikatorsubstanz entschieden, ob der Patient krank (im Sinn einer bestimmten Diagnose) oder gesund ist. Ein solcher medizinischer Test ist eigentlich ein binäresKlassifikationsverfahren, hat aber auch formale Parallelität zu einem statistischen Test mit einfacher Nullhypothese und einfacher Gegenhypothese. Bei der Konstruktion eines Labor-Tests ist im Idealfall die Verteilung der Indikatorsubstanz einerseits in der Gruppe der Kranken und andererseits in der Gruppe der Nichtkranken bekannt. Die Festlegung eines Trennwertes legt die Fehlerwahrscheinlichkeiten 1. Art und 2. Art fest. Dabei wird versucht, durch geeignete Wahl der Indikatorsubstanz beide Fehlerwahrscheinlichkeiten möglichst klein zu halten bzw. die Komplemente der Fehlerwahrscheinlichkeiten, die bei medizinischen AnwendungenSensitivität undSpezifität heißen, möglichst groß zu halten. Es ist in diesem Zusammenhang üblich, die Nullhypothese, auf die sich der Fehler Art 1. Art bezieht, als „der Patient ist gesund“ festzulegen. Bei gegebenen Verteilungen können durch Festlegung des Trennwertes unterschiedliche Kombinationen der Fehlerwahrscheinlichkeiten 1. Art und 2. Art erreicht werden, die durch dieROC-Kurve beschrieben sind. Die Konstruktion eines solchen Labor-Tests ist eher mit einem statistischenAlternativtest als mit einem Signifikanztest vergleichbar. Eine weitere statistische Komplikation besteht darin, dass die beiden Verteilungen in den Grundgesamtheiten der Gesunden und Kranken nicht bekannt sind, sondern aus Stichproben geschätzt werden müssen.

Vielen anderen Arten medizinischer Tests ist gemeinsam, dass die Nullhypothese einfach ist und inhaltlich je nach Fragestellungkein Effekt,kein Unterschied,keine Wirkung,nicht erkrankt,nicht infiziert usw. bedeutet. Durch Ablehnung der Nullhypothese wird versucht, einen Effekt, einen Unterschied, eine Wirkung, eine Erkrankung, eine Infektion usw. nachzuweisen. Ein beobachtetes Testergebnis heißt in diesem ZusammenhangBefund. Ein Befund, der zur Ablehnung der Nullhypothese führt, heißtpositiver Befund, anderenfallsnegativer Befund. Ein Fehler 1. Art heißtfalsch-positive Entscheidung oderfalsch-positive Diagnose, ein Fehler 2. Art heißtfalsch-negative Entscheidung oderfalsch-negative Diagnose. Bei einem Test mit einfacher Null- und einfacher Alternativhypothese gibt es nur eine Fehlerwahrscheinlichkeit 1. Art, die als 'der'α{\displaystyle \alpha }-Fehler bezeichnet wird, und nur eine Fehlerwahrscheinlichkeit 2. Art, die als 'der'β{\displaystyle \beta }-Fehler bezeichnet wird. In diesem Fall heißt das Komplement der Fehlerwahrscheinlichkeit 1. Artdie Spezifität des Tests und das Komplement der Fehlerwahrscheinlichkeit 2. Art – die Trennschärfe, Macht oder Güte des Tests in statistischer Terminologie – heißtdie Sensitivität des Tests. Die Sensitivität des Tests ist die Wahrscheinlichkeit einer richtigen positiven Diagnose. Die Spezifität des Tests ist die Wahrscheinlichkeit einer richtigen negativen Diagnose. Im medizinischen Bereich wird die Durchführung eines Tests auchTestung genannt.

Übersicht Tests

[Bearbeiten |Quelltext bearbeiten]

Die wichtigsten Tests lassen sich nach verschiedenen Kriterien charakterisieren, z. B. nach

  1. Einsatzzweck, z. B. das Testen von Parametern einer Verteilung oder der Verteilung selbst
  2. Anzahl der Stichproben
  3. Abhängigkeit oder Unabhängigkeiten der Stichproben
  4. Voraussetzungen über die Grundgesamtheit(en)

Falls nicht anders angegeben, wird bei allen Tests in der folgenden Übersicht davon ausgegangen, dass die Beobachtungenunabhängig und identisch verteilt sind. Es werden folgende Abkürzungen benutzt:

Nicht-parametrische Tests sind mit einem gelben Hintergrund gekennzeichnet.

Tests auf Lageparameter (Mittelwert, Median)

[Bearbeiten |Quelltext bearbeiten]
TestTest bzgl.Voraussetzung(en)
Für eine Stichprobe
Einstichproben-t-TestMittelwertNormalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG istunbekannt
Einstichproben-Gauß-TestMittelwertNormalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG istbekannt
VorzeichentestMedian
Für zwei unabhängige Stichproben
Zweistichproben-t-TestMittelwerteNormalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt, abergleich
Welch-TestMittelwerteNormalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt undungleich
Zweistichproben-Gauß-TestMittelwerteNormalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind bekannt undgleich
Wilcoxon-Mann-Whitney-TestMittelwerte und MedianeVerteilungsfunktionen sind gegeneinander verschoben
Median-TestMediane
Für zwei abhängige Stichproben
Zweistichproben-t-TestMittelwerteDie Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz istunbekannt
Zweistichproben-Gauß-TestMittelwerteDie Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz istbekannt
Wilcoxon-Vorzeichen-Rang-TestMedianeDie Differenz der Beobachtungen ist symmetrisch (und stetig) verteilt
VorzeichentestMediane
Für mehrere unabhängige Stichproben
VarianzanalyseMittelwerteNormalverteilte GGen, Varianzen in GGen sindgleich
Kruskal-Wallis-TestMittelwerte und MedianeVerteilungsfunktionen sind gegeneinander verschoben
Median-TestMediane
Für mehrere abhängige Stichproben
Varianzanalyse mit wiederholten MessungenMittelwertNormalverteilte GGen, Sphärizität
Friedman-TestLageparameter
Quade-TestLageparameter

Tests auf Streuung

[Bearbeiten |Quelltext bearbeiten]
TestTest bzgl.Voraussetzung(en)
Für eine Stichprobe
F-TestVarianzNormalverteilte GG
Für zwei unabhängige Stichproben
F-TestVarianzenNormalverteilte GGen
Für zwei oder mehr unabhängige Stichproben
χ2-Test von BartlettVarianzenNormalverteilte GGen
Levene-TestVarianzen
Für eine multivariate Stichprobe
Bartlett-Test auf SphärizitätKovarianzmatrix

Tests auf Zusammenhangs- und Assoziationsparameter

[Bearbeiten |Quelltext bearbeiten]
TestTest bzgl.Voraussetzung(en)
Für zwei unabhängige Stichproben
Chi-Quadrat-UnabhängigkeitstestUnabhängigkeitGGen sind diskret verteilt
Exakter Test nach FisherUnabhängigkeitGGen sind diskret verteilt
Steigers Z-TestBravais-Pearson-KorrelationGGen sind bivariat normal verteilt
Für zwei abhängige Stichproben
McNemar-TestUnabhängigkeitGGen sind dichotom

Anpassungs- oder Verteilungstests

[Bearbeiten |Quelltext bearbeiten]
TestTest bzgl.Voraussetzung(en)
Für eine Stichprobe
Chi-Quadrat-Anpassungstestvorg. VerteilungGG ist diskret
Anderson-Darling-Testvorg. VerteilungGG ist stetig
Kolmogorow-Smirnow-Testvorg. VerteilungGG ist stetig
Cramér-von-Mises-Testvorg. VerteilungGG ist stetig
Jarque-Bera-TestNormalverteilungGG ist stetig
Lilliefors-TestNormalverteilungGG ist stetig
Shapiro-Wilk-TestNormalverteilungGG ist stetig
Für zwei Stichproben
Zweistichproben-Kolmogorow-Smirnow-TestIdentische VerteilungenGGen sind stetig
Zweistichproben-Cramér-von-Mises-TestIdentische VerteilungenGGen sind stetig
Für mehrere Stichproben
Chi-Quadrat-HomogenitätstestIdentische VerteilungenGGen sind diskret

Tests in der Regressions- und Zeitreihenanalyse

[Bearbeiten |Quelltext bearbeiten]
TestTest bzgl.Voraussetzung(en)
Lineare Regression
globalerF-Test„Bestimmtheitsmaß“Normalverteilte Residuen
t-TestRegressionskoeffizientNormalverteilte Residuen
Goldfeld-Quandt-TestHeteroskedastizitätNormalverteilte Residuen
Chow-TestStrukturbruchNormalverteilte Residuen
Zeitreihenanalyse
Durbin-Watson-TestAutokorrelationNormalverteilte Residuen, fixe Regressoren, nur Autokorrelation 1. Ordnung zulässig, keine Heteroskedastizität
Box-Pierce-TestAutokorrelation?
Ljung-Box-TestAutokorrelation?

Verschiedene Tests

[Bearbeiten |Quelltext bearbeiten]
TestTest bzgl.Voraussetzung(en)
Dichotome GG
BinomialtestAnteilswertGG ist dichotom
Run-TestZufälligkeitGG ist dichotom
Ausreißer
Grubbs-TestGr. oder kl. WertGG ist normalverteilt
Walsh-TestGr. oder kl. WertFür ein Signifikanzniveau von 5 % (10 %) werden mindestens 220 (60) Werte benötigt
Allgemeine Tests derMaximum-Likelihood-Theorie
Likelihood-Quotienten-TestKoeffizient o. Modelle
Wald-TestKoeffizient o. Modelle
Score-TestKoeffizient o. Modelle

Sonstiges

[Bearbeiten |Quelltext bearbeiten]

Eine besondere Art der Testdurchführung ist dassequentielle Testen, wobei derStichprobenumfang nicht vorgegeben ist. Vielmehr wird bei der laufenden Datenerfassung für jede neue Beobachtung ein Test durchgeführt, ob man aufgrund der bereits erhobenen Daten eine Entscheidung für oder gegen die Nullhypothese treffen kann (sieheSequentieller Likelihood-Quotienten-Test).

TestsKurzbeschreibung
Test einerStichprobe auf Zugehörigkeit zurNormalverteilung
Parametrische Tests
Test von Cochran/Cochrans QTest aufGleichverteilung mehrerer verbundenerdichotomer Variablen
Kendall’scher Konkordanzkoeffizient/Kendalls WTest aufKorrelation von Rangreihen
Friedman-TestTest auf Gleichheit des Lageparameters, bei unbekannter, aber identischer Verteilung im c-Stichprobenfall mit gepaarten Stichproben
Quade-TestTest auf Gleichheit des Lageparameters, bei unbekannter, aber identischer Verteilung im c-Stichprobenfall mit gepaarten Stichproben

Siehe auch

[Bearbeiten |Quelltext bearbeiten]

Anmerkungen

[Bearbeiten |Quelltext bearbeiten]
  1. Wir betrachten fürp{\displaystyle p} den Parameterbereich [1/4,1], um zu erreichen, dass Nullhypothese und Alternativhypothese den gesamten Parameterbereich überdecken. Bei absichtlichem Nennen einer falschen Farbe könnte man zwar auch auf Hellseh-Fähigkeiten schließen, aber wir nehmen an, dass die Testperson eine möglichst hohe Trefferzahl erzielen will.
  2. Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,Kap. 1.1, S. 5. 
  3. George G. Judge, R. Carter Hill, W. Griffiths,Helmut Lütkepohl, T. C. Lee.Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988,ISBN 0-471-62414-4, S. 93
  4. abcBernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 10. 
  5. abcBernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 9. 
  6. Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,S. 190. 
  7. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 13. 
  8. abcBernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 20. 
  9. E. L. Lehmann, Joseph P. Romano:Testing Statistical Hypothesis. 2022,Gleichung (3.3), S. 62. 
  10. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,Gleichung (3.5), S. 13. 
  11. George Casella, Roger L. Berger:Statistical Inference. 2002,Def. 8.36, S. 185. 
  12. E. L. Lehmann, Joseph P. Romano:Testing Statistical Hypothesis. 2022,S. 44. 
  13. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,Gleichung (3.21), S. 22. 
  14. Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,S. 190. 
  15. Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,Satz 1.38, S. 190. 
  16. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 17. 
  17. Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,Beispiel 1.41, S. 43. 
  18. Anil K. Bera, Malabika Koley:A History of the Delta Method and Some New Results. In:Sankhya B: The Indian Journal of Statistics.Band 85, 2023,doi:10.1007/s13571-023-00305-9. 
  19. abJoachim Hartung:Statistik Lehr- und Handbuch der angewandten Statistik. München 2009,ISBN 978-3-486-71054-0. 
  20. abJürgen Bortz, Gustav A. Lienert, Klaus Boehnke:Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008,S. 35–36. 
  21. J. Hartung:Statistik: Lehr- und Handbuch der angewandten Statistik. 8. Auflage. Oldenbourg, 1991,S. 139. 
  22. K. Bosch:Statistik-Taschenbuch. Oldenbourg, 1992,S. 669. 
  23. abStefan Wellek, Maria Blettner:Klinische Studien zum Nachweis von Äquivalenz und Nichtunterlegenheit. Teil 20 der Serie zur Bewertung wissenschaftlicher Publikationen. In:Deutsches Ärzteblatt International.Band 109,Nr. 41, 2012,S. 674–678,doi:10.3238/arztbl2012.0674 (aerzteblatt.de). 
  24. abS. Lange, R. Bender, A. Ziegler:Äquivalenzstudien und Nicht-Unterlegenheitsstudien. Artikel Nr. 20 der Statistik-Serie in der DMW. In:Deutsche Medizinische Wochenschrift.Band 132, 2007,S. e53–e56,doi:10.1055/s-2007-959043 (thieme-connect.com [PDF]). 
  25. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 248. 
  26. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 248. 
  27. Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,Abschnitt 3.3.1, S. 248–263. 
  28. Bernhard Rüger:Alternativtests für zwei einfache Hypothesen mit endlich vielen Ergebnissen. In:Metrika.Band 28,S. 71–77. 
  29. George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,S. 381. 
  30. George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,Theorem 8.3.23, S. 395. 
  31. George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,S. 380–381. 

Literatur

[Bearbeiten |Quelltext bearbeiten]

Weblinks

[Bearbeiten |Quelltext bearbeiten]
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Statistischer_Test&oldid=260772287
Kategorie:
Versteckte Kategorien:

[8]ページ先頭

©2009-2026 Movatter.jp