Einstatistischer Test dient in derTesttheorie, einem Teilgebiet dermathematischen Statistik, dazu, anhand vorliegender Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einerHypothese zu treffen. Aus diesem Grund spricht man auch von einemHypothesentest. Formal ist ein Test also einemathematische Funktion, die einem Beobachtungsergebnis eine Entscheidung zuordnet. Da die vorhandenen DatenRealisierungen vonZufallsvariablen sind, lässt sich in den meisten Fällen nicht mit Sicherheit sagen, ob eine Hypothese wahr ist oder nicht. Man versucht daher, dieWahrscheinlichkeiten für Fehlentscheidungen zu kontrollieren. Meistens wird ein Hypothesentest in der Form einesSignifikanztests durchgeführt, der ein Test zu einem vorgegebenenSignifikanzniveau ist.
Ein statistisches Testverfahren lässt sich im Prinzip mit einem Gerichtsverfahren vergleichen. Das Verfahren hat (meistens) den Zweck, festzustellen, ob es ausreichend Beweise gibt, den Angeklagten zu verurteilen. Es wird dabei immer von der Unschuld eines Verdächtigen ausgegangen, und solange große Zweifel an den Belegen für ein tatsächliches Vergehen bestehen, wird ein Angeklagter freigesprochen. Nur wenn die Indizien für die Schuld eines Angeklagten deutlich überwiegen, kommt es zu einer Verurteilung.
Es gibt demnach zu Beginn des Verfahrens die beiden Hypothesen
„der Verdächtige ist unschuldig“ und
„der Verdächtige ist schuldig“. Erstere nennt manNullhypothese, von ihr wird vorläufig ausgegangen. Die zweite nennt manGegenhypothese (oderAlternativhypothese). Sie ist diejenige, die zu „beweisen“ versucht wird.
Um einen Unschuldigen nicht zu leicht zu verurteilen, wird die Hypothese der Unschuld erst dann verworfen, wenn ein Irrtum sehr unwahrscheinlich ist. Man spricht auch davon, die Wahrscheinlichkeit für einenFehler 1. Art (also das Verurteilen eines Unschuldigen) zu kontrollieren. Naturgemäß wird durch dieses unsymmetrische Vorgehen die Wahrscheinlichkeit für einenFehler 2. Art (also das Freisprechen eines Schuldigen) „groß“. Aufgrund derstochastischen Struktur des Testproblems lassen sich wie in einem Gerichtsverfahren Fehlentscheidungen grundsätzlich nicht vermeiden. Man versucht in der Statistik allerdings optimale Tests zu konstruieren, die die Fehlerwahrscheinlichkeiten minimieren.
Es soll versucht werden, einen Test auf hellseherische Fähigkeiten zu entwickeln.
Einer Testperson wird 25-mal die Rückseite einer rein zufällig gewählten Spielkarte gezeigt und sie wird jeweils danach gefragt, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Die Anzahl der Treffer nennen wir
.
Da die hellseherischen Fähigkeiten der Person getestet werden sollen, gehen wir vorläufig von der Nullhypothese aus, die Testperson sei nicht hellsehend. Die Alternativhypothese lautet entsprechend: Die Testperson ist hellseherisch begabt.
Was bedeutet das für unseren Test? Wenn die Nullhypothese richtig ist, wird die Testperson nur versuchen können, die jeweilige Farbe zu erraten. Für jede Karte gibt es bei vier Farben eine Wahrscheinlichkeit von
, die richtige Farbe zu erraten. Wenn die Alternativhypothese richtig ist, hat die Person für jede Karte eine größere Wahrscheinlichkeit als 1/4. Wir nennen die Wahrscheinlichkeit einer richtigen Vorhersage
.
Die Hypothesen lauten dann:[1]

und
.
Wenn die Testperson alle 25 Karten richtig benennt, werden wir sie als Hellseher betrachten und die Alternativhypothese annehmen. Und mit 24 oder 23 Treffern auch. Andererseits gibt es bei nur 5 oder 6 Treffern keinen Grund dazu. Aber was wäre mit 12 Treffern? Was wäre mit 17 Treffern? Wo liegt die kritische Anzahl an Treffern
, von der an wir nicht mehr glauben können, es seien reine Zufallstreffer?
Das kommt darauf an, wie kritisch man genau sein will, also wie oft man eine Fehlentscheidung erster Art zulässt. Mit
ist die Wahrscheinlichkeit einer solchen Fehlentscheidung, also die Wahrscheinlichkeit, dass eine nicht hellseherische Testperson nur rein zufällig 25-mal richtig geraten hat, extrem klein:
,
Hier stellt A denAblehnbereich dar. Wir nehmen
an, wenn für dieTeststatistik des Tests gilt, dass
und lehnen
ab, wenn
.
Weniger kritisch, mit
, erhalten wir mit derBinomialverteilung,
, eine wesentlich größere Wahrscheinlichkeit:

Vor dem Test wird eine Wahrscheinlichkeit für den Fehler erster Art festgesetzt, dasSignifikanzniveau
. Typisch sind Werte zwischen 1 % und 5 %. Abhängig davon lässt sich (hier für den Fall
) dann
so bestimmen, dass

gilt. Unter allen Zahlen
, die diese Eigenschaft erfüllen, wird man zuletzt
als die kleinste Zahl wählen, die diese Eigenschaft erfüllt, um die Wahrscheinlichkeit für den Fehler zweiter Art klein zu halten. In diesem konkreten Beispiel folgt:
. Ein Test dieser Art heißtBinomialtest, da die Anzahl der Treffer unter der Nullhypothese binomialverteilt ist.
Auch wenn es wünschenswert ist, dass der Test aufgrund der vorliegenden Daten „richtig“ entscheidet, besteht die Möglichkeit von Fehlentscheidungen. Im mathematischen Modell bedeutet dies, dass man bei richtiger Nullhypothese und Entscheidung für die Alternative einenFehler 1. Art (α-Fehler) begangen hat. Falls man die Nullhypothese bestätigt sieht, obwohl sie nicht stimmt, begeht man einenFehler 2. Art (β-Fehler).
In der statistischen Praxis macht man aus diesem vordergründig symmetrischen Problem ein asymmetrisches: Man legt also ein Signifikanzniveau α fest, das eine obere Schranke für die Wahrscheinlichkeit eines Fehlers erster Art liefert. Tests mit dieser Eigenschaft heißenTest zum Niveau
. Im Anschluss daran versucht man, einen optimalen Test zum vorgegebenen Niveau dadurch zu erhalten, dass man unter allen Tests zum Niveau α einen sucht, der die geringste Wahrscheinlichkeit für einen Fehler 2. Art aufweist.
Generell geht man bei der Anwendung eines Tests in folgenden Schritten vor:
- Formulierung einerNullhypothese
und ihrerAlternativhypothese
- Wahl des geeigneten Tests (Testgröße oderTeststatistik
) - Bestimmung des kritischen Bereiches
zumSignifikanzniveau
, das vorRealisierung der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet. - Berechnung des Werts der Beobachtung
der Testgröße
aus derStichprobe (je nach Testverfahren etwa den
-Wert oder
oder
oder
…). - Treffen der Testentscheidung:
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit
Belegen (beispielsweise
Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und
gute Belege einfügst.Sei
eineZufallsvariable, die von einem parametrisiertenWahrscheinlichkeitsraum
in einenMessraum
abbildet. Sei zusätzlich
die parametrisierte Verteilungsannahme, also eine Familie vonWahrscheinlichkeitsmaßen auf
, wobei
eine Bijektion ist.[2] Dabei ist
dieVerteilung von
. Hierbei sei
der Parameterraum, der in der Praxis meist eineTeilmenge des
mit
ist. Zwei disjunkte[3] Teilmengen
und
von
definieren das Testproblem:
wobei
dieNullhypothese und
dieGegenhypothese (oder auch Alternativhypothese) bezeichnet. Dabei bilden häufig, aber nicht notwendig, die beiden Mengen
und
eine Zerlegung von
.
Einemessbare Funktion
heißt (nichtrandomisierter)Test.[4]Die Funktion
heißt auchTestfunktion und hat folgende inhaltliche Interpretation als Entscheidungsregel:
Das Testergebnis '
wird abgelehnt' wird auch verbal umschrieben als '
ist mit der Beobachtung nicht verträglich', '
ist signifikant' oder '
wird durch die Beobachtung statistisch nachgewiesen'.[5]
Es sind zwei Arten von Fehlentscheidungen möglich: DerFehler 1. Art wird begangen, wenn
fälschlich abgelehnt wird, derFehler 2. Art wird begangen, wenn
nicht abgelehnt wird, obwohl
falsch ist.
Die Menge
derjenigen Beobachtungsergebnisse
, die zu einer Ablehnung von
führen, heißtkritischer Bereich[5] (auchAblehnungsbereich[6] oderAblehnbereich[5]) des Tests. Es gilt die Äquivalenz
für die Aussagen und die Gleichheit
der Ereignisse. Die Komplementmenge
heißtNichtablehnungsbereich oderAnnahmebereich.
Die Funktion
mit

ordnet jedem Parameterwert
die Wahrscheinlichkeit
zu, mit der
abgelehnt wird, und heißtGütefunktion des Tests.[7]
DieGütefunktion eines Tests enthält alle Informationen darüber, mit welchen Wahrscheinlichkeiten bei der Testentscheidung die Fehler 1. oder 2. Art begangen werden.Die Wahrscheinlichkeiten
für
sind dieFehlerwahrscheinlichkeiten 1. Art, also die Wahrscheinlichkeiten, dass bei der Testenscheidung ein Fehler 1. Art begegangen wird. Die Wahrscheinlichkeiten
für
sind dieFehlerwahrscheinlichkeiten 2. Art, also die Wahrscheinlichkeiten, dass bei der Testenscheidung ein Fehler 2. Art begegangen wird.
Sei nun einSignifikanz-Niveau
vorgegeben, das auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit heißt. Dann heißt ein Test
einSignifikanz-Test zum Niveau
[8] für das Testproblem
gegen
(auchNiveau-
-Test), wenn

gilt. Diese Bedingung heißtNiveau-
-Bedingung[8] und kann auch in der Form

geschrieben werden. Durch die Niveau-
-Bedingung werden dieFehlerwahrscheinlichkeiten 1. Art durch
nach oben beschränkt.
Die linke Seite der Ungleichung in der Niveau-
-Bedingung heißt Umfang des Tests[9] odertatsächliches Niveau des Testes[10].
Ein Niveau-
-Test heißtTest mit Umfang
(oder kurzUmfang-
-Test), wenn

gilt.[11] Man sagt dann auch:der Test schöpft das vorgegebene Signifikanzniveau aus.Wenn der Umfang des Tests kleiner als das vorgegebene Signifikanzniveau ist, heißt der Testkonservativ.[12]
In der Regel sucht man einen Test
, der bei eingehaltener Niveau-
-Bedingung die Fehlerwahrscheinlichkeiten 2. Art

minimiert.[8]
Als Minimalanforderung an einen Test gilt dieUnverfälschheit des Tests[13], die besagt, dass die Ablehnwahrscheinlichkeiten
, wenn
falsch ist ('unter
'), mindestens so groß sein müssen, wie diejenigen, wenn
richtig ist ('unter
'), formal
.
Meistens ist
eine
-dimensionale Zufallsvariable mit Werten in
, wobei
den Stichprobenumfang bezeichnet. Die formale Definition und die praktische Durchführung eines Tests basiert häufig auf einer eindimensionalen reellwertigen Teststatistik (oder Prüfgröße)
für die ein Ablehnbereich als Teilmenge von
angegeben wird.
Die Definition eines randomisierten Tests verläuft ähnlich wie beim nichtrandomisierten Test. Jedoch ist ein randomisierter Test einemessbare Funktion
,

der folgende Interpretation als Entscheidungsregel zugrunde liegt: die Nullhypothese
wird abgelehnt, falls
;
wird nicht abgelehnt, falls
;
wird mit der Wahrscheinlichkeit
abgelehnt, falls
.[4]Der Stichprobenraum
wird durch eine randomisierten Test in drei disjunkte Teilbereiche zerlegt, denstrikten Ablehnungsbereich

denstrikten Annahmebereich

und denRandomisierungsbereich

Wenn eine Beobachtung im Randomisierungsbereich liegt, wird
mit der Wahrscheinlichkeit
abgelehnt und mit der Wahrscheinlichkeit
nicht abgelehnt, wozu ein weiteresZufallsexperiment erforderlich ist.[4]
Randomisierte Tests spielen für die Konstruktion von Tests eine Rolle, bei denen das vorgegebene Signifikanzniveau
ausgeschöpft, also ein Umfang-
-Test konstruiert werden soll. Die Existenz eines nichtrandomisierten Umfang-
-Test ist im Allgemeinen nicht gewährleistet, z. B. wenn die Teststatistik eine diskrete Verteilung hat. Häufig genügt eine Beschränkung aufTests mit konstanter Randomisierung[14], d. h.
für alle
mit einer Konstanten
, um einen Umfang-
-Test zu konstruieren.[15] Beispielsweise ist einBinomialtest wegen derDiskretheit der Teststatistik in der Regel konservativ, schöpft also das vorgegebene Signifikanzniveau nicht aus, kann aber in einer randomisierten Variante zu einem Umfang-
-Test modifiziert werden.[16][17]
In der Anwendung von Tests spielen randomisierte Tests eine unbedeutende Rolle. Sie sind nur dann anwendbar, wenn auf Anwenderseite die Bereitschaft besteht, die letztendliche Entscheidung durch einen Zufallsmechanismus, z. B. durch einen Würfelwurf, Benutzung einer Tabelle vonZufallszahlen oder die Verwendung einesZufallsgenerators, fällen zu lassen.
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit
Belegen (beispielsweise
Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und
gute Belege einfügst.In den meisten Fällen ist die exakte Wahrscheinlichkeitsverteilung der Teststatistik unter der Nullhypothese nicht bekannt. Man steht also vor dem Problem, dass kein kritischer Bereich zum vorgegebenen Niveau festgelegt werden kann. In diesen Fällen erweitert man die Klasse der zulässigen Tests auf solche, dieasymptotisch das richtige Niveau besitzen. Formal bedeutet dies, dass man den Bereich
so wählt, dass für alle
die Bedingung

erfüllt ist. In der Regel erhält man solche asymptotischen Tests via Normalapproximation; man versucht also, die Teststatistik so zu transformieren, dass sie gegen eineNormalverteilung konvergiert.
Einfache Beispiele hierfür sind der einfache und doppeltet-Test für Erwartungswerte. Hier folgt die asymptotische Verteilung direkt aus demzentralen Grenzwertsatz in der Anwendung auf dasarithmetische Mittel.
Daneben gibt es aber eine Reihe weiterer statistischer Methoden, die die Herleitung der asymptotischen Normalverteilung auch für kompliziertere Funktionale erlauben. Hierunter fällt dieDelta-Methode[18] für nichtlineare, differenzierbare Transformationenasymptotisch normalverteilter Zufallsvariablen:
Sei
eine differenzierbare Funktion und sei ein Schätzer
-normalverteilt mit asymptotischer Kovarianzmatrix
, dann hat
folgende Verteilung:
.
Ferner hat die nichtparametrische Delta-Methode (auch: Einflussfunktionsmethode) einige Fortschritte gebracht:
Sei
einFunktional, das von der Verteilung
abhängt. Sei
dieGâteaux-Ableitung der Statistik bei
(Einflussfunktion) und sei
Hadamard-differenzierbar bezüglich
, dann hat
folgende Verteilung:
.
Die Deltamethode erlaubt Normalverteilungsapproximationen für nichtlineare, differenzierbare Transformationen (asymptotisch) normalverteilter Zufallsvariablen, während die Einflussfunktionsmethode solche Approximationen für viele interessante Charakteristika einer Verteilung zulässt. Darunter fallen u. a. dieMomente (also etwa: Varianz, Kurtosis usw.), aber auch Funktionen dieser Momente (etwa:Korrelationskoeffizient).
Eine wichtige weitere Anforderung an einen guten Test ist, dass er bei wachsendem Stichprobenumfang empfindlicher wird. In statistischen Termini bedeutet dies, dass bei Vorliegen einerkonsistenten Teststatistik die Wahrscheinlichkeit dafür steigt, dass die Nullhypothese auch tatsächlich zu Gunsten der Alternativhypothese verworfen wird, falls sie nicht stimmt. Speziell wenn der Unterschied zwischen dem tatsächlichen Verhalten der Zufallsvariablen und der Hypothese sehr gering ist, wird er erst bei einem entsprechend großen Stichprobenumfang entdeckt. Ob diese Abweichungen jedoch von praktischer Bedeutung sind und überhaupt den Aufwand einer großen Stichprobe rechtfertigen, hängt von dem zu untersuchenden Aspekt ab.
Die meisten mathematischen Resultate beruhen auf Annahmen, die bezüglich bestimmter Eigenschaften der beobachteten Zufallsvariablen gemacht werden. Je nach Situation werden verschiedene Teststatistiken gewählt, deren (asymptotische) Eigenschaften wesentlich von den Forderungen an die zu Grunde liegende Verteilungsfamilie abhängen. In der Regel müssen diese Modellannahmen zuvor empirisch überprüft werden, um überhaupt angewendet werden zu können. Kritisch ist dabei vor allem, dass die typischen Testverfahren strengen Voraussetzungen unterworfen sind, die in der Praxis selten erfüllt sind.
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit
Belegen (beispielsweise
Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und
gute Belege einfügst.Bei parametrischen Test wird angenommen, dass den beobachteten Daten eineWahrscheinlichkeitsverteilung zugrunde liegt, die in einer Klasse von Verteilungen liegt, welche mittels Parametern charakterisiert werden kann.[19] Beispielsweise wird die Annahme gemacht, dass die Daten normalverteilt sind, also die Verteilung der Daten in der Klasse der Normalverteilungen liegt, welche durch die Parameter Mittelwert und Varianz charakterisiert sind. Nullhypothese und Alternativhypothese lassen sich dann häufig ebenfalls mithilfe von Parametern beschreiben.
Bei parametrischen Tests ist es wichtig, die getroffenen Voraussetzungen zu überprüfen. Die Daten sollten (annähernd) aus der angenommenen Verteilungsklasse stammen. Jedoch sind auch manche parametrischen Testverfahren bei Abweichungen von den Voraussetzungen (gerade bei großen Stichprobenumfang) robust. Beispielsweise ist derT-Test bei großen Stichprobenumfängen noch immer zuverlässig, auch wenn die Daten nicht – wie eigentlich vorausgesetzt – normalverteilt sind.
Sofern die gemachten Verteilungsannahmen nicht stimmen, sind die Ergebnisse des Tests in den meisten Fällen unbrauchbar. Speziell lässt sich die Wahrscheinlichkeit für einen Fehler zweiter Art nicht mehr sinnvoll minimieren. Man spricht dann davon, dass für viele Alternativen dieTrennschärfe sinkt.
Beinichtparametrischen Tests (auch parameterfreie Tests oder Verteilungstests genannt) wird nicht angenommen, dass dieWahrscheinlichkeitsverteilung, die den Beobachtungen zugrunde liegt, aus einer Familie von Verteilungen stammt, die sich durch Parameter charakterisieren lässt.[19] In der Regel treffen nichtparametrische Tests jedoch ebenfalls Annahmen über die zugrundeliegenden Verteilungen. Oft wird angenommen, dass den Daten eine stetige Verteilung zugrunde liegt, oder dass die Verteilung symmetrisch ist. Die Nullhypothese und Alternativhypothese bei nichtparametrischen Tests kann durchaus mittels Parametern formuliert werden. Beispielsweise liegt demWilcoxon-Vorzeichen-Rang-Test die Nullhypothese zugrunde, dass der Median der Verteilung (die als symmetrisch angenommen wird) kleiner, gleich, oder größer einem gegebenen Wert ist.Nichtparametrische Tests kommen also mit anderen Vorannahmen aus, die Menge der für Hypothese und Alternative zugelassenen Verteilungen lässt sich nicht durch einen Parameter beschreiben.
Typische Beispiele:
Die aufgezählten Tests treffen alle Annahmen über die zugrundeliegendeWahrscheinlichkeitsverteilung der Daten, die erfüllt sein müssen. Beispielsweise geht derWilcoxon-Vorzeichen-Rang-Test von einer symmetrischen stetigen Verteilung aus. Gerade die Voraussetzung einer stetigen Verteilung ist in der Praxis oft nicht gegeben. Bei einer stetigen Verteilung würden Bindungen mit Wahrscheinlichkeit 0 auftreten. Das ist in der Praxis aufgrund von Rundungsfehlern oft nicht erfüllt. In solchen Fällen greift man auf korrigierte Versionen der jeweiligen Verfahren zurück. Da parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Trennschärfe bieten als nichtparametrische, kommen letztere eher selten zum Einsatz.
Beiverteilungsgebundenen oderparametrischen Tests[20] hängt die Teststatistik
von der Verteilung der Stichprobenvariablen
, also ihrer Verteilung in der Grundgesamtheit, ab. Oft wird eine Normalverteilung vorausgesetzt.
Beiverteilungsfreien Tests, auchnichtparametrische oderparameterfreie Tests genannt[20][21][22], hängt die Teststatistik
nicht von der Verteilung der Stichprobenvariablen
ab.
Bei einem konservativen Test gilt, dass die Wahrscheinlichkeiten für einen Fehler 1. Art (Annahme der Alternativhypothese als Ergebnis der Testentscheidung, obwohl die Nullhypothese wahr ist) kleiner als das vorgegebene Signifikanzniveau
ist. Dadurch wird der Nichtablehnungsbereich der Nullhypothese größer als eigentlich notwendig und eine richtige Nullhypothese wird seltener abgelehnt, als durch das vorgegebene Signifikanzniveau
erlaubt ist. Der Test ist in dem Sinnkonservativ, dass er die Nichtablehnung einer richtigen Nullhypothese begünstigt und so an der Nullhypothese festhält. Zugleich erhöht ein konservativer Test tendenziell die Fehlerwahrscheinlichkeiten 2. Art.
Ein Beispiel für einen konservativen Test ist derBinomialtest (Test auf Anteilswert, z. B.
vs.
). Wegen bestimmter Monotonieeigenschaften kann der Test mit Hilfe der zu dem speziellen Parameterwert
gehörenden Wahrscheinlichkeitsverteilung der Teststatistik durchgeführt werden. Aufgrund der Diskretheit der Teststatistik
kann man im Allgemeinen nicht erreichen, dass für den kritischen Wert
gilt:
. Daher wählt man
möglichst klein, aber, so dass
noch erfüllt ist. Dadurch erhält man einen Niveau-α-Test, der aber im Allgemeinen kein Umfang-α-Test ist, der also das vorgegebene Signifikanzniveau nicht ausschöpft. Der Umfang des Tests (die maximale Fehlerwahrscheinlich 1. Art) kann erheblich unter dem vorgegebenen Signifikanzniveau liegen.
Exakte Tests sind Tests, deren Annahmen in Bezug auf die Verteilung der Teststatistik bei Gültigkeit der Nullhypothese alle exakt sind.Dadurch kann derFehler 1. Art (Ablehnung der Nullhypothese, obwohl diese gültig ist) exakt kontrolliert werden.
Exakte Tests sind etwa derFisher-Test, derPermutationstest oder derBinomialtest.
Ein Beispiel ist auch hier der Binomialtest (Test auf Anteilswert, z. B.
vs.
). Aufgrund deszentralen Grenzwertsatzes kann die binomialverteilte Teststatistik
mit der Normalverteilung approximiert werden, z. B. falls
gilt. Unter Umständen ist in diesem Fall zur besseren Approximation die Anwendung einerStetigkeitskorrektur notwendig.
Im Falle eines eindimensionalen Parameters
mit Werten in einem Parameterraum
spricht man in den beiden Fällen

und

von einereinseitigen Gegenhypothese und im Fall

von einerzweiseitigen Gegenhypothese. Dabei ist
ein spezifizierter Parameter in
. In den ersten beiden Fällen kann die Nullhypothese auch von der Form
sein. Man spricht in diesem Zusammenhang auch voneinseitigen undzweiseitigen Testproblemen oder kürzer voneinseitigen undzweiseitigen Tests.
Häufig, aber nicht immer, ist der Ablehnungsbereich für eine Teststatistik
, die von einerSchätzfunktion für den Parameter
abgeleitet ist, beim ersten Hypothesenpaar ein Intervall der Form
, beim zweiten Hypothesenpaar ein Intervall der Form
und beim dritten Hypothesenpaar von der Form
mit
. In diesem Fall spricht man bei der Festlegung des Ablehnungsbereichs auch davon, dass man einseitig oder zweiseitig testet. Ablehnungsbereiche können aber auch bei einseitigen Testproblemen komplizierter sein als Intervalle oder Vereinigungen von zwei Intervallen.
Beim Vergleich der Wirkung (z. B. von zwei Arzneimitteln) ist es manchmal sinnvoll, beim Mittelwertvergleich nicht einen Standardtest mit dem Hypothesenpaar

durchzuführen, sondern einen Toleranzbereich zu verwenden, in dem von Äquivalenz (Gleichwertigkeit) ausgegangen wird. Dazu wird eine positive Konstante
zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar

getestet. Wenn
mit einem Signifikanztest zugunsten von
abgelehnt wird, liegt statistisch gesicherte Äquivalenz vor. Ein solcher Signifikanztest heißtÄquivalenztest.[23][24]
Beim Vergleich der Wirkung eines neuen Wirkstoffs (z. B. eines neuen Arzneimittels) mit einem etablierten Referenzstoff wird manchmal getestet, ob der neue Wirkstoff vergleichbar oder nur unbedeutend schlechter ist. Man spricht dann von derNichtunterlegenheit des neuen Wirkstoffs. Dazu wird eine positive Konstante
zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar

getestet. Dabei ist
die mittlere Wirkung des Referenzstoffes und
die mittlere Wirkung des neuen Wirkstoffes. Wenn die Nullhypothese mit einem Signifikanztest zugunsten der Gegenhypothese abgelehnt wird, gilt der neue Wirkstoff statistisch gesichert als nicht unterlegen. Ein solcher Signifikanztest heißtNichtunterlegenheitstest.[23][24]
Will man anstelle der Nichtunterlegenheit die signifikante Überlegenheit des Referenzstoffes nachweisen, so ist

zu testen. Will man eine signifikante Überlegenheit des Referenzstoffes nachweisen, die auch relevant ist, wobei die Relevanz des Unterschiedes durch eine positive Konstante
ausgedrückt ist, so ist

zu testen.
Allgemein heißt ein statistischer Test, bei dem eine Nullhypothese
gegen die Gegenhypothese
getestet wird,Hypothesentest.
Ein statistischer Test einer Nullhypothese
gegen die Gegenhypothese
heißtSignifikanztest zum Niveau
, wenn es sich um einen Niveau-
-Test im Sinn derNeyman-Pearson’schen Testtheorie handelt. Dabei „[...] wird für die Wahrscheinlichkeiten des Fehlers erster Art eine obere Schranke α (α nahe bei Null) vorgegeben, so daß auf diese Art der Fehler erster Art unter Kontrolle steht. Für den Fehler zweiter Art ist dies nicht der Fall, seine Wahrscheinlichkeiten können (auch bei einem optimalen Niveau-α-Test) sehr groß sein [...]“[25] Die unsymmetrische Behandlung der beiden Fehler führt zu den beiden möglichen – unsymmetrisch interpretierten – Testentscheidungen

wird nicht abgelehnt (keine statistische Signifikanz).
wird abgelehnt,
ist signifikant.
Der Fehler 1. Art wird kontrolliert, in dem eine Oberschranke für die Fehlerwahrscheinlichkeiten 1. Art vorgegeben wird, das sogenannte Signifikanzniveau
. Typische Werte für ein vorgegebenes Signifikanzniveau sind 10 %, 5 %, 1 % und 0,1 %. In einigen Anwendungsbereichen hat sich die Verwendung von
verfestigt.
Ein Signifikanztest ist ungeeignet, eine Nullhypothese im Fall der Nichtablehnung mit statistischer Signifikanz zu bestätigen oder zu sichern. Bei Verwendung eines statistischen Signifikanztests ist daher eine zu stützende Forschungshypothese regelmäßig als Gegenhypothese zu formulieren. Kann die Nullhypothese abgelehnt werden, so gilt die Forschungshypothese als signifikant.
Häufig wird von Anwendern die Nichtablehnung der Nullhypothese eines Signifikanztestes falsch interpretiert, nämlich als statistischeBestätigung der Nullhypothese. Diese Interpretation ist aber nur möglich, wenn zusätzlich Aussagen über die Fehlerwahrscheinlichkeit 2. Art gemacht werden können, was aber in der Regel nicht möglich ist, wenn die Gegenhypothese sehr allgemein ist. Typische Fehlanwendungen dieser Art sind der Einsatz einesKolmogorow-Smirnow-Tests zur Bestätigung einer bestimmten Verteilungsannahme, der Einsatz desLilliefors-Tests zur Bestätigung der Normalverteilungsannahme und der Einsatz desLevene-Tests zur Bestätigung der Varianzhomogenität. Aus methodischen Gründen können der Kolmogorow-Smirnow-Test, der Lilliefors-Test bzw. der Levene-Test verwendet werden, um mit statistischer Signifikanz eine bestimmte Verteilungsannahme, die Normalverteilungsannahme bzw. die Homogenitätsannahme der Varianzenabzulehnen.
Ein Hypothesentest, der kein Signifikanztest ist, und eine Alternative behandelt, die aus zwei gleichberechtigten Hypothesen besteht, ist derAlternativtest.
Typisch für einenSignifikanztest im Sinn der Neyman-Pearson’schen Testtheorie ist die unsymmetrische Behandlung der Null- und Gegenhypothese durch die vorrangige Kontrolle des Fehlers 1. Art.In bestimmten Fällen ist stattdessen eine symmetrische Behandlung von zwei Hypothesen
und
erwünscht, die eine Alternative bilden. „Ein derartiger Test heißtAlternativtest. Er besitzt die beiden möglichen Testergebnisse (Testaussagen, Testentscheidungen)

wird abgelehnt,
ist signifikant.
wird abgelehnt,
ist signifikant.“[26]
Bei Alternativtests erfolgt eine gleichzeitige Kontrolle der Fehler 1. Art und 2. Art.[27][28]
Die Durchschnitts-Vereinigungs-Methode[29] zur Testkonstruktion kommt in Frage, wenn für eine zu testende Hypothese die Nullhypothese als Vereinigung

mit einer endlichen oder unendlichen Indexmenge
dargestellt werden kann.Wenn Tests für die einzelnen Hypothesen
mit der jeweiligen Gegenhypothese
zur Verfügung stehenund wenn
abgelehnt wird, falls alle Nullhypothesen
abgelehnt werden, dann wird einDurchschnitts-Vereinigungs-Test (engl.:intersection-union test) durchgeführt. Der Ablehnungsbereich für den Test
ist dann der Durchschnitt der Ablehnungsbereiche der einzelnen Tests. Im Unterschied zummultiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse.
Wenn die einzelnen Tests Umfang-
-Tests mit dem Ablehnungsbereich
sind, dann ist der Durchschnitts-Vereinigungs-Test mit dem Ablehnungsbereich
ein Niveau-
-Test mit
[30] Daraus folgt insbesondere, dass der Durchschnitts-Vereinigungs-Test ein Niveau-
-Test ist, wenn alle einzelnen Tests Umfang-
-Tests sind.
Die Vereinigungs-Durchschnitts-Methode[31] zur Testkonstruktion kommt in Frage, wenn für eine zu testende Hypothese die Nullhypothese als Durchschnitt

mit einer endlichen oder unendlichen Indexmenge
dargestellt werden kann.Wenn Tests für die einzelnen Hypothesen
mit der jeweiligen Gegenhypothese
zur Verfügung stehenund wenn
abgelehnt wird, falls irgendeine der Hypothesen
abgelehnt wird, dann wird einVereinigungs-Durchschnitts-Test (engl.:union-intersection test) durchgeführt. Der Ablehnungsbereich für den Test
ist dann die Vereinigung der Ablehnungsbereiche der einzelnen Tests.Im Unterschied zummultiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse.
Unter multiplem Testen versteht man die simultane Durchführung mehrerer Tests mit denselben Beobachtungen.Multiples Testen führt im Vergleich zur Durchführung eines einzelnen Tests zu mehreren Aufgaben:
- Die Konzepte des Fehlers 1. Art (auch α-Fehler genannt) und der Fehlerwahrscheinlichkeit 1. Art müssen für multiple Tests verallgemeinert werden. Dies erfolgt durch die Konzepte desmultiplen Fehlers 1. Art und dermultiplen Fehlerwahrscheinlichkeit 1. Art.
- Die betrachtete Familie der Hypothesen und die Tests sollten bestimmte Konsistenzbedingungen erfüllen, z. B.Kohärenz,Konsonanz undAbgeschlossenheit.
- Die vorgegebenen Signifikanzniveaus müssen für mehrere Tests aufeinander abgestimmt werden. Im Zusammenhang mit dieser Fragestellung wird dieAlphafehler-Kumulierung relevant.
Ein statistischer Test ist nicht dasselbe wie einpsychologischer Test oder einmedizinischer (Labor-)Test. Dies betrifft nicht nur den Anwendungsbereich, sondern auch die zugrundeliegende Logik. Bei der auf empirischen Studien basierenden Forschung werden selbstverständlich in den beiden Bereichen Psychologie und Medizin auch statistische Tests eingesetzt. Der wesentliche Kern eines statistischen Tests besteht darin, auf Grund des beobachteten Wertes einer zufälligen Beobachtung
mit der unbekannten Verteilung
zwischen zwei disjunkten nicht-leeren Verteilungsmengen
und
zu unterscheiden, wobei
vorausgesetzt ist. Dabei werden bei der Festlegung eines Ablehnungsbereiches im Sinn der Neyman-Pearson’schen Testtheorie bzw. bei einer p-Wert-basierten Testdurchführung die Fehlerwahrscheinlichkeiten 1. und 2. Art unsymmetrisch behandelt.
Ein psychologischer Test versucht, einenicht direkt messbare Eigenschaft von Personen (z. B. Intelligenz) durch mehrerequantifizierbare Hilfsvariablen zu messen. Die Methoden der Konstruktion und die Gütekriterien eines psychologischen Tests sind völlig andere als die Methoden der Konstruktion und die Gütekriterien eines statistischen Tests.
Mit einem medizinischen Test ist meist ein Labor-Test als Hilfsmittel zur Diagnose gemeint. Dabei wird mit Hilfe der Menge einer z. B. im Blut, Speichel, Urin usw. gemessenen Indikatorsubstanz entschieden, ob der Patient krank (im Sinn einer bestimmten Diagnose) oder gesund ist. Ein solcher medizinischer Test ist eigentlich ein binäresKlassifikationsverfahren, hat aber auch formale Parallelität zu einem statistischen Test mit einfacher Nullhypothese und einfacher Gegenhypothese. Bei der Konstruktion eines Labor-Tests ist im Idealfall die Verteilung der Indikatorsubstanz einerseits in der Gruppe der Kranken und andererseits in der Gruppe der Nichtkranken bekannt. Die Festlegung eines Trennwertes legt die Fehlerwahrscheinlichkeiten 1. Art und 2. Art fest. Dabei wird versucht, durch geeignete Wahl der Indikatorsubstanz beide Fehlerwahrscheinlichkeiten möglichst klein zu halten bzw. die Komplemente der Fehlerwahrscheinlichkeiten, die bei medizinischen AnwendungenSensitivität undSpezifität heißen, möglichst groß zu halten. Es ist in diesem Zusammenhang üblich, die Nullhypothese, auf die sich der Fehler Art 1. Art bezieht, als „der Patient ist gesund“ festzulegen. Bei gegebenen Verteilungen können durch Festlegung des Trennwertes unterschiedliche Kombinationen der Fehlerwahrscheinlichkeiten 1. Art und 2. Art erreicht werden, die durch dieROC-Kurve beschrieben sind. Die Konstruktion eines solchen Labor-Tests ist eher mit einem statistischenAlternativtest als mit einem Signifikanztest vergleichbar. Eine weitere statistische Komplikation besteht darin, dass die beiden Verteilungen in den Grundgesamtheiten der Gesunden und Kranken nicht bekannt sind, sondern aus Stichproben geschätzt werden müssen.
Vielen anderen Arten medizinischer Tests ist gemeinsam, dass die Nullhypothese einfach ist und inhaltlich je nach Fragestellungkein Effekt,kein Unterschied,keine Wirkung,nicht erkrankt,nicht infiziert usw. bedeutet. Durch Ablehnung der Nullhypothese wird versucht, einen Effekt, einen Unterschied, eine Wirkung, eine Erkrankung, eine Infektion usw. nachzuweisen. Ein beobachtetes Testergebnis heißt in diesem ZusammenhangBefund. Ein Befund, der zur Ablehnung der Nullhypothese führt, heißtpositiver Befund, anderenfallsnegativer Befund. Ein Fehler 1. Art heißtfalsch-positive Entscheidung oderfalsch-positive Diagnose, ein Fehler 2. Art heißtfalsch-negative Entscheidung oderfalsch-negative Diagnose. Bei einem Test mit einfacher Null- und einfacher Alternativhypothese gibt es nur eine Fehlerwahrscheinlichkeit 1. Art, die als 'der'
-Fehler bezeichnet wird, und nur eine Fehlerwahrscheinlichkeit 2. Art, die als 'der'
-Fehler bezeichnet wird. In diesem Fall heißt das Komplement der Fehlerwahrscheinlichkeit 1. Artdie Spezifität des Tests und das Komplement der Fehlerwahrscheinlichkeit 2. Art – die Trennschärfe, Macht oder Güte des Tests in statistischer Terminologie – heißtdie Sensitivität des Tests. Die Sensitivität des Tests ist die Wahrscheinlichkeit einer richtigen positiven Diagnose. Die Spezifität des Tests ist die Wahrscheinlichkeit einer richtigen negativen Diagnose. Im medizinischen Bereich wird die Durchführung eines Tests auchTestung genannt.
Die wichtigsten Tests lassen sich nach verschiedenen Kriterien charakterisieren, z. B. nach
- Einsatzzweck, z. B. das Testen von Parametern einer Verteilung oder der Verteilung selbst
- Anzahl der Stichproben
- Abhängigkeit oder Unabhängigkeiten der Stichproben
- Voraussetzungen über die Grundgesamtheit(en)
Falls nicht anders angegeben, wird bei allen Tests in der folgenden Übersicht davon ausgegangen, dass die Beobachtungenunabhängig und identisch verteilt sind. Es werden folgende Abkürzungen benutzt:
Nicht-parametrische Tests sind mit einem gelben Hintergrund gekennzeichnet.
| Test | Test bzgl. | Voraussetzung(en) |
|---|
| Für eine Stichprobe |
|---|
| Einstichproben-t-Test | Mittelwert | Normalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG istunbekannt |
| Einstichproben-Gauß-Test | Mittelwert | Normalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG istbekannt |
| Vorzeichentest | Median | |
| Für zwei unabhängige Stichproben |
|---|
| Zweistichproben-t-Test | Mittelwerte | Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt, abergleich |
| Welch-Test | Mittelwerte | Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt undungleich |
| Zweistichproben-Gauß-Test | Mittelwerte | Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind bekannt undgleich |
| Wilcoxon-Mann-Whitney-Test | Mittelwerte und Mediane | Verteilungsfunktionen sind gegeneinander verschoben |
| Median-Test | Mediane | |
| Für zwei abhängige Stichproben |
|---|
| Zweistichproben-t-Test | Mittelwerte | Die Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz istunbekannt |
| Zweistichproben-Gauß-Test | Mittelwerte | Die Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz istbekannt |
| Wilcoxon-Vorzeichen-Rang-Test | Mediane | Die Differenz der Beobachtungen ist symmetrisch (und stetig) verteilt |
| Vorzeichentest | Mediane | |
| Für mehrere unabhängige Stichproben |
|---|
| Varianzanalyse | Mittelwerte | Normalverteilte GGen, Varianzen in GGen sindgleich |
| Kruskal-Wallis-Test | Mittelwerte und Mediane | Verteilungsfunktionen sind gegeneinander verschoben |
| Median-Test | Mediane | |
| Für mehrere abhängige Stichproben |
|---|
| Varianzanalyse mit wiederholten Messungen | Mittelwert | Normalverteilte GGen, Sphärizität |
| Friedman-Test | Lageparameter | |
| Quade-Test | Lageparameter | |
| Test | Test bzgl. | Voraussetzung(en) |
|---|
| Lineare Regression |
|---|
| globalerF-Test | „Bestimmtheitsmaß“ | Normalverteilte Residuen |
| t-Test | Regressionskoeffizient | Normalverteilte Residuen |
| Goldfeld-Quandt-Test | Heteroskedastizität | Normalverteilte Residuen |
| Chow-Test | Strukturbruch | Normalverteilte Residuen |
| Zeitreihenanalyse |
|---|
| Durbin-Watson-Test | Autokorrelation | Normalverteilte Residuen, fixe Regressoren, nur Autokorrelation 1. Ordnung zulässig, keine Heteroskedastizität |
| Box-Pierce-Test | Autokorrelation | ? |
| Ljung-Box-Test | Autokorrelation | ? |
Eine besondere Art der Testdurchführung ist dassequentielle Testen, wobei derStichprobenumfang nicht vorgegeben ist. Vielmehr wird bei der laufenden Datenerfassung für jede neue Beobachtung ein Test durchgeführt, ob man aufgrund der bereits erhobenen Daten eine Entscheidung für oder gegen die Nullhypothese treffen kann (sieheSequentieller Likelihood-Quotienten-Test).
- ↑Wir betrachten für
den Parameterbereich [1/4,1], um zu erreichen, dass Nullhypothese und Alternativhypothese den gesamten Parameterbereich überdecken. Bei absichtlichem Nennen einer falschen Farbe könnte man zwar auch auf Hellseh-Fähigkeiten schließen, aber wir nehmen an, dass die Testperson eine möglichst hohe Trefferzahl erzielen will. - ↑Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,Kap. 1.1, S. 5.
- ↑George G. Judge, R. Carter Hill, W. Griffiths,Helmut Lütkepohl, T. C. Lee.Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988,ISBN 0-471-62414-4, S. 93
- ↑abcBernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 10.
- ↑abcBernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 9.
- ↑Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,S. 190.
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 13.
- ↑abcBernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 20.
- ↑E. L. Lehmann, Joseph P. Romano:Testing Statistical Hypothesis. 2022,Gleichung (3.3), S. 62.
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,Gleichung (3.5), S. 13.
- ↑George Casella, Roger L. Berger:Statistical Inference. 2002,Def. 8.36, S. 185.
- ↑E. L. Lehmann, Joseph P. Romano:Testing Statistical Hypothesis. 2022,S. 44.
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,Gleichung (3.21), S. 22.
- ↑Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,S. 190.
- ↑Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,Satz 1.38, S. 190.
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 17.
- ↑Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985,Beispiel 1.41, S. 43.
- ↑Anil K. Bera, Malabika Koley:A History of the Delta Method and Some New Results. In:Sankhya B: The Indian Journal of Statistics.Band 85, 2023,doi:10.1007/s13571-023-00305-9.
- ↑abJoachim Hartung:Statistik Lehr- und Handbuch der angewandten Statistik. München 2009,ISBN 978-3-486-71054-0.
- ↑abJürgen Bortz, Gustav A. Lienert, Klaus Boehnke:Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008,S. 35–36.
- ↑J. Hartung:Statistik: Lehr- und Handbuch der angewandten Statistik. 8. Auflage. Oldenbourg, 1991,S. 139.
- ↑K. Bosch:Statistik-Taschenbuch. Oldenbourg, 1992,S. 669.
- ↑abStefan Wellek, Maria Blettner:Klinische Studien zum Nachweis von Äquivalenz und Nichtunterlegenheit. Teil 20 der Serie zur Bewertung wissenschaftlicher Publikationen. In:Deutsches Ärzteblatt International.Band 109,Nr. 41, 2012,S. 674–678,doi:10.3238/arztbl2012.0674 (aerzteblatt.de).
- ↑abS. Lange, R. Bender, A. Ziegler:Äquivalenzstudien und Nicht-Unterlegenheitsstudien. Artikel Nr. 20 der Statistik-Serie in der DMW. In:Deutsche Medizinische Wochenschrift.Band 132, 2007,S. e53–e56,doi:10.1055/s-2007-959043 (thieme-connect.com [PDF]).
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 248.
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,S. 248.
- ↑Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. 2002,Abschnitt 3.3.1, S. 248–263.
- ↑Bernhard Rüger:Alternativtests für zwei einfache Hypothesen mit endlich vielen Ergebnissen. In:Metrika.Band 28,S. 71–77.
- ↑George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,S. 381.
- ↑George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,Theorem 8.3.23, S. 395.
- ↑George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,S. 380–381.
- Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener:Statistik. Lehr- und Handbuch der angewandten Statistik [mit zahlreichen durchgerechneten Beispielen], 15., überarbeitete und erweiterte Auflage. Oldenbourg, München 2005,ISBN 978-3-486-59028-9.
- George Casella, Roger L. Berger:Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002,ISBN 0-534-24312-6,Kap. 8: Hypothesis Testing.
- E. L. Lehmann, Joseph P. Romano:Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022,ISBN 978-3-03070577-0,doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7).
- Horst Rinne:Taschenbuch der Statistik. 4., vollständig überarbeitete und erweiterte Auflage. Harri Deutsch, Frankfurt am Main 2008,ISBN 978-3-8171-1827-4.
- Bernhard Rüger:Test- und Schätztheorie, Band II: Statistische Tests. Oldenbourg, München 2002,ISBN 3-486-25130-9.
- Hermann Witting:Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. Teubner, Stuttgart 1985,ISBN 3-519-02026-2.