Formelzeichen | |
---|---|
Mittelwert der Grundgesamtheit | |
Varianz der Grundgesamtheit | |
Anzahl der gegebenen Werte | |
Zufallsvariablen (Zufallsgrößen) | |
Stichprobe: beobachtete Werte der Zufallsvariablen | |
Stichprobenmittel / empirischer Mittelwert von | |
Stichprobenvarianz / empirische Varianz von | |
Stichprobenmittel (als Funktion der Zufallsvariablen) | |
Stichprobenvarianz (als Funktion der Zufallsvariablen) |
Dieempirische Varianz[1][2], auchStichprobenvarianz[2][3] (veraltet:empirisches Streuungsquadrat) oder einfach nur kurzVarianz genannt, ist einMaß für die Streuung von konkreten (empirisch erhobenen) Werten einerStichprobe.
Bei der empirischen Varianz handelt sich um einen Begriff aus derbeschreibenden (deskriptiven) Statistik für die Varianz. Sie gehört zu denStreuungsmaßen und beschreibt diemittlere quadratische Abweichung der einzelnen Werte vomempirischen Mittelwert. Sie entspricht damit dem „durchschnittlichen Abweichungsquadrat“.
Die Wurzel der empirischen Varianz ist dieempirische Standardabweichung.[2] Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar. Sie ist anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die beobachteten Werte.
Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eineVarianzanalyse eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.
Die Varianz einer endlichenGrundgesamtheit (Population) mit reellen Datenwerten ist ein Maß für die Streuung der einzelnen-Werte, um den Populationsmittelwert und ist definiert als
Der Populationsmittelwert ist dasarithmetische Mittel der Datenwerte
Die Varianz der Grundgesamtheit ist in praktischen Situationen häufig unbekannt, beispielsweise, weil es nicht möglich ist, jedes einzelneSubjekt in der Population zu erfassen (Vollerhebung). Um die Varianz zu ermitteln, werden daher empirisch Stichproben erhoben. Das führt zu den Begriffenempirische Varianz oder auchStichprobenvarianz.
Gegeben sei eineStichprobe mit reellen numerischen Werten. Es bezeichne
denempirischen Mittelwert der Stichprobe. Dieser empirische Mittelwert ist einSchätzer für den Populationsmittelwert.
Zunächst werden die Abweichungen der beobachteten reellen Werte der Stichprobe von ihremarithmetischen Mittel gebildet. Summierung und Quadrierung ergibt die sogenannteAbweichungsquadratsumme.
Die Verwendung der Abweichungsquadratsumme führt zu folgenden Eigenschaften der empirischen Varianz:
Die empirische Varianz kann damit auf folgende Arten berechnet werden:
Am gebräuchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte alsSumme der Abweichungsquadrate geteilt durch dieAnzahl der Freiheitsgrade:[3]
(1) | ||
Formel (1) wird auchkorrigierte empirische Varianz oderkorrigierte Stichprobenvarianz genannt[4][2]. Der Vorsatz „korrigierte ...“ bezieht sich auf den Faktor, der auch alsBessel-Korrektur bezeichnet wird.[5] Die Korrektur führt dazu, dass einerwartungstreuer Schätzer für die Populationsvarianz ist: Das bedeutet, dass der Schätzfehler immer kleiner wird und gegen Null strebt, wenn das Ergebnis der Varianzberechnung über eine steigende Anzahl verschiedener Stichproben gemittelt wird.
Alternativ wird die empirische Varianz (nicht erwartungstreu) berechnet alsSumme der Abweichungsquadrate geteilt durch die Anzahl der Werte:[6]
(2) | ||
Für den Sonderfall, dass der Mittelwert derGrundgesamtheit bekannt ist, wird die Varianz mit folgender Formel berechnet, die ebenfalls einen erwartungstreuen Schätzer darstellt:[7]
(3) | ||
Weitere Erläuterung zu den Berechnungsarten
Intuitiv lässt sich die Mittelung durch in Formel (1) statt durch wie folgt erklären:
Bei Formel (1) geht es um die Schätzung der Varianz der Grundgesamtheit, aus der die Stichprobe entnommen wurde. Aufgrund derSchwerpunkteigenschaft des empirischen Mittels ist die letzte Abweichung bereits durch die ersten bestimmt. Folglich variieren nur Abweichungen frei. D.h. man mittelt deshalb, indem man durch dieAnzahl der Freiheitsgrade dividiert. Besonders augenscheinlich wird das, wenn man den Fall betrachtet: Bei 2 Datenwerten gibt es nur 1 Unterschied zwischen den Daten. Und mit einer Stichprobe mit kann man gar keine Aussage über die Varianz einer Grundgesamtheit machen.
Diese Plausibilisierung wird im Rahmen der induktiven Statistik formalisiert.[8] (→ Stichprobenvarianz (Schätzfunktion))
Die Idee von Formel (2) ist eine andere: Hier geht es nicht um eine Aussage über eine „Grundgesamtheit“ mit Hilfe einer Stichprobe, sondern darum, den Datensatz möglichst genau durch eineNormalverteilung zu beschreiben: D.h. die Parameter der Normalverteilung und werden so bestimmt, dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist.[9] Das ist der Fall für und. Formel (2) liefert in diesem Sinne bessere Ergebnisse als Formel (1), und sie sollte angewendet werden, wenn diese Eigenschaft erforderlich ist.[10] Formel (2) ist aber kein erwartungstreuer Schätzer: D.h. wenn das Ergebnis über viele Stichproben gemittelt wird, dann strebt das Ergebnis nicht gegen den wahren Wert für die Varianz der Grundgesamtheit. Formel (2) liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet. Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher[11][12][13] gibt, die die Formel (2) nicht erwähnen.
Formel (2) wird in der mathematischen Statistik begründet, z. B. durch Anwendung derMaximum-Likelihood-Methode, oder derMomentenmethode.
Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik. Da für Formel (3) kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durchn geteilt.
Formel (3) kann man ebenfalls plausibilisieren, wenn man den Fall betrachtet: Bei 2 Datenwerten gibt es 2 Unterschiede im Vergleich zum vorbekannten Mittelwert. Daher wird in diesem Fall durch 2 geteilt.
Im Falle einerVollerhebung aller Daten der Population sind die Formeln (2) und (3) gleichwertig, da in diesem Fall der Populationsmittelwert bereits aus den vorliegenden Daten bekannt ist:.
Wird nur von „der“ empirischen Varianz gesprochen, so muss daher darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich:
In diesem Fall wird davon ausgegangen, dass die Stichprobenwerte nur konkrete Ausprägungen annehmen können. Das bedeutet: es bietet sich folgendes Vorgehen an:
In diesem Fall sind Datenwerte alsZeitreihe gegeben. Beispielsweise wird sekündlich ein Wert gemessen. ist ein Zähler für die aufgelaufenen Werte seit dem Beginn der Rechnung.
Zu jedem Zeitpunkt der Zeitreihe soll die Varianz aus den letzten Werten von bestimmt werden.
Die Rechnung soll inEchtzeit unmittelbar nach dem Eintreffen von jedem neuen Wert erfolgen. InEchtzeitsystemen wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen. Das wird vermieden mit folgendenrekursiven Formeln, die auf den Schätz-Ergebnissen für und zum vergangenen Zeitpunkt aufbauen, und die in jedem Zeitschritt ausgeführt werden:[17]
Diese Formeln benötigen Startwerte für den Zeitpunkt . Bei ungünstiger Wahl nähern sich die Schätzwerte langsam den wahren Werten an. Daher sind günstige Vorbelegungen:
Die empirische Varianz folgt für unabhängige, normalverteilte Zufallsvariablen einer skaliertenChi-Quadrat-Verteilung:
Daher folgt:
sowie
Verschiebung der Daten um einen konstanten Wert c: Varianz ändert sich nicht
Also: Wenn, so gilt:
Skalierung der Daten um einen Faktor, also: Varianz skaliert um den Faktor:
Wenn man viele Stichproben nimmt, dann führt jede neue Stichprobe zu einer anderen Schätzung für die Varianz der Grundgesamtheit. D.h. die berechnete empirische Varianz (Stichprobenvarianz) hat ebenfalls eine Streuung. Diese Streuung ist ein Maß für die Qualität (Genauigkeit) der Varianzbestimmung. Für den Fall, dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist, könnte man die Anzahl der Werte in der Stichprobe vergrößern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden.
Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte desKonfidenzintervalles mit Hilfe derChi-Quadrat-Verteilung beurteilt werden. Praktisch genügt jedoch häufig eine Abschätzung derStandardabweichung der Stichprobenvarianz mit folgenden Formeln[18] analog zu Formeln (1) und (3):
Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit:
Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwert der Gesamtheit:
Beispiel 1: Stichprobe mit Werten und der Varianz:
Dann lässt sich die Standardabweichung der Stichprobenvarianz abschätzen als:
Die Standardabweichung von ist im Vergleich zur Stichprobenvarianz erheblich. D.h. eine Stichprobe mit ist in den meisten Anwendungsfällen nicht geeignet um eine ausreichend verlässliche Aussage über die Varianz der Grundgesamtheit zu machen.
Beispiel 2: Stichprobe wird vergrößert auf Werte:
Dann lässt sich die Streuung der Stichprobenvarianz wie oben ermitteln als:
Die Streuung von 0,14 ist bei der Stichprobenvarianz brauchbarer, als das Ergebnis im ersten Beispiel.
Im Falle einerNormalverteilung würde das bedeuten, dass der wahre Varianzwert mit 95 % Wahrscheinlichkeit im Bereich von liegt. Im Falle der Berechnung der Grenzwerte mit derChi-Quadrat-Verteilung ergeben sich fast die gleichen Werte.
Man sieht, dass eine akkurate Berechnung der empirischen Varianz deutlich größere Stichproben erfordert, als man intuitiv vermuten würde.
Die Varianz wird in derVarianzanalyse oft als „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG:[19]
Bei einer mehrdimensionalen Varianzanalyse werden die mittleren Abweichungsquadrate der jeweiligen Variablen werden in einer sogenannten Varianzanalysetabelle zusammengefasst.
Eine weitere Darstellung erhält man aus Anwendung desVerschiebungssatzes:[21]
Diese Formel ist jedoch ausnumerischer Sicht nachteilig, da unter Umständen zwei sehr große Werte voneinander abgezogen werden. Das kann zur Rechenungenauigkeiten führen, wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist.
Eine Darstellung, die ohne die vorausgehende Berechnung des empirischen Mittels auskommt, ist:
Herleitung: Wenn man das arithmetische Mittel der Beobachtungswerte in den Summanden der Doppelsumme
addiert und abzieht (also Null einfügt), dann gilt
Dies ist äquivalent zu
Alsempirische Standardabweichung[1] auchStichprobenstreuung[3] oderStichprobenstandardabweichung[1] genannt, wird dieWurzel aus der empirischen Varianz gemäß Formel (1)-(3) bezeichnet:
Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut.
Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie der empirische Mittelwert oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich. Die empirische Standardabweichung sollte von derStandardabweichung im Sinne derWahrscheinlichkeitstheorie unterschieden werden. Diese ist eine Kennzahl einerWahrscheinlichkeitsverteilung oder der Verteilung einerZufallsvariable, wohingegen die empirische Standardabweichung Kennzahl einer Stichprobe ist.
Derempirische Variationskoeffizient ist ein dimensionsloses Streuungsmaß (nicht einheitenbehaftet) und drückt in Prozent des empirischen Mittelwerts aus.[22]
In derFinanzmarkttheorie werden oft Varianzen bzw.Volatilitäten vonRenditen berechnet. Diese Varianzen werden oft, wenn sie auf täglichen Daten beruhen annualisiert, d. h. auf ein Jahr hochgerechnet. Dies geschieht häufig mittels eines Annualisierungfaktors (pro Jahr gibt es etwa Handelstage). Die annualisierte Volatilität lässt sich somit schätzen als Wurzel aus der annualisierten Varianz. Wichtig ist, dass dies bei diskreten (und dadurch per Annahme log-normalverteilten Renditen), die Volatilität von Renditen auf jährlicher Frequenz, unterschätzt.
Gegeben sei die Stichprobe
es ist also. Für den empirischen Mittelwert ergibt sich
Bei stückweiser Berechnung ergibt sich dann dieAbweichungsquadratsumme
Mit Formel (1) erhält man
wohingegen Formel (2)
liefert.
Jetzt nehmen wir an, dass der Mittelwert der Grundgesamtheit, aus der die Stichprobe entnommen wurde, vorab als bekannt sei. Dann kann Formel (3) angewendet werden:
Die entsprechenden empirischen Standardabweichungen ergeben sich zu:
Die empirische Varianz, ist einStreuungsmaß um den Mittelwert der Datenwerte. Die gegebenen Werte sind.
Bei der Verwendung der Varianz als Streuungsmaß wird dieQuadratsumme als Ausgangspunkt verwendet:
Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird als einfachste Lösung noch durch die Anzahl der Werte dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz.
Die Definition von hat ihre Wurzeln in derSchätztheorie. (→ Stichprobenvarianz (Schätzfunktion))
Dort wird die Varianz der Grundgesamtheit geschätzt durch:
alserwartungstreueSchätzfunktion für die unbekannte Varianz einerWahrscheinlichkeitsverteilung verwendet.
ergibt sich durch Anwendung der Schätzfunktion aufRealisierungen (konkrete Werte) der Zufallsvariablen .
Somit kann als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegen eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die von manchen Autoren verwendete Sprechweise für als empirische Varianz und für als induktive Varianz oder theoretische Varianz.
Zu bemerken ist, dass sich auch als Schätzwert einer Schätzfunktion interpretieren lässt. Diesen erhält man bei Anwendung derMaximum-Likelihood-Methode, oder derMomentenmethode als Schätzfunktion für die Varianz, die zwar nicht erwartungstreu ist, und daher nicht alleQualitätskriterien für Punktschätzungen erfüllt, aber dafür die gegebenen Variablen optimal in eine Normalverteilung einpasst. Der Parameter der Normalverteilung wird bestimmt durch:
Der Unterschied zwischen beiden Formeln lässt sich in der mathematischen Statistik dadurch erklären, dass das Quadrat einer (symmetrischen) normalverteilten Zufallsgröße nicht ebenfalls normalverteilt ist, sondern eine (unsymmetrische) Chi-Quadrat-Verteilung aufweist.