Movatterモバイル変換


[0]ホーム

URL:


Zum Inhalt springen
WikipediaDie freie Enzyklopädie
Suche

Empirische Varianz

aus Wikipedia, der freien Enzyklopädie
Dieser Artikel behandelt die Varianz und Standardabweichung von konkreten numerischen Werten, basierend auf einer Stichprobe. Weitere Bedeutungen finden sich unterVarianz.
Formelzeichen
μ{\displaystyle \mu } Mittelwert der Grundgesamtheit
σ2{\displaystyle \sigma ^{2}} Varianz der Grundgesamtheit
n{\displaystyle n} Anzahl der gegebenen Werte
X1,,Xn{\displaystyle X_{1},\ldots ,X_{n}} Zufallsvariablen (Zufallsgrößen)
x1,,xn{\displaystyle x_{1},\ldots ,x_{n}} Stichprobe: beobachtete Werte dern{\displaystyle n} Zufallsvariablen
x¯{\displaystyle {\overline {x}}} Stichprobenmittel / empirischer Mittelwert vonx1,,xn{\displaystyle x_{1},\ldots ,x_{n}}
s2{\displaystyle s^{2}} Stichprobenvarianz / empirische Varianz vonx1,,xn{\displaystyle x_{1},\ldots ,x_{n}}
X¯{\displaystyle {\overline {X}}} Stichprobenmittel (als Funktion der Zufallsvariablen)
S2{\displaystyle S^{2}} Stichprobenvarianz (als Funktion der Zufallsvariablen)

Dieempirische Varianz[1][2], auchStichprobenvarianz[2][3] (veraltet:empirisches Streuungsquadrat) oder einfach nur kurzVarianz genannt, ist einMaß für die Streuung von konkreten (empirisch erhobenen) Werten einerStichprobe.

Bei der empirischen Varianz handelt sich um einen Begriff aus derbeschreibenden (deskriptiven) Statistik für die Varianz. Sie gehört zu denStreuungsmaßen und beschreibt diemittlere quadratische Abweichung der einzelnen Werte vomempirischen Mittelwert. Sie entspricht damit dem „durchschnittlichen Abweichungsquadrat“.

Die Wurzel der empirischen Varianz ist dieempirische Standardabweichung.[2] Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar. Sie ist anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die beobachteten Werte.

Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden. Umgekehrt lässt sich durch eineVarianzanalyse eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.

Voraussetzungen

[Bearbeiten |Quelltext bearbeiten]

Varianz der Grundgesamtheit

[Bearbeiten |Quelltext bearbeiten]

Die Varianz einer endlichenGrundgesamtheit (Population) mitN{\displaystyle N} reellen Datenwerten ist ein Maß für die Streuung der einzelnenxi{\displaystyle x_{i}}-Werte,i{1,2,,N}{\displaystyle i\in \{1,2,\ldots ,N\}} um den Populationsmittelwertμ{\displaystyle \mu } und ist definiert als

σ2=1Ni=1N(xiμ)2{\displaystyle \sigma ^{2}={\frac {1}{N}}\sum \limits _{i=1}^{N}(x_{i}-\mu )^{2}}

Der Populationsmittelwert ist dasarithmetische Mittel der Datenwerte

μ=1Ni=1Nxi{\displaystyle \mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}}.

Die Varianz der Grundgesamtheit ist in praktischen Situationen häufig unbekannt, beispielsweise, weil es nicht möglich ist, jedes einzelneSubjekt in der Population zu erfassen (Vollerhebung). Um die Varianz zu ermitteln, werden daher empirisch Stichproben erhoben. Das führt zu den Begriffenempirische Varianz oder auchStichprobenvarianz.

Empirischer Mittelwert

[Bearbeiten |Quelltext bearbeiten]

Gegeben sei eineStichprobe mitn<N{\displaystyle n<N} reellen numerischen Wertenx1,x2,,xn{\displaystyle x_{1},x_{2},\dots ,x_{n}}. Es bezeichne

x¯:=1n(x1+x2++xn)=1ni=1nxi{\displaystyle {\overline {x}}:={\frac {1}{n}}(x_{1}+x_{2}+\ldots +x_{n})={\frac {1}{n}}\sum _{i=1}^{n}{x_{i}}}

denempirischen Mittelwert der Stichprobe. Dieser empirische Mittelwertx¯{\displaystyle {\overline {x}}} ist einSchätzer für den Populationsmittelwertμ{\displaystyle \mu }.

Berechnung der empirischen Varianz

[Bearbeiten |Quelltext bearbeiten]

Zunächst werden die Abweichungen der beobachteten reellen Wertex1,,xn{\displaystyle x_{1},\ldots ,x_{n}} der Stichprobe von ihremarithmetischen Mittel(x1x¯),,(xnx¯){\displaystyle (x_{1}-{\overline {x}}),\ldots ,(x_{n}-{\overline {x}})} gebildet. Summierung und Quadrierung ergibt die sogenannteAbweichungsquadratsummei=1n(xix¯)2{\displaystyle \sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}.

Die Verwendung der Abweichungsquadratsumme führt zu folgenden Eigenschaften der empirischen Varianz:

  • Positive und negative Abweichungen vom Mittelwert heben sich bei der Summierung nicht gegenseitig auf.
  • Die Varianz einer Stichprobe ist daher immer positiv (oder Null).
  • Eine größere Varianz entspricht einer größeren Unterschiedlichkeit der Werte.
  • Wenige aber starkeAusreißer haben einen großen Einfluss auf das Ergebnis.

Die empirische Varianz kann damit auf folgende Arten berechnet werden:

Am gebräuchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte alsSumme der Abweichungsquadrate geteilt durch dieAnzahl der Freiheitsgrade(n1){\displaystyle (n-1)}:[3]

 
 (1)
 

Formel (1) wird auchkorrigierte empirische Varianz oderkorrigierte Stichprobenvarianz genannt[4][2]. Der Vorsatz „korrigierte ...“ bezieht sich auf den Faktor1/(n1){\displaystyle 1/(n-1)}, der auch alsBessel-Korrektur bezeichnet wird.[5] Die Korrektur führt dazu, dasss2{\displaystyle s^{2}} einerwartungstreuer Schätzer für die Populationsvarianzσ2{\displaystyle \sigma ^{2}} ist: Das bedeutet, dass der Schätzfehlers2σ2{\displaystyle s^{2}-\sigma ^{2}} immer kleiner wird und gegen Null strebt, wenn das Ergebnis der Varianzberechnung über eine steigende Anzahl verschiedener Stichproben gemittelt wird.

Alternativ wird die empirische Varianz (nicht erwartungstreu) berechnet alsSumme der Abweichungsquadrate geteilt durch die Anzahl der Werten{\displaystyle n}:[6]

 
 (2)
 

Für den Sonderfall, dass der Mittelwert derGrundgesamtheitμ{\displaystyle \mu } bekannt ist, wird die Varianz mit folgender Formel berechnet, die ebenfalls einen erwartungstreuen Schätzer darstellt:[7]

 
 (3)
 

Weitere Erläuterung zu den Berechnungsarten

Intuitiv lässt sich die Mittelung durch(n1){\displaystyle (n-1)} in Formel (1) statt durchn{\displaystyle n} wie folgt erklären:

Bei Formel (1) geht es um die Schätzung der Varianz der Grundgesamtheit, aus der die Stichprobe entnommen wurde. Aufgrund derSchwerpunkteigenschaft des empirischen Mittelsi=1n(xix¯)=0{\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)=0} ist die letzte Abweichung(xnx¯){\displaystyle \left(x_{n}-{\overline {x}}\right)} bereits durch die ersten(n1){\displaystyle (n-1)} bestimmt. Folglich variieren nur(n1){\displaystyle (n-1)} Abweichungen frei. D.h. man mittelt deshalb, indem man durch dieAnzahl der Freiheitsgrade(n1){\displaystyle (n-1)} dividiert. Besonders augenscheinlich wird das, wenn man den Falln=2{\displaystyle n=2} betrachtet: Bei 2 Datenwerten gibt es nur 1 Unterschied zwischen den Daten. Und mit einer Stichprobe mitn=1{\displaystyle n=1} kann man gar keine Aussage über die Varianz einer Grundgesamtheit machen.

Diese Plausibilisierung wird im Rahmen der induktiven Statistik formalisiert.[8] (→ Stichprobenvarianz (Schätzfunktion))

Die Idee von Formel (2) ist eine andere: Hier geht es nicht um eine Aussage über eine „Grundgesamtheit“ mit Hilfe einer Stichprobe, sondern darum, den Datensatz möglichst genau durch eineNormalverteilung zu beschreiben: D.h. die Parameter der Normalverteilungμ{\displaystyle \mu } undσ{\displaystyle \sigma } werden so bestimmt, dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist.[9] Das ist der Fall fürμ=x¯{\displaystyle \mu ={\overline {x}}} undσ=s~{\displaystyle \sigma ={\tilde {s}}}. Formel (2) liefert in diesem Sinne bessere Ergebnisse als Formel (1), und sie sollte angewendet werden, wenn diese Eigenschaft erforderlich ist.[10] Formel (2) ist aber kein erwartungstreuer Schätzer: D.h. wenn das Ergebnis über viele Stichproben gemittelt wird, dann strebt das Ergebnis nicht gegen den wahren Wert für die Varianz der Grundgesamtheit. Formel (2) liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet. Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher[11][12][13] gibt, die die Formel (2) nicht erwähnen.

Formel (2) wird in der mathematischen Statistik begründet, z. B. durch Anwendung derMaximum-Likelihood-Methode, oder derMomentenmethode.

Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der schließenden Statistik. Da für Formel (3) kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durchn geteilt.

Formel (3) kann man ebenfalls plausibilisieren, wenn man den Falln=2{\displaystyle n=2} betrachtet: Bei 2 Datenwerten gibt es 2 Unterschiede im Vergleich zum vorbekannten Mittelwertμ{\displaystyle \mu }. Daher wird in diesem Fall durch 2 geteilt.

Im Falle einerVollerhebung aller Daten der Population sind die Formeln (2) und (3) gleichwertig, da in diesem Fall der Populationsmittelwert bereits aus den vorliegenden Daten bekannt ist:μ=x¯{\displaystyle \mu ={\overline {x}}}.

Wird nur von „der“ empirischen Varianz gesprochen, so muss daher darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich:

Empirische Varianz für Häufigkeitsdaten

[Bearbeiten |Quelltext bearbeiten]

In diesem Fall wird davon ausgegangen, dass dien{\displaystyle n} Stichprobenwertexi{\displaystyle x_{i}} nurk{\displaystyle k} konkrete Ausprägungenaj{\displaystyle a_{j}} annehmen können. Das bedeutet: es bietet sich folgendes Vorgehen an:

s~2=j=1k(ajx¯)2fj{\displaystyle {\tilde {s}}^{2}=\sum \limits _{j=1}^{k}\left(a_{j}-{\overline {x}}\right)^{2}f_{j}} , mit
x¯:=j=1kfjaj=1nj=1khjaj{\displaystyle {\overline {x}}:=\sum _{j=1}^{k}{f_{j}a_{j}}={\frac {1}{n}}\sum _{j=1}^{k}{h_{j}a_{j}}} .

Empirische Varianz für Daten aus einer Zeitreihe

[Bearbeiten |Quelltext bearbeiten]

In diesem Fall sind Datenwertexk{\displaystyle x_{k}} alsZeitreihe gegeben. Beispielsweise wird sekündlich ein Wertxk{\displaystyle x_{k}} gemessen.k{\displaystyle k} ist ein Zähler für die aufgelaufenen Werte seit dem Beginn der Rechnung.

Zu jedem Zeitpunktk{\displaystyle k} der Zeitreihe soll die Varianz aus den letztenk{\displaystyle k} Werten vonx{\displaystyle x} bestimmt werden.

Die Rechnung soll inEchtzeit unmittelbar nach dem Eintreffen von jedem neuen Wertxk{\displaystyle x_{k}} erfolgen. InEchtzeitsystemen wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen. Das wird vermieden mit folgendenrekursiven Formeln, die auf den Schätz-Ergebnissen fürμ^k12{\displaystyle {\hat {\mu }}_{k-1}^{2}} undσ^k12{\displaystyle {\hat {\sigma }}_{k-1}^{2}} zum vergangenen Zeitpunktk1{\displaystyle k-1} aufbauen, und die in jedem Zeitschritt ausgeführt werden:[17]

μ^k=μ^k1+1k(xkμ^k1){\displaystyle {\hat {\mu }}_{k}={\hat {\mu }}_{k-1}+{\frac {1}{k}}(x_{k}-{\hat {\mu }}_{k-1})}
σ^k2=σ^k12+1k[(xkμ^k)2σ~k12]{\displaystyle {\hat {\sigma }}_{k}^{2}={\hat {\sigma }}_{k-1}^{2}+{\frac {1}{k}}[(x_{k}-{\hat {\mu }}_{k})^{2}-{\tilde {\sigma }}_{k-1}^{2}]}

Diese Formeln benötigen Startwerte für den Zeitpunktk=0{\displaystyle k=0} . Bei ungünstiger Wahl nähern sich die Schätzwerte langsam den wahren Werten an. Daher sind günstige Vorbelegungen:

Eigenschaften der empirischen Varianz

[Bearbeiten |Quelltext bearbeiten]

Verteilung der empirischen Varianz

[Bearbeiten |Quelltext bearbeiten]

Die empirische Varianzs2{\displaystyle s^{2}} folgt für unabhängige, normalverteilte Zufallsvariablen einer skaliertenChi-Quadrat-Verteilung:(n1)s2σ2χn12.{\displaystyle (n-1){\frac {s^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}

Daher folgt:

E(s2)=E(σ2n1χn12)=σ2,{\displaystyle \operatorname {E} \left(s^{2}\right)=\operatorname {E} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n-1}^{2}\right)=\sigma ^{2},}

sowie

Var[s2]=Var(σ2n1χn12)=σ4(n1)2Var(χn12)=2σ4n1.{\displaystyle \operatorname {Var} \left[s^{2}\right]=\operatorname {Var} \left({\frac {\sigma ^{2}}{n-1}}\chi _{n-1}^{2}\right)={\frac {\sigma ^{4}}{(n-1)^{2}}}\operatorname {Var} \left(\chi _{n-1}^{2}\right)={\frac {2\sigma ^{4}}{n-1}}.}

Verhalten bei Transformationen

[Bearbeiten |Quelltext bearbeiten]

Verschiebung der Datenxi{\displaystyle x_{i}} um einen konstanten Wert c: Varianz ändert sich nicht

Also: Wenny=(x1+c,x2+c,,xn+c){\displaystyle y=(x_{1}+c,x_{2}+c,\dots ,x_{n}+c)}, so gilt:

s2(x)=s2(y){\displaystyle s^{2}(x)=s^{2}(y)}
s~2(x)=s~2(y){\displaystyle {\tilde {s}}^{2}(x)={\tilde {s}}^{2}(y)}
s2(x)=s2(y){\displaystyle {s^{*}}^{2}(x)={s^{*}}^{2}(y)}
Begründung: Es isty¯=x¯+c{\displaystyle {\overline {y}}={\overline {x}}+c} und somit(yiy¯)2=(xi+c(x¯+c))2=(xix¯)2{\displaystyle (y_{i}-{\overline {y}})^{2}=(x_{i}+c-({\overline {x}}+c))^{2}=(x_{i}-{\overline {x}})^{2}}, woraus die Behauptung folgt.

Skalierung der Datenxi{\displaystyle x_{i}} um einen Faktora0{\displaystyle a\neq 0}, alsoy=ax{\displaystyle y=ax}: Varianz skaliert um den Faktora2{\displaystyle a^{2}}:

s2(y)=a2s2(x){\displaystyle s^{2}(y)=a^{2}\cdot s^{2}(x)}.
s~2(y)=a2s~2(x){\displaystyle {\tilde {s}}^{2}(y)=a^{2}\cdot {\tilde {s}}^{2}(x)}
s2(y)=a2s2(x){\displaystyle {s^{*}}^{2}(y)=a^{2}\cdot {s^{*}}^{2}(x)}
Begründung: Dies folgt wie oben durch direktes Nachrechnen.

Genauigkeit der berechneten empirischen Varianz

[Bearbeiten |Quelltext bearbeiten]

Wenn man viele Stichproben nimmt, dann führt jede neue Stichprobe zu einer anderen Schätzungσ^2{\displaystyle {\hat {\sigma }}^{2}} für die Varianz der Grundgesamtheit. D.h. die berechnete empirische Varianz (Stichprobenvarianz) hat ebenfalls eine Streuung. Diese Streuung ist ein Maß für die Qualität (Genauigkeit) der Varianzbestimmung. Für den Fall, dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist, könnte man die Anzahl der Werte in der Stichprobe vergrößern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden.

Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte desKonfidenzintervalles mit Hilfe derChi-Quadrat-Verteilung beurteilt werden. Praktisch genügt jedoch häufig eine Abschätzung derStandardabweichung der Stichprobenvarianz mit folgenden Formeln[18] analog zu Formeln (1) und (3):

Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit:

Var(s2)=2n1s4{\displaystyle {\sqrt {Var(s^{2})}}={\sqrt {{\frac {2}{n-1}}s^{4}}}}

Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwertμ{\displaystyle \mu } der Gesamtheit:

Var(s2)=2ns4{\displaystyle {\sqrt {Var({s^{*}}^{2})}}={\sqrt {{\frac {2}{n}}{s^{*}}^{4}}}}

Beispiel 1: Stichprobe mitn=10{\displaystyle n=10} Werten und der Varianzs2=1,0{\displaystyle s^{2}=1{,}0}:

Dann lässt sich die Standardabweichung der Stichprobenvarianz abschätzen als:

Var(s2)=291,02=0,2222=0,47{\displaystyle {\sqrt {Var(s^{2})}}={\sqrt {{\frac {2}{9}}1{,}0^{2}}}={\sqrt {0{,}2222}}=0{,}47}

Die Standardabweichung von0,47{\displaystyle 0{,}47} ist im Vergleich zur Stichprobenvarianzs2=1,0{\displaystyle s^{2}=1{,}0} erheblich. D.h. eine Stichprobe mitn=10{\displaystyle n=10} ist in den meisten Anwendungsfällen nicht geeignet um eine ausreichend verlässliche Aussage über die Varianz der Grundgesamtheit zu machen.

Beispiel 2: Stichprobe wird vergrößert aufn=100{\displaystyle n=100} Werte:

Dann lässt sich die Streuung der Stichprobenvarianz wie oben ermitteln als:

Var(s2)=2991,02=0,0202=0,14{\displaystyle {\sqrt {Var(s^{2})}}={\sqrt {{\frac {2}{99}}1{,}0^{2}}}={\sqrt {0{,}0202}}=0{,}14}

Die Streuung von 0,14 ist bei der Stichprobenvarianzs2=1,0{\displaystyle s^{2}=1{,}0} brauchbarer, als das Ergebnis im ersten Beispiel.

Im Falle einerNormalverteilung würde das bedeuten, dass der wahre Varianzwert mit 95 % Wahrscheinlichkeit im Bereich vons2=1,0±0,28{\displaystyle s^{2}=1{,}0\pm 0{,}28} liegt. Im Falle der Berechnung der Grenzwerte mit derChi-Quadrat-Verteilung ergeben sich fast die gleichen Werte.

Man sieht, dass eine akkurate Berechnung der empirischen Varianz deutlich größere Stichproben erfordert, als man intuitiv vermuten würde.

Alternative Darstellungen

[Bearbeiten |Quelltext bearbeiten]

Darstellung als durchschnittliches Abweichungsquadrat

[Bearbeiten |Quelltext bearbeiten]
Hauptartikel:Summe der Abweichungsquadrate

Die Varianz wird in derVarianzanalyse oft als „mittleres“ bzw. „durchschnittliches“ AbweichungsquadratMQ{\displaystyle MQ} bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG:[19]

s2=i=1n(xix¯)2n1=SQFG:=MQ{\displaystyle s^{2}={\frac {\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}{n-1}}={\frac {SQ}{FG}}:=MQ}.[20]

Bei einer mehrdimensionalen Varianzanalyse werden die mittleren Abweichungsquadrate der jeweiligen Variablen werden in einer sogenannten Varianzanalysetabelle zusammengefasst.

Darstellung mittels Verschiebungssatz

[Bearbeiten |Quelltext bearbeiten]

Eine weitere Darstellung erhält man aus Anwendung desVerschiebungssatzes:[21]

s2=1n1(i=1nxi2)nn1x¯2{\displaystyle s^{2}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}x_{i}^{2}\right)-{\frac {n}{n-1}}\cdot {\overline {x}}^{2}}
s~2=1n(i=1nxi2)x¯2{\displaystyle {\tilde {s}}^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}\right)-{\overline {x}}^{2}}
s2=1n(i=1nxi2)μ2{\displaystyle {s^{*}}^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}\right)-\mu ^{2}}

Diese Formel ist jedoch ausnumerischer Sicht nachteilig, da unter Umständen zwei sehr große Werte voneinander abgezogen werden. Das kann zur Rechenungenauigkeiten führen, wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist.

Darstellung als Doppelsumme (ohne vorausgehende Berechnung des empirischen Mittels)

[Bearbeiten |Quelltext bearbeiten]

Eine Darstellung, die ohne die vorausgehende Berechnung des empirischen Mittels auskommt, ist:

s2=12n(n1)i=1nj=1n(xixj)2{\displaystyle s^{2}={\frac {1}{2n(n-1)}}\sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-x_{j})^{2}}
s~2=12n2i=1nj=1n(xixj)2{\displaystyle {\tilde {s}}^{2}={\frac {1}{2n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-x_{j})^{2}}

Herleitung: Wenn man das arithmetische Mittelx¯{\displaystyle {\overline {x}}} der Beobachtungswerte in den Summanden der Doppelsumme

i=1nj=1n(xixj)2{\displaystyle \sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-x_{j})^{2}}

addiert und abzieht (also Null einfügt), dann gilt

i=1nj=1n(xix¯+x¯xj)2=i=1nj=1n(xix¯)2+2i=1nj=1n(xix¯)(x¯xj)+i=1nj=1n(x¯xj)2=j=1ni=1n(xix¯)2=ns~2+2(i=1n(xix¯))=0(j=1n(x¯xj))=0+i=1nj=1n(x¯xj)2=ns~2=2n2s~2{\displaystyle {\begin{aligned}\sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-{\overline {x}}+{\overline {x}}-x_{j})^{2}&=\sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-{\overline {x}})^{2}+2\sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-{\overline {x}})({\overline {x}}-x_{j})+\sum _{i=1}^{n}\sum _{j=1}^{n}({\overline {x}}-x_{j})^{2}\\&=\sum _{j=1}^{n}\underbrace {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} _{=n{\tilde {s}}^{2}}+2\underbrace {\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})\right)} _{=0}\underbrace {\left(\sum _{j=1}^{n}({\overline {x}}-x_{j})\right)} _{=0}+\sum _{i=1}^{n}\underbrace {\sum _{j=1}^{n}({\overline {x}}-x_{j})^{2}} _{=n{\tilde {s}}^{2}}\\&=2n^{2}\cdot {\tilde {s}}^{2}\end{aligned}}}.

Dies ist äquivalent zu

s~2=12n2i=1nj=1n(xixj)2{\displaystyle {\tilde {s}}^{2}={\frac {1}{2n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(x_{i}-x_{j})^{2}}.

Abgeleitete Begriffe

[Bearbeiten |Quelltext bearbeiten]

Empirische Standardabweichung

[Bearbeiten |Quelltext bearbeiten]

Alsempirische Standardabweichung[1] auchStichprobenstreuung[3] oderStichprobenstandardabweichung[1] genannt, wird dieWurzel aus der empirischen Varianz gemäß Formel (1)-(3) bezeichnet:

s=1n1i=1n(xix¯)2{\displaystyle s={\sqrt {{\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}}
s~=1ni=1n(xix¯)2{\displaystyle {\tilde {s}}={\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}}
s2=1ni=1n(xiμ)2{\displaystyle {s^{*}}^{2}={\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}}}}

Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut.

Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie der empirische Mittelwert oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich. Die empirische Standardabweichung sollte von derStandardabweichung im Sinne derWahrscheinlichkeitstheorie unterschieden werden. Diese ist eine Kennzahl einerWahrscheinlichkeitsverteilung oder der Verteilung einerZufallsvariable, wohingegen die empirische Standardabweichung Kennzahl einer Stichprobe ist.

Empirischer Variationskoeffizient

[Bearbeiten |Quelltext bearbeiten]

Derempirische Variationskoeffizient ist ein dimensionsloses Streuungsmaß (nicht einheitenbehaftet) und drückts{\displaystyle s} in Prozent des empirischen Mittelwertsx¯{\displaystyle {\overline {x}}} aus.[22]

v=sx¯100%{\displaystyle v={\frac {s}{\bar {x}}}\cdot 100\,\%}

Annualisierte Varianz

[Bearbeiten |Quelltext bearbeiten]

In derFinanzmarkttheorie werden oft Varianzen bzw.Volatilitäten vonRenditen berechnet. Diese Varianzen werden oft, wenn sie auf täglichen Daten beruhen annualisiert, d. h. auf ein Jahr hochgerechnet. Dies geschieht häufig mittels eines AnnualisierungfaktorsA=250{\displaystyle A=250} (pro Jahr gibt es etwa250{\displaystyle 250} Handelstage). Die annualisierte Volatilität lässt sich somit schätzen als Wurzel aus der annualisierten Varianz. Wichtig ist, dass dies bei diskreten (und dadurch per Annahme log-normalverteilten Renditen), die Volatilität von Renditen auf jährlicher Frequenz, unterschätzt.

σ^2=250s2=250n1i=1n(xix¯)2{\displaystyle {\hat {\sigma }}^{2}=250\cdot s^{2}={\frac {250}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}.

Beispiel

[Bearbeiten |Quelltext bearbeiten]

Gegeben sei die Stichprobe

x1=10;x2=9;x3=13;x4=15;x5=16{\displaystyle x_{1}=10;\quad x_{2}=9;\quad x_{3}=13;\quad x_{4}=15;\quad x_{5}=16},

es ist alson=5{\displaystyle n=5}. Für den empirischen Mittelwert ergibt sich

x¯=15(10+9+13+15+16)=635=12,6{\displaystyle {\overline {x}}={\frac {1}{5}}(10+9+13+15+16)={\frac {63}{5}}=12{,}6}.

Bei stückweiser Berechnung ergibt sich dann dieAbweichungsquadratsumme

i=15(xix¯)2=(1012,6)2+(912,6)2+(1312,6)2+(1512,6)2+(1612,6)2=(2,6)2+(3,6)2+0,42+2,42+3,42=37,2{\displaystyle {\begin{aligned}\sum \limits _{i=1}^{5}\left(x_{i}-{\overline {x}}\right)^{2}&=(10-12{,}6)^{2}+(9-12{,}6)^{2}+(13-12{,}6)^{2}+(15-12{,}6)^{2}+(16-12{,}6)^{2}\\\;&=(-2{,}6)^{2}+(-3{,}6)^{2}+0{,}4^{2}+2{,}4^{2}+3{,}4^{2}=37{,}2\end{aligned}}}.

Mit Formel (1) erhält man

s2=151i=15(xix¯)2=37,24=9,3{\displaystyle s^{2}={\frac {1}{5-1}}\sum _{i=1}^{5}(x_{i}-{\overline {x}})^{2}={\frac {37{,}2}{4}}=9{,}3}

wohingegen Formel (2)

s~2=15i=15(xix¯)2=37,25=7,44{\displaystyle {\tilde {s}}^{2}={\frac {1}{5}}\sum _{i=1}^{5}(x_{i}-{\overline {x}})^{2}={\frac {37{,}2}{5}}=7{,}44}

liefert.

Jetzt nehmen wir an, dass der Mittelwert der Grundgesamtheit, aus der die Stichprobe entnommen wurde, vorab alsμ=12{\displaystyle \mu =12} bekannt sei. Dann kann Formel (3) angewendet werden:

i=15(xiμ)2=(1012)2+(912)2+(1312)2+(1512)2+(1612)2=(2)2+(3)2+12+32+42=39{\displaystyle {\begin{aligned}\sum \limits _{i=1}^{5}\left(x_{i}-\mu \right)^{2}&=(10-12)^{2}+(9-12)^{2}+(13-12)^{2}+(15-12)^{2}+(16-12)^{2}\\\;&=(-2)^{2}+(-3)^{2}+1^{2}+3^{2}+4^{2}=39\end{aligned}}}
s2=15i=15(xiμ)2=395=7,8{\displaystyle {s^{*}}^{2}={\frac {1}{5}}\sum _{i=1}^{5}(x_{i}-\mu )^{2}={\frac {39}{5}}=7{,}8}

Die entsprechenden empirischen Standardabweichungen ergeben sich zu:

s=9,33,05{\displaystyle s={\sqrt {9{,}3}}\approx 3{,}05}
s~=7,442,73{\displaystyle {\tilde {s}}={\sqrt {7{,}44}}\approx 2{,}73}
s=7,82,79{\displaystyle {s^{*}}={\sqrt {7{,}8}}\approx 2{,}79}

Herkunft der verschiedenen Definitionen

[Bearbeiten |Quelltext bearbeiten]

Die empirische Varianz, ist einStreuungsmaß um den Mittelwert der Datenwerte. Die gegebenen Werte sindx=(x1,x2,,xn){\displaystyle x=(x_{1},x_{2},\dots ,x_{n})}.

Bei der Verwendung der Varianz als Streuungsmaß wird dieQuadratsumme als Ausgangspunkt verwendet:

SQ(x)=i=1n(xix¯)2{\displaystyle SQ(x)=\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}

Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird als einfachste Lösung noch durch die Anzahl der Werte dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianzs~{\displaystyle {\tilde {s}}}.

Die Definition vons2{\displaystyle s^{2}} hat ihre Wurzeln in derSchätztheorie. (→ Stichprobenvarianz (Schätzfunktion))

Dort wird die Varianz der Grundgesamtheitσ^2{\displaystyle {\hat {\sigma }}^{2}} geschätzt durch:

σ^2=S2=1n1i=1n(XiX¯)2{\displaystyle {\hat {\sigma }}^{2}=S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}

alserwartungstreueSchätzfunktion für die unbekannte Varianzσ2{\displaystyle \sigma ^{2}} einerWahrscheinlichkeitsverteilung verwendet.

s2{\displaystyle s^{2}} ergibt sich durch Anwendung der SchätzfunktionS2{\displaystyle S^{2}} aufRealisierungen (konkrete Werte) der ZufallsvariablenXi(ω)=xi{\displaystyle X_{i}(\omega )=x_{i}} .

Somit kanns~{\displaystyle {\tilde {s}}} als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegens{\displaystyle s} eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die von manchen Autoren verwendete Sprechweise fürs~{\displaystyle {\tilde {s}}} als empirische Varianz und fürs{\displaystyle s} als induktive Varianz oder theoretische Varianz.

Zu bemerken ist, dass sich auchs~{\displaystyle {\tilde {s}}} als Schätzwert einer Schätzfunktion interpretieren lässt. Diesen erhält man bei Anwendung derMaximum-Likelihood-Methode, oder derMomentenmethode als Schätzfunktion für die Varianz, die zwar nicht erwartungstreu ist, und daher nicht alleQualitätskriterien für Punktschätzungen erfüllt, aber dafür die gegebenen Variablen optimal in eine Normalverteilung einpasst. Der Parameter der Normalverteilungσ2{\displaystyle \sigma ^{2}} wird bestimmt durch:

σ2=S~=1ni=1n(XiX¯)2{\displaystyle \sigma ^{2}={\widetilde {S}}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}.

Der Unterschied zwischen beiden Formeln lässt sich in der mathematischen Statistik dadurch erklären, dass das Quadrat einer (symmetrischen) normalverteilten ZufallsgrößeX2{\displaystyle X^{2}} nicht ebenfalls normalverteilt ist, sondern eine (unsymmetrische) Chi-Quadrat-Verteilung aufweist.

Literatur

[Bearbeiten |Quelltext bearbeiten]
  • Behrends 2013 – Ehrhard Behrends:Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013,ISBN 978-3-8348-1939-0. 
  • Beyer 1988 – Otfried Beyer, Horst Hackel, Volkmar Pieper, Jürgen Tiedge:Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. B. G. Teubner, Leipzig 1988,ISBN 3-322-00469-4. 
  • Bronstein 2020 – I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig:Taschenbuch der Mathematik. 11. Auflage. Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan-Gruiten 2020,ISBN 978-3-8085-5792-1. 
  • Cleff 2015 – Thomas Cleff:Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3. Auflage. Springer Gabler, Wiesbaden 2015,ISBN 978-3-8349-4747-5. 
  • Duden 2020 – Harald Scheid:Duden: Rechnen und Mathematik. 6. Auflage. Bibliographisches Institut & F.A. Brockhaus AG, Mannheim 2020,ISBN 978-3-411-05346-9. 
  • Fahrmeir 2016 – Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz:Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer Verlag, Berlin / Heidelberg 2016,ISBN 978-3-662-50371-3. 
  • Hartung 2005 – Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener:Statistik. Lehr- und Handbuch der angewandten Statistik. 14. Auflage. R. Oldenbourg Verlag, München / Wien 2005,ISBN 3-486-57890-1. 
  • Henze 2013 – Norbert Henze:Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013,ISBN 978-3-658-03076-6. 
  • Kabluchko 2017 – Zakhar Kabluchko:Mathematische Statistik - Skript zur Vorlesung. Münster 2017 (uni-muenster.de [PDF; abgerufen am 1. Februar 2022]). 
  • Kosfeld 2016 – Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck:Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016,ISBN 978-3-658-13639-0. 
  • Toutenburg 2008 –Helge Toutenburg, Christian Heumann:Deskriptive Statistik. 8. Auflage. Springer-Verlag, Berlin/Heidelberg 2008,ISBN 978-3-540-77787-8. 
  • Young 2011 – Peter C. Young:Recursive Estimation and Time-Series-Analysis. 2. Auflage. Springer-Verlag, Berlin / Heidelberg 2011,ISBN 978-3-642-21980-1. 

Einzelnachweise

[Bearbeiten |Quelltext bearbeiten]
  1. abcHenze 2013: S. 31ff
  2. abcdKabluchko 2017, Kapitel 1.4: Empirische Varianz
  3. abcBehrends 2013: S. 274f
  4. Beyer 1988
  5. Kabluchko 2017, Kapitel 1.4: Empirische Varianz
  6. Cleff 2015: S. 56
  7. Hartung 2005: S. 153f
  8. abcFahrmeir 2016: Kapitel 2.2.3 Standardabweichung, Varianz und Variationskoeffizient
  9. Kunyu He: Statistics in ML: Why Sample Variance Divided by n Is Still a Good Estimator. 18. Mai 2020, abgerufen am 9. Mai 2022 (englisch). 
  10. FernUni Hagen 2020:Empirische vs Stichprobenvarianz. In: YouTube. FernUni Hagen:https://www.statstutor.de/, 19. April 2020, abgerufen am 1. Februar 2022. 
  11. Bronstein 2020
  12. Hartung 2005
  13. Duden 2020: Varianz
  14. Kapitel 10: Erwartungstreue Schätzer (Memento desOriginals vom 31. Dezember 2018 imInternet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäßAnleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.alt.mathematik.uni-mainz.de (PDF-Datei), www.alt.mathematik.uni-mainz.de, abgerufen am 31. Dezember 2018
  15. Cleff 2015: S. 255
  16. Toutenburg 2008: S. 75
  17. Young 2011 - Chapter 2: Recursive Estimation, Seite 19
  18. HU-Berlin 2018:Verteilung der Stichprobenvarianz, Kapitel 1.2, abgerufen am 1. Februar 2022.
  19. Werner Timischl:Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.
  20. Lothar Sachs:Statistische Auswertungsmethoden, S. 400.
  21. Kosfeld 2016
  22. Beyer 1988: Kapitel 3.1.1.3. Statistische Maßzahlen, S. 120
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Empirische_Varianz&oldid=252214867
Kategorie:
Versteckte Kategorie:

[8]ページ先頭

©2009-2025 Movatter.jp