Median

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springenZur Suche springen
Dieser Artikel behandelt den Median in der Statistik. Zum Median einer Wahrscheinlichkeitsverteilung sieheMedian (Stochastik). Zu weiteren Bedeutungen sieheMedian (Begriffsklärung).

In derStatistik ist derMedian (PluralMediane) – auchZentralwert genannt – einMittelwert undLageparameter. Der Median der Messwerte einerUrliste ist derjenige Messwert, der genau „in der Mitte“ steht, wenn man die Messwerte der Größe nach sortiert. Beispielsweise ist für die ungeordnete Urliste 4, 1, 37, 2, 1 der Messwert 2 der Median, der in der Mitte stehende Wert der geordneten Urliste 1, 1, 2, 4, 37.

Im Allgemeinen teilt ein Median einen Datensatz, eine Stichprobe oder eine Verteilung so in zwei gleich große Teile, dass die Werte in der einen Hälfte nicht größer als der Median sind und in der anderen nicht kleiner.

Inhaltsverzeichnis

Beschreibung

[Bearbeiten |Quelltext bearbeiten]

Der Median teilt eine Liste von Werten in zwei Hälften. Er kann auf folgende Weise bestimmt werden:

  • Alle Werte werden (aufsteigend) geordnet.
  • Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median.
  • Wenn die Anzahl der Werte gerade ist, wird der Median meist alsarithmetisches Mittel der beiden mittleren Zahlen definiert, die dannUnter- undObermedian heißen.

Eine wichtige Eigenschaft des Medians ist dieRobustheit gegenüberAusreißern.

  • Beispiel: Sieben unsortierte Messwerte 4, 1, 15, 2, 4, 5, 4 werden nach Größe sortiert: 1, 2, 4,4, 4, 5, 15; Der Median (auch der Ober- und der Untermedian) ist der Wert an der mittleren Stelle, also 4. Wenn im Beispiel durch einen Fehler eine 4 durch 46 ersetzt wurde, ändert sich der Median nicht: 1, 2, 4,4, 5, 15, 46. Das arithmetische Mittel hingegen springt von 5 auf 11.

Vergleich mit anderen Maßen der zentralen Tendenz

[Bearbeiten |Quelltext bearbeiten]
Vergleich zwischen Modus, Median und „Mittel“ (eigentlich:Erwartungswert) zweierLog-Normalverteilungen mit Median 1

Der Median ist ein speziellesQuantil, nämlich das12-Quantil. Andere wichtigeLagemaße sind dasarithmetische Mittel und derModus.

Im Vergleich zum arithmetischen Mittel, oft Durchschnitt genannt, ist der Medianrobuster gegenüberAusreißern (extrem abweichenden Werten) und lässt sich auch aufordinal skalierte Variablen anwenden. Der Begriff Median (vonlateinischmedianus ‚in der Mitte befindlich‘, ‚der Mittlere‘) entstammt derGeometrie, wo er ebenfalls eine Grenze zwischen zwei Hälften gleicher Größe bezeichnet.

Median und arithmetisches Mittel: anschauliches Beispiel

[Bearbeiten |Quelltext bearbeiten]

In einer Gruppe von zehn Personen haben alle Personen Monatseinkommen in unterschiedlicher Höhe. Eine Person erhält 1.000.000 €, die übrigen neun bekommen 1.000 €, 2.000 €, 3.000 € usw. bis 9.000 €.

Das arithmetische Mittel, der „Durchschnitt“ – das Monatseinkommen jeder der zehn Personen bei gleichmäßiger Aufteilung der Summe aller Einkommen auf sie –, beträgt in diesem Falle 104.500 €. Allerdings verdient nur eine der zehn Personen mehr als diesen Betrag, die neun anderen deutlich weniger.

Der Median dagegen ist 5.500 €. Fünf Personen verdienen mehr als das, fünf Personen weniger.

Anwendungsbereiche

[Bearbeiten |Quelltext bearbeiten]
Der Median diesesNotenspiegels ist 3−. Etwas weniger als die Hälfte der Ergebnisse ist schlechter; durch Hinzunahme der Notenstufe 3− selbst wird die Hälfte gerade überschritten.

Im Gegensatz zum arithmetischen Mittel kann der Median auch fürordinal skalierte Variablen wie beispielsweise Notenstufen, bei denen es keinen quantitativen Abstand gibt, verwendet werden. Aber auch beiintervall- undverhältnisskalierten Daten kann der Median herangezogen werden und hat dann Nachteile und Vorteile gegenüber dem arithmetischen Mittel als Lagemaß.Für lediglichnominal skalierte Variablen, deren Ausprägungen keine natürliche Rangfolge aufweisen, wie zum Beispiel eine VariableGeburtsland, kann der Median nicht angewendet werden. Hier ist derModalwert das einzige Lagemaß, das festgestellt werden kann.

Der Median wird in der Statistik und derWahrscheinlichkeitstheorie in drei unterschiedlichen Bedeutungen angewendet:

  1. alsLagemaß derdeskriptiven Statistik zur Beschreibung einer konkreten Liste vonStichprobenwerten.
  2. in der Wahrscheinlichkeitstheorie als Median einerWahrscheinlichkeitsverteilung oder einerZufallsvariablen. Hier stellt der Median eine Alternative zumErwartungswert für die Angabe eines „mittleren Werts“ dar.
  3. in dermathematischen Statistik als Median einerZufallsstichprobe zurrobusten Schätzung unbekannter Verteilungen.

Median einer Stichprobe

[Bearbeiten |Quelltext bearbeiten]

Ein Wertm{\displaystyle m} ist Median einerStichprobe, wenn mindestens die Hälfte der Stichprobenelemente nicht größer alsm{\displaystyle m} und mindestens die Hälfte nicht kleiner alsm{\displaystyle m} ist.

Sortiert man die Beobachtungswerte der Größe nach, das heißt, geht man zur nach demRang geordneten Stichprobe über, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieserFolge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einzelnes mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) Mediane der Stichprobe, da für alle diese Werte obige Bedingung zutrifft.

Beikardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Medianx~{\displaystyle {\tilde {x}}} einer geordneten Stichprobe(x1,x2,,xn){\displaystyle (x_{1},x_{2},\dotsc ,x_{n})} vonn{\displaystyle n} Messwerten ist dann also

x~={xm+1 für ungerades n = 2m+112(xm+xm+1) für gerades n = 2m{\displaystyle {\tilde {x}}={\begin{cases}x_{m+1}&{\text{ für ungerades n = 2m+1}}\\{\frac {1}{2}}(x_{m}+x_{m+1})&{\text{ für gerades n = 2m}}\end{cases}}}

Diese Definition hat den Vorteil, dass bei Stichproben aussymmetrischen Verteilungen dasarithmetische Mittel und der Median im Erwartungswert identisch sind.[1]

Ober- und Untermedian

[Bearbeiten |Quelltext bearbeiten]

Oft möchte man sicherstellen, dass der Median ein Element der Stichprobe ist. In diesem Fall wird alternativ zu obiger Definition bei einer geraden Anzahln=2m{\displaystyle n=2m} von Elementen entweder der Untermedianx~u=xm{\displaystyle {\tilde {x}}_{u}=x_{m}} oder der Obermedianx~o=xm+1{\displaystyle {\tilde {x}}_{o}=x_{m+1}} alsMedian gewählt. Im Falle einer ungeraden Anzahln=2m+1{\displaystyle n=2m+1} der Beobachtungen gilt natürlich wie obenx~=x~u=x~o=xm+1{\displaystyle {\tilde {x}}={\tilde {x}}_{u}={\tilde {x}}_{o}=x_{m+1}}.

Mithilfe vonGauß-Klammern lassen sich die Indizes auch relativ kompakt durchn{\displaystyle n} selbst ausdrücken:

x~u=xn+12{\displaystyle {\tilde {x}}_{u}=x_{\left\lfloor {\frac {n+1}{2}}\right\rfloor }}
x~o=xn+12{\displaystyle {\tilde {x}}_{o}=x_{\left\lceil {\frac {n+1}{2}}\right\rceil }}

Diese Medianbestimmung spielt beispielsweise beiDatenbanksystemen eine große Rolle, wie z. B. beiSELECT-Abfragen mittels des Medians der Mediane.

Eigenschaften

[Bearbeiten |Quelltext bearbeiten]

Der Medianx~{\displaystyle {\tilde {x}}}, und im Fall einer geraden Anzahl von Messwerten alle Wertex~{\displaystyle {\tilde {x}}} mitx~ux~x~o{\displaystyle {\tilde {x}}_{u}\leq {\tilde {x}}\leq {\tilde {x}}_{o}}, minimieren die Summe der absoluten Abweichungen, das heißt, für allex{\displaystyle x} gilt

i=1n|x~xi|i=1n|xxi|.{\displaystyle \sum _{i=1}^{n}|{\tilde {x}}-x_{i}|\leq \sum _{i=1}^{n}|x-x_{i}|.}

Der Median ist Grundlage derMethode der kleinsten absoluten Abweichungen und Verfahren derrobusten Regression. Das arithmetische Mittel dagegen minimiert dieSumme der Abweichungsquadrate, ist Grundlage derMethode der kleinsten Quadrate und derRegressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer.

Der Median kann, wie oben beschrieben, algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Das ist im Allgemeinen mit AufwandΩ(nlogn){\displaystyle \Omega (n\log n)} verbunden, nur auf speziellen Klassen von Eingabedaten istO(n){\displaystyle {\mathcal {O}}(n)} möglich (sieheSortieralgorithmus). Es gibt aber auch Algorithmen zur Quantilsbestimmung mit linearemWorst-Case-AufwandO(n){\displaystyle {\mathcal {O}}(n)} sowie Algorithmen zur Abschätzung, beispielsweise dieCornish-Fisher-Methode.

Median von gruppierten Daten

[Bearbeiten |Quelltext bearbeiten]
Bevölkerungspyramide Tansania 2016, der Median liegt bei geschätzt 18 Jahren

Vor allem in denSozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur inIntervallen gruppiert vorliegen. So wird beispielsweise beiUmfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in dem das Gehalt liegt. Wenn nur die Häufigkeiten jeder Klasse bekannt sind, dann lässt sich der Median einer solchen Stichprobe im Allgemeinen nur näherungsweise bestimmen. Es seienn{\displaystyle n} die Anzahlaller Daten,ni{\displaystyle n_{i}} die jeweilige Anzahl der Daten deri{\displaystyle i}-ten Gruppe undui{\displaystyle u_{i}} bzw.oi{\displaystyle o_{i}} die entsprechenden unteren bzw. oberen Intervallgrenzen.Zunächst wird nun diemediane Klasse (odermediane Gruppe) bestimmt, d. h., diejenige Gruppe, in die der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. diem{\displaystyle m}-te Gruppe. Die Zahlm{\displaystyle m} ist dadurch bestimmt, dassk=1m1nk<n2{\displaystyle \textstyle \sum _{k=1}^{m-1}n_{k}<{\frac {n}{2}}}, aberk=1mnkn2{\displaystyle \textstyle \sum _{k=1}^{m}n_{k}\geq {\frac {n}{2}}} gilt. Wenn keine weiteren Angaben über dieVerteilung der Daten gegeben sind, wird z. B.Gleichverteilung postuliert, sodass man sich derlinearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:

xmed=um+n2k=1m1nknm(omum){\displaystyle x_{\mathrm {med} }=u_{m}+{\frac {{\frac {n}{2}}-\sum \limits _{k=1}^{m-1}n_{k}}{n_{m}}}\cdot (o_{m}-u_{m})}

Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, kann auch jede andere Verteilung außer der Gleichverteilung vorliegen und somit kann auch jeder andere Wert imm{\displaystyle m}-ten Intervall der Median sein.

Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, die in aller Regel auch gar nicht bekannt ist.

Beispiel

[Bearbeiten |Quelltext bearbeiten]

Einkommen:

Klasse (i{\displaystyle i})Bereich (ui{\displaystyle u_{i}} bisoi{\displaystyle o_{i}})Gruppengröße (ni{\displaystyle n_{i}})
1mind. 0, weniger als 1500160
2mind. 1500, weniger als 2500320
3mind. 2500, weniger als 3500212

Man berechne

n2=212+320+1602=6922=346.{\displaystyle {\frac {n}{2}}={\frac {212+320+160}{2}}={\frac {692}{2}}=346.}

Also liegt der Median in der 2. Klasse (d. h.m=2{\displaystyle m=2}), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median

xmed=1500+346160320(25001500)=2081,25.{\displaystyle x_{\mathrm {med} }=1500+{\frac {346-160}{320}}\cdot (2500-1500)=2081{,}25.}

Da die konkrete Verteilung der Daten in den Intervallen unbekannt ist, kann auch jeder andere Wert im 2. Intervall der Median sein. Der beispielhaft errechnete Wert 2081,25 kann daher bis zu 581,25 zu groß und bis zu 418,75 zu klein sein, der Fehler der Schätzung also bis zu 28 % betragen.

Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe derSummenkurve. Hier wird derAbszissenwertxmed{\displaystyle x_{\mathrm {med} }} gesucht, der zumOrdinatenwertn2{\displaystyle {\tfrac {n}{2}}} gehört. Bei kleinerem und gerademn{\displaystyle n} kann stattdessen auch der Ordinatenwertn2+1{\displaystyle {\tfrac {n}{2}}+1} gewählt werden.

Andere Varianten

[Bearbeiten |Quelltext bearbeiten]
  • DieWohlfahrtsfunktion ist eine Alternative zum Median bei der Ermittlung des Masseneinkommens aus einer gegebenen Einkommensverteilung.
  • Eine andere Möglichkeit als der Median, mit extremen Werten umzugehen, ist die Benutzung einesgetrimmten Mittelwerts, den man ermittelt, indem man die kleinsten und größten Werte vor der Berechnung entfernt (typischerweise werden 5 % der Werte weggelassen).[2]
  • Nach Butler[3] gibt es auch eine strengere Definition von Median (die weniger gebräuchlich ist), die sagt, der Median ist der Wert, für den gilt,die Zahl der kleineren Werte in der Reihe ist gleich der Zahl der größeren Werte in der Reihe. Für Spezialfälle wie 3, 3, 3, 3, 4 oder 1, 2, 3, 3, 3 gibt es ein Verfahren, mit dem man einen eindeutigen Median unter Beibehaltung der strengeren Definition berechnen kann.[4]

Weblinks

[Bearbeiten |Quelltext bearbeiten]
Wiktionary: Median – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
Wikibooks:MATHEμαTRix{\displaystyle {\begin{smallmatrix}{\mathbf {MATHE} \mu \alpha T\mathbb {R} ix}\end{smallmatrix}}}: Mathematik für die Schule – Lageparameter
Wikibooks: Ausführliche Erläuterungen zur Berechnung des Medians – Lern- und Lehrmaterialien

Einzelnachweise

[Bearbeiten |Quelltext bearbeiten]
  1. Eric W. Weisstein:Statistical Median. In:MathWorld (englisch).
  2. Hans Lohninger:Grundlagen der Statistik. Mittelwert.
  3. Christopher Butler:Statistics in Linguistics. 1985. 
  4. Zentrale Tendenz. Archiviert vom Original (nicht mehr online verfügbar) am 16. Januar 2013; abgerufen am 9. Mai 2016. 
Normdaten (Sachbegriff):GND:4652849-0(lobid,OGND,AKS)
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Median&oldid=249422232
Kategorie: