Movatterモバイル変換


[0]ホーム

URL:


コンテンツにスキップ
Wikipedia
検索

中央値

出典: フリー百科事典『ウィキペディア(Wikipedia)』
この記事は検証可能参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。このテンプレートの使い方
出典検索?"中央値" – ニュース ·書籍 ·スカラー ·CiNii ·J-STAGE ·NDL ·dlib.jp ·ジャパンサーチ ·TWL
(2023年11月)
この記事は英語版の対応するページを翻訳することにより充実させることができます。2024年5月
翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
  • 英語版記事を日本語へ機械翻訳したバージョン(Google翻訳)。
  • 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
  • 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
  • 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
  • 翻訳後、{{翻訳告知|en|Median|…}}ノートに追加することもできます。
  • Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。

中央値(ちゅうおうち、:median)あるいは中位数(ちゅういすう)、メジアンメディアンとは、データ集合代表値の一つで、順位が中央である値のことである。ただし、データの大きさが偶数の場合は、中央順位2個の値の算術平均をとる。

例えば5人の年齢10歳、32歳、96歳、100歳、105歳からなるデータの中央値は、順位が上からも下からも3である96(歳)となる。0歳の子供が2人増えて7人になると、中央値は32歳となる。

平均値との関係

[編集]
最頻値・中央値・平均値の図示

中央値は平均値と同様に集団の代表値を得る目的で使う。例えば年収からなるデータの場合を考えてみると分かりやすい。

一部の富裕層が平均年収をつり上げてしまう例を考える。人口100人の集落で、90人が年収200万円だとしても、10人が年収5000万円であれば平均年収は680万円となる。

一方中央値は、年収が低い順(高い順)に国民を並べたときにちょうど真ん中になる人の年収を表している。この場合、中央値はあいかわらず200万円であり、一部の富裕層の年収が中央値に与える影響はない。

例えば1人の億万長者が人口の少ない町に引っ越してくれば平均年収はつり上がってしまうが、年収の中央値はせいぜい1順位上がるに過ぎない。

厳密な定義

[編集]

確率変数X累積分布関数F(x) とするとき、F(x) は実数値非単調減少関数、右連続関数となる。この時、次の不等式を満たす実数m を中央値(メディアン)と呼ぶ。

mdF(x)12 and mdF(x)12{\displaystyle \int _{-\infty }^{m}\mathrm {d} F(x)\geq {\frac {1}{2}}{\text{ and }}\int _{m}^{\infty }\mathrm {d} F(x)\geq {\frac {1}{2}}\,\!}

ただし、積分記号はリーマン=スティルチェス積分の意味である。

データの大きさが有限値(n とする)である場合は、以下のように簡単に記述することができる。(ただし、同一の順位が無いと仮定する。)

データの値をx1,x2, …,xn とする。それらを小さい順に並べ替えたものをx1,x2, …,x′n とするとき、x=(x1,x2,,xn){\displaystyle {\boldsymbol {x}}=(x_{1},x_{2},\cdots ,x_{n})} の中央値Q12(x){\displaystyle \mathrm {Q} _{\frac {1}{2}}(x)}

Q12(x)={xn+12n は 奇 数 12(xn2+xn2+1)n は 偶 数 {\displaystyle \mathrm {Q} _{\frac {1}{2}}(x)={\begin{cases}x'_{\frac {n+1}{2}}&n{\text{ は 奇 数 }}\\{\dfrac {1}{2}}(x'_{\frac {n}{2}}+x'_{{\frac {n}{2}}+1})&n{\text{ は 偶 数 }}\end{cases}}}

により定義される。なお、単純にQ12(x)=xn2{\displaystyle \mathrm {Q} _{\frac {1}{2}}(x)=x_{\frac {n}{2}}} とならないのは、x{\displaystyle x} の添字が0, …,n ではなく1, …,n だからである。

中央値は平均絶対誤差英語版 (mean absolute error, MAE)

MAE(t)=1ni=1n|xit|{\displaystyle \operatorname {MAE} (t)={\frac {1}{n}}\sum _{i=1}^{n}|x_{i}-t|}

を最小にする性質をもっている(ただし、そうなる値は一意ではない)。データの大きさが偶数のときは、その値t は一意には定まらないが便宜上、上で述べた定義を採用する。

平均値との関係(数式的なもの)

[編集]
  • 分布が対称であるデータに対しては、中央値は平均値に等しい。ただし、分布が対称でなくても、中央値と平均値が等しくなることもある。
  • 以下の性質により、平均値よりも、全体の傾向を表す代表値として適切である場合が多い。
    • 平均値は、測定ミスなどによって発生する外れ値(他の値より著しく異なる値)に大きく影響され、誤差が大きくなったり、無意味な値となることがある。そのため、刈り込みロバスト統計などの対策が必要になる。しかし、中央値は外れ値にほとんど影響されないので、対策は不要である。
    • たとえばデータが正値のみといったように限定されている場合、そうでない場合と比べて分布はより非対称になりやすく、少数の大きな値に引きずられて平均値は大多数の分布より大きくずれることがある。しかし、中央値ではそういった影響はほとんどない。
    • ±{\displaystyle \pm \infty } を含むデータに対しても中央値は有限となることがある。(平均値は、必ず無限または不定となる)
    • 分布の谷に位置するようなケースが、平均値に比べて少ない。(平均値は、2峰分布に対ししばしば谷に位置する)
  • 中央値を求めるには、線形汎用選択アルゴリズムを使うとO(n){\displaystyle \mathrm {O} (n)} の計算量で求められる(平均値もO(n){\displaystyle \mathrm {O} (n)})。逐次データが得られる場合は全てのデータを保持しておく必要があり、O(n){\displaystyle \mathrm {O} (n)} のメモリを要する(平均値はO(1){\displaystyle \mathrm {O} (1)})。
  • 代表値として平均値を使うときは、分布の広がりは分散または標準偏差で表すことが多い。それに対し、代表値として中央値を使うときは、分布の広がりは第3四分位点と第1四分位点の差である四分位範囲:interquartile range, IQR)で表すことが多い。

その他の性質

[編集]

確率分布の中央値

[編集]

1次元の確率分布f(x) に対し、

mf(x)dx12andmf(x)dx12{\displaystyle \int _{-\infty }^{m}f(x)\,\mathrm {d} x\geq {\frac {1}{2}}\;\mathrm {and} \;\int _{m}^{\infty }f(x)\,\mathrm {d} x\geq {\frac {1}{2}}}

を満たすm を、中央値と呼ぶ。

関連項目

[編集]

外部リンク

[編集]
標本調査
記述統計学
連続データ
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
相関係数
その他
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定英語版
その他
統計図表
生存時間分析
歴史
応用
出版物
全般
その他
カテゴリカテゴリ
https://ja.wikipedia.org/w/index.php?title=中央値&oldid=105246418」から取得
カテゴリ:
隠しカテゴリ:

[8]ページ先頭

©2009-2026 Movatter.jp