因果推論の科学 「なぜ?」の問いにどう答えるか 作者:ジューディア・パール,ダナ・マッケンジー文藝春秋Amazonこの『因果推論の科学』は、その名の通り因果推論について、その先駆者の著者が書いた一般向けのサイエンス本である。とはいえ、大半の人の反応は「因果推論ってなんなんだ」であろう。僕も何もわからぬまま読み始めたが、著者がこれは「科学の世界の革命」であると自賛するだけのことはある概念であることはすぐにわかった。 その一方、相当に難しい、とっつきづらい概念でもあり、いかな一般向けの著作といえども本書を読んで理解するハードルは他のサイエンス本と比べても高いといえるだろう。数式も出てくるし、統計学の用語もぽこぽこ出てくるので、素人がスルスルと読み通せる本ではない。とはいえ根気強く読んでいけば理解できるように書かれているし(数式自体は別に読み飛ばしても問題はない)、理解すれば因果推論の科学がいか

去年末に日本に帰国した際、ありがたいことに多くの方から因果推論に関するレクチャーの依頼をいただきました。本当はこの春にも帰国してトーク予定だったのですが、コロナ渦でタイミングを逸したので思い切って講義資料を公開することにしました。 ツイッター上でのこんな話題もきっかけで・・・ これを意識するだけで(少なくとも医学・公衆衛生領域における)回帰分析ユーザーの大部分の結果の解釈やモデルに対する向き合い方が変わると思っています。日本で修士までとったけど、自分は留学するまで知らんかった。 去年末、一時帰国中にやった因果推論ワークショップ中でも触れました。 https://t.co/jEsu5WDPLx pic.twitter.com/LmidBTMQlw — KRSK (@koro485) May 27, 2020 内容はこんな感じです なんとなく回帰分析を使って「調整」をしてました、くらいの統計

Have you heard of the ‘Dunning-Kruger effect’?It’s the (apparent) tendency for unskilled people to overestimate their competence. Discovered in 1999 by psychologistsJustin Kruger and David Dunning, the effect has since become famous. And you can see why.It’s the kind of idea that is too juicy to not be true. Everyone ‘knows’ that idiots tend to be unaware of their own idiocy. Or as John Cleese

さて皆さん、「数字は魔物、統計は数字のトリック」などといわれ、統計学は、ある人々からは疫病神のように忌みに嫌われ、またある人々からは金科玉条のごとく無条件に信奉され、はたまた別の人々からは塵芥のごとく無視されています。 しかしやかましくいわれている割には、その本質が十分理解されているとはいい難いのではないでしょうか? 研究現場の研究者が統計手法を利用する時に犯す間違いのうち、ほぼ90%のものが非常に初歩的なものです。 そしてそれらの間違いは研究者が統計学の基本的な事柄をはっきりと理解していないか、あるいはそれらを誤解していることが原因になっています。 例えば研究現場でしばしば間違って使われている統計手法のベスト3は次のようなものです。 有意確率(p値)と「有意差あり」の意味 標準偏差(SD)と標準誤差(SE)の使い分け 多重比較の使用方法 これらは全て非常に初歩的かつ基本的なことです。 し
2013年の秋、その時の自分は30代前半だった。 衝動的に数学を学び直すことにした。 若くないし、数学を学びなおすには遅すぎると思って尻ごみしていたが、そこを一念発起。 というか軽い気持ちで。ぶっちゃけると分散分析とやらに興味を持ったから。数学というか統計かな。 統計的に有意差があったといわれてもその意味がさっぱりだった。 一応、理系の大学を出てるので、有意差という単語をちょいちょい耳にはしていたが、 「よくわかんないけどt検定とかいうやつやっとけばいいんでしょ?」 くらいの理解だった。 で、ありがちな多重比較の例で、3群以上の比較にt検定は使っちゃダメだよっていう話を聞いて、なんか自分だけ置いてけぼりが悔しくなって、Amazonをポチッとしたのが全ての始まり。 あと、あの頃はライン作業の工員だったから、脳が疲れてなかったし。 そんなわけで、自分の軌跡を晒してみる。 みんな数学とかプログ

こんにちは,株式会社Nospare・千葉大学の小林です.本記事ではGelman and Vehtari (2020)の`What are the most important statistical ideas of the past 50 years?'について紹介します.この論文は過去50年において最も重要だとされる次の8つのアイディアが取り上げられています. 8つのアイデア 反事実(counterfactual)に基づく因果推論 ブートストラップとシミュレーションに基づいた推論 オーバーパラメータ(overparameterized)モデルと正則化(ガウス過程,Lasso, horseshoe, ベイズnonparametric priorなど) ベイズマルチレベル(階層)モデル 汎用的な計算アルゴリズム(EM, MCMC, SMC, HMC, 変分法など) 適応的決定分析(ベイズ最

この時期だからこそ自学しよう海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

こんにちは、データサイエンスチーム tmtkです。 この記事では、スペクトラルクラスタリング(Spectral Clustering)について説明します。スペクトラルクラスタリングについて、具体的には、 スペクトラルクラスタリングとは 行列の固有値分解によるグラフの連結成分分解の説明 スペクトラルクラスタリングのアルゴリズムと計算例 関連する話題 を説明します。 スペクトラルクラスタリングとは スペクトラルクラスタリングとは、クラスタリングアルゴリズムの一つです。クラスタリングは機械学習の方法のうち、教師なし学習に分類されます。データが与えられたとき、正解データなしでデータを複数の集団に分ける方法です。 スペクトラルクラスタリングの特徴は、データからグラフを生成し、グラフの連結成分分解を応用してクラスタリングするところです。クラスタリングアルゴリズムとして古典的なものに、KMeansやGa
学習効果を統計的に評価したい! こんにちは グロービスではさまざまな教育事業を展開していますが、多くの人に学習を継続してもらうためには、研修をしたりコンテンツを視聴してもらったりするだけでなく、その学習効果を測定してユーザーにフィードバックすることが重要です。このとき、だれが見ても明らかな効果が出れば良いのですが、受講前後の成績変化のばらつきが大きかったりデータが少なかったりして、必ずしも分かりやすい結果が得られるとは限りません。そういった場合にデータを丁寧に紐解いて、どの程度効果があったのかを明らかにするのも分析の仕事のひとつです。 今回は階層ベイズモデルという統計モデルを使って、高校における学力コーチングの成果についてのデータを分析します。階層ベイズはやや高度な統計モデルというイメージがありますが、この記事ではたった8行のデータを例にしてその概要を説明してみたいと思います。 想定読者

ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβlog P(X^n|w) +log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す
0. はじめに 1. 因果推論~施策の本当の効果~ 1.1 TVのCMを見るとアプリのプレイ時間が短くなる!? 1.2じゃぁ理想的な比較方法は? 1.3 背景要因を揃えた比較が難しい問題 1.4 反実仮想:仮に「xxxしたら / しなかったら」の効果算出 2. 傾向スコアを用いた効果測定 2.1 絶対にこの条件は守ろう ~ 「SUTVA」/「強く無視できる割り当て条件」~ 2.1.1 SUTVA 2.1.2 強く無視できる割り当て条件 2.1.3 どうやって条件が成り立ってるか確認するの? 2.2 傾向スコアとは 3. 傾向スコア算出 3.1モデリング 3.2モデルの評価 4. 傾向スコアを用いたマッチング 4.1 マッチングのお気持ち 4.2 様々なマッチング手法 4.3 マッチングのメリット / デメリット 4.4 マッチングの評価 4.5 そもそも傾向スコアをマッチングに用いるべ

この章では相関分析と回帰分析の計算原理と使い分け、そして間違いやすい相関分析と回帰分析、さらに一致係数と各種手法の相互関係について解説します。 5.1 相関係数と回帰直線 あるデータと別のデータの間の関連性を分析する手法には相関係数(correlation coefficient)を中心にした相関分析と、回帰直線(regressionline)を中心にした回帰分析があります。 これらの手法は広く利用されているわりに――あるいは利用されているからこそ――しばしば間違って用いられます。 誤用の原因は値の計算原理と深く関わっているので、原理をよく理解して正しく利用するようにしましょう。 (1) 相関分析(correlation analysis) 相関係数は2種類のデータについて、一方の値が大きい時に他方の値も大きい(または小さい)かどうかを現象論的に要約する指標です。 そのため因果関係ではな
問い: 混合正規分布や神経回路網などの構造を持つ学習モデルでは 最尤推定は漸近的にも有効性を持たず、非常に大きな汎化誤差や 符号長を持つと聞いたのですが、最尤推定はいつなら大丈夫でしょうか。 答え: パラメータの集合と確率分布の集合が一対一に 対応していて、かつ、フィッシャー情報行列が逆行列を 持つ場合であれば、最尤推定は漸近正規性を持ち、 漸近有効です。このとき、非常に多くのサンプルがあれば、 具体的には、フィッシャー情報行列の最も 小さい固有値までが、はっきりと見えるくらい多くの 学習データがあれば、最尤推定量を使っても安全といえるでしょう。 尤度関数が正規分布で近似できるということが最尤推定量が安全に 使える条件です。次のことに十分に注意してください。「最尤推定が 安全に使えるかどうかは、最尤推定量を計算しただけではわからない」。 以上の条件を満たさない場合には 最尤推定量は統計的推
2019年1月4日 9:30頃 追記 同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました(ごく一部のツイートだけを抜粋). #統計 もう一度書くと、 * 予測分布の予測性能の比較→AIC, WAIC, LOOCVなど * モデルによるサンプル生成の確率分布がサンプルの真の分布にどれだけ近いかを比較→自由エネルギー,BIC, WBICなど — 黒木玄 Gen Kuroki (@genkuroki) January 3, 2019 ありがとうございます. ご指摘通り,このブログ記事では(最近の統計モデリングにおける特徴のひとつとして)予測性能の評価のほうしか取り上げておらず,特にAICしか触れていません. 特異モデルでも妥当であると言われているWAICへの言及ができなかったのは,私がまったく理解していないだけからです.ニューラルネットワークやベイズモデルなど
はじめに 親愛なる皆様、今日も元気にベイズってますでしょうか? ベイズ推定ってわりと直感的で、バンディット問題なんかと相性よく私も実務で使いはじめているのですが、いつでも悩みどころになるのが事前分布の設計だと思います。 とりあえず無情報事前分布と呼ばれるもの使っておこうとか、経験上このくらいの期待値と分散っぽいからエイっと決めちゃおうとか、みんなわりとそんなノリかなという気がしているのですが、職人芸は不安になりますよね。 では依って立つ理論はないのかというと、WAICという情報量規準を考案された渡辺先生の定理が光を照らしてくれるので、そのまま引用します。 定理 : 「(自然な条件を満たす)任意の統計モデルと任意の事前分布について,ベイズ推測の汎化誤差と自由エネルギーはあるシンプルな数学的法則に従っている」 ... 与えられた「統計モデル+事前分布」の良さ悪さは定量的に計算できる ... (

今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。 あまりに有名なパラドックスであるため日本語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。 例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います(間違いではない)。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。 そもそもシンプソンのパラドックスとは? シンプ

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? これは私達の行っているデータサイエンスのトレーニングで、日本でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。 ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を

京都大学の梅野健教授と新谷健修士課程学生は、世界中の様々なビッグデータに現れる「べき則」の普遍性を説明する新しい統計法則を発見した。この統計法則は「超一般化中心極限定理」と呼べるもので、データ上に普遍的に現れるという。これにより世界の様々な現象の統計モデルの構築が期待される。 今回の研究では、現実のデータを反映した、従来の統計則である極限定理では捉えることができない、異なるべき分布を個々に持つ独立な確率変数の和という統計モデルを定式化した。その上で、データの数Nを無限にする極限において、レビの安定分布に収束するという極限定理を導出した。 この極限定理は、統計学の基本法則である中心極限定理をべき則に一般化した一般化中心極限定理を、さらに異なるべき則の和の極限に拡張したもので、「超一般化中心極限定理」と呼ぶことができる。より一般化された状況でも成立する極限定理としての統計学的な意義があるととも

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く