Movatterモバイル変換

petite_blue id:petite_blue

統計学に関するpetite_blueのブックマーク (26)

科学の世界に革命をもたらしえる力──『因果推論の科学「なぜ?」の問いにどう答えるか』 - 基本読書
因果推論の科学「なぜ?」の問いにどう答えるか作者:ジューディア・パール,ダナ・マッケンジー文藝春秋Amazonこの『因果推論の科学』は、その名の通り因果推論について、その先駆者の著者が書いた一般向けのサイエンス本である。とはいえ、大半の人の反応は「因果推論ってなんなんだ」であろう。僕も何もわからぬまま読み始めたが、著者がこれは「科学の世界の革命」であると自賛するだけのことはある概念であることはすぐにわかった。その一方、相当に難しい、とっつきづらい概念でもあり、いかな一般向けの著作といえども本書を読んで理解するハードルは他のサイエンス本と比べても高いといえるだろう。数式も出てくるし、統計学の用語もぽこぽこ出てくるので、素人がスルスルと読み通せる本ではない。とはいえ根気強く読んでいけば理解できるように書かれているし(数式自体は別に読み飛ばしても問題はない)、理解すれば因果推論の科学がいか
petite_blue2022/09/16
統計学
リンク
統計的因果推論入門の講義資料を公開しました - Unboundedly
去年末に日本に帰国した際、ありがたいことに多くの方から因果推論に関するレクチャーの依頼をいただきました。本当はこの春にも帰国してトーク予定だったのですが、コロナ渦でタイミングを逸したので思い切って講義資料を公開することにしました。ツイッター上でのこんな話題もきっかけで・・・これを意識するだけで（少なくとも医学・公衆衛生領域における）回帰分析ユーザーの大部分の結果の解釈やモデルに対する向き合い方が変わると思っています。日本で修士までとったけど、自分は留学するまで知らんかった。去年末、一時帰国中にやった因果推論ワークショップ中でも触れました。 https://t.co/jEsu5WDPLx pic.twitter.com/LmidBTMQlw — KRSK (@koro485) May 27, 2020 内容はこんな感じですなんとなく回帰分析を使って「調整」をしてました、くらいの統計
petite_blue2022/09/16
統計学
機械学習
リンク
The Dunning-Kruger Effect is Autocorrelation – Economics from the Top Down
Have you heard of the ‘Dunning-Kruger effect’?It’s the (apparent) tendency for unskilled people to overestimate their competence. Discovered in 1999 by psychologistsJustin Kruger and David Dunning, the effect has since become famous. And you can see why.It’s the kind of idea that is too juicy to not be true. Everyone ‘knows’ that idiots tend to be unaware of their own idiocy. Or as John Cleese
petite_blue2022/04/15
統計学
心理学
リンク
統計学入門
さて皆さん、「数字は魔物、統計は数字のトリック」などといわれ、統計学は、ある人々からは疫病神のように忌みに嫌われ、またある人々からは金科玉条のごとく無条件に信奉され、はたまた別の人々からは塵芥のごとく無視されています。しかしやかましくいわれている割には、その本質が十分理解されているとはいい難いのではないでしょうか？研究現場の研究者が統計手法を利用する時に犯す間違いのうち、ほぼ90％のものが非常に初歩的なものです。そしてそれらの間違いは研究者が統計学の基本的な事柄をはっきりと理解していないか、あるいはそれらを誤解していることが原因になっています。例えば研究現場でしばしば間違って使われている統計手法のベスト3は次のようなものです。有意確率(p値)と「有意差あり」の意味標準偏差(SD)と標準誤差(SE)の使い分け多重比較の使用方法これらは全て非常に初歩的かつ基本的なことです。し
petite_blue2021/12/06
統計学
リンク
数学とプログラミングの勉強を開始して、何度も挫折して今に至る軌跡を晒す
2013年の秋、その時の自分は30代前半だった。衝動的に数学を学び直すことにした。若くないし、数学を学びなおすには遅すぎると思って尻ごみしていたが、そこを一念発起。というか軽い気持ちで。ぶっちゃけると分散分析とやらに興味を持ったから。数学というか統計かな。統計的に有意差があったといわれてもその意味がさっぱりだった。一応、理系の大学を出てるので、有意差という単語をちょいちょい耳にはしていたが、「よくわかんないけどt検定とかいうやつやっとけばいいんでしょ？」くらいの理解だった。で、ありがちな多重比較の例で、3群以上の比較にt検定は使っちゃダメだよっていう話を聞いて、なんか自分だけ置いてけぼりが悔しくなって、Amazonをポチッとしたのが全ての始まり。あと、あの頃はライン作業の工員だったから、脳が疲れてなかったし。そんなわけで、自分の軌跡を晒してみる。みんな数学とかプログ
petite_blue2021/12/06
統計学
リンク
【論文紹介】統計学の過去50年における最も重要なアイディアとは？ - Qiita
こんにちは，株式会社Nospare・千葉大学の小林です．本記事ではGelman and Vehtari (2020)の`What are the most important statistical ideas of the past 50 years?'について紹介します．この論文は過去50年において最も重要だとされる次の8つのアイディアが取り上げられています． 8つのアイデア反事実（counterfactual）に基づく因果推論ブートストラップとシミュレーションに基づいた推論オーバーパラメータ（overparameterized）モデルと正則化（ガウス過程，Lasso, horseshoe, ベイズnonparametric priorなど）ベイズマルチレベル（階層）モデル汎用的な計算アルゴリズム（EM, MCMC, SMC, HMC, 変分法など）適応的決定分析（ベイズ最
petite_blue2021/09/25
統計学
リンク
21-1. 母比率の信頼区間の求め方1 - 統計WEB
母平均の推定と同じように、母比率についても区間推定を行うことができます。成功確率がである試行をn回行うときに成功する回数をとすると、は二項分布に従うことは13-1章で既に学びました。このが母比率に対応します。また、二項分布に従う確率変数の期待値と分散はそれぞれ次のようになることは13-2章で既に学びました。 nがある程度大きい時は、中心極限定理によって、は正規分布に近似できます。これにより、が二項分布に従う場合、を標準化した値はnが十分に大きいときには標準正規分布に従います。
petite_blue2020/07/24
統計学
リンク
タダで学べるデータサイエンス名著5冊【日本書は高額でも英語ができれば怖くない】 - Qiita
この時期だからこそ自学しよう海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。これ系のまとめ記事は他にもありますが、翻訳済の日本の本と、原著を並べて表示していきたいと思います。特にデータサイエンス分野に限って紹介。お高いあの名著も実は原著なら無料かも？ (2020年5月時点) 続編、データサイエンスの名大学講座を書きました (2020年8月) 1冊目邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。まさに「アルゴリズム・理論の辞書」。年代的に古い感じはしますが、基礎はいつだって大切です。数字に強くないと絶対読み切れない。。。原著 : The Elements of S
petite_blue2020/05/08
機械学習
統計学
書籍
リンク
スペクトラルクラスタリング入門 | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
こんにちは、データサイエンスチーム tmtkです。この記事では、スペクトラルクラスタリング（Spectral Clustering）について説明します。スペクトラルクラスタリングについて、具体的には、スペクトラルクラスタリングとは行列の固有値分解によるグラフの連結成分分解の説明スペクトラルクラスタリングのアルゴリズムと計算例関連する話題を説明します。スペクトラルクラスタリングとはスペクトラルクラスタリングとは、クラスタリングアルゴリズムの一つです。クラスタリングは機械学習の方法のうち、教師なし学習に分類されます。データが与えられたとき、正解データなしでデータを複数の集団に分ける方法です。スペクトラルクラスタリングの特徴は、データからグラフを生成し、グラフの連結成分分解を応用してクラスタリングするところです。クラスタリングアルゴリズムとして古典的なものに、KMeansやGa
petite_blue2020/02/13
統計学
機械学習
clustering
リンク
8行のデータで理解する階層ベイズ - Qiita
学習効果を統計的に評価したい！こんにちはグロービスではさまざまな教育事業を展開していますが、多くの人に学習を継続してもらうためには、研修をしたりコンテンツを視聴してもらったりするだけでなく、その学習効果を測定してユーザーにフィードバックすることが重要です。このとき、だれが見ても明らかな効果が出れば良いのですが、受講前後の成績変化のばらつきが大きかったりデータが少なかったりして、必ずしも分かりやすい結果が得られるとは限りません。そういった場合にデータを丁寧に紐解いて、どの程度効果があったのかを明らかにするのも分析の仕事のひとつです。今回は階層ベイズモデルという統計モデルを使って、高校における学力コーチングの成果についてのデータを分析します。階層ベイズはやや高度な統計モデルというイメージがありますが、この記事ではたった8行のデータを例にしてその概要を説明してみたいと思います。想定読者
petite_blue2019/12/10
ベイズ推定
統計学
機械学習
リンク
ベイズ統計学の概論的紹介
ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです．数理・計算科学チュートリアル実践のチュートリアル資料です．引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください．以下，エラッタ． * 52 of 80：KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80：2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80：AICの第2項は d/2n ではなく d/n. * 76 of 80：βH(w)ではなくβlog P(X^n|w) +log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す
petite_blue2019/08/29
ベイズ推定
機械学習
統計学
リンク
傾向スコアを用いた因果推論入門~理論編~ - 下町データサイエンティストの日常
0. はじめに 1. 因果推論~施策の本当の効果~ 1.1 TVのCMを見るとアプリのプレイ時間が短くなる！？ 1.2じゃぁ理想的な比較方法は？ 1.3 背景要因を揃えた比較が難しい問題 1.4 反実仮想：仮に「xxxしたら / しなかったら」の効果算出 2. 傾向スコアを用いた効果測定 2.1 絶対にこの条件は守ろう ~ 「SUTVA」/「強く無視できる割り当て条件」~ 2.1.1 SUTVA 2.1.2 強く無視できる割り当て条件 2.1.3 どうやって条件が成り立ってるか確認するの？ 2.2 傾向スコアとは 3. 傾向スコア算出 3.1モデリング 3.2モデルの評価 4. 傾向スコアを用いたマッチング 4.1 マッチングのお気持ち 4.2 様々なマッチング手法 4.3 マッチングのメリット / デメリット 4.4 マッチングの評価 4.5 そもそも傾向スコアをマッチングに用いるべ
petite_blue2019/07/27
因果推論
統計学
リンク
統計学入門−第5章
この章では相関分析と回帰分析の計算原理と使い分け、そして間違いやすい相関分析と回帰分析、さらに一致係数と各種手法の相互関係について解説します。 5.1 相関係数と回帰直線あるデータと別のデータの間の関連性を分析する手法には相関係数(correlation coefficient)を中心にした相関分析と、回帰直線(regressionline)を中心にした回帰分析があります。これらの手法は広く利用されているわりに――あるいは利用されているからこそ――しばしば間違って用いられます。誤用の原因は値の計算原理と深く関わっているので、原理をよく理解して正しく利用するようにしましょう。 (1) 相関分析(correlation analysis) 相関係数は2種類のデータについて、一方の値が大きい時に他方の値も大きい(または小さい)かどうかを現象論的に要約する指標です。そのため因果関係ではな
petite_blue2019/01/04
統計学
相関
あとで読む
リンク
最尤推定はいつなら大丈夫？
問い：混合正規分布や神経回路網などの構造を持つ学習モデルでは最尤推定は漸近的にも有効性を持たず、非常に大きな汎化誤差や符号長を持つと聞いたのですが、最尤推定はいつなら大丈夫でしょうか。答え：　パラメータの集合と確率分布の集合が一対一に対応していて、かつ、フィッシャー情報行列が逆行列を持つ場合であれば、最尤推定は漸近正規性を持ち、漸近有効です。このとき、非常に多くのサンプルがあれば、具体的には、フィッシャー情報行列の最も小さい固有値までが、はっきりと見えるくらい多くの学習データがあれば、最尤推定量を使っても安全といえるでしょう。尤度関数が正規分布で近似できるということが最尤推定量が安全に使える条件です。次のことに十分に注意してください。「最尤推定が安全に使えるかどうかは、最尤推定量を計算しただけではわからない」。以上の条件を満たさない場合には最尤推定量は統計的推
petite_blue2019/01/04
統計学
最尤推定
リンク
古典統計学・ベイズ統計・統計モデリングの関係について - Tarotanのブログ
2019年1月4日 9:30頃追記同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました（ごく一部のツイートだけを抜粋）． #統計もう一度書くと、 * 予測分布の予測性能の比較→AIC, WAIC, LOOCVなど * モデルによるサンプル生成の確率分布がサンプルの真の分布にどれだけ近いかを比較→自由エネルギー,BIC, WBICなど — 黒木玄 Gen Kuroki (@genkuroki) January 3, 2019 ありがとうございます．ご指摘通り，このブログ記事では（最近の統計モデリングにおける特徴のひとつとして）予測性能の評価のほうしか取り上げておらず，特にAICしか触れていません．特異モデルでも妥当であると言われているWAICへの言及ができなかったのは，私がまったく理解していないだけからです．ニューラルネットワークやベイズモデルなど
petite_blue2019/01/04
統計学
あとで読む
リンク
ベータ分布でベイズ推定するときの事前分布パラメータ評価 - Qiita
はじめに親愛なる皆様、今日も元気にベイズってますでしょうか？ベイズ推定ってわりと直感的で、バンディット問題なんかと相性よく私も実務で使いはじめているのですが、いつでも悩みどころになるのが事前分布の設計だと思います。とりあえず無情報事前分布と呼ばれるもの使っておこうとか、経験上このくらいの期待値と分散っぽいからエイっと決めちゃおうとか、みんなわりとそんなノリかなという気がしているのですが、職人芸は不安になりますよね。では依って立つ理論はないのかというと、WAICという情報量規準を考案された渡辺先生の定理が光を照らしてくれるので、そのまま引用します。定理：「（自然な条件を満たす）任意の統計モデルと任意の事前分布について，ベイズ推測の汎化誤差と自由エネルギーはあるシンプルな数学的法則に従っている」 ... 与えられた「統計モデル＋事前分布」の良さ悪さは定量的に計算できる ... (
petite_blue2018/12/30
機械学習
統計学
ベイズ推定
リンク
データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly
今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。あまりに有名なパラドックスであるため日本語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います（間違いではない）。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。そもそもシンプソンのパラドックスとは？シンプ
petite_blue2018/08/31
統計学
math
リンク
結局、機械学習と統計学は何が違うのか？ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? これは私達の行っているデータサイエンスのトレーニングで、日本でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を
petite_blue2018/05/08
統計学
機械学習
リンク
京都大学がビッグデータの新統計法則を発見、「べき則」の普遍性を解明
京都大学の梅野健教授と新谷健修士課程学生は、世界中の様々なビッグデータに現れる「べき則」の普遍性を説明する新しい統計法則を発見した。この統計法則は「超一般化中心極限定理」と呼べるもので、データ上に普遍的に現れるという。これにより世界の様々な現象の統計モデルの構築が期待される。今回の研究では、現実のデータを反映した、従来の統計則である極限定理では捉えることができない、異なるべき分布を個々に持つ独立な確率変数の和という統計モデルを定式化した。その上で、データの数Nを無限にする極限において、レビの安定分布に収束するという極限定理を導出した。この極限定理は、統計学の基本法則である中心極限定理をべき則に一般化した一般化中心極限定理を、さらに異なるべき則の和の極限に拡張したもので、「超一般化中心極限定理」と呼ぶことができる。より一般化された状況でも成立する極限定理としての統計学的な意義があるととも
petite_blue2018/04/09
統計学
リンク
http://jom0.jsiam.org/11634
petite_blue2018/03/26
AI
統計学
リンク
12次のページ