資料では、統計学がどんな学問なのか、統計学を学ぶことにどんな意義があるのかという初歩から解説。その上で統計学を「記述統計学」と「推計統計学」に大別し、それぞれの特徴や手法、注意点を説明している。 今回の無料公開は、ブレインパッドで働く有志のデータサイエンティストが技術資料などを外部に発信するプロジェクト「OpenBrainPad」の一環。「統計学をこれから学ぶ人も復習する人もぜひ利用してほしい」(ブレインパッド)という。同プロジェクトでは、過去にはプログラムのバージョンを管理するシステム「Git」のハンズオン(実際に手を動かして学ぶ)資料なども公開している。 関連記事 総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート 総務省が「誰でも使える統計オープンデータ」を開講。統計オープンデータを活用したデータ分析の手法を解説する無料講座だ。AIの基礎をZoomで講義 新人研修用

帝京大学経済学部で用いた講義資料です。2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 目次本資料について 統計学の講義資料 1.本資料について 帝京大学経済学部で用いた講義資料です。2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 もとの講義資料とは異なる点もあるのでご注意ください。 万が一何か問題があれば、当ブログにコメントをいただけますと幸いです。 スライドにも記載の通り、以下の利用を想定しています。 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する 基本的には想定①ですが、文系の学生をメインターゲットとした統計学の本格的入門資料は少ない印象です。 未受講者の方にも役に立つかもしれないと思いWeb上で公開することにしました。本資料は1年間にわたる講義資料となっています。数回
import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn assns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.18.1 matplotlib version : 2.2.2sns version : 0.8.1
Pythonコードと図で分かる平均値と標準偏差の違い――「統計」とはデータから価値ある情報を抜き出すこと:「AI」エンジニアになるための「基礎数学」再入門(3)(1/2 ページ)AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載。今回から具体的に数学を学びます。統計とは、統計量とは何かを数学記号や数式、Pythonコード、図を交えて解説します。AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す本連載『「AI」エンジニアになるための「基礎数学」再入門』。 初回は、「AIエンジニア」になるために数学を学び直す意義や心構え、連載で学ぶ範囲についてお話ししました。また前回は、「世の中にはどのようなデータがあるのか?」という部分を主に取り上げました。今回は、「それらデータをどう活用していくのか?」「活用するために

2019年1月4日 9:30頃 追記 同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました(ごく一部のツイートだけを抜粋). #統計 もう一度書くと、 * 予測分布の予測性能の比較→AIC, WAIC, LOOCVなど * モデルによるサンプル生成の確率分布がサンプルの真の分布にどれだけ近いかを比較→自由エネルギー,BIC, WBICなど — 黒木玄 Gen Kuroki (@genkuroki) January 3, 2019 ありがとうございます. ご指摘通り,このブログ記事では(最近の統計モデリングにおける特徴のひとつとして)予測性能の評価のほうしか取り上げておらず,特にAICしか触れていません. 特異モデルでも妥当であると言われているWAICへの言及ができなかったのは,私がまったく理解していないだけからです.ニューラルネットワークやベイズモデルなど
今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。 あまりに有名なパラドックスであるため日本語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。 例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います(間違いではない)。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。 そもそもシンプソンのパラドックスとは? シンプ

京都大学の梅野健教授と新谷健修士課程学生は、世界中の様々なビッグデータに現れる「べき則」の普遍性を説明する新しい統計法則を発見した。この統計法則は「超一般化中心極限定理」と呼べるもので、データ上に普遍的に現れるという。これにより世界の様々な現象の統計モデルの構築が期待される。 今回の研究では、現実のデータを反映した、従来の統計則である極限定理では捉えることができない、異なるべき分布を個々に持つ独立な確率変数の和という統計モデルを定式化した。その上で、データの数Nを無限にする極限において、レビの安定分布に収束するという極限定理を導出した。 この極限定理は、統計学の基本法則である中心極限定理をべき則に一般化した一般化中心極限定理を、さらに異なるべき則の和の極限に拡張したもので、「超一般化中心極限定理」と呼ぶことができる。より一般化された状況でも成立する極限定理としての統計学的な意義があるととも

データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう! ビッグデータ、データサイエンス、人工知能など、統計学を主軸においた分野が隆盛ですが、統計学には高いハードルを感じる方も少なくないでしょう。k平均法を実際に手を動かしながら理解することで、データ分析を身近に感じることができます。 はじめまして、藤井健人(@studies)と申します。イタンジ株式会社でデータ基盤周りの運用を担当しています。 「ビッグデータ」「データサイエンス」「人工知能」といったバズワードに代表されるように、統計学を主軸においた分野の隆盛が日常となって久しいです。 しかし「統計学は学問的な要素があり難しい」という印象を持たれやすく、「実務に活かすのはハードルが高い、怖い」と感じる方も少なくないのではないでしょうか。 そういった方を対象に、今回は統計学の手法の一つであるk平均法を学んでいただ

ネットには「無料」で貴重な情報がたくさんある。統計学の教科書から、戦略コンサルによる「変革」の指南書まで、様々なコンテンツをまとめてみた。 OpenIntoro - 統計学の教科書 436ページの統計学の教科書が無償ダウンロード(PDF)可能。Openintroという米大学の教員などが「オープンソース」の試みとしてまとめた仕事で素晴らしい。編者の一人のミシガン大の教員によるCourseraの講座もある。PDFファイルはこちら BCG - 「企業変革」の手引き 戦略コンサルのBCGによる「変革」の指南書。167ページのPDFが無償でダウンロード可能で、Kindleファイルも提供されています。かなり包括的に整理されており非常に参考になります。トップコンサルファームのこういった資料も無料で提供されるというのは本当にいい時代です。PDFファイルはこちらKindleファイルはこちら SaaS

408 化学と生物 Vol. 51, No. 6, 2013 15 μ σ μ σ μ σ 16 セミナー室 研究者のためのわかりやすい統計学-2統計検定を理解せずに使っている人のために II 池田郁男 東北大学大学院農学研究科 15 16 409 化学と生物 Vol. 51, No. 6, 2013 μ σ σ σ μ σ * 17 μ σ μ σ * μ μ μ Z n 1 1 = − ( ) X µ σ σ 18 μ σ σ σ σ σ μ σ μ μ μ σ / n σ / n σ / n σ / n * * 17 18 σ 410 化学と生物 Vol. 51, No. 6, 2013 t u n 1 1 = − ( ) X µ σ σ σ σ σ μ t X 1 1 = − ( ) µ SE 19 μ μ μ μ μ 20 μ σ μ μ σ μ μ u n / 19 20 4
318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.
比較的読みやすい本を中心に紹介します。今後は毎年このページを更新します。 微分積分 高校数学をきちんとやっておけばそんなに困ることないような。偏微分とテイラー展開は大学演習のような本でしっかりやっておきましょう。ラグランジュの未定乗数法のような、統計・機械学習で必要になる部分は、ネット等で学べばいいかなと思っています。 線形代数 tensorflowなどのおかげで順伝播部分(行列積および行列とベクトルの積)さえ書ければ線形代数の知識はそこまでいらないんじゃないかという流れを感じます。しかし、主成分分析やトピックモデルなどの行列分解や、ガウス過程などのカーネル法のような様々なデータ解析の手法に一歩踏み込むと、きちんとした勉強が必要になります。理解しやすくて使いやすくて、統計や機械学習への応用を主眼においた線形代数の本はまだ見たことないです。機械学習シリーズとかで基礎から「The Matrix

ビジネス書大賞(2014)、統計学会出版賞(2017)を受賞し、累計48万部を突破した大ヒットシリーズの最新刊『統計学が最強の学問である[数学編]』が発売されました。 著者の西内さんは、統計学の数学を学べば、人工知能の重要技術である機械学習の数学もマスターできるといいますが、そのわけは…?数学者アーサー・ベンジャミンの主張アメリカの数学者アーサー・ベンジャミンはTEDトークなどの場で、「高校までの数学教育では微積分などより統計学を教えるべきである」と主張しています。 理工学系の学生にとって、確かに微積分は重要です。しかし、それ以外の一般的な人々が日常生活で使うことはほとんどありません。それよりも統計学の方が、全ての人が日々使うものだという理由から、彼はこのような考えに至ったのだそうです。 私はこの話に対して、賛否両方の意見があります。賛成する点はもちろん「統計学は全ての人が学ぶべきもの

平均への回帰(へいきんへのかいき、(英: regression toward the mean)は、平均と乖離した標本が得られた確率変数について、再度標本を得ると最初より平均に近づく傾向があるという現象である[1]。平均回帰(へいきんかいき)、回帰効果(かいきこうか)とも。 平均への回帰は、極端な値が得られた対象から再度値を得ると平均に近づく傾向がある、という統計学的な現象である[1]。具体例として「テストの点が低かったグループにもう一度(同難度の)テストを受けさせると彼らの平均点が上がる(=学年平均に近づく)」「大きいエンドウ豆を選別して継代すると、次世代は親世代より小さくなる(=エンドウ豆の平均サイズに近づく)」が挙げられる(⇒ #例)。 平均への回帰は統計学で説明でき、選択バイアスの一種ともいえる(⇒ #原理)[2]。もともとは先祖返りに似た植物の遺伝特性と(誤認して)見出された現象
はじめに ここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきます。機械学習ITについて学べるオンライン講座「Udacity」は、基本的に有料で講座を受けるのですが、中には非常に中身の詰まったコンテンツで、かつ無料の講座も存在します。 以下の講座では、機械学習の各技術に関して広くカバーしており、決定木からサポートベクターマシン、ニューラルネットワークやベイズ、強化学習まで学ぶことができます。 かなりのボリュームなので興味のあるところを学んでいく感じでも良いと思います。 www.udacity.com s0sem0y.hatenablog.com s0sem0y.hatenablog.com ディープラーニング 同じくUdacityからディープラーニングに関する講座です。 多層パーセプトロンから畳み込みニューラルネット

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだ

この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(本物:及びその他の統計分析職)vs.機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く