Movatterモバイル変換


[0]ホーム

URL:


601 views

Career path from system engineer to data scientist

It is a material that I wrote for internal training.We will explain the skill set / mind necessary to aim at "data scientist" as a possibility of new career path of "system engineer".In order to make the story easy to understand, analysis methods and results by statistics are simplified.Therefore, please be careful beforehand because it may not be strictly accurate.

Embed presentation

Value Engagement Partner―― お客様の価値観を共有するパートナーデータサイエンティストの条件~SEからのキャリアパス~2017年5月20日ソリューション本部 足立 雅春1Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved第1.1版
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 2目次
4. まとめ付録. データサイエンティスト協会の活動参考文献・文書Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 3目次
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 4目次
0. はじめに 本ドキュメントは社内活用を前提としています。 SI&Cにおける主戦力であるSEを対象としています。 SEの新たなキャリアパスの可能性として「データサイエンティスト」を目指す上で必要なスキルセット・マインドを中心に説明します。 話を分かりやすくするために、統計による分析方法や結果は単純化しております。 そのため、厳密には正確でない場合もございますので、あらかじめご注意ください。5
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 6目次
1. データサイエンティストとはインターネット上で爆発的に増える情報「ビッグデータ」を活用し、マーケティングなどに生かすために分析する専門人材。ITのスキルだけではなく、統計学やマーケティング理論、心理学など幅広い分野の知識が必要とされる。(日経新聞)7目的はビジネスへの貢献であり、そのために ビジネス力(業務知識/スキル) データサイエンス力(解析知識/スキル) データエンジニアリング力(IT知識/スキル)を駆使し、ビッグデータからビジネス上意味のある洞察を引き出し、意思決定者に分かりやすく伝えたり、データを用いた新たなサービスを構築できる人材。(または、チーム)SE・プログラマ出身者の場合、「データエンジニアリング力」をコアスキルとして、適性や業務配置に応じ、「ビジネス力」、「データサイエンス力」を補完していくことで、「データサイエンティスト」へとステップアップするキャリアパスが基本となる。資料:データサイエンティスト協会プレスリリース(2014.12.10)http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
1. データサイエンティストとは8では、なぜこのような人材が必要となったのか?また、彼らの具体的な仕事は何なのか?
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 9目次
1. データサイエンティストとは 2011年ごろより、「ビッグデータ」が企業活動に急激に浸透 ビッグデータをビジネスに有効活用するため、「データサイエンティスト」にあたる職種が必要になった1.1 データサイエンティストが必要とされる背景10データ流通量の推移(産業計)出所:情報通信総合研究所 2015年3月ビッグデータの流通量推計及びビッグデータの活用実態に関する調査研究報告書 ※一部加工 スマートデバイスの普及 BYODなどによるデータのボーダレス化 安価なセンサー、ウェアブルデバイスなどの登場などによるIoT技術の発展 トランザクションデータ/センサーデータの爆発的増加 上記を背景とした“多種・多量・高速に蓄積されるデータ(ビッグデータ)を分析・加工・検証することで新たなビジネス法則を見出す”「データサイエンティスト」の需要が高まる
1. データサイエンティストとは「ビッグデータ」の3大要素1.1 データサイエンティストが必要とされる背景11 Volume:テラバイト(10^12)→ゼタバイト(10^21)へ Velocity:記録済みデータ→ストリームデータへ Variety:構造化データ→非構造化データへ
1. データサイエンティストとは「ビッグデータ」を生み出した技術要素1.1 データサイエンティストが必要とされる背景12 データを蓄積するハードウェアの低廉化 クラウドコンピューティングによるデータ維持費の低下 センサー技術の進化による取得可能なデータの多様化 CookieSyncやソーシャルログインなどによるトランザクションデータを結合する技術の発展「ビッグデータ」を生み出した社会的要因 EC(Electronic Commerce)、オンライントレード、インターネットバンキングの普及 インターネットに接続できるモバイル端末、センサーの普及 電子マネーの普及
1. データサイエンティストとは「ビッグデータ」の処理を可能とする技術1.1 データサイエンティストが必要とされる背景13 CPUの高速化 GPGPU(General Purpose Computing onGraphics Processing Units)技術 Hadoop/MapReduceに代表される分散技術を支えるフレームワークの登場 R/Juliaに代表されるオープンソースの統計解析向け言語の普及 TensorFlow/Chainerに代表される機械学習・深層学習向けフレームワークの登場
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 14目次
1. データサイエンティストとは 「ビジネス上の問題/課題」を 仮説に基づく「数理的な問題/課題」に翻訳し 仮説が正しい/間違っていることを「数理的に証明」し 証明に沿った「ビジネス上の解決策」として立案する1.2 データサイエンティストの仕事15①ビジネス上の問題/課題②数理的な問題/課題③数理的な解決策④ビジネス上の解決策
1. データサイエンティストとは 「いかに少ない予算で多く勝つか」*1を 仮説に基づき「ピタゴラス勝率」*2に翻訳し 仮説が正しいことを「得点期待値」*3で証明し 「得点に最も貢献する選手を登用する」*4ことを立案した1.2 データサイエンティストの仕事 例)マネー・ボール16①いかに少ない予算で多く勝つか②ピタゴラス勝率に翻訳③得点期待値で証明④得点に最も貢献する選手を登用*2:チームの得失点から予想される勝率を導き出す式。野球の場合、次の式が一般的に使われる。得点^2 ÷ ( 得点^2 + 失点^2 )*1:オークランド・アスレチックスのビリー・ビーンGMが「セイバーメトリクス」と呼ばれる選手の評価や戦略をデータで分析する手法を用い、経営危機に瀕した球団を再建した姿を描いたノンフィクション小説(後に映画化)。*3:ヒットや四死球等の打席結果に得点価値(決定係数)を掛けあわせて、高い精度で得点の予測値を求めることができる式。所属するリーグやチーム全体のデータを対象として、加工・分析を行い、統計的手法を用いて導出した式を個人成績まで含めて検証する。*4:無名であっても「得点期待値」が高い選手を登用する。「得点期待値」に貢献しない数値が高い選手は例えスター選手であっても、トレード要員として扱う。
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール17マネー・ボールで登場する理論をある野球チームの成績を元に分析をすると仮説からどのような推察が得られ推察からどのような提案ができるのか?【次ページ以降で紹介】データサイエンティストに最も必要とされる資質は「好奇心」である。それは、問題を深層まで掘り下げ、核心にある疑問を明らかにし、非常に明快で検証可能な一連の仮説に落とし込みたいという欲求である。By トーマス・H・ダベンポート(ハーバード・ビジネス・スクール客員教授)
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール18②ピタゴラス勝率と実際の勝率の比較(1/2) ピタゴラス勝率との比較では相対的に勝率が低いチームである 野球というゲームの性質上、この得失点差であれば、同じ試合数で仮定した場合、3勝以上は上積みできるはず このチームが所属するリーグ特有の現象なのか?別の観点で分析を行う必要がある
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール19②ピタゴラス勝率と実際の勝率の比較(2/2) 変数を「得点」→「打点」に置き換えると勝率が近似する チーム固有の現象なのか?同一リーグ全体と他チームとの傾向から分析する 分析の結果、チーム固有の現象である場合、「なぜ得点が勝利に結びつかないのか?」さらなる分析を行う
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール20③得点期待値による検証 (1/9) 「得点」がチームの「勝率」を決める決定要因であると仮定した場合 次に、個人打撃成績(データ)のどの項目が「得点」を稼ぐ(=「勝利」に貢献する)決定要因となるのかを検証する では、具体的に打撃成績表からどの項目をどのように分析すればよいのか?(打率、本塁打…etc)次ページ以降で解説する
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール21③得点期待値による検証 (2/9) マネー・ボールにおいては「得点」に貢献する指標として、「打率」<「長打率」、「出塁率」と評価している
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール22③得点期待値による検証 (3/9) 「OPS(On –base Plus Slugging)」が得点との相関が高いと仮定した場合 上記の3選手がチームの勝利への貢献度が高いという仮説が立てられる
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール23③得点期待値による検証 (4/9) しかし…「OPS」による評価はいくつかの欠点がある・出塁能力が過小評価されている・走塁能力に直結していない・上記等の要因により、個々の選手の得点を予測できない 「OPS」による欠点を補正するため、より正確に打者としての総合力・貢献度を図る指標として、「得点期待値」からプレーの得点価値を算出する「Liner Weight」に基づいた評価方法が存在する*1 次ページに得点期待値を算出した打撃成績表を掲載する(*1) 正確には、「得点期待値」、「Liner Weight」は別々の指標であり、かつ求め方により様々な式が考えられるが、ここでは単純化して「得点期待値」として示す
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール24③得点期待値による検証 (5/9) 「得点期待値」が高い精度で「得点」を予測していることがわかる
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール25③得点期待値による検証 (6/9) 「得点期待値」が「得点」との相関が高いと仮定した場合 上記の3選手がチームの勝利への貢献度が高いという仮説が立てられる 「OPS」による評価に比べ、より勝利に貢献する可能性のある選手をピックアップできる
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール26③得点期待値による検証 (7/9) しかし…「得点期待値」による評価だけでは片手落ちとなる なぜなら、現時点で機会に恵まれている(多く試合に出ている)選手が高く評価されるからである その結果、潜在的により勝利に貢献しうる選手を見落としてしまうリスクがある 「得点期待値」から算出した価値に重みづけをして、打席の中での攻撃力を図る「wOBA(weighted On Base Average)」(*1)という指標が開発された(*1) “weighted"は“Linear weight system"のweightと同義で、得点期待値から算出した価値に合わせ、各結果に対し重みを調整していることを示している。
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール27③得点期待値による検証 (8/9) 「wOBA」の本質は「長打率」と変わらない(*1)(*1) 掛け合わせる係数(価値)を調整し、アウトや四死球、失策出塁にまで対象を広げていること、また数式を簡略化する処理などをしていることが違いとなる。
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール28③得点期待値による検証 (9/9) 「長打率」と「wOBA」の選手評価に違いがあることに着目
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール29④得点に貢献する選手を登用する(1/2) 「wOBA」に着目した評価により、必ずしも機会に恵まれていない、(もしくは「OPS」が高くなくても)多くの得点をチームにもたらす可能性がある選手がクローズアップされる 裏を返すと、「OPS」(「長打率」、「出塁率」)による評価より多面的に打者の攻撃力を評価できる
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール30④得点に貢献する選手を登用する (2/2) さらに踏み込むと…現状、レギュラーとして打撃機会が多く、一見派手な活躍(長打が多いなど)を見せている選手であっても、起用法を再検討する価値があることがわかる 上記は、その具体例として以下の条件にあう選手を3名ピックアップしている・「打席数」≧100 かつ 「wOBA」<「チーム平均wOBA」
1. データサイエンティストとは1.2 データサイエンティストの仕事 例)マネー・ボール31「厳しい決断」の後に「栄光」が待っている……かもしれない
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 32目次
2. データサイエンスのプロセス プロジェクトマネジメントに「PDCA」のプロセスがあるように データサイエンスにも「PPDAC」と呼ばれるプロセスがある33問題の発見Problem調査の計画Planデータの収集Data分析Analysis結論Conclusion
2. データサイエンスのプロセス342.1 PPDAC1. Problem(問題の明確化、仮説の設定)プロセス全体像の理解ー 問題の把握とそれを解決または実現するための仮説を設定する。2. Plan(調査の計画)分析視点の確定-仮説を検証するために必要なデータの特定し、調査・収集方法を検討する。3. Data(データの収集)母集団の設定とサンプリングの方法-計画に従い、データを収集し、整理し、統計表を作成する。4. Analysis(分析)グラフの作成と問題点の分析-統計表を可視化して、問題を発見し深堀を行う。5. Conclusion(結論)経営層の説得と新しいアイデアの創出-説得力のあるレポートの作成とプレゼンテーションを実施する。
2. データサイエンスのプロセス352.1 PPDACフェーズにより求められるスキルエリアも変わる1. Problem2. Plan3. Data4. Analysis5. Conclusion資料:データサイエンティスト協会プレスリリース(2014.12.10) を元に一部改変http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
2. データサイエンスのプロセス362.1 PPDAC1. Problem(問題の明確化、仮説の設定)a. 問題の明確化:着目すべき現象を絞り込んだ上で、中立・公平な立場で正確に把握何をやりたいのか?「問題とは○○である」ことを明確に定義する。問題を明確に定義する=理想の姿と現状のギャップを把握するそのためには、以下の両方、またはいずれかを満たす必要がある。・ 売上高、納期、品質基準値など、明確な数値で定量化できること・ 組織の方針、顧客ニーズなど、客観的評価で定性化できることつまり、最終的なゴールを明確化することで、KPI、KPGを定義する
2. データサイエンスのプロセス372.1 PPDAC1. Problem(問題の明確化、仮説の設定)b. 仮説の設定:課題を解決するための仮説を筋良く設定する「筋良く」とは、・ 統計学的に検定可能であること・ ある程度論理的であること・ 直感的でスピーディであること■フェルミ推定いくつかの前提を設けて論理的に推定し、概算値を求める。例:シカゴのピアノ調律師の数を推定する・ シカゴの人口は、300万人とする・ シカゴでは、1世帯あたりの人数が平均3人程度とする・ 10世帯に1台の割合で、ピアノを保有している・ ピアノ1台の調律は平均して1年に1回行うとする・ 調律師が1日に調律するピアノの台数は3台とする・ 週休2日とし、調律師は年間250日働くとする
2. データサイエンスのプロセス382.1 PPDAC1. Problem(問題の明確化、仮説の設定)(ここまで)社長がプロジェクトレビューでアカウントリーダーやPMに求めていることと本質的には同じ。つまり、SI&Cでリーダークラスを経験していれば、考え方の基本は実践で磨いていることになる。(対象となる業界のビジネス・モデルに合せる前提)
2. データサイエンスのプロセス392.1 PPDAC1. Problem(問題の明確化、仮説の設定)c. 心理学:サイコグラフィックな分析■認知心理学(cognitive psychology)リコメンデーションなど、現在の情報処理技術に応用されている。d. 行動経済学:デモグラフィックな分析■価値関数 ■確率加重関数
2. データサイエンスのプロセス402.1 PPDAC1. Problem(問題の明確化、仮説の設定)e. マーケティング理論代表的な分析フレームワークを使い、定性的分析を行う。【参考】 事業計画書、アカウント計画書■SWOT分析(強み、弱み、機会、脅威)■PPM分析(スター、金のなる木、問題字、負け犬)■5F分析(売り手、買い手、競合、新規参入、代替品)■4P分析(製品、価格、流通、販促)■3C分析(顧客、競合、自社)■商品・市場マトリクス(市場浸透、製品開発、市場開拓、多角化)■PEST分析(政治、経済、社会、技術)■ポジショニングマップ分析(自社、競合の相対的ポジション)■バリューチェーン(業界、自社の活動・ビジネスプロセス)
2. データサイエンスのプロセス412.1 PPDAC2. Plan(調査の計画)a. 予備調査無計画に調査を行うと…以下のリスクが発生する・ 有用なデータが集まらないための再調査・ 間違った分析によりビジネスの方向性を誤るそこで、小さな集団を対象に誤解や過不足の検討を行う「予備調査」を実施する。【注意点】・ 仮説を立てることは重要だが、仮説に合せた結果に誘導するのはNG【データの存在場所】自社→インターネット→外部DB(二次データ)→新規収集(一次データ)
2. データサイエンスのプロセス422.1 PPDAC2. Plan(調査の計画)b. 一次データと二次データ二次データを用いることによって同じような調査の重複を避けることができれば、コストの節約につながり、別の調査にコストをかけることが可能。→まず二次データを存在の有無を確認し、その上で一次データの収集を検討する。■一次データ:特定の目的のために新規に収集されるデータ【例】ビール会社が、自社ブランド購入者のデモグラフィック特性に関する情報を入手するため、消費者調査を実施する■二次データ:他の目的のために事前に収集されているデータ内部データー自社内のデータ【例】プロジェクト計画書、測定一覧外部データー組織の外部に存在するデータ(オープン・データ)【例】data.gov(欧米)、e-Stat(国税調査)、気象データ
2. データサイエンスのプロセス432.1 PPDAC2. Plan(調査の計画)c. 調査票の作成・ 既存のデータがない場合、調査方法や収集方法を検討する。・ 目的に沿った「調査対象」と「調査時期」を決定する。・ 「調査方法」と「調査対象からの選出」方法を検討する。・ 一般的には標本調査となるが、偏りない対象を選択する必要がある。■調査方法・ 「質問法」、「観察法」、「実験法」がある。・ 「質問法」はさらに、「調査員調査」、「電話調査」などの手法がある。■質問内容・ もれなく重複なく(MECE):「仮説は大胆に、調査は慎重に」・ 誘導しない質問順序と文言:調査員の均質化・ 1項目1質問の原則:質問の均質化
2. データサイエンスのプロセス442.1 PPDAC3. Data(データの収集)a. 調査票の整理前処理ー欠損値・外れ値などのスクリーニング・クレンジング■既存データに対する前処理・ 内容の検査・ 計算項目の集計・ 質的データの符号づけ(大変良い:5~非常に悪い:1など)・ 名寄せ・ 日時・金額データのフォーマット統一などb. 一覧表の作成一件一行となる「個票データ」形式に整形する。c. 統計表の作成「個票データ」を単純集計票、クロス集計表などの「集計データ」に整形。
2. データサイエンスのプロセス452.1 PPDAC4. Analysis(分析)a. 基本統計量とグラフの考察問題点を発見し解決していくプロセス詳細は「3.データサイエンスに必要な基礎知識と技術」参照・ 記述統計値の分析・ 分散/ばらつきの分析・ 相関関係の分析・ トレンド/サイクルの分析・ 推定・検討による仮説検証・ クラスター分析によるグループ化...etc
2. データサイエンスのプロセス462.1 PPDAC5. Conclusion(結論)a. 結論経営層のビジネス判断を促すため収集・分析した統計データなどを元に報告書をまとめ、プレゼンテーションを実施する重要なのはA2A(Analysis to Action)分析を具体的な施策・イノベーションにつなぐ【報告書の目次構成例】・ 標題、目次、概要、分析の目的、分析方法、分析内容、結論、今後の課題、参考資料、付録(仮説、先行研究の紹介、謝辞)【要約(サマリ)】・ 報告書を1~数枚程度に集約し、IR・広報資料として利用【報告書作成における注意点】・ なるべくシンプルな統計表、グラフに加工する・ グラフの縦軸は0を基点とする・ 凝ったグラフでなく、二次元のシンプルな表記を心がける
2. データサイエンスのプロセス472.1 PPDAC5. Conclusion(結論)b. 新たな課題の提示日々刻々と変化する状況をキャッチアップするため、データサイエンスに必要なアーキテクチャも変化し続ける。【例】 データ可視化技術(Data visualization)の劇的な進展引用元:Kaspersky Lab 「CYBERTHREAT REAL-TIME MAP」WEBサイト:https://cybermap.kaspersky.com/
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 48目次
3.データサイエンスに必要な基礎知識と技術49本来の意味での「データサイエンスに必要な基礎知識と技術」は、以下のように関連団体が定める標準を参照 データサイエンティスト協会が定めているデータサイエンティストスキル標準「DSSS」【付録】 データマイニングに関するスキル標準「CRISP-DM」本資料における「データサイエンスに必要な基礎知識と技術」は、これからデータサイエンスに触れるSEが押さえておきたい基礎知識と技術として以下をピックアップ 統計解析 データマイニング ツール・開発技術
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 50目次
3.データサイエンスに必要な基礎知識と技術513.1 統計解析「統計学が最強の学問である」その言葉の裏にある本当の意味とは? 統計学における「最強」の定義 「間違った仮説を採用してしまう確率」を最低限に保ったうえで、「正しい仮説を見落とす確率」が最小であること 世の中の多くの事象は「不確かな現実」である 「正しい仮説」の候補を提案することで、政治や経済、教育やビジネスといった人間と社会を対象にした最善の判断を導き、価値を生むのが統計学である 統計学は「不確かな現実」に判断を下すためにある 統計学は「間違った仮説を採用してしまう」リスクを慣例的に5%許容する学問である
3.データサイエンスに必要な基礎知識と技術523.1 統計解析統計解析とは統計学で「正しい仮説」を導き出すための解析手法統計解析の限界、危険性も知っておく必要がある世の中には3つの嘘がある。嘘、真っ赤な嘘、統計だ。Byベンジャミン・ディズレーリ(元イギリス首相) 統計解析は数字を対象とする 数字を使うことで「論より証拠」を示すことができる 数字で表せないものは評価することができない 数字に騙されない 「疑う姿勢」を持ち、「一次データ」を確認する 偽装されたデータが含まれていたり、不都合なデータを外している可能性もある
3.データサイエンスに必要な基礎知識と技術533.1 統計解析統計解析の基礎(1/2)統計学では扱うデータの種類により解析の仕方も変わるまた、単位や大きさが異なるデータを比較するために標準化する 量的データ:数値として記録される 離散型データ(計数データ):回数、人数、レビュー回数 連続データ(計量データ):温度、長さ、レビュー時間• 間隔尺度:差が意味を持つ(温度)• 比率尺度:比も意味を持つ(長さ) 質的データ:カテゴリーで分類される 名義尺度:男女、レビュータイプ 順位尺度:10段階満足度、相互評価
3.データサイエンスに必要な基礎知識と技術543.1 統計解析統計解析の基礎(2/2)次の2つのケースで行った統計解析について考える② A内閣支持率は、Bテレビの調査で『50%』であった 全ての有権者が対象にできないため「標本調査」を行った 「標本調査」の結果を「推測統計学」により分析した① 社内のカフェテリアについて、Z社の全社員についてアンケート調査をしたところ利用率が『50%』であった 全ての社員を対象に「全件調査」を行った 「全件調査」の結果を「記述統計学」により分析した
3.データサイエンスに必要な基礎知識と技術553.1 統計解析母集団と標本前ページ②のケースで日本の全国民に聞くことは、時間的にも金銭的にもほぼ不可能である 日本全国民を調査する代わりに「標本調査」を行う 標本は無作為(ランダム)に抽出する必要がある 標本に偏りがある場合、調査対象の全体を正しく推測できない 標本から推測できる調査対象の全体を「母集団」という 標本から母集団の特徴を推測するのが「推測統計学」
3.データサイエンスに必要な基礎知識と技術563.1 統計解析統計学の全体像何を知るための「道具」 主な統計用語・分野①要約する真ん中を知る 平均値、中央値、最瀕値 記述統計学構成を知る 比率ばらつきを知る 分散、標準偏差②一部分のデータから全体の特徴を断言する断言が間違える確率を知る 検定 推測統計学全体の真ん中が同じ確率を知る 母平均の差の検定(t検定)全体の構成が同じ確率を知る 母比率の差の検定(χ二乗検定)全体のばらつきが同じ確率を知る 母分散の差の検定(F検定)データ同士の関係の強さを知る 相関分析関係の強さを参考に、全体を分ける 因子分析、クラスタ分析、主成分分析、コレスポンディング分析関係の調査を参考に、全体を当てる 重回帰分析、相関分析判別分析、ロジスティック回帰分析
3.データサイエンスに必要な基礎知識と技術573.1 統計解析記述統計学(1/4)すべてのデータを扱う⇒多過ぎるデータを要約するための統計学 真ん中を知る(平均値・中央値・最瀕値) 代表値を比べることでデータ全体の大まかな傾向を予測する平均値≒中央値≒最瀕値⇒左右対称のデータ分布平均値>中央値>最瀕値⇒右側に広がりのあるデータ分布代表値 特徴平均値 データ分布の中心となる。外れ値の影響を受けやすい。中央値 並び順で決まる値のため、外れ値の影響を受けにくい。最瀕値 出現頻度で決まる値のため、外れ値の影響を受けない。
3.データサイエンスに必要な基礎知識と技術583.1 統計解析記述統計学(2/4) 構成を知る(比率) 集計したデータの構成から特徴を掴む例:百分比損益計算書を業界平均値と比較することで、自社の強み・弱みを知る仮に、業界平均値が売上高総利益率(粗利):20%営業利益率(経常):15%とした場合←の会社は、「付加価値の高い製品(サービス)を提供しているが、販管費などのコストが高いことで営業利益を圧迫しているのでは?」という予測を立てられる。
3.データサイエンスに必要な基礎知識と技術593.1 統計解析記述統計学(3/4) ばらつきを知る(分散・標準偏差) 分散:個々のデータに対して平均値との離れ具合を知る 標準偏差:分散の平方根(√)をとり、値を標準化するデータの値xからデータ全体の平均値xを引き、標準偏差sで割ることで、平均を0、標準偏差を1に変換できるため、単位の異なるデータを比較することができる
3.データサイエンスに必要な基礎知識と技術603.1 統計解析記述統計学(4/4) 記述統計学を使ってデータを要約するときの注意点 要約 には情報を捨てていく作業が含まれる 要約 したデータは都合のよい情報が多くなりやすい 要約 したデータは分析前から自明な情報が多くなりやすい 要約 で捨てた情報に、ビジネスのヒントがあることも多い 記述統計学は元データの量が多く、そのままでは分かりにくい場合に、貴重な少数意見が失われるリスクを踏まえた上で、全体の傾向を見るための『道具』である。 可能な限り、元データに近い状態で一度は眺めるクセと、まとめる際に何が捨てられるか意識するクセをつける。
3.データサイエンスに必要な基礎知識と技術613.1 統計解析推測統計学(1/12)一部のデータを扱う⇒全体の特徴を断言するための統計学 断言が間違える確率を知る(1/7)データ群を比べることで一部のデータであることによるブレを考慮しても、データ間には差があると言えるのかを確認する⇒検定要約したデータデータの差が全体ではどの程度の意味があるかわかるようにする統計量を求める【●●分布】全体の中での差の程度を表す数字
3.データサイエンスに必要な基礎知識と技術623.1 統計解析推測統計学(2/12) 断言が間違える確率を知る(2/7) 具体例を元にどのような検定を用いるのか次ページ以降で解説(R• 帰無仮説:偏りや差があることを証明したい場合、「差はない」という(帰無)仮説を立てる。検定の結果、その仮説が棄却されれば、「差がある」反対の仮説(対立仮説)が採択される。• p値:「差がない」という断言が間違いであることを示す確率。5%以下なら帰無仮説が棄却され、対立仮説が採択される。(統計学上、断言することができる)No. 例1 サラリーマンの毎月のおこづかいの平均が、神奈川と埼玉とで異なるか推測したい2 『第一外国語の単位を取得する』ことと『第二外国語の単位を取得する』ことに関連があるかを推測したい3 『投薬をしたグループ』と『投薬をしなかったグループ』とのグループ間の検査結果に偏りがないかを検定したい。
3.データサイエンスに必要な基礎知識と技術633.1 統計解析推測統計学(3/12) 断言が間違える確率を知る(3/7) t検定:データの平均を出す⇒平均の差を検定したい⇒母平均の差の検定No. 例1 サラリーマンの毎月のおこづかいの平均が、神奈川と埼玉とで異なるか推測したい> data1kanagawa saitama1 42500 387002 40800 373003 39400 385004 42800 421005 39400 370006 39900 368007 39100 368008 39200 387009 38900 3480010 38800 38600>t.tes t(data1$kanagawa,data1$saitama)Welch Two Sample t-testdata: data1$kanagawa and data1$saitamat = 2.8162, df = 16.887, p-value = 0.01195alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:538.4427 3761.5573sample estimates:mean of x mean of y40080 37930p値:2つのデータの平均に「差がある」という断言が間違える確率 p-value<0.05(5%信頼区間)⇒2つのデータの平均に差があると断言できる
3.データサイエンスに必要な基礎知識と技術643.1 統計解析推測統計学(4/12) 断言が間違える確率を知る(4/7) χ二乗検定(1/1):データから比率を出す⇒比率の差を検定したい⇒母比率の差の検定No. 例2 『第一外国語の単位を取得する』ことと『第二外国語の単位を取得する』ことに関連があるかを推測したいクロス表:第一外国語の単位取得と第二外国語の単位取得第一外国語 合計単位取得 単位取得不可第二外国語 単位取得 14 8 22単位取得不可 4 17 21合計 18 25 43
3.データサイエンスに必要な基礎知識と技術653.1 統計解析推測統計学(5/12) 断言が間違える確率を知る(5/7) χ二乗検定(2/X):母比率の差の検定> x <- matrix(c(14, 8, 4, 17), ncol=2, byrow=T)> chisq.test(x)Pearson's Chi-squared test with Yates' continuity correctiondata: xX-squared = 7.0406, df = 1, p-value = 0.007968p値:2つのデータの比率に「差がある」という断言が間違える確率 p-value<0.05(5%信頼区間)⇒2つのデータの比率に差があると断言できる
3.データサイエンスに必要な基礎知識と技術663.1 統計解析推測統計学(6/12) 断言が間違える確率を知る(6/7) F検定(1/2):データから分散を出す⇒分散の差を検定したい⇒母分散の差の検定No. 例3 『投薬をしたグループ』と『投薬をしなかったグループ』とのグループ間の検査結果に偏りがないかを推測したい投薬をしていないグループと投薬をしたグループの検査結果(仮の数値)投薬をしていない(9人) 301, 311, 325, 291, 388, 412, 325, 361, 287投薬をした(10人) 197, 180, 247, 260, 247, 199, 179, 134, 163, 200
3.データサイエンスに必要な基礎知識と技術673.1 統計解析推測統計学(7/12) 断言が間違える確率を知る(7/7) F検定(2/2):母分散の差の検定> gra=c(301, 311, 325, 291, 388, 412, 325, 361, 287)> grb=c(197, 180, 247, 260, 247, 199, 179, 134, 163, 200)>> var.test(gra, grb)F test to compare two variancesdata: gra and grbF = 1.2001, num df = 8, denom df = 9, p-value = 0.7859alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.2925646 5.2290589sample estimates:ratio of variances1.200087p値:2つのデータの分散に「差がある」という断言が間違える確率 p-value>0.05(5%信頼区間)⇒帰無仮説が採択され、2つのデータの比率に差がないと断言できる
3.データサイエンスに必要な基礎知識と技術683.1 統計解析推測統計学(8/12) データ同士の関係の強さを知る(1/4)推測統計学は「断言する」ほかに、データ同士の関係の強さを調べる際にも使う。取れたデータをもとに、仮説を立てることから始める。「仮説」とは?⇒「ある原因」が「ある結果」に影響することを推測する具体的には、以下の4パターンに分類できることが多い① データ分析を始める前に経験や既知の情報を参考に因果関係を考える② その因果関係について、情報を把握できるようにデータを取得する③ 取得したデータを俯瞰的に見て、想像した影響関係になっていそうか判断する④ 統計解析上の『道具』を使い、調べたい調査対象の全体についてどうなっているか検証する
3.データサイエンスに必要な基礎知識と技術693.1 統計解析推測統計学(9/12) データ同士の関係の強さを知る(2/4) 仮説の4パターン(1/3)前提として数値を次の2つに分類して考えると2×2の構造となる 数量データー「変化」を表す・連続値:身長、体重、売上、テストの点数など 種類データー「状態」を表す・例:血液型、性別、携帯電話の利用意向など① AがBの状態だとCはDという状態になる(状態⇒状態)② AがBの状態になるとCはDに変化する(状態⇒変化)③ AがBに変化するとCはDという状態になる(変化⇒状態)④ AがBに変化するとCはDに変換する(変化⇒変化)
3.データサイエンスに必要な基礎知識と技術703.1 統計解析推測統計学(10/12) データ同士の関係の強さを知る(3/4) 仮説の4パターン(2/3)4パターンの分類から仮説の種類と検定方法を考える。仮説の4パターンの分類 結果種類データ(状態) 数量データ(変化)原因種類データ(状態) パターン1(状態⇒状態)性別が男性⇒利用意向が低いパターン2(状態⇒変化)広告を出す⇒問合せ件数が増える数量データ(変化) パターン3(変化⇒状態)価格が下がる⇒利用意向が上がるパターン4(変化⇒変化)広告数が増える⇒認知率が増える
3.データサイエンスに必要な基礎知識と技術713.1 統計解析推測統計学(11/12) データ同士の関係の強さを知る(4/4) 仮説の4パターン(3/3)仮説を考える『道具』 結果種類データ(状態) 数量データ(変化)原因種類データ(状態) クロス集計表グラフ 種類データごとの真ん中、ばらつきの比較数量データ(変化) 散布図 散布図仮説を検定する方法 結果種類データ(状態) 数量データ(変化)原因種類データ(状態) Χ二乗検定 t検定、F検定数量データ(変化) 判別分析ロジスティック分析係数の有意確率を利用相関分析回帰分析係数の有意確率を利用
3.データサイエンスに必要な基礎知識と技術723.1 統計解析推測統計学(12/12) 推測統計学を使ってデータを断言するときの注意点 検定では、原因と結果との厳密な因果分析はできない データが少ないと役に立たない 検定結果が優位となった(仮説は数学的に絶対に正しい)とまでは言えない 世間で思われているほどには、有益な情報が得られる分析手法ではない 推測統計学は取れたデータから全体について断言するときに、対象者が偏っているリスクを踏まえた上で、全体への断言を間違える可能性を定量化するときに使う『道具』である。 伝統的な統計解析手法は「少ないサンプルから全体を推測する」ことを前提に成り立っている。
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 73目次
「データマイニング」とは(「統計」との比較) 大規模データから使えるルールを見つけることに主眼を置いた方法論 具体的には、大規模データから似ているデータの集まりを見つけ出し、その集まりを作るときのパターンを見つけ出す手法の集合体3.データサイエンスに必要な基礎知識と技術743.2 データマイニングデータマイニング 統計目的大規模データから使えるルールを見つける手法群計算の手間が少なく、実効性が高い手法の集合体所有できたデータから、全体の動きを推測する手法群どのようなケースにも対応できるような複雑なモデルを作る手法の集合体成功条件発見されたルールの価値が発見するまでに要したコストを上回っていること発見されたルール(作ったモデル)が未来永劫使えること
データをグルーピングする(「クラスタリング」の種類)(1/2) データの集まりをデータ間の類似度に従って、いくつかのグループに分けることを「クラスタリング」という クラスタリングはどのような視点で類似度をとるかで結果が異なる クラスタリングの手法は、階層的か非階層的かの手法的な観点と、1つのデータが1つのクラスタに属するのか複数のクラスタに属するのかの帰属度の観点で分けることができる(次ページの表)3.データサイエンスに必要な基礎知識と技術753.2 データマイニング
データをグルーピングする(「クラスタリング」の種類)(2/2)3.データサイエンスに必要な基礎知識と技術763.2 データマイニング分類 種類 内容手法 階層的手法 ①各データそれぞれを1つのクラスタとする②状態を初期状態とするクラスタの距離、類似度で2つのクラスタを逐次的に併合していく③目的のクラスタ数まで併合が行われたときに処理を終了する非階層的手法 ①データの良さを表わす評価関数を設定する②評価関数に対する最適解(最適分割)を探索する帰属度ハードクラスタリング 各データは1つのクラスタのみに所属するソフトクラスタリング 各データが複数のクラスタリングに所属することを許す(※最も帰属度が高いクラスタを抽出するとハードクラスタリングになる)
主成分分析(階層的手法の代表的アルゴリズム)(1/2)【特徴】 教師なし学習の1つ データの分散(ばらつき)が大きいところ(主成分)をみつける 分散が大きいところが大事、小さいところは気にしない3.データサイエンスに必要な基礎知識と技術773.2 データマイニング引用元:csci5740 SVD and PCAhttps://sites.google.com/site/csci5740g/home/topics-lectures/svdandpca
主成分分析(階層的手法の代表的アルゴリズム)(2/2)【処理手順】① 全データの重心を求める(平均値)② 重心からデータの分散(ばらつき)が最大となる方向を求める③ 新しいデータ表現軸として②で求めた方向を基底とする④ ③でとった軸と直交する方向に対して分散が最大となる方向を求める⑤ ②~④を元のデータの次元分だけ繰り返す3.データサイエンスに必要な基礎知識と技術783.2 データマイニング引用元:csci5740 SVD and PCAhttps://sites.google.com/site/csci5740g/home/topics-lectures/svdandpca
k-means(非階層的手法の代表的アルゴリズム)(1/2)【特徴】 教師なし学習の1つ 予め分割するクラスタの数を指定する必要がある 結果が一定でない3.データサイエンスに必要な基礎知識と技術793.2 データマイニング
k-means(非階層的手法の代表的アルゴリズム)(2/2)【処理手順】① k個のクラスタの中心の初期値を決める② 各データと①でのk個のクラスタ中心との「距離」を求め、もっとも近いクラスタに分類③ 形成されたクラスタの中心を求める④ クラスタの中心が変化しない時点までステップ②③を繰り返す3.データサイエンスに必要な基礎知識と技術803.2 データマイニング
R言語でのクラスタリング実行例 (1/3)対象)1970年代米国50州の8項目に関する統計データ分類)主成分分析→k-means分析で3つのグループに分類3.データサイエンスに必要な基礎知識と技術813.2 データマイニング項目 意味Population 人口の推定値Income 一人あたりの所得Illiteracy 非識字率Life Exp 平均寿命の年齢Murder 100,000人当たりの殺人件数HS Grad 高校卒業率Frost 大都市の凍結以下の日数の平均値Area 平方マイル
R言語でのクラスタリング実行例 (2/3)主成分分析の結果3.データサイエンスに必要な基礎知識と技術823.2 データマイニング【グルーピングされた特徴】・平均寿命、高卒率、収入が高い・殺人件数と非識字率が高い・人口が多い※「主成分分析」で得られた結果から3つのグループにクラスタリング
R言語でのクラスタリング実行例 (3/3)k-meansの結果3.データサイエンスに必要な基礎知識と技術833.2 データマイニング【グルーピングされた特徴】・平均寿命、高卒率、収入が高い・殺人件数と非識字率が高い・人口が多い※「主成分分析」の結果とほぼ同等の結果が得られている
パターンを見つける(アソシエーション分析)(1/2) アソシエーション分析とは、POSデータやECサイトの取引データからルールを導き出す分析手法である 具体的には、「商品Xを買うと商品Yも買う確率が高い」というルールなど ルールの評価基準として、上記のようなデータがあったとしても、その発生確率そのものが低いと、インパクトが低くビジネス上の効果は薄い そのため、次ページのようなルール評価指標を用いて抽出を行う3.データサイエンスに必要な基礎知識と技術843.2 データマイニング
パターンを見つける(アソシエーション分析)(2/2)• リフト値が1を超えるかどうかが有効なルールかどうかの判断基準の1つ3.データサイエンスに必要な基礎知識と技術853.2 データマイニング
R言語でのアソシエーション分析実行例 (1/2)対象)ある食料雑貨店で収集した30日間のPOSデータ160品目の9,835件のデータ。分析)アプリオリ関数を使い、支持度、確信度が0.001以上で、ルールの長さ(アイテムの数)が3のものを抽出する。3.データサイエンスに必要な基礎知識と技術863.2 データマイニング> data("Groceries")> Groceriestransactions in sparse format with9835 transactions (rows) and169 items (columns)> groceries.ap <- apriori(Groceries,parameter = list(support = 0.001,confidence = 0.001,minlen = 3, maxlen = 3))AprioriParameter specification:confidence minval smax arem aval originalSupport maxtime support minlen0.001 0.1 1 none FALSE TRUE 5 0.001 3maxlen target ext3 rules FALSE
R言語でのアソシエーション分析実行例 (2/2)以下のルールが抽出された ビールとワインを買うとリカーも一緒に買われやすい⇒元々、お酒は同じコーナーにあるため、あまり有用ではない ハンバーガーの肉とソーダを買うとインスタント食品も一緒に買われやすい⇒どんなインスタント食品かわからない、細分化した分析が必要 ハムと白パンを買うとプロセスチーズが一緒に買われやすい⇒サンドイッチを作る買い物客が多いので、サンドイッチコーナーを作るなどの陳列の検討ができそう3.データサイエンスに必要な基礎知識と技術873.2 データマイニング> inspect(head(sort(groceries.ap, by = "lift"),3))lhs rhs support[1] {bottled beer,red/blush wine} => {liquor} 0.001931876[2] {hamburger meat,soda} => {Instant food products} 0.001220132[3] {ham,white bread} => {processed cheese} 0.001931876confidence lift[1] 0.3958333 35.71579[2] 0.2105263 26.20919[3] 0.3800000 22.92822
パターンを見つける(決定木分析) 1970年代に研究、1980年代に商用化された技術(枯れた技術) もともとはエキスパートシステムの開発を目的とした方法論 いくつか種類があるが、CART(Classification And RegressionTrees)が最も有名 ツリー構造で可視化できるため、直感的に理解できる3.データサイエンスに必要な基礎知識と技術883.2 データマイニング
R言語での決定木分析実行例 (1/2)対象)タイタニック号の乗客の生存情報分析)乗客の各属性が生存にどうような影響を与えていたかCART決定木で分析する3.データサイエンスに必要な基礎知識と技術893.2 データマイニング項目 意味Class 一等、二等、三等、船員Sex 男性、女性Age 子供、大人Survived 死亡、生還© Twentieth Century FoxHome Entertainment LLC. AllRights Reserved.> titanic.rp <- rpart(Survived~.,data=titanic.data)> plot(as.party(titanic.rp),tp_args=T)
R言語での決定木分析実行例(2/2)3.データサイエンスに必要な基礎知識と技術903.2 データマイニング
0. はじめに1. データサイティストとは1.1 データサイエンティストが必要される背景1.2 データサイエンティストの仕事2. データサイエンスのプロセス2.1 PPDAC3. データサイエンスに必要な基礎知識と技術3.1 統計解析3.2 データマイニング3.3 ツール・開発技術Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 91目次
3.データサイエンスに必要な基礎知識と技術923.3 ツール・開発技術 データサインティストの3つのキャリアタイプとツールそのビジネスに関する経験・知識(企画・営業担当者)統計手法に関する経験・知識(学者・研究者)ユーザの気持ちが分かる 統計解析を理解しているデータ処理に関するコーディング経験・知識(ITエンジニア)グラフ化 統計的仮説検定各種回帰分析クロス集計 ベイズ統計バスケット分析 ネットワーク分析クラスタ分析 決定木分析強化学習数量化分析 機械学習SQL mahoutHiveHadoopR
1. はn3.データサイエンスに必要な基礎知識と技術933.3 ツール・開発技術 データサインティストのスキル一覧(概要)現状では3つのスキルのうち、1つをある程度は持ちながら、いずれか2つのスキルについて高いレベルに達するレベルを目指す。スキルカテゴリー 内容大分類 小分類ハードスキル IT系スキル RDBMS,SQL,KVM,Hadoop/MapReduce,Java,Hive,pig,Linuxコマンドなどに関する知識と経験R,Python,Perl,Mahout,MATLAB,Juliaなどに関する知識と経験分析系スキル 各種統計解析、各種機械学習に関する知識、SAS,SPSS,JMPなどのツールに関する知識と経験ソフトスキル ビジネス系スキル 業界・業務に関する知識、質問力、理解力、伝達力、説得力、プロジェクト推進能力などのコミュニケーションに関する能力
4. まとめ付録. データサイエンティスト協会の活動参考文献・文書Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 94目次
4.まとめ95SEからデータサイエンティストになるためには 現状、データサイエンスに関わる教育が充実している大学、企業というのはごく少数である(日本ではほとんどない) 3つのスキル系統のうち、1つでも元々、知識・経験を持っている人材がデータサイエンティストになろうとする(あるいは企業として育成する)チャンスは十分にある ビジネス系スキルの高い営業やコンサルタントが、IT系スキルを持つエンジニアの業務概要は理解していても、実際にコードを書いたり、データ分析ツールを駆使することは難しい 一方、IT系スキルの高いエンジニアが、ビジネス系スキルの高い営業やコンサルタントと業務で深く接する機会は多い SEやプログラマ出身者が「核」となる「好奇心」の強さの有無で、データサイエンティストになれるかどうかが決まる
4. まとめ付録. データサイエンティスト協会の活動参考文献・文書Copyrights© 2016 SYSTEM INFORMATION CO.,LTD. All rights reserved 96目次
付録. データサイエンティスト協会の活動97協会概要名称 一般社団法人データサイエンティスト協会The Japan DataScientist Society設立日 2013年5月15日目的 社会のビッグデータ化に伴い重要視されているデータサイエンティスト(分析人材)の育成のため、その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。分析技術認定(レベル認定)などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまない支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。会員数 法人会員:56社、個人会員:4,515人出所: http://www.datascientist.or.jp/about/outline.html 次ページ以降に設立の背景、協会の全体像、協会の活動、組織と運営、スキル標準について紹介
付録. データサイエンティスト協会の活動98 データサイエンティストに「定義が存在しない」ことに対する強い問題意識が背景にある *1設立の背景*1 Harvard Business Review 2012年10月号記事より。ハーバード・ビジネス・スクールのトーマス・H・ダベンポート客員教授は、データサイエンティストの定義ないことを指摘し、まず定義から始めるべきと提言。
付録. データサイエンティスト協会の活動99協会の全体像 参加形態は一般向けの「一般会員」、企業・団体向けの「法人会員」、学会・公共団体等を対象とした「特別会員」*2*2 2017年1月現在:当社では、2名が「一般会員」として登録
付録. データサイエンティスト協会の活動100協会の活動 協会ではデータサイエンティストに必要とされるスキルと知識を以下のように定義している *3*3 2017年1月現在検定・認定制度化の仕組みは検討中の段階であり、協会として独立した資格制度は設けていない参考: http://www.datascientist.or.jp/dssjournal/dsqa/
付録. データサイエンティスト協会の活動101組織と運営 事務局と委員会を分けて設置し、以下の活動を行っている*4*4 事務局では、総務省向けに2016年度の組織運営について活動内容を公式文書として公開している参照: http://www.soumu.go.jp/main_content/000447090.pdf・人材像の定義・スキル一覧とレベルの設定、等・研究部会の受付、審査、設立、運営管理、等・検定問題や演習用の課題作成・データサイエンティストのレベル認定、等
付録. データサイエンティスト協会の活動102スキル標準(1/7) 大きく3つのスキルセットと4つのスキルレベルのマトリクスで定義している*5*5 次ページ以降に抜粋して、スキルレベルの目安・対応できる課題、スキルチェックリスト、マトリクスを紹介参照: https://www.datascientist.or.jp/common/docs/skillcheck.pdf
付録. データサイエンティスト協会の活動103スキル標準(2/7) スキルレベルの目安と対応できる課題*6*6 資料:データサイエンティスト協会プレスリリース(2014.12.10)http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
付録. データサイエンティスト協会の活動104スキル標準(3/7) チェックリストの該当度とスキル表(項目数)*7・3つの領域別に判定・各レベルの必須項目を一つでも満たさないとアウト・下のレベルは満たしていることが条件*7 データサイエンティスト協会公開:スキルチェック(フルバージョン)https://check.datascientist.or.jp/skillcheck-full/
付録. データサイエンティスト協会の活動105スキル標準(3/7)*8 一般社団法人データサイエンティスト協会 スキルチェックリストより引用 スキルチェックリスト(フルバージョン)チェック結果 例*8
106付録. データサイエンティスト協会の活動スキル標準(4/7)Business problem solving Data sience Data engineering①SeniorData Scientist業界を代表するレベル★★★★•業界を代表するデータプロフェッショナルとして、組織全体や市場全体レベルのインパクトを生みだすことができる-対象とする事業全体、産業領域における課題の切り分け、論点の明確化・構造化-新たなデータ分析、解析、利活用領域の開拓-組織・会社・産業を横断したデータコンソーシアムの構築・推進-事業や産業全体に対するデータ分析を核としたバリューチェーン創出など・データサイエンスにおける既存手法の限界を打ち破り、新たに課題解決可能な領域を切り拓いている-既存手法では対応困難な課題に対する新規の分析アプローチの開発・実践・横展開-高難度な分析プロジェクトのアプローチ設計、推進、完遂能力など・データサイエンス領域で行おうとしている分析アプローチを、挑戦的な課題であっても安定的に実現できる-複数のデータソースを統合した例外的規模のデータシステム、もしくはデータプロダクトの構築、全体最適化-技術的限界を熟知し、これまでにない代案の提示・実行など
107付録. データサイエンティスト協会の活動スキル標準(5/7)Business problem solving Data sience Data engineering②FullData Scientist棟梁レベル★★★・生みだす価値にコミットするプロフェッショナルとして、データサイエンティストとは何かを体現したビジネス判断、課題解決ができる・初見の事業領域に向かい合う場合や、スコープが複数の事業に跨る場合であっても本質的な課題や変数を見出し、構造化し、適切な分析・解析アプローチを設計、実行することができる・解決に必要な結果を総合した上で、説得力ある形で共有し、関連する組織、人を動かし、知見の横展開、組織を超えるつなぎ込みができる・プロフェッショナルからなる複数チームによるプロジェクトを推進し、全体としてのアウトプットにコミットできると共に、メンバーを育成、さらには持続的な育成システムを作り出すことができる・予測、グルーピング、機会学習、大量データの可視化、言語処理などの応用的なデータサイエンス関連のスキルを活かし、データ分析プロジェクトの技能的主軸を担う事ができる・複数もしくは高度な分析プロジェクトを持つチームにおいて、Assosiate Data Scientist(独り立ちレベル)以下のメンバーの技能を育成することができる・数十億レコード程度の分析環境の要件定義・設計・データ収集/蓄積加工共有プロセスやITセキュリティに関するデータエンジニアリング関連のスキルを活かし、データ分析プロジェクトを中核的に推進することができる・複数もしくは高度な分析プロジェクトを持つチームにおいて、Assosiate Data Scientist(独り立ちレベル)以下のメンバーの技能を育成することができる
108付録. データサイエンティスト協会の活動スキル標準(6/7)Business problem solving Data sience Data engineering③AssosiateData Scientist独り立ちレベル★★•大半のケースで自立したプロフェッショナルとしてビジネス判断、課題解決ができる•既知の領域、テーマであれば、新規課題であっても解くべき問題の見極めや構造化、その上での分析・解析アプローチの設計、実行、深堀りができる•データ、分析結果に対する表面的な意味合いを超えた洞察力を持ち、担当プロジェクトの検討結果を取りまとめ、現場への説明、実装を自律的に行う事ができる。•5名前後のプロフェッショナルによるチームのプロジェクトを推進しアウトプットにコミットできる-イシュードリブンでスピード感のある判断-プロジェクトマネジメントと個別メンバーの育成-異なるスキル分野の専門家、事業者との協働など・単一プロジェクトにおけるデータ分析をFull Data Scientist(棟梁レベル)に相談しつつ推進できる・Assistant Data Scientist(見習いレベル)の日々の活動に適切な指示ができる・基礎的な分析活動については、自律的に実施できる-調査目的に合った標本抽出計画の立案-多重(質問間)クロス表を駆使した洞察-パラメトリックな2群の検定の活用(t検定)-主成分分析や因子分析-適切な学習データとテストデータの作成-重回帰分析を用いた予測モデルの構築-適切な初期値設定を行った非階層クラスター分析-形態素解析などを用いた基本的文書構造解析など・単一プロジェクトにおけるデータ処理・環境構築をFullData Scientist(棟梁レベル)に相談しつつ推進できる・Assistant Data Scientist(見習いレベル)の日々の活動に適切な指示ができる・数千万レコード程度のデータ処理・環境構築については自律的に実施できる-データの重要性や分析要件に則したシステム要件定義-適切なデータフロー図、論理データモデル作成-Hadoopでの管理対象データ選定-SQLの構文理解と実行-分析プログラムのロジック理解と分析結果検証など・データ匿名化方法の理解と加工処理の設計ができる
109付録. データサイエンティスト協会の活動スキル標準(7/7)Business problem solving Data sience Data engineering④AssistantData Scientist見習いレベル★・ビジネスにおける論理とデータの重要性を理解したデータプロフェッショナルとして行動規範と判断が身についている-データを取り扱う倫理と法令の理解-引き受けたことは逃げずにやり切るコミットメントなど・データドリブンな分析的アプローチの基本が身についており、仮説や既知の問題が与えられた中で、必要なデータを入手し、分析、取りまとめることができる-データや事象のダブリとモレの判断力-分析前の目的、ゴール設定-目的に即したデータ入手と集計、分析-分析の意味合い出しと言語化、取りまとめなど・担当する検討領域についての基本的な課題の枠組みを理解、説明できる-ビジネスモデルと主要プレーヤー-基本的なビジネスフレームワークなど・統計数理の基礎知識を有している(代表値、分散、標準偏差、正規分布、条件付き確率、母集団、相関など)・データ分析の基礎知識を有している-検定(帰無仮説、対立仮説‥)-分類(教師あり分類、教師なし分類‥)-予測(回帰係数、標準誤差‥)など・適切な指示のもとに、以下を実施できる-基本統計量や分布の確認、および前処理(外れ値・異常値・欠損値の除去・変換や標準化など)-前処理後のデータに対し、抽出、集計、可視化(ヒストグラム、散布図など)・データやデータベースに関する基礎知識を有している-構造化/非構造化データの判別、論理モデル作成-ER図やテーブル定義書の理解-SDKやAPIの概要理解など・数十万件程度のデータ加工技術を有している-ソート、クレンジング、集計、フィルタリングができる-SQLで簡単なSELECT文を記述・実行できる-設計書に基き、プログラム実装できる・適切な指示のもとに、以下を実施できる-同種のデータを統合するシステムの設計-インポート、レコード挿入、エクスポート・セキュリティの基礎知識を有している(機密性、可用性、完全性の3要素など)
参考文献・文書110書名・文書名 著者・商標 出版社・出所(参考資料)CMMI成熟度レベル4, 5について 小林 浩 株式会社システム情報データサイエンティスト養成読本 技術評論社データサイエンティスト養成読本 R活用編 技術評論社データサイエンティスト入門※2016年度Analytics講座 DW800-A-07 テキスト©2013-2016株式会社 アイ・ラーニング株式会社アイ・ラーニング仕事に役立つExcel統計解析 第4版 日花 弘子 SBクリエイティブ株式会社データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表一般社団法人データサイエンティスト協会2014年12月10日データサイエンティストに必要とされるスキルをまとめたスキルチェックリストを初公開総合人材サービス会社での活用が決定一般社団法人データサイエンティスト協会2015年11月20日協会の概要説明とデータサイエンティストのスキルセットについて一般社団法人データサイエンティスト協会2016年10月21日ビッグデータの流通量推計及びビッグデータの活用実態に関する調査研究報告書情報通信総合研究所初等統計学 第4版 P.G.ホーエルほか 培風館マーケティング戦略 第4版 和田 充夫ほか 有斐閣アルママネーボール[完全版] マイケル・ルイス/中山宥訳 早川書房

Recommended

PDF
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
PDF
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
PDF
(道具としての)データサイエンティストのつかい方
PPTX
データサイエンス勉強会資料
PDF
データサイエンティスト スキルチェックリスト
PDF
データサイエンティストのつくり方
PDF
データサイエンティスト スキルチェックシート(抜粋版)
PDF
データ分析というお仕事のこれまでとこれから(HCMPL2014)
PDF
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
PPTX
データサイエンス研修提案資料 RIZAPビジネスイノベーション株式会社.pptx
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
PDF
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
PDF
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
PDF
あなたの業務に機械学習を活用する5つのポイント
PDF
おしゃスタ@リクルート
PPTX
データ分析勉強会
PDF
スキルチェックリスト 2017年版
PDF
機械学習によるデータ分析まわりのお話
PDF
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#1資料
PDF
最新業界事情から見るデータサイエンティストの「実像」
PDF
データサイエンスの全体像とデータサイエンティスト
PDF
データサイエンスの現場で役立つスキルを磨きやすい職場環境
PDF
データサイエンティストの就労意識
PDF
なぜ数学と理系人材がビジネスの現場で必要とされるのか
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
PPTX
Thinking datascientist itself
PDF
Data Science on Hadoop
PDF
先端技術 データサイエンティスト

More Related Content

PDF
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
PDF
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
PDF
(道具としての)データサイエンティストのつかい方
PPTX
データサイエンス勉強会資料
PDF
データサイエンティスト スキルチェックリスト
PDF
データサイエンティストのつくり方
PDF
データサイエンティスト スキルチェックシート(抜粋版)
PDF
データ分析というお仕事のこれまでとこれから(HCMPL2014)
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
(道具としての)データサイエンティストのつかい方
データサイエンス勉強会資料
データサイエンティスト スキルチェックリスト
データサイエンティストのつくり方
データサイエンティスト スキルチェックシート(抜粋版)
データ分析というお仕事のこれまでとこれから(HCMPL2014)

Similar to Career path from system engineer to data scientist

PDF
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
PPTX
データサイエンス研修提案資料 RIZAPビジネスイノベーション株式会社.pptx
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
PDF
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
PDF
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
PDF
あなたの業務に機械学習を活用する5つのポイント
PDF
おしゃスタ@リクルート
PPTX
データ分析勉強会
PDF
スキルチェックリスト 2017年版
PDF
機械学習によるデータ分析まわりのお話
PDF
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#1資料
PDF
最新業界事情から見るデータサイエンティストの「実像」
PDF
データサイエンスの全体像とデータサイエンティスト
PDF
データサイエンスの現場で役立つスキルを磨きやすい職場環境
PDF
データサイエンティストの就労意識
PDF
なぜ数学と理系人材がビジネスの現場で必要とされるのか
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
PPTX
Thinking datascientist itself
PDF
Data Science on Hadoop
PDF
先端技術 データサイエンティスト
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンス研修提案資料 RIZAPビジネスイノベーション株式会社.pptx
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
あなたの業務に機械学習を活用する5つのポイント
おしゃスタ@リクルート
データ分析勉強会
スキルチェックリスト 2017年版
機械学習によるデータ分析まわりのお話
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#1資料
最新業界事情から見るデータサイエンティストの「実像」
データサイエンスの全体像とデータサイエンティスト
データサイエンスの現場で役立つスキルを磨きやすい職場環境
データサイエンティストの就労意識
なぜ数学と理系人材がビジネスの現場で必要とされるのか
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Thinking datascientist itself
Data Science on Hadoop
先端技術 データサイエンティスト

Career path from system engineer to data scientist

Editor's Notes

  • #8 1人で全てのスキルセットをカバーするのは困難であるため、それぞれ違うスキルセットに強みをもつ専門家を束ねたチームとして活動するのが、現実的。SE/プログラマ出身者も多い。
  • #11 アメリカにおいては、2000年代から既に「ビッグデータ」とともに、「データサイエンティスト」の必要性についてビジネスやアカデミックな場で議論されていた
  • #12 2020年には、構造化データ/非構造化データ合せて44ゼタバイトにまで膨れ上がるという予測がある。(1人あたり460テラバイトのデータを保有する試算)背景として、ビジネスが急激にインターネットへの依存を高めたことにある。モバイル技術の進歩と普及も1つの要因ではあるが、ビジネスに関連するデータの大量の蓄積がなければ、そもそも企業はビッグデータと向き合う必要はなかった。
  • #13 ビッグデータは蓄積されているだけでは価値を持たないどころか、保有すること自体がコストとなる。まずは、大量のデータの中から価値あるデータを見つけ出す必要がある。また、インターネット上の顧客行動のスピードに合せて、素早く施策を回転させるため、高速にデータを処理することが必要となる。それを可能とする技術が次ページに代表される技術となる。
  • #14 ビッグデータ―クラウド―コグニティブ関連技術は全てつながっている。インフラ―アプリに跨る領域の技術を幅広く抑える必要がある。データサイエンティストとして、どれか1つだけを極めても強みとなるが、全体としてどの技術がどうビジネスと関わるのかを知った上で、専門家(ビジネス・アナリシス・エンジニアリング)と連携するコミュニケーション能力の高さも要求される。
  • #16 ・2章にPPDACという分解化したプロセスを紹介するが、まずは仕事というレベルで具体例を挙げて説明・主観ではなく、客観的なデータで事実を数理的に証明し、それをビジネスとして解決可能な提案をするのがデータサイエンティストの仕事
  • #17 この後、実例で詳しく説明するので、ここでは「マネー・ボール」を題材とした全体像を話す・2000年代初頭のメジャーリーグは、財力のある球団とそうでない球団の格差が広がり、良い選手はことごとく金満球団へ引き抜かれる状況が続いていた。・貧乏球団のオーナーからは、「もはや野球はスポーツではなく、金銭ゲームになってしまった」 という嘆きの声が上がっていた。・そんな中、リーグ最低クラスの年俸総額でありながら、黄金時代を築いていたチームがあった。 ビリー・ビーンGMが率いるオークランド・アスレチックスである。・毎年のようにプレーオフ進出を続け、 2002年には年俸総額が1位のニューヨーク・ヤンキースの1/3程度だったにもかかわらず、 全球団で最高の勝率を記録したのだ。・アスレチックスはなぜ強いのか?  多くの野球ファンが感じていた疑問の答えは、「セイバーメトリクス」を用いたチーム編成だった。・ビリーはかつて将来を羨望された野球選手だが、大成しなかった。・後にその原因は、スカウトたちの主観に頼る選手評価に問題があるのではと考えた。・GMに就く以前、「セイバ―メトリクス」の祖といわれるビリー・ジェイムズの本を読み、その疑問は解決した。・データサイエンティスト(にあたる人物)はビリーの右腕として活躍していたポール・デポデスタというハーバード大学で経済学を修め、 ウォール街で活躍してもおかしくない人物だが、野球市場のほうが面白そうだという変わり者。
  • #18 まずは、自分の興味がある分野のデータを分析することから始めてみよう
  • #19 ・「ピタゴラスの定理」に似ていることから「ピタゴラスの勝率」と呼ばれている・シンプルに考えると野球では「攻撃では相手よりも多く得点をとり、守備(投球)では失点を与える前に3つのアウトをとる確率を高める」ことで勝てるという仮説を証明するため、レベルを問わず数多くの試合結果のデータからこの式は算出された。・単純な式であるが、実際の勝敗データとあてはめると多くの場合、相関が高いことが証明されている。・このチームにおいて、得点が勝利に結びついていない要因は主観的に見て「投手力に問題があることが予想がついている」のだが、ここではデータサイエンスに立脚して客観的に検証する立場で論じている。
  • #20 ここではマネー・ボールの理論にそって検証を行うため、ひとまず「得点が勝利に結びつく(=相関が高い)」ものとして次ページ以降の分析を行う。このチームの場合、ある主戦投手の勝敗(20勝13敗:勝率.606)を除いた勝率は.727(8勝3敗)となり、「得点」を変数としたした場合のピタゴラス勝率(.714)に近似する結果となった。サンプル数が少ないため、必ずしも統計的に優位な数値とはいえないが、実際にこのチームでは主戦投手が代わってから更に勝率があがり、都内某区の1部リーグでの優勝を果たした。
  • #21 「失点を防ぐ」という観点での分析も必要だが、ここでは「より多くの得点を稼ぐ」という観点で分析を行う。
  • #22 ・普通、新聞などでは、打者は「打率の高い順」に並べて表示するが、「打率」は勝利に貢献する選手を見出す上で有用な項目とは言い難い。(同様に、「本塁打」、「打点」、「盗塁」も単独で有用な項目とは言い難い)・「セイバーメトリクス」を考案したビル・ジェイムズは、「長打率」、「出塁率」は「安全により多くの累を獲得した」→「得点」に貢献するという仮説を多くの試合データにより裏付けをしている。・マネー・ボールに登場するビリー・ビーンGMは、厳格にその原則をつらぬいた球団経営をしていた。
  • #23 ・ビリービーンGMは、犠打、盗塁はみすみす相手にアウトを与えてしまう可能性がある=得点の機会を奪うリスク高いものとして考えている・そのため、監督や選手がそれに従わない行動を起こした場合、厳しい処分をくだした。
  • #24 マネー・ボールでは、OPSによる評価が基準となっている。次ページ以降、「ポスト・マネー・ボール」の2000年代以降に考案された指標を使っている。
  • #25 ・得点期待値(正確には、Liner Weight)のパラメータは直近のある程度のデータ量から算出した回帰式をもとに調節する・実際には盗塁死などマイナスに働く変数(項目)も対象になるが、ここでは欠損値でもあることから、敢えて扱っていない。
  • #28 ・式の求め方は割愛・長打率は、二塁打、三塁打、本塁打を過剰に評価していることと、他の出塁要素を評価項目としていないということを説明
  • #29 ・全体としては「長打率」に近い数値が出るが、個々の選手で見た場合に評価に違いがでる
  • #30 このチームへの監督への提案の1例『現状、出場機会が少ない「堀内」、「喜多村」をもっと登用すべき』
  • #31 提案の一例『「大貝」、「関川」にかわり、前ページの「堀内」、「喜多村」をもっと登用すべきではないか?』・BIやRDBMSにおけるクエリ―に相当・余談だが、後に上記3名のうち2名は実際にレギュラーから外れる
  • #32 1章おわり
  • #34 PPAPじゃないよ
  • #37 社長が入社時にガイダンスしているのと本質的には同じ
  • #38 仮説の段階では、クリティカル・シンキングやMECE(モレなく・ダブりなく)を求めない→デザイン・シンキング「シカゴのピアノ調律師の数を推定する」の解答例(これが正解というわけではない)①シカゴの世帯数=3,000,000(万人)÷3(1世帯あたりの平均人数)=1,000,000(世帯)②シカゴのピアノ保有台数=(①より)1,000,000(世帯)÷10(ピアノ1台保有あたりの世帯数)=100,000(台)③シカゴのピアノ全てを調律するのにかかる日数=(②より)100,000(台)÷3(1日あたりの調律代数)≒33,333(台日)④1年間でシカゴのピアノ全てを調律するのに必要な調律師の数=(③より)33,333(台日)÷250(人日)≒134(人) ※小数点切り上げ
  • #39 ・SICPにおけるプロジェクト計画書(プロジェクト憲章)で記載を求められている内容にも近い
  • #40 SE出身者の場合、ここから先は意識的に身につけるか(コンサル的なスキル・マインドセットの習得)、組織的には、内外業務区分の観点から専門家に任せる必要があるものと考える(分業化、アウトソーシング)。認知心理学(因):知覚・記憶・思考など、人間が物事を知る認識過程を研究対象とする心理学の一分野。行動経済学(果):プロスペクト理論に代表される。人間の行動を普遍的な式で表すことで、予測・期待を現実のものとして記述する学問。価値関数:参照点依存性、感応度逓減(ていげん)性、リスク感度、損失回避など。確率加重変数:0.36を基準として、低い確率は体感的に実際より高く感じ、高い確率は実際より低く感じる。
  • #41 a.~d.を基礎とした上で、俯瞰的にビジネスモデルを捉えるためにマーケティング理論による定性的分析が必要となる。まずは知識として知っておく、次にフレームワークとして使いこなす。推薦図書:マーケティング戦略 第4版
  • #44 「観察法」:交通量調査、動線調査、他店調査など。 例)新たにファミレスの出店させる場合、候補となっている地点の曜日別・時間帯別の交通量を調査する。「実験法」:独立変数、従属変数間の因果関係を調査する。 例)スプリットラン・テスト(一部を除いて全く同じ広告を打ち、相違部分によって認知率の違いを調査する)、べリード・オファー(広告コピーの中から資料請求などの項目を入れておき、照会してきた人数を調べる)
  • #45 表計算ソフト、BIツールでは多くの前処理が必要となる。テキストマイニングツール(WEXなど)においても、類似・同義語などの辞書定義で分析の負荷を軽減することができるが、前処理に相当する作業(ファセットペアの抽出など)が必要となる。データエンジニアの仕事の80%は前処理を効率に行う方式の設計やツールの作成にとられるのが現状。
  • #47 経験値(製造業における熟練工の知見など)と同じ結果を導けることにより、客観的な指標として次の分析につながる。一方、次ページに示すような新たな課題については、リアルタイムな分析結果を日々チェックできるようなより視覚に訴える見せ方も必要となる。
  • #48 近年、データ可視化技術(Data visualization)はデータサイエンスにおける最もスキルエリア横断的(探索的、Stastics、Dynamic)な技術として、重要視されている。
  • #50 なんとなくデータサイエンスが学べる気がする画像と解説でお送りします。
  • #52 『統計学が最強の学問である』ビジネス書大賞2014「大賞」受賞記念記事http://diamond.jp/articles/-/52085物理学、数学は100%同じ状態が再現できることが前提となるが、統計学では95%でよいという考え方。
  • #53 ベンジャミン元首相の言葉を逆手に取ったTEDスピーチ「TEDTalksにまつわる真っ赤な嘘と統計の話」https://www.ted.com/talks/lies_damned_lies_and_statistics_about_tedtalks?language=ja#t-340078
  • #54 解析の仕方が異なる例)品質分析:離散型データに対しては「散布図」、連続データに対しては「管理図」など扱う道具が変わる。標準化の例)開発規模の異なるプロジェクトの品質を比べるため、バグ密度を標準化する
  • #55 おなじ「50%」でも対象が違うと調査、分析の仕方が変わる
  • #56 「統計学で嘘をつく方法」恣意的に偏りのある抽出を行うことで、「虚偽の結論」をあたかも「正しい結論」のように導き出すことも可能である。また、仮説の正しさを主張するために、十分な検定をせずに標本が正しいものとして扱ってしまう場合もある。
  • #57 「伝統的な統計学」と「現代的な統計学」:ここで紹介しているのは「伝統的な統計学」記述統計学については次ページから他、いくつかの用語については「Excel」や「R」のサンプルとともに紹介する。
  • #58 ヒストグラム、度数分布表、
  • #60 偏差値は平均を50、標準偏差10の正規分布を取ったもの。
  • #63 Rについてはツールの項で別途説明帰無仮説、p値について説明(t値については煩雑になるのでここではしない)
  • #64 t.test:t検定の実行(大きな母集団で正規分布していると考えられる場合に2つの標本の平均値を算出する)t値(t=2.8162)、自由度(df=16.887)帰無仮説:平均値における真の差は0である対立仮説:平均値における真の差は0でない95%信頼区間は588.4427から3761.5573標本における神奈川の単純平均:40080、埼玉の単純平均:37930
  • #65 クロス表で図示。
  • #66 クロス表で図示したデータをRのχ二乗検定(chisq.test)で実行した結果標本が二項分布(コインの表/裏)などのように確率で考えられる場合Xの値:7.0406自由度:1⇒カイ二乗検定は小さい値が含まれていると計算結果が不正確になるため、現代の場合、フィッシャーの確率検定を使うことが多い
  • #67 F値は複数の標本の検定を行う。F分布表で確認することになるが、群内、群間の自由度による違いが大きくなる。分析ツールにより、p値を確認する。
  • #68 RのF検定(var.test)で実行した結果結果の F,num df,denom df はそれぞれF統計量,分子の自由度,分母の自由度を示す。95%信頼区間はデータBに対するデータAの比の信頼区間であり,左の値が最小値,右の値が最大値を示す。この場合,その区間に1が入るため,データの分散の比が1に等しくないという対立仮説は採用されることはない。また,ratio of variances はデータAとBの単なる分散の比を示す。
  • #72 分析については、次の「データマイニング」で解説
  • #73 データマイニング、テキストマイニングといった近代的な統計解析ツールでは、次々と新しいアルゴリズムか開発・実装されている。
  • #77 複数の手法で分析する例として、次ページで階層的手法(主成分分析)⇒非階層的手法(k-means分析)
  • #78 教師なし学習の1つデータの分散が大きいところをまとめる
  • #79 教師なし学習の1つデータの分散が大きいところをまとめる
  • #85 ルールの評価指標⇒POSデータ⇒タイタニック(ロジスティック回帰、決定木)⇒パラメトリックな統計も大事「重要なことは正しい答えを見つけることではない。正しい問をみつけることである」
  • #86 「リフト値が高い」=「信頼度が高い」 、「結論(Y)がおきる確率が低い」※よくある「オムツ(条件)を買った人はビール(結論)を一緒に買う傾向」にあるというデータマイニングに関する話は嘘(⇒都市伝説) 実際には、全商品としてはオムツに比べてビールを買う人のほうがはるかに多いことから、全商品の中から結論であるビールが買われる確率が高くなる(⇒リフト値は高くならない) また、全商品の中からオムツを買う(条件)人の数の割合が低い場合、信頼度への影響が大きくなるため、結果としてリフト値が安定しなくなる。
  • #89 ルールの評価指標⇒POSデータ⇒タイタニック(ロジスティック回帰、決定木)⇒パラメトリックな統計も大事「重要なことは正しい答えを見つけることではない。正しい問をみつけることである」
  • #93 ・3つのキャリアタイプとツール・データサイエンティストのスキル一覧
  • #94 ・3つのキャリアタイプとツール・データサイエンティストのスキル一覧
  • #104 日本では、フル・データサイエンティスト(棟梁レベル)の層が薄いことが問題とされている
  • #106 Associete Data Scientist(独り立ちレベル)★★までは、ギリギリ達している?

[8]ページ先頭

©2009-2025 Movatter.jp