Movatterモバイル変換


[0]ホーム

URL:


Shohei Hido, profile picture
Uploaded byShohei Hido
8,347 views

(道具としての)データサイエンティストのつかい方

2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→ http://www.ustream.tv/recorded/30518257

Related topics:

Embed presentation

Downloaded 227 times
PFIセミナー  2013/03/28   (道具としての)データサイエンティストの     つかい⽅方 株式会社Preferred Infrastructureリサーチャー&Jubatusチームリーダー         ⽐比⼾戸  将平
⾃自⼰己紹介l    ⽐比⼾戸将平(HIDO Shohei)l    TwitterID: @slal    専⾨門:データマイニング、機械学習l    経歴:      l    2006-2012: IBM東京基礎研究所データ解析グループ             l  機械学習(特に異異常検知)のアルゴリズム研究開発             l  お客様案件でデータ解析プロジェクトに従事      l    2012-: 株式会社プリファードインフラストラクチャー             l  ⼤大規模オンライン分散機械学習基盤Jubatusチームリーダーl    趣味      l  京都(京都検定三級)      l  寺社仏閣巡り(⻄西国・洛洛陽三⼗十三観⾳音霊場満願)      l    茶茶道(裏裏千家)                            2      l    野外⾳音楽フェス(フジロック⾏行行きたい!!!)
Jubatus on Fire!l    NHK Worldで開発ドキュメンタリー番組が全世界配信l    Hadoop Summit 2013でのプレゼンテーション決定l    4/15 19:00- 第2回Jubatusハンズオン(詳細はpartake)
Agendal    データサイエンティストブームl    「つくり⽅方」の次は「つかい⽅方」l    お互いに不不幸に陥るパターンl    つかう側が守るべきたった3つのことl    お互いに幸せになるために
去年年9⽉月の第⼀一部「つくり⽅方」:16,000views超え
(参考)データサイエンティストのつくり⽅方     5            理理想のデータサイエンティスト                                                      ,     4                                         ,   20%             R/Matlab/                      15%     3     2         Weka     1     0                                       ,                     ,                                    25%                   20%             Hadoop/              NoSQL             BI                 R   DWH/BI/                           , 5%                                                           , 15%タイプ別スキル                                    トレーニング分類
Google Trendsによる検索索⼈人気度度:前回時の⼈人気度度に⽐比べると今は5倍l    検索索キーワード“データサイエンティスト”l    “ビッグデータ”                     7
Google Trendsによる検索索⼈人気度度:前回時の⼈人気度度に⽐比べると今は5倍l    検索索キーワード“データサイエンティスト”l    “ビッグデータ” + “Obama”                           8
ビッグデータ、データサイエンティスト、統計学l  “Data Scientist: The Sexiest Job of the 21st Century”     l  Thomas H. Davenport & D.J. Patil, Harvard Business Reviewl  “Sexy Little Numbers”:Amazonマーケティング部⾨門第⼀一位     l  邦題:データ・サイエンティストに学ぶ「分析⼒力力」l  “統計学が最強の学問である”:12万部l  週刊ダイヤモンド 2013/3/30号  :特集“最強の武器「統計学」”l  ⽇日経新聞2013/3/26朝刊:”⼤大量量データ  経営に⽣生かす”      l    “「データサイエンティスト」に脚光  航空機制御・広告効果など分析”
データサイエンティスト協会(仮)l    https://www.facebook.com/DataScientist.jp
究極のデータサイエンティスト        vs. ⾄至⾼高のデータサイエンティストl    http://d.hatena.ne.jp/EulerDijkstra/20130315/1363318205l    お題:⼩小売スーパーのデータ活⽤用l    究極側:⽂文系学部(計量量経済学)出⾝身データサイエンティスト      l    特技:コミュ⼒力力、スモールデータ分析、SPSSとR      l    ⼭山岡「データサイエンティストにとって最も重要なスキル、               そう、それはコミュ⼒力力です。」l    ⾄至⾼高側:理理系博⼠士(情報⼯工学)出⾝身データサイエンティスト      l    特技:プログラミング、⾃自然⾔言語処理理、機械学習      l    雄⼭山「そう、⾄至⾼高のデータサイエンティストは⼀一流流国⽴立立⼤大学の⼯工学部情報               系博⼠士卒の⾮非リア充だ。⾃自然⾔言語よりプログラミング⾔言語が得意…」
Agendal    データサイエンティストブームl    「つくり⽅方」の次は「つかい⽅方」l    不不幸に陥るパターンl    何が⼤大切切なのかl    使う側が守るべきたった1つのこと
バズワード化の功罪とその先:地に⾜足をつける            13                   出典:Gartner, 2012
バズワード化の功罪とその先:地に⾜足をつけるデータサイエンティスト              14                   出典:Gartner, 2012
今回話さないこと:「定義」と「つくり⽅方」IT系メディアに無数の記事があるのでそちらをl    データサイエンティストって知ってますかl    データサイエンティストとはいったい何なのでしょうかl    データサイエンティストの最新最強の定義を考えてみましたl    データサイエンティストになるための3つの⽅方法l    データサイエンティストに求められる3つのスキルl    データサイエンティストらしき3⼈人の活躍ぶりを取材しましたl    データサイエンティストに期待される役割と将来の展望l    データサイエンティストはアメリカでも⼤大⼈人気で給料料がいいですl    データサイエンティストは⽇日本でも不不⾜足しててやばいですl    データサイエンティストを育成するにはどうすればいいでしょうかl  データサイエンティストはサイエンティストじゃないl  データサイエンティストというバズワードに踊らされる君たちへl  データサイエンティストが⽇日本で活躍できない3つの理理由
道具としての○○○:⽇日本実業出版社のシリーズl    教科書でも専⾨門書でも⼀一般向けでもない実⽤用書l    “「理理論論先⾏行行」を排し…            実務に役⽴立立つ知識識・⽅方法をわかりやすく解説。”l    他のテーマ:線形代数/微分⽅方程式/⾦金金融⼯工学                     16
今回話すこと:道具としての「つかい⽅方」l    データサイエンティストとどう付き合ったらいいか?      =データサイエンティストと共に仕事をする⼈人の物語       前回資料料より                     …
なぜ今「つかい⽅方」を考えるべきなのか?=つかう側も変化しなければ絶対うまくいかないからl  過度度の注⽬目と期待によるバブルは必ず弾ける(幻滅期)    l  「データサイエンティストは役⽴立立たず!騙された!みな嘘だった!」l  悪いのは本当に彼らだったのか?失敗を防ぐ道はなかったのか?    l  他⼈人に責任転嫁して元の世界に戻ってしまわないために                                出典:Gartner, 2012
データサイエンティスト(+予備軍)      vs. データサイエンティストをつかう側 l    つかう側からの期待は膨らむばかりだが⼈人は⾜足りない l    つかう側が変わらないとスケールしないデータサイエンティスト    データサイエンティスト予備軍    つかう側   約1,000⼈人        約10,000⼈人    約100,000⼈人                   19
Agendal    データサイエンティストブームl    「つくり⽅方」の次は「つかい⽅方」l    お互いに不不幸に陥るパターンl    つかう側が守るべきたった3つのことl    お互いに幸せになるために
よくある⾵風景「よし、データ解析PJスタートだ!」l  解決したいビジネス課題 → 決まった    l  コンピュータ使えばもっと⾼高度度化できるか、精度度が上げられるか    l  例例:⼈人⼿手の監視、経験のマーケティング、勘のリソース最適化l  使えそうなデータ → 少ないが社内で⼊入⼿手するめどが付いたl  データサイエンティストらしき⼈人 → 社内/社外で⾒見見つけた                …というわけでそんな感じで                 とりあえずこれで試してよ                      わかりました      データサイエンティスト                   つかう側                     どれくらいいけそうか                    2ヶ⽉月後に報告よろしくね
2ヶ⽉月後の気まずい報告会「どうしてこうなった…」l    問題設定と⼿手法を⾒見見ると → よくわからないがいろいろ試したようだl    評価指標を⾒見見ると → その値がどれくらいの「良良さ」か判らないl    評価値を⾒見見ると → 現状⼈人間がやってる精度度には達していないl    考察を⾒見見ると → 既に知ってることか直感に反することしかないl    実際に使うことを考えると → 解析結果を直接活かすのは難しい                うーん、正直⾔言って微妙だよ                 期待してたほどじゃないね                      これでも精⼀一杯                      頑張ったんですが      データサイエンティスト                   つかう側                     けどこれじゃあ使えないし                    次に進むかも判断できないね
不不幸パターン: あとで分かったデータの量量・種類・質の不不⾜足 l  量量的な不不⾜足      l  絶対的にサンプル数が少ない      l  データ項⽬目が変化して⽐比較不不能なサブセットが⼤大量量にある l  種類の不不⾜足      l  あるカテゴリのサンプルが全く無い l  質的な不不⾜足      l  測定ミスやノイズ、ランダムでない⽋欠損値や⽋欠損区間がある                  逆にいえばどれくらい                 データがあれば充分なの?                多いほど精度度上がるはず               ですが実際にはやってみないと                 集めるにもコストかかるからデータサイエンティスト       それがわからないとね…       つかう側
不不幸パターン: ⽐比較対象に関する認識識のズレ l  全く新しい課題にチャレンジする場合     l  今達成している精度度が本当に良良いのかどうかわからない     l  実際に活⽤用した時のROIがわからない l  すでに⼈人間によって取り組んでいる課題にチャレンジする場合     l  お試しプロジェクトでは往々にして専⾨門家の判断には勝てない     l  コストと精度度のトレードオフなのだが両⽅方を期待してしまう               もっと精度度出るの期待してた              専⾨門家に勝つのは難しいです…データサイエンティスト      (それが仕事だろ…)     つかう側
その他の不不幸パターンl  問題設定の認識識のズレ    l  同じ課題・データでも異異なる定式化で解くことができてしまう    l  例例:セキュリティ⽬目的で既知/未知の攻撃どちらを検知したいのかl  評価基準の選択や優先度度のズレ    l  モデルをの優劣劣⽐比較ではまず評価基準を選ばなければいけない    l  例例:売上に直結するのはPrecisionだが気になるのはRecalll  変数のコントロール可能性に関するズレ    l  予測に有効でもコントロール不不能な変数は業務改善に繋がらない    l  例例:売れ⾏行行きに最も関係するのは販売地域であることがわかったl  最終的な利利⽤用⽅方法に関する想定のズレ    l  データ解析結果を活⽤用して現場でPDCAを回す⽬目処がついていない    l  例例:マーケティングのパーソナライズを実現する仕組みはまだ無い
Agendal    データサイエンティストブームl    「つくり⽅方」の次は「つかい⽅方」l    お互いに不不幸に陥るパターンl    つかう側が守るべきたった3つのことl    お互いに幸せになるために
誰がデータ解析プロジェクトをダメにしたのか? l  これまでに⾒見見た様々な認識識のズレ l  Q: データサイエンティストに求められる最も⼤大切切な能⼒力力は?      l  「それはコミュニケーション能⼒力力ですね(キリッ」 l  え、”ズレ”なのに? l  ズレとは相対的なものなのでは?                キミはコミュニケーション                能⼒力力が低いね!(ドヤァ)                 ……………………データサイエンティスト                      つかう側
なんでも”コミュニケーション能⼒力力”でまとめるな! l    ないものねだりをしてる⽅方にもある程度度の責任がある       l  「うちのビジネスをよく理理解してくれて〜~」       l  「コミュニケーション能⼒力力⾼高くて〜~」       l  「統計も機械学習の最新技術も全部わかってて〜~」       l  「業務でPDCAサイクルてつだってくれて〜~」              あー完璧なデータサイエンティスト                 どっかにいないかな〜~                    ……………………                                  つかう側データサイエンティスト
完璧なデータサイエンティスト:存在しない
完璧なデータサイエンティスト:存在しない    Business                        Project  Understanding                   Management                  Communication                      Skill
つかう側が守るべきたった3つのことl    (1) 最低限の統計リテラシーを⾝身につけるl    (2) プロジェクトに主体的に参加するl    (3) 最初に「データ解析仕様書」を協⼒力力して作る
Agendal    データサイエンティストブームl    「つくり⽅方」の次は「つかい⽅方」l    お互いに不不幸に陥るパターンl    つかう側が守るべきたった3つのことl    お互いに幸せになるために
(1) つかう側にも求められる   最低限の統計リテラシーを⾝身につけるl  確率率率論論の基礎    l  正規分布とそれ以外l  統計の基礎    l  平均 or 中央値    l  分散 or 標準偏差    l  検定の概念念とP値の意味l  評価指標の基礎    l  精度度:正解率率率 or Precision or Recall    l  その他の指標:F値、ROC曲線、AUC値l  データマイニング/機械学習タスクの基礎      l    カテゴリ予測:分類 or クラスタリング      l    異異常検知:教師付き分類 or 教師無し異異常検知
(2) プロジェクトに主体的に参加し    コミュニケーションを取る l    解析プロジェクトを他⼈人ごとにしない l    お客様になって⼝口をだすだけでは不不⼗十分 l    中間報告と最終報告で評価するだけでは助けにはならない l    可能であれば定例例MTGに出席する l    いつでもインタラクティブに連絡が取れる環境を作る l    成果に対するインセンティブを共有する                 想定外のことはありますか?                 ⼿手伝えることはありますか?                カテゴリ情報の信頼度度が…               あと評価軸はこれでいいですか                  データはすぐ調べます。データサイエンティスト       評価軸は私の想定では…     つかう側
(3) 最初に「データ解析仕様書」を協⼒力力して作るl    オリジナルのビジネス課題  l    テーマとしての最終的なゴール  l    今回のプロジェクトの対象とサブゴールl    解析対象としての問題設定  l    採⽤用するアプローチのバリエーション  l    評価に使うデータの量量、項⽬目、質の想定条件l    (⼿手法→データサイエンティストに任せる)  l    定量量的な評価基準  l    今回のプロジェクトの最終的な合格/不不合格基準l    その結果をどのように活⽤用するイメージ化l    導⼊入した場合のBefore/Afterの明確化l    それが誰にとって何がどれくらい嬉しいのかの定量量化
(参考) 関連するプロセス管理理や標準など:データサイエンティストがつかう側に近づく話l  CRISP-DM: Cross Industry Standard Process for Data Mining     l  ⾃自社ビジネスにおいてデータマイニングをするプロセスl  PMBOK: Project Management Body Of Knowledge     l  SIプロジェクト管理理のノウハウ(プロジェクト成果物記述書など)l  BABOK: Business Analysis Body Of Knowledge     l  ビジネス・アナリシス ≠ データ解析プロジェクト                        CRISP-DM                  出典:wikipedia.org
まとめ:つかう側も⾼高みの⾒見見物は絶対に許されない            あれが!こうだから!          このデータで!こうやって!           仕様書の通り!お願い!                はい!!!!!!                うおおおおおおお                おおおおお!!!データサイエンティスト                   つかう側              うおおおおおおおおおおおお              おおおおおおおおおお!!!              できてる!すごい!やった!
予告編資料料   PFIセミナー  2013/12/xx    さらば!データサイエンティスト 株式会社Preferred Infrastructureリサーチャー&Jubatusチームリーダー         ⽐比⼾戸  将平
プログラム⾔言語出現以前のプログラミング[ENIAC, 1946]                       出典:wikipedia.org
○○○出現以前のビッグデータ解析プロセス[データサイエンティスト w/ Hadoop+R+Weka, 2013]
統計リテラシーの向上と分析ツールの進歩によりデータサイエンティスト不不要のケースが増⼤大
(PFI宣伝) Bazil: ⾮非構造データ処理理を得意とするクラウドベースの機械学習分析サービス      テキスト   ログ/履履歴   数値データ分析                            Webブラウザ   クラウド担当者         予測要因    予測評価
乞うご期待!

Recommended

PDF
大規模グラフ解析のための乱択スケッチ技法
PPTX
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
PDF
階層ベイズとWAIC
PDF
Word2vecの理論背景
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
大規模グラフアルゴリズムの最先端
PDF
自然言語処理向け データアノテーションとそのユースケース
PDF
ウェーブレット木の世界
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
 
PDF
アンサンブル木モデル解釈のためのモデル簡略化法
PDF
データサイエンティストのつくり方
PPTX
Counterfaual Machine Learning(CFML)のサーベイ
PDF
経験ベイズ木(IBIS 2017)
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
モデルではなく、データセットを蒸留する
PDF
レベル2準同型暗号の平文バイナリ制約を与えるコンパクトな非対話ゼロ知識証明
PDF
Stan勉強会資料(前編)
PDF
はじめてのパターン認識 第1章
PPTX
Chokudai search
PPTX
密度比推定による時系列データの異常検知
PDF
CF-FinML 金融時系列予測のための機械学習
PDF
幾何を使った統計のはなし
PDF
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
PDF
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
PDF
SAT/SMTソルバの仕組み
PPTX
さらば!データサイエンティスト
PDF
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA

More Related Content

PDF
大規模グラフ解析のための乱択スケッチ技法
PPTX
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
PDF
階層ベイズとWAIC
PDF
Word2vecの理論背景
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
大規模グラフアルゴリズムの最先端
PDF
自然言語処理向け データアノテーションとそのユースケース
PDF
ウェーブレット木の世界
大規模グラフ解析のための乱択スケッチ技法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
階層ベイズとWAIC
Word2vecの理論背景
[DL輪読会]MetaFormer is Actually What You Need for Vision
大規模グラフアルゴリズムの最先端
自然言語処理向け データアノテーションとそのユースケース
ウェーブレット木の世界

What's hot

PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
 
PDF
アンサンブル木モデル解釈のためのモデル簡略化法
PDF
データサイエンティストのつくり方
PPTX
Counterfaual Machine Learning(CFML)のサーベイ
PDF
経験ベイズ木(IBIS 2017)
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
モデルではなく、データセットを蒸留する
PDF
レベル2準同型暗号の平文バイナリ制約を与えるコンパクトな非対話ゼロ知識証明
PDF
Stan勉強会資料(前編)
PDF
はじめてのパターン認識 第1章
PPTX
Chokudai search
PPTX
密度比推定による時系列データの異常検知
PDF
CF-FinML 金融時系列予測のための機械学習
PDF
幾何を使った統計のはなし
PDF
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
PDF
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
PDF
SAT/SMTソルバの仕組み
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
差分プライバシーとは何か? (定義 & 解釈編)
トピックモデルの評価指標 Perplexity とは何なのか?
 
アンサンブル木モデル解釈のためのモデル簡略化法
データサイエンティストのつくり方
Counterfaual Machine Learning(CFML)のサーベイ
経験ベイズ木(IBIS 2017)
【DL輪読会】時系列予測 Transfomers の精度向上手法
モデルではなく、データセットを蒸留する
レベル2準同型暗号の平文バイナリ制約を与えるコンパクトな非対話ゼロ知識証明
Stan勉強会資料(前編)
はじめてのパターン認識 第1章
Chokudai search
密度比推定による時系列データの異常検知
CF-FinML 金融時系列予測のための機械学習
幾何を使った統計のはなし
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
SAT/SMTソルバの仕組み

Viewers also liked

PPTX
さらば!データサイエンティスト
PDF
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
PDF
最新業界事情から見るデータサイエンティストの「実像」
PDF
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
PDF
FIT2012招待講演「異常検知技術のビジネス応用最前線」
PDF
機械学習CROSS 前半資料
PDF
ビッグデータはどこまで効率化できるか?
PDF
Chainer GTC 2016
PDF
Jubatus Casual Talks #2 異常検知入門
PPTX
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
PDF
How AI revolutionizes robotics and automotive industries
PDF
機械学習CROSS 後半資料
PDF
Jubatusが目指すインテリジェンス基盤
PDF
ICML2013読み会 開会宣言
PDF
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
PDF
あなたの業務に機械学習を活用する5つのポイント
PDF
NIPS2015概要資料
PDF
素人がDeep Learningと他の機械学習の性能を比較してみた
PDF
ビジネスの現場のデータ分析における理想と現実
PDF
今年のKDDベストペーパーを実装・公開しました
さらば!データサイエンティスト
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
最新業界事情から見るデータサイエンティストの「実像」
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
FIT2012招待講演「異常検知技術のビジネス応用最前線」
機械学習CROSS 前半資料
ビッグデータはどこまで効率化できるか?
Chainer GTC 2016
Jubatus Casual Talks #2 異常検知入門
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
How AI revolutionizes robotics and automotive industries
機械学習CROSS 後半資料
Jubatusが目指すインテリジェンス基盤
ICML2013読み会 開会宣言
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
あなたの業務に機械学習を活用する5つのポイント
NIPS2015概要資料
素人がDeep Learningと他の機械学習の性能を比較してみた
ビジネスの現場のデータ分析における理想と現実
今年のKDDベストペーパーを実装・公開しました

Similar to (道具としての)データサイエンティストのつかい方

PDF
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
PDF
データサイエンティスト スキルチェックリスト
PDF
データサイエンティスト スキルチェックシート(抜粋版)
PDF
おしゃスタ@リクルート
PDF
データ分析というお仕事のこれまでとこれから(HCMPL2014)
PDF
tut_pfi_2012
PDF
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
PPTX
データ分析勉強会
PPTX
Career path from system engineer to data scientist
PDF
スキルチェックリスト 2017年版
PDF
データサイエンティストの就労意識
PDF
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
PPTX
Nttr study 20130206_share
PDF
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
PDF
分析せよ!と言われて困っているあなたへの処方箋
PDF
機械学習によるデータ分析まわりのお話
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
PDF
おしゃスタat銀座
PDF
Casual datascience vol3
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックシート(抜粋版)
おしゃスタ@リクルート
データ分析というお仕事のこれまでとこれから(HCMPL2014)
tut_pfi_2012
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データ分析勉強会
Career path from system engineer to data scientist
スキルチェックリスト 2017年版
データサイエンティストの就労意識
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Nttr study 20130206_share
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
分析せよ!と言われて困っているあなたへの処方箋
機械学習によるデータ分析まわりのお話
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
おしゃスタat銀座
Casual datascience vol3
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1

More from Shohei Hido

PDF
CuPy: A NumPy-compatible Library for GPU
PDF
Deep Learning Lab 異常検知入門
PDF
NIPS2017概要
PDF
ディープラーニングの産業応用とそれを支える技術
PDF
プロダクトマネージャのお仕事
PPTX
PFIセミナー "「失敗の本質」を読む"発表資料
PDF
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
PDF
111015 tokyo scipy2_ディスカッション
PDF
111015 tokyo scipy2_additionaldemo_pandas
PDF
111015 tokyo scipy2_discussionquestionaire_i_python
PDF
110828 tokyo scipy1_hido_dist
PDF
110901 tokyo scipy1_アンケート結果
CuPy: A NumPy-compatible Library for GPU
Deep Learning Lab 異常検知入門
NIPS2017概要
ディープラーニングの産業応用とそれを支える技術
プロダクトマネージャのお仕事
PFIセミナー "「失敗の本質」を読む"発表資料
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_additionaldemo_pandas
111015 tokyo scipy2_discussionquestionaire_i_python
110828 tokyo scipy1_hido_dist
110901 tokyo scipy1_アンケート結果

(道具としての)データサイエンティストのつかい方

  • 1.
    PFIセミナー  2013/03/28 (道具としての)データサイエンティストの つかい⽅方 株式会社Preferred Infrastructureリサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  • 2.
    ⾃自⼰己紹介l ⽐比⼾戸将平(HIDO Shohei)l  TwitterID: @slal  専⾨門:データマイニング、機械学習l  経歴: l  2006-2012: IBM東京基礎研究所データ解析グループ l  機械学習(特に異異常検知)のアルゴリズム研究開発 l  お客様案件でデータ解析プロジェクトに従事 l  2012-: 株式会社プリファードインフラストラクチャー l  ⼤大規模オンライン分散機械学習基盤Jubatusチームリーダーl  趣味 l  京都(京都検定三級) l  寺社仏閣巡り(⻄西国・洛洛陽三⼗十三観⾳音霊場満願) l  茶茶道(裏裏千家) 2 l  野外⾳音楽フェス(フジロック⾏行行きたい!!!)
  • 3.
    Jubatus on Fire!l  NHK Worldで開発ドキュメンタリー番組が全世界配信l  Hadoop Summit 2013でのプレゼンテーション決定l  4/15 19:00- 第2回Jubatusハンズオン(詳細はpartake)
  • 4.
    Agendal データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  • 5.
  • 6.
    (参考)データサイエンティストのつくり⽅方 5 理理想のデータサイエンティスト , 4 , 20% R/Matlab/ 15% 3 2 Weka 1 0 , , 25% 20% Hadoop/ NoSQL BI R DWH/BI/ , 5% , 15%タイプ別スキル トレーニング分類
  • 7.
    Google Trendsによる検索索⼈人気度度:前回時の⼈人気度度に⽐比べると今は5倍l  検索索キーワード“データサイエンティスト”l  “ビッグデータ” 7
  • 8.
    Google Trendsによる検索索⼈人気度度:前回時の⼈人気度度に⽐比べると今は5倍l  検索索キーワード“データサイエンティスト”l  “ビッグデータ” + “Obama” 8
  • 9.
    ビッグデータ、データサイエンティスト、統計学l  “Data Scientist:The Sexiest Job of the 21st Century” l  Thomas H. Davenport & D.J. Patil, Harvard Business Reviewl  “Sexy Little Numbers”:Amazonマーケティング部⾨門第⼀一位 l  邦題:データ・サイエンティストに学ぶ「分析⼒力力」l  “統計学が最強の学問である”:12万部l  週刊ダイヤモンド 2013/3/30号  :特集“最強の武器「統計学」”l  ⽇日経新聞2013/3/26朝刊:”⼤大量量データ  経営に⽣生かす” l  “「データサイエンティスト」に脚光  航空機制御・広告効果など分析”
  • 10.
    データサイエンティスト協会(仮)l https://www.facebook.com/DataScientist.jp
  • 11.
    究極のデータサイエンティスト vs. ⾄至⾼高のデータサイエンティストl  http://d.hatena.ne.jp/EulerDijkstra/20130315/1363318205l  お題:⼩小売スーパーのデータ活⽤用l  究極側:⽂文系学部(計量量経済学)出⾝身データサイエンティスト l  特技:コミュ⼒力力、スモールデータ分析、SPSSとR l  ⼭山岡「データサイエンティストにとって最も重要なスキル、 そう、それはコミュ⼒力力です。」l  ⾄至⾼高側:理理系博⼠士(情報⼯工学)出⾝身データサイエンティスト l  特技:プログラミング、⾃自然⾔言語処理理、機械学習 l  雄⼭山「そう、⾄至⾼高のデータサイエンティストは⼀一流流国⽴立立⼤大学の⼯工学部情報 系博⼠士卒の⾮非リア充だ。⾃自然⾔言語よりプログラミング⾔言語が得意…」
  • 12.
    Agendal データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  不不幸に陥るパターンl  何が⼤大切切なのかl  使う側が守るべきたった1つのこと
  • 13.
  • 14.
  • 15.
    今回話さないこと:「定義」と「つくり⽅方」IT系メディアに無数の記事があるのでそちらをl データサイエンティストって知ってますかl  データサイエンティストとはいったい何なのでしょうかl  データサイエンティストの最新最強の定義を考えてみましたl  データサイエンティストになるための3つの⽅方法l  データサイエンティストに求められる3つのスキルl  データサイエンティストらしき3⼈人の活躍ぶりを取材しましたl  データサイエンティストに期待される役割と将来の展望l  データサイエンティストはアメリカでも⼤大⼈人気で給料料がいいですl  データサイエンティストは⽇日本でも不不⾜足しててやばいですl  データサイエンティストを育成するにはどうすればいいでしょうかl  データサイエンティストはサイエンティストじゃないl  データサイエンティストというバズワードに踊らされる君たちへl  データサイエンティストが⽇日本で活躍できない3つの理理由
  • 16.
    道具としての○○○:⽇日本実業出版社のシリーズl 教科書でも専⾨門書でも⼀一般向けでもない実⽤用書l  “「理理論論先⾏行行」を排し… 実務に役⽴立立つ知識識・⽅方法をわかりやすく解説。”l  他のテーマ:線形代数/微分⽅方程式/⾦金金融⼯工学 16
  • 17.
    今回話すこと:道具としての「つかい⽅方」l データサイエンティストとどう付き合ったらいいか? =データサイエンティストと共に仕事をする⼈人の物語 前回資料料より …
  • 18.
    なぜ今「つかい⽅方」を考えるべきなのか?=つかう側も変化しなければ絶対うまくいかないからl  過度度の注⽬目と期待によるバブルは必ず弾ける(幻滅期) l  「データサイエンティストは役⽴立立たず!騙された!みな嘘だった!」l  悪いのは本当に彼らだったのか?失敗を防ぐ道はなかったのか? l  他⼈人に責任転嫁して元の世界に戻ってしまわないために 出典:Gartner, 2012
  • 19.
    データサイエンティスト(+予備軍) vs. データサイエンティストをつかう側 l  つかう側からの期待は膨らむばかりだが⼈人は⾜足りない l  つかう側が変わらないとスケールしないデータサイエンティスト データサイエンティスト予備軍 つかう側 約1,000⼈人 約10,000⼈人 約100,000⼈人 19
  • 20.
    Agendal データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  • 21.
    よくある⾵風景「よし、データ解析PJスタートだ!」l  解決したいビジネス課題 →決まった l  コンピュータ使えばもっと⾼高度度化できるか、精度度が上げられるか l  例例:⼈人⼿手の監視、経験のマーケティング、勘のリソース最適化l  使えそうなデータ → 少ないが社内で⼊入⼿手するめどが付いたl  データサイエンティストらしき⼈人 → 社内/社外で⾒見見つけた …というわけでそんな感じで とりあえずこれで試してよ わかりました データサイエンティスト つかう側 どれくらいいけそうか 2ヶ⽉月後に報告よろしくね
  • 22.
    2ヶ⽉月後の気まずい報告会「どうしてこうなった…」l 問題設定と⼿手法を⾒見見ると → よくわからないがいろいろ試したようだl  評価指標を⾒見見ると → その値がどれくらいの「良良さ」か判らないl  評価値を⾒見見ると → 現状⼈人間がやってる精度度には達していないl  考察を⾒見見ると → 既に知ってることか直感に反することしかないl  実際に使うことを考えると → 解析結果を直接活かすのは難しい うーん、正直⾔言って微妙だよ 期待してたほどじゃないね これでも精⼀一杯 頑張ったんですが データサイエンティスト つかう側 けどこれじゃあ使えないし 次に進むかも判断できないね
  • 23.
    不不幸パターン: あとで分かったデータの量量・種類・質の不不⾜足 l 量量的な不不⾜足 l  絶対的にサンプル数が少ない l  データ項⽬目が変化して⽐比較不不能なサブセットが⼤大量量にある l  種類の不不⾜足 l  あるカテゴリのサンプルが全く無い l  質的な不不⾜足 l  測定ミスやノイズ、ランダムでない⽋欠損値や⽋欠損区間がある 逆にいえばどれくらい データがあれば充分なの? 多いほど精度度上がるはず ですが実際にはやってみないと 集めるにもコストかかるからデータサイエンティスト それがわからないとね… つかう側
  • 24.
    不不幸パターン: ⽐比較対象に関する認識識のズレ l 全く新しい課題にチャレンジする場合 l  今達成している精度度が本当に良良いのかどうかわからない l  実際に活⽤用した時のROIがわからない l  すでに⼈人間によって取り組んでいる課題にチャレンジする場合 l  お試しプロジェクトでは往々にして専⾨門家の判断には勝てない l  コストと精度度のトレードオフなのだが両⽅方を期待してしまう もっと精度度出るの期待してた 専⾨門家に勝つのは難しいです…データサイエンティスト (それが仕事だろ…) つかう側
  • 25.
    その他の不不幸パターンl  問題設定の認識識のズレ l  同じ課題・データでも異異なる定式化で解くことができてしまう l  例例:セキュリティ⽬目的で既知/未知の攻撃どちらを検知したいのかl  評価基準の選択や優先度度のズレ l  モデルをの優劣劣⽐比較ではまず評価基準を選ばなければいけない l  例例:売上に直結するのはPrecisionだが気になるのはRecalll  変数のコントロール可能性に関するズレ l  予測に有効でもコントロール不不能な変数は業務改善に繋がらない l  例例:売れ⾏行行きに最も関係するのは販売地域であることがわかったl  最終的な利利⽤用⽅方法に関する想定のズレ l  データ解析結果を活⽤用して現場でPDCAを回す⽬目処がついていない l  例例:マーケティングのパーソナライズを実現する仕組みはまだ無い
  • 26.
    Agendal データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  • 27.
    誰がデータ解析プロジェクトをダメにしたのか? l  これまでに⾒見見た様々な認識識のズレl  Q: データサイエンティストに求められる最も⼤大切切な能⼒力力は? l  「それはコミュニケーション能⼒力力ですね(キリッ」 l  え、”ズレ”なのに? l  ズレとは相対的なものなのでは? キミはコミュニケーション 能⼒力力が低いね!(ドヤァ) ……………………データサイエンティスト つかう側
  • 28.
    なんでも”コミュニケーション能⼒力力”でまとめるな! l  ないものねだりをしてる⽅方にもある程度度の責任がある l  「うちのビジネスをよく理理解してくれて〜~」 l  「コミュニケーション能⼒力力⾼高くて〜~」 l  「統計も機械学習の最新技術も全部わかってて〜~」 l  「業務でPDCAサイクルてつだってくれて〜~」 あー完璧なデータサイエンティスト どっかにいないかな〜~ …………………… つかう側データサイエンティスト
  • 29.
  • 30.
    完璧なデータサイエンティスト:存在しない Business Project Understanding Management Communication Skill
  • 31.
    つかう側が守るべきたった3つのことl (1) 最低限の統計リテラシーを⾝身につけるl  (2) プロジェクトに主体的に参加するl  (3) 最初に「データ解析仕様書」を協⼒力力して作る
  • 32.
    Agendal データサイエンティストブームl  「つくり⽅方」の次は「つかい⽅方」l  お互いに不不幸に陥るパターンl  つかう側が守るべきたった3つのことl  お互いに幸せになるために
  • 33.
    (1) つかう側にも求められる 最低限の統計リテラシーを⾝身につけるl  確率率率論論の基礎 l  正規分布とそれ以外l  統計の基礎 l  平均 or 中央値 l  分散 or 標準偏差 l  検定の概念念とP値の意味l  評価指標の基礎 l  精度度:正解率率率 or Precision or Recall l  その他の指標:F値、ROC曲線、AUC値l  データマイニング/機械学習タスクの基礎 l  カテゴリ予測:分類 or クラスタリング l  異異常検知:教師付き分類 or 教師無し異異常検知
  • 34.
    (2) プロジェクトに主体的に参加し コミュニケーションを取る l  解析プロジェクトを他⼈人ごとにしない l  お客様になって⼝口をだすだけでは不不⼗十分 l  中間報告と最終報告で評価するだけでは助けにはならない l  可能であれば定例例MTGに出席する l  いつでもインタラクティブに連絡が取れる環境を作る l  成果に対するインセンティブを共有する 想定外のことはありますか? ⼿手伝えることはありますか? カテゴリ情報の信頼度度が… あと評価軸はこれでいいですか データはすぐ調べます。データサイエンティスト 評価軸は私の想定では… つかう側
  • 35.
    (3) 最初に「データ解析仕様書」を協⼒力力して作るl  オリジナルのビジネス課題  l  テーマとしての最終的なゴール  l  今回のプロジェクトの対象とサブゴールl  解析対象としての問題設定  l  採⽤用するアプローチのバリエーション  l  評価に使うデータの量量、項⽬目、質の想定条件l  (⼿手法→データサイエンティストに任せる)  l  定量量的な評価基準  l  今回のプロジェクトの最終的な合格/不不合格基準l  その結果をどのように活⽤用するイメージ化l  導⼊入した場合のBefore/Afterの明確化l  それが誰にとって何がどれくらい嬉しいのかの定量量化
  • 36.
    (参考) 関連するプロセス管理理や標準など:データサイエンティストがつかう側に近づく話l  CRISP-DM:Cross Industry Standard Process for Data Mining l  ⾃自社ビジネスにおいてデータマイニングをするプロセスl  PMBOK: Project Management Body Of Knowledge l  SIプロジェクト管理理のノウハウ(プロジェクト成果物記述書など)l  BABOK: Business Analysis Body Of Knowledge l  ビジネス・アナリシス ≠ データ解析プロジェクト CRISP-DM 出典:wikipedia.org
  • 37.
    まとめ:つかう側も⾼高みの⾒見見物は絶対に許されない あれが!こうだから! このデータで!こうやって! 仕様書の通り!お願い! はい!!!!!! うおおおおおおお おおおおお!!!データサイエンティスト つかう側 うおおおおおおおおおおおお おおおおおおおおおお!!! できてる!すごい!やった!
  • 38.
    予告編資料料PFIセミナー  2013/12/xx さらば!データサイエンティスト 株式会社Preferred Infrastructureリサーチャー&Jubatusチームリーダー ⽐比⼾戸  将平
  • 39.
  • 40.
  • 41.
  • 42.
    (PFI宣伝) Bazil: ⾮非構造データ処理理を得意とするクラウドベースの機械学習分析サービス テキスト ログ/履履歴   数値データ分析 Webブラウザ クラウド担当者 予測要因 予測評価
  • 43.

[8]ページ先頭

©2009-2025 Movatter.jp