Movatterモバイル変換

第7回データマイニング+WEB勉強会＠東京 2010/09/26 はじめてでもわかる Random Forest入門 Introduction to Random Forest －集団学習による分類・予測－ hamadakoichi 濱田晃一

AGENDA ◆自己紹介 ◆Random Forestとは ◆概要 ◆樹木モデル ◆集団学習 ◆アルゴリズム ◆R言語での実行 ◆Mahout：Random Forest ◆参考資料 ◆最後に

hamadakoichi 濱田晃一http://iddy.jp/profile/hamadakoichi 4

自己紹介：hamadakoichi 濱田晃一 5

自己紹介：hamadakoichi 濱田晃一データマイニング+WEB勉強会＠東京主催者です 6

自己紹介：hamadakoichi 濱田晃一理論物理博士(2004.3取得) 量子統計場の理論Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文： http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 7

自己紹介：hamadakoichi 濱田晃一文部大臣に褒められた元文部大臣・法務大臣六法全書著者・元法学政治学研究科長森山眞弓さん菅野和夫さん 8

自己紹介：hamadakoichi 濱田晃一 Los Angelesでプロダンサーに褒められた・HIP HOP/House ダンス歴１３年・ダンス開始後 1年半でL.A.でプロダンサーに褒められる Youtube Channel： http://www.youtube.com/hamadakoichi 9

自己紹介：hamadakoichi 濱田晃一毎週末３時間ダンスコーチをしています ■過去、東京と京都でもダンス部を創設。コーチをしていました駒場物理ダンス部京都大学基礎物理学研究所ダンス部部長兼コーチ部長兼コーチ現在：毎週末３時間ダンスコーチ Youtube Channel： http://www.youtube.com/hamadakoichi 10

数理解析手法の実ビジネスへの適用 2004年博士号取得後数理解析手法を実ビジネス適用の方法論構築主な領域◆活動の数理モデル化・解析手法◆活動の分析手法・再構築手法◆活動の実行制御・実績解析システム… 内容抜粋 “Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource to an Unmanned Machine Shop”, assignment", 11

数理解析手法の実ビジネスへの適用：活動例活動例活動の統一グラフモデルを構築・解析 Unified graphical model of processes and resources 青字：割付モデル属性 [ ] : OptionalNode ・priority(優先度) Edge ・duration(予定時間) [・earliest(再早開始日時) ] Process EdgeProcess [・deadline(納期) ] [・or(条件集約数) ] 前プロセスの終了後に後プロセスがプロセスを表す開始できること表す・attributes（属性） preemptable(中断可否), successive(引継ぎ可否) Uses Edge workload(作業負荷) Processが使用する uses uses uses uses uses uses Assign Region を表すAssign Region Assigns from Edge同一Resourceを割付け続ける Assign Regionに assigns from assigns from 指定Resourceの子Resource集合の範囲を表す assigns assigns 中から割付けることを示す企業01 [process] has has [startDate(開始日時)] [endDate(終了日時)] Assigns Edge 製品01 組織A StartDateからEndDateまでの間Resource has Assign RegionにResourceを割付対象要素を表す has has has has has has 割付けることを表す・capacity(容量) ・calender(カレンダー) AAA01 AAB02 … 山田さん田中さん鈴木さん・attributes(属性) Has Edge 東さん Resourceの所有関係を表す 12

数理解析手法の実ビジネスへの適用：活動例一品一様の業務プロセスの動的なプロセス制御数理体系を構築全体生産リードタイム中央値を 1/2.7に短縮設計開始～頭だし出荷リードタイム設計開始～頭だし出荷 CT対週集計開始日時の箱ひげ図体系適用 500 適用後設計開始～頭だし出荷CT 400 360.4h(15.0日) 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 00 00 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: / 20 / 27 / 04 / 11 / 18 / 25 / 01 / 08 / 15 / 22 / 29 / 06 / 13 / 20 / 09 / 09 / 10 / 10 / 10 / 10 / 11 / 11 / 11 / 11 / 11 / 12 / 12 / 12 04 04 04 04 04 04 04 04 04 04 04 04 04 04 20 20 20 20 20 20 20 20 20 20 20 20 20 20 週集計開始日時 13

数理解析手法の実ビジネスへの適用：活動例ビジネスとともに学術分野でも貢献変動性から生じる動的な課題・リソースの競合・滞留・納期遅延 …一品一様な業務プロセスを含む統計解析・制御数理モデル・統計的な有効変数算出・統計数理モデル化－優先順位制御－実行タイミング制御－統計フィードバック－適正リソース量算出・予測数理体系論文（体系の一部）M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada,“Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementationto an Unmanned Machine Shop”,CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 14

参加者自己紹介Ｔｉｍｅ（1分以内ずつ：計３０分程度） 15

Random Forest とは集団学習により 19

Random Forest とは集団学習により高精度の分類・予測を実現する 20

Random Forest とは集団学習により高精度の分類・予測を実現する機械学習アルゴリズム 21

Random Forest とは樹木モデルの集団学習により高精度の分類・予測を行う学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Forest Tree 1 Tree 2 … Tree B予測対象 Result 1 Result 2 … Result B 分類・予測結果 22

樹木モデルとは木構造の条件分岐で分類・予測(回帰)を行う例：植物の分類Iris（アヤメ）データ花葉と花びらの長さ・幅から種類の分類構造算出説明変数目的変数花葉（長さ・幅）花びら（長さ・幅）種類 26

樹木モデルとは木構造の条件分岐で分類・予測(回帰)を行う例：植物の分類分類花びらの長さIris（アヤメ）データ花葉と花びらの長さ・幅から花びらの幅種類の分類構造算出説明変数目的変数花葉（長さ・幅）花びら（長さ・幅）種類 setosa virginica versicolor 27

樹木モデルとは木構造の条件分岐で分類・予測(回帰)を行う例：植物の分類分類花びらの長さIris（アヤメ）データ花葉と花びらの長さ・幅から花びらの幅種類の分類構造算出 virginica setosa setosa virginica versicolor virginica versicolor virginica 28

樹木モデルとは木構造の条件分岐で分類・予測(回帰)を行う例：ブレーキ後停車距離予測carsデータ車速度とブレーキ後の停車距離の関係構造算出説明変数目的変数ブレーキ後の車の速度停車までの距離 29

樹木モデルとは木構造の条件分岐で分類・予測(回帰)を行う例：ブレーキ後停車距離予測回帰（予測）スピードcarsデータ車速度とブレーキ後の停車距離の関係構造算出説明変数目的変数ブレーキ後の車の速度停車までの距離ブレーキ後の停車距離 30

樹木モデルとは木構造の条件分岐で分類・予測(回帰)を行う例：ブレーキ後停車距離予測回帰（予測）スピード(speed)carsデータ車速度とブレーキ後の停車距離の関係構造算出ブレーキ後の停車距離 31

樹木モデル：分岐基準条件ノード A を条件ノードALとARに分けるとき以下のΔIを最大化する分割を行う Classification And Regression Trees (CART) (Breiman et al, 1984)分類木 Entropy GINI係数 ※ ：条件ノード A でクラス k をとる確率回帰木尤離度(deviance) ※ ：条件ノード A での目標変数 t の平均値 32

集団学習とは 36

集団学習とは複数モデル生成し結果を統合精度を向上させる機械学習のアルゴリズム 37

集団学習とは複数モデル生成し結果を統合精度を向上させる機械学習のアルゴリズム ■異なるサンプル、異なる重みの複数の学習モデルを生成 38

集団学習とは複数モデル生成し結果を統合精度を向上させる機械学習のアルゴリズム ■異なるサンプル、異なる重みの複数の学習モデルを生成 ■各モデルの結果を統合・組合せにより精度・汎用性を向上 39

集団学習とは複数モデル生成し結果を統合精度を向上させる機械学習のアルゴリズム ■異なるサンプル、異なる重みの複数の学習モデルを生成 ■各モデルの結果を統合・組合せにより精度・汎用性を向上結果の統合・分類：多数決・回帰：平均値 40

集団学習とは複数モデル生成し結果を統合精度を向上させる機械学習のアルゴリズム ■異なるサンプル、異なる重みの複数の学習モデルを生成 ■各モデルの結果を統合・組合せにより精度・汎用性を向上結果の統合・分類：多数決・回帰：平均値 41

Random Forest Tree Modelの集団学習による高精度の分類・予測(回帰) 学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Forest Tree 1 Tree 2 … Tree B予測対象 Result 1 Result 2 … Result B 分類・予測結果 43

学習と予測学習 44

Random Forest アルゴリズム：学習 Random Forest 45

Random Forest アルゴリズム：学習ブートストラップサンプリング学習データから重複を許しランダムに B組のサンプル集合抽出学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest 46

Random Forest アルゴリズム：学習ランダム抽出変数での樹木モデル生成各ノード展開で M個の説明変数からm個変数をランダム抽出学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Tree 1 47

Random Forest アルゴリズム：学習全サンプル集合で樹木モデルを生成学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Tree 1 Tree 2 … Tree B 48

Random Forest アルゴリズム：学習複数の樹木モデル = Forest (森) モデル学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Tree 1 Tree 2 … Tree B 49

Random Forest アルゴリズム：学習複数の樹木モデル = Forest (森) モデル学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Forest Tree 1 Tree 2 … Tree B 50

学習と予測予測 51

Random Forest アルゴリズム全樹木モデルで分類・回帰予測の結果算出学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Forest Tree 1 Tree 2 … Tree B予測対象 Result 1 Result 2 … Result B 52

Random Forest アルゴリズム全Tree Model の結果を統合する分類：多数決、回帰予測：平均学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Forest Tree 1 Tree 2 … Tree B予測対象 Result 1 Result 2 … Result B 分類・予測結果 53

Random Forest アルゴリズム Tree Modelの集団学習による高精度の分類・予測(回帰) 学習用データ Random Sampling 1 Sampling 2 … Sampling B Forest Forest Tree 1 Tree 2 … Tree B予測対象 Result 1 Result 2 … Result B 分類・予測結果 54

Random Forest Random Forest の主な特長・精度が高い・説明変数が数百、数千でも効率的に作動・目的変数に対する説明変数の重要度を推定・欠損値を持つデータでも有効に動作・個体数がアンバランスでもエラーバランスが保たれる 55

Random Forest の実行パッケージインストール # randomForest のインストール install.packages("randomForest") library(randomForest) 57

Random Forest の実行学習用・予測用データ作成 # iris（アヤメ）データを使用 data <- iris # 学習用データとテスト用データをランダムサンプリング ndata <- nrow(data)#データ行数 ridx <- sample(ndata, ndata*0.5) #50%のランダム抽出で学習・予測データ分割 data.learn <- data[ridx,] #学習用データ作成 data.test <- data[-ridx,] #予測用データ作成サンプルデータ iris(アヤメ)データ：よい性質を持ちよく使用される (R環境で標準提供されている) 説明変数目的変数花葉（長さ・幅）花びら（長さ・幅）種類 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 0.2 setosa 4.9 3.0 1.4 0.2 setosa 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 5.0 3.6 1.4 0.2 setosa Iris Sanguinea 58

Random Forest の実行 Random Forest の生成 # Species(種類)を分類変数として Random Forest を生成 forest <- randomForest(Species~.,data = data.learn) 59

Random Forest の実行 Random Forest の生成 # Species(種類)を分類変数として Random Forest を生成 forest <- randomForest(Species~.,data = data.learn)関数 randomForest(formula, data = NULL, …, ..., subset, na.action=na.fail) 主要な引数内容 formula モデルの形式 x, y 目的変数と説明変数 (formula 代わりに用いる） data, subset 用いるデータ na.action 欠損値の表記型の指定 ntree 生成する木の数 (デフォルトは 500) mtry 分岐に用いる変数の数 (デフォルト, 分類 √M, 回帰 M/3, M:変数総数) importance 変数の重要度出力 (デフォルトは FALSE） 60

Random Forest の実行生成されたForest を用いた高精度の予測 # Forestを用いた予測の実行 pred.forest <- predict(forest, newdata = data.test, type = "class") # 解との比較 table(pred.forest, data.test[,5]) 61

Random Forest の実行生成されたForest を用いた高精度の予測 # Forestを用いた予測の実行 pred.forest <- predict(forest, newdata = data.test, type = "class") # 解との比較 table(pred.forest, data.test[,5]) 予測結果： Random Forest 予測 pred.forest setosa versicolor virginica setosa 27 0 0 versicolor 0 28 0 virginica 0 0 20 分類間違いなし 62

Random Forest の実行生成されたForest を用いた高精度の予測 # Forestを用いた予測の実行 pred.forest <- predict(forest, newdata = data.test, type = "class") # 解との比較 table(pred.forest, data.test[,5]) 予測結果： Random Forest 予測 ※比較参照予測結果：分類木 (rpart) pred.forest setosa versicolor virginica pred.dt setosa versicolor virginica setosa 27 0 0 setosa 27 0 0 versicolor 0 28 0 versicolor 0 26 1 virginica 0 0 20 virginica 0 2 19 分類間違いなし 63

樹木モデルとの比較きわどいところも分類できている予測結果： Random Forest 予測 ※比較参照予測結果：分類木 (rpart) pred.forest setosa versicolor virginica pred.dt setosa versicolor virginica setosa 27 0 0 setosa 27 0 0 versicolor 0 28 0 versicolor 0 26 1 virginica 0 0 20 virginica 0 2 19 分類木のエラー箇所 virginica setosa virginica versicolor 64

Random Forest の実行重要度算出各変数の目的変数に対する重要度重要度グラフ表示 #重要度グラフ表示 varImpPlot(forest) #重要度出力 Importance(forest) 重要度出力 > importance(forest) MeanDecreaseGini Sepal.Length 4.791776 Sepal.Width 2.102875 Petal.Length 20.811569 Petal.Width 20.627166 65

Mahoutとは Open Sourceでスケーラブルな機械学習・データマイニングのライブラリ・Apache プロジェクト・機械学習・データマイニングのライブラリ・Java オープンソース・Hadoop（大規模分散処理基盤）上で動作（Hadoop：象, Mahout: 象使い） http://mahout.apache.org 67

Mahoutとは Open Sourceでスケーラブルな機械学習・データマイニングのライブラリ・Apache プロジェクト・機械学習・データマイニングのライブラリ・Java オープンソース・Hadoop（大規模分散処理基盤）上で動作・Hadoop：象, Mahout: 象使い http://mahout.apache.org 72

Mahoutとは Open Sourceでスケーラブルな機械学習・データマイニングのライブラリ・Apache プロジェクト・機械学習・データマイニングのライブラリ・Java オープンソース・Hadoop（大規模分散処理基盤）上で動作・Hadoop：象, Mahout: 象使い http://mahout.apache.org 73

Mahoutとは Open Sourceでスケーラブルな機械学習・データマイニングのライブラリ Applications Examples Freq. Genetic Pattern Classification Clustering Recommenders Mining Math Utilities Collections Apache Vectors/Matrices/ Lucene/Vectorizer (primitives) Hadoop SVD http://cwiki.apache.org/confluence/display/MAHOUT/Algorithms http://www.slideshare.net/gsingers/intro-to-apache-mahout 74

Mahout : Random Forest mahout.df(Decision Forest) Packageで実装されている 75

Mahout : Random Forest mahout.df(Decision Forest) Packageで実装されている主要クラス Decision Tree構築： org.apache.mahout.df.builder.TreeBuilder Interface 内容 TreeBuilder 樹木モデル(Decision Tree)構築のInterface Class 内容 DefaultTreeBuilder 樹木モデル(Decision Tree)構築の実装クラス Forest予測： org.apache.mahout.df.callback Class 内容 ForestPredictions Decision Forestの予測結果を算出する Decision Forest構築： org.apache.mahout.df.mapreduce Class 内容 Builder Decision Forestを構築する Decision Forest： org.apache.mahout.df.DecisionForest Ｉｎｔｅｒｆａｃｅ内容 DecisionForest Decision Forest (Decision Tree 集合) 表現・データ取得 76

参考資料：R / Random Forest Rによるデータサイエンス～データ解析の基礎から最新手法まで～■CART元論文：Breiman, L. , et.al, "Classification and Regression Trees", Wadsworth (1984)■Random Forest元論文：Breiman, L., et.al, “Random Forests”, Machine Learning (2001)

参考資料：Mahout/Hadoop/Recommendationhttp://www.slideshare.net/hamadakoichi/mahoutweb http://www.slideshare.net/karubi/web-mining-0620http://www.slideshare.net/yanaoki/hadoop-4683332 http://www.slideshare.net/hamadakoichi/ss-4552939

最後に蓄積されたデータを有効活用してきたい 81

最後に蓄積されたデータを有効活用してきたい Google Group： http://groups.google.com/group/webmining-tokyo 82

最後にデータマイニング+WEB勉強会発表者を募集しています連絡 Google Group： http://groups.google.com/group/webmining-tokyo Twitter ： http://twitter.com/hamadakoichi 83

ご清聴ありがとうございました 84

Movatterモバイル変換

Change Language

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

Embed presentation

Recommended

More Related Content

What's hot

Viewers also liked

Similar to 「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

More from Koichi Hamada

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

Movatterモバイル変換

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測 －」 －第７回データマイニング+WEB勉強会＠東京

Recommended

More Related Content

What's hot

Viewers also liked

Similar to 「はじめてでもわかる RandomForest 入門－集団学習による分類・予測 －」 －第７回データマイニング+WEB勉強会＠東京

More from Koichi Hamada

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測 －」 －第７回データマイニング+WEB勉強会＠東京

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

Similar to 「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京