Movatterモバイル変換


[0]ホーム

URL:


Takashi J OZAKI, profile picture
Uploaded byTakashi J OZAKI
24,624 views

Taste of Wine vs. Data Science

ワインの味わいを客観的な化学測定指標だけから予測することは可能か?という問いに対して、単変量から多変量へのパラダイムシフトを通じながら論じています。とある講演会での講演資料です。

Embed presentation

Taste of Winevs. Data Science~単変量の還元主義からは見えない「味わい」を多変量モデリングは解き明かせるか~株式会社リクルートコミュニケーションズ尾崎 隆 (Takashi J. OZAKI, Ph. D.)2015/10/17 1
2015/10/17 2自己紹介
自己紹介ブログやってます2015/10/17 3
2015/10/17 4本日のお題
こんな本を最近読みました2015/10/17 5
『新しいワインの科学』の内容 第1部 ブドウ栽培の科学 ブドウとはどんな植物か、テロワールの正体に迫る、土とブドウ 他 第2部 ワイン醸造の科学 酸素管理とワインの品質、全房発酵とマセラシオン・カルボニック、風味を決めるオーク樽の秘密 他 第3部 ワインと人体の科学 ワイン・テイスティングと感覚の個人差、脳が風味を感じる仕組み、唾液が鍵を握るワインの味 他2015/10/17 6
『新しいワインの科学』の内容 第1部 ブドウ栽培の科学 ブドウとはどんな植物か、テロワールの正体に迫る、土とブドウ 他 第2部 ワイン醸造の科学 酸素管理とワインの品質、全房発酵とマセラシオン・カルボニック、風味を決めるオーク樽の秘密 他 第3部 ワインと人体の科学 ワイン・テイスティングと感覚の個人差、脳が風味を感じる仕組み、唾液が鍵を握るワインの味 他2015/10/17 7
『新しいワインの科学』の内容 第1部 ブドウ栽培の科学 ブドウとはどんな植物か、テロワールの正体に迫る、土とブドウ 他 第2部 ワイン醸造の科学 酸素管理とワインの品質、全房発酵とマセラシオン・カルボニック、風味を決めるオーク樽の秘密 他 第3部 ワインと人体の科学 ワイン・テイスティングと感覚の個人差、脳が風味を感じる仕組み、唾液が鍵を握るワインの味 他主観的な体験を科学する???2015/10/17 8
そもそもワインの味ってどんなもの? 基礎的な味覚 酸味 甘味 渋味 旨味…2015/10/17 9
そもそもワインの味ってどんなもの? ワインに固有の味覚表現 「ミネラル感」 「トースト感」 「果実味」 「スモーキー感」…2015/10/17 10
そもそもワインの味ってどんなもの? ワインの味の評価は、先に述べたような様々な味の「要素」を総合して決められることが多い2015/10/17 11
2015/10/17 12それはどう見ても主観的なものでしかないのでは?
2015/10/17 13何か客観的な指標でワインの味の評価を決めることはできないのだろうか
2015/10/17 14例えばデータサイエンスのような方法論で客観的に味の評価を決められれば…
UC Irvine Machine Learning Repositoryというオープンデータセットがあります2015/10/17 15
その中に“Wine Quality”というデータセットがあります2015/10/17 16
その中に“Wine Quality”というデータセットがあります2015/10/17 17
“Wine Quality”の中身はこんな感じ2015/10/17 18fixed.acidity … residual.sugar … pH sulphates alcohol quality11.6 … 2.2 … 3.25 0.57 9 37.4 … 4.4 … 3.38 0.5 9 47.4 … 1.9 … 3.51 0.56 9.4 511.2 … 1.9 … 3.16 0.58 9.8 67.3 … 1.2 … 3.39 0.47 10 77.9 … 3.6 … 3.35 0.86 12.8 8
11項目の化学測定指標と、ワインの評価スコアから成る fixed acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol2015/10/17 19quality (3 – 8)
個々の説明変数の内訳 fixed acidity:酒石酸濃度 volatile acidity:酢酸濃度 citric acid:クエン酸濃度 residual sugar:残糖濃度 chlorides:塩化ナトリウム濃度 free sulfur dioxide:遊離SO2濃度 total sulfur dioxide:総SO2濃度 density:密度 pH:pH(そのまんま) sulphates:硫化カリウム濃度 alcohol:アルコール度数2015/10/17 20
『新しいワインの科学』曰くでは… 5種類の化合物が関与する 酸類 アルコール類 糖類 ポリフェノール類 揮発性化合物 それぞれが関与するのは 酸味 他の味覚のブースト 甘味そして酸とのバランス 渋味と色味 香り2015/10/17 21
例えば、データを見る限りでは…2015/10/17 22fixed.acidity … residual.sugar … pH sulphates alcohol quality11.6 … 2.2 … 3.25 0.57 9 37.4 … 4.4 … 3.38 0.5 9 47.4 … 1.9 … 3.51 0.56 9.4 511.2 … 1.9 … 3.16 0.58 9.8 67.3 … 1.2 … 3.39 0.47 10 77.9 … 3.6 … 3.35 0.86 12.8 8
例えば、データを見る限りでは…2015/10/17 23fixed.acidity … residual.sugar … pH sulphates alcohol quality11.6 … 2.2 … 3.25 0.57 9 37.4 … 4.4 … 3.38 0.5 9 47.4 … 1.9 … 3.51 0.56 9.4 511.2 … 1.9 … 3.16 0.58 9.8 67.3 … 1.2 … 3.39 0.47 10 77.9 … 3.6 … 3.35 0.86 12.8 8何となく、アルコール度数が高いとワインの評価も高いような気がする
でも…2015/10/17 24fixed.acidity … residual.sugar … pH sulphates alcohol quality11.6 … 2.2 … 3.25 0.57 9 37.4 … 4.4 … 3.38 0.5 9 47.4 … 1.9 … 3.51 0.56 9.4 511.2 … 1.9 … 3.16 0.58 9.8 67.3 … 1.2 … 3.39 0.47 10 77.9 … 3.6 … 3.35 0.86 12.8 8
でも…2015/10/17 25fixed.acidity … residual.sugar … pH sulphates alcohol quality11.6 … 2.2 … 3.25 0.57 9 37.4 … 4.4 … 3.38 0.5 9 47.4 … 1.9 … 3.51 0.56 9.4 511.2 … 1.9 … 3.16 0.58 9.8 67.3 … 1.2 … 3.39 0.47 10 77.9 … 3.6 … 3.35 0.86 12.8 8酒石酸濃度とワインの評価とはあまり関係ないような気がする
『新しいワインの科学』が掲げる問題意識2015/10/17 26ワインの風味を還元主義的に研究しても全体のことは分からない…ひとつの物質だけを取り出して個別の閾値を語っても意味がない…
2015/10/17 27「還元主義」の限界?
2015/10/17 28それって本当に「還元主義」?
例えばpHは低いほど(=酸が強いほど)qualityが高くなる2015/10/17 29
では、11項目全てで同じことをやってみたら?2015/10/17 30
では、11項目全てで同じことをやってみたら?2015/10/17 31
では、11項目全てで同じことをやってみたら?2015/10/17 32
2015/10/17 33それは「還元主義」ではなく「単変量解析」の問題では
2015/10/17 34「単変量解析」がダメなら…
2015/10/17 35「多変量解析」すればいいのでは
例えば線形モデル(+一般化線形モデル)では…2015/10/17 3686目的変数1変数14変数20変数32変数43変数nこのβたちからモデルは成っている説明変数を立てて、多変量のデータセットとしてまとめておく
例えば線形モデル(+一般化線形モデル)では…2015/10/17 37+2変数1+4変数20変数3-1変数4-2変数nこのβたちからモデルは成っているβの値を最適化問題を解くことで求めるその大小や符号から、それぞれの指標が目的変数に貢献するか否かを判断するUPUPNeutralDOWNDOWN
例えば機械学習では…そもそも機械学習とは?2015/10/17 38のような形で表される「分類関数の出力と教師データとの食い違い」に当たる誤差関数を繰り返し計算+教師データを読み込んでいってできる限り小さくすることで、未知のデータをできる限り正しく分類するための方法論誤差関数正則化項
例えば機械学習では…ランダムフォレストの特徴2015/10/17 39
例えば機械学習では…xgboostの特徴2015/10/17 40
線形モデルでも機械学習のやり方を取り入れることも…2015/10/17 410変数3-1変数4このβたちからモデルは成っているNeutralDOWN誤差関数正則化項一定の制約をかけて最適化問題を解くことで不要な説明変数をカットオフすることもできる
基本的な発想は2つ統計学を用いてデータを「説明」する機械学習を用いてデータから「予測」する2015/10/17 42
基本的な発想は2つ統計学を用いてデータを「説明」する重み付けβを用いてワイン11項目それぞれの重要度を明らかにする機械学習を用いてデータから「予測」する交差検証データに対してできるだけ正確にqualityを予測できるモデルを作る2015/10/17 43
“Wine Quality”のうち赤ワインのデータを用いる学習データ兼回帰モデル向けデータ1439銘柄予測向け交差検証データ160銘柄2015/10/17 44
まずは「説明」する統計学を用いてデータを「説明」する重み付けβを用いてワイン11項目それぞれの重要度を明らかにする機械学習を用いてデータから「予測」する交差検証データに対してできるだけ正確にqualityを予測できるモデルを作る2015/10/17 45
L1正則化線形回帰モデルを用いる2015/10/17 460変数3-1変数4このβたちからモデルは成っているNeutralDOWN誤差関数正則化項一定の制約をかけて最適化問題を解くことで不要な説明変数をカットオフする
L1正則化線形回帰モデルで「関連の強いβだけ」を求めてみた 必要なさそうなもの:酒石酸、クエン酸、密度 高いほど評価が高いもの:遊離SO2、硫化カリウム、アルコール度数 低いほど逆に評価が高いもの:酢酸、塩化ナトリウム、総SO2、pH2015/10/17 47(Intercept) 4.004019461fixed.acidity .volatile.acidity -1.111627305citric.acid .residual.sugar .chlorides -1.457579579free.sulfur.dioxide 0.002767012total.sulfur.dioxide -0.002411623density .pH -0.320801622sulphates 0.880891983alcohol 0.277764683
おまけ:L1正則化線形回帰モデルで交差検証Accuracy(45+43+3)/160= 0.568752015/10/17 48予測3 4 5 6 7 8実測3 0 0 1 0 0 04 0 0 3 2 0 05 0 0 45 23 0 06 0 0 18 43 3 07 0 0 1 16 3 08 0 0 0 2 0 0
次に「予測」してみる統計学を用いてデータを「説明」する重み付けβを用いてワイン11項目それぞれの重要度を明らかにする機械学習を用いてデータから「予測」する交差検証データに対してできるだけ正確にqualityを予測できるモデルを作る2015/10/17 49
ランダムフォレストの場合2015/10/17 50予測3 4 5 6 7 8実測3 0 0 1 0 0 04 0 0 4 1 0 05 0 0 57 11 0 06 0 0 12 49 3 07 0 0 1 6 13 08 0 0 0 0 2 0Accuracy0.74375
おまけ:ランダムフォレストでは変数重要度の絶対値を出せる2015/10/17 51MeanDecreaseGinifixed.acidity 71.37408volatile.acidity 97.01327citric.acid 71.95186residual.sugar 67.73691chlorides 75.90818free.sulfur.dioxide 62.9217total.sulfur.dioxide 94.24227density 88.93049pH 72.71654sulphates 98.83825alcohol 122.04312
xgboostの場合2015/10/17 52予測3 4 5 6 7 8実測3 0 0 1 0 0 04 0 0 4 1 0 05 0 0 57 11 0 06 0 2 13 46 3 07 0 0 1 5 13 18 0 0 0 0 2 0Accuracy0.725
「説明」と「予測」を組み合わせてまとめると… ワインの評価の高低には11項目中7項目の増減が重要らしい 非線形のランダムフォレスト分類器で比較的高精度に予測できそう2015/10/17 53(Intercept) 4.004019461fixed.acidity .volatile.acidity -1.111627305citric.acid .residual.sugar .chlorides -1.457579579free.sulfur.dioxide 0.002767012total.sulfur.dioxide -0.002411623density .pH -0.320801622sulphates 0.880891983alcohol 0.277764683予測3 4 5 6 7 8実測3 0 0 1 0 0 04 0 0 4 1 0 05 0 0 57 11 0 06 0 0 12 49 3 07 0 0 1 6 13 08 0 0 0 0 2 0Accuracy 0.74375
とは言え、こういう反論もあり得る2015/10/17 54ワインの味わいをデータサイエンスで語るのはもしかしたら…ただの「野暮」なのでは?
けれども、私はこう考えます2015/10/17 55評論家でもまちまちなワインの「評価」をデータサイエンスで「正規化」できれば…我々のような素人でも美味しいワインを手早く見出せるようになるのでは?
結論2015/10/17 56データサイエンスで誰でも美味しいワインが見つかる世の中になるといいですね
結論2015/10/17 57データサイエンスで誰でも美味しいワインが見つかる世の中になるといいですね※こういうことを言っているとそのうち「『ワインのデータサイエンス』とかいう本を書きませんか」とかいう謎の誘いが来たりして非常につらいのでこれ以上はやめておきます

Recommended

PDF
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
PDF
Visualization of Supervised Learning with {arules} + {arulesViz}
PDF
ビジネスの現場のデータ分析における理想と現実
PDF
Granger因果による 時系列データの因果推定(因果フェス2015)
PDF
最新業界事情から見るデータサイエンティストの「実像」
PPTX
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
PDF
NSEG第33回勉強会
 
PDF
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
PDF
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
PDF
なぜ統計学がビジネスの 意思決定において大事なのか?
PDF
機械学習概論 講義テキスト
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
PDF
Rによるデータサイエンス:12章「時系列」
PDF
データ分析というお仕事のこれまでとこれから(HCMPL2014)
PDF
時系列分析による異常検知入門
PDF
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
PDF
ソフトウェアエンジニアのための「機械学習理論」入門・ハンズオン演習ガイド
PDF
Rで計量時系列分析~CRANパッケージ総ざらい~
PDF
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
PDF
統計的因果推論 勉強用 isseing333
PPTX
Simple perceptron by TJO
PDF
データサイエンティストのつくり方
PPTX
さらば!データサイエンティスト
PDF
Tech Lab Paak講演会 20150601
PDF
手を動かしながら学ぶエンジニアのためのデータサイエンス!
PDF
Jc 20141003 tjo

More Related Content

PDF
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
PDF
Visualization of Supervised Learning with {arules} + {arulesViz}
PDF
ビジネスの現場のデータ分析における理想と現実
PDF
Granger因果による 時系列データの因果推定(因果フェス2015)
PDF
最新業界事情から見るデータサイエンティストの「実像」
PPTX
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
PDF
NSEG第33回勉強会
 
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Visualization of Supervised Learning with {arules} + {arulesViz}
ビジネスの現場のデータ分析における理想と現実
Granger因果による 時系列データの因果推定(因果フェス2015)
最新業界事情から見るデータサイエンティストの「実像」
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
NSEG第33回勉強会
 

Viewers also liked

PDF
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
PDF
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
PDF
なぜ統計学がビジネスの 意思決定において大事なのか?
PDF
機械学習概論 講義テキスト
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
PDF
Rによるデータサイエンス:12章「時系列」
PDF
データ分析というお仕事のこれまでとこれから(HCMPL2014)
PDF
時系列分析による異常検知入門
PDF
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
PDF
ソフトウェアエンジニアのための「機械学習理論」入門・ハンズオン演習ガイド
PDF
Rで計量時系列分析~CRANパッケージ総ざらい~
PDF
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
PDF
統計的因果推論 勉強用 isseing333
PPTX
Simple perceptron by TJO
PDF
データサイエンティストのつくり方
PPTX
さらば!データサイエンティスト
PDF
Tech Lab Paak講演会 20150601
PDF
手を動かしながら学ぶエンジニアのためのデータサイエンス!
PDF
Jc 20141003 tjo
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
なぜ統計学がビジネスの 意思決定において大事なのか?
機械学習概論 講義テキスト
機械学習チュートリアル@Jubatus Casual Talks
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Rによるデータサイエンス:12章「時系列」
データ分析というお仕事のこれまでとこれから(HCMPL2014)
時系列分析による異常検知入門
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
ソフトウェアエンジニアのための「機械学習理論」入門・ハンズオン演習ガイド
Rで計量時系列分析~CRANパッケージ総ざらい~
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
統計的因果推論 勉強用 isseing333
Simple perceptron by TJO
データサイエンティストのつくり方
さらば!データサイエンティスト
Tech Lab Paak講演会 20150601
手を動かしながら学ぶエンジニアのためのデータサイエンス!
Jc 20141003 tjo

Taste of Wine vs. Data Science


[8]ページ先頭

©2009-2025 Movatter.jp