Movatterモバイル変換

Pythonによる機械学習の最前線2016/2/4ソフトウェアジャパンビッグデータ活用実務フォーラムシルバーエッグ・テクノロジー（株）加藤公一

自己紹介加藤公一（かとうきみかず）シルバーエッグ・テクノロジー（株）博士（情報理工学）（修士は数理科学）Twitter: @hamukazu機械学習歴・Python歴ともに3年今の仕事：機械学習に関する研究開発特にレコメンデーション（自動推薦）システム、自然言語処理、画像処理など過去の仕事：データ分析ツールの開発、3次元CADの開発、幾何計算のアルゴリズム設計、偏微分方程式のソルバなど

Pythonで使える機械学習・データ分析のツール• 汎用数値計算、科学技術計算：Numpy, Scipy• 機械学習：scikit-learn• 自然言語処理：nltk• データ分析：pandas• データ可視化：matplotlib• 統合分析環境：jupyter-notebook

Pythonで使えるディープラーニングのライブラリ• Pylearn2• Caffe• TensorFlow• Chainer

Scikit-learn + matplotlib分類クラスタリング回帰機械学習アルゴリズムの適用と結果の可視化をとても便利にできる絵はすべてscikit-learnホームページ(http://scikit-learn.org)より

matplotlib + scikit-learn入門にお薦めデータサイエンティスト養成講座機械学習入門編第２部特集２「Pythonによる機械学習入門」

可視化応用編• さらにインタラクティブな可視化をしたいとき– 例えば…• クリックした部分だけ拡大したい• マウスオーバーすると詳細情報を表示したい• そういうときはPython+JavaScriptが便利• Pythonでアプリケーションサーバを立ち上げるのは簡単– Bottle、Flaskなどの軽量フレームワーク– サーバと連携してのJavaScriptでの可視化• ウェブアプリの仕組みはデータ分析にも有用

などなど…• 便利なツールとその使い方を挙げていくときりがありません• これ以降は、ライブラリを使ってというより、フルスクラッチからアルゴリズムを書きたい人を対象の話

今日のターゲット• 機械学習のアルゴリズムをゴリゴリ書きたい人• （機械学習とは限らない）数値計算、アルゴリズムなどの分野で、他の言語で実装していて苦労している人つまり、Pythonを使うべきなのに使ってない人がいるのでは？

スクリプト言語とは「アプリケーションソフトウェアを作成するための簡易的なプログラミング言語の一種を指す」-- WikipediaPerl, Ruby, Pythonなど特徴：• 短い行数で（少ないタイプ数で）書ける– つまり生産性が高い– 初心者が学習しやすい• インタプリタ型である• 実行速度が遅い

注意：Pythonは汎用言語です！数学的用途以外にも使えます。• ウェブアプリ作ったり• ゲーム作ったり• ツイッターのボット作ったり• ラズベリーパイからLED光らせたりもできます。でも今日はその話はしません。

数値計算・数学的アルゴリズムでPythonを使うべき理由• ライブラリが充実• 結果の可視化が便利• （うまくコードを書くと）速い⇨以降この話数値計算、アルゴリズム系の人、「Pythonは遅いからイヤ」と思ってる人が多いのでは？

Pythonでやってはいけないことs = 0for i in range(1, 100000001):s += iprint(s)1から1億までの和を計算するこれはPython的な書き方ではない

改善例s = sum(range(1, 100000001))print(s)1から1億を返すイテレータを用意し、その和を計算する

Numpyを使うimport numpy as npa = np.arange(1, 100000001, dtype=np.int64)print(a.sum())1から1億が入った配列を用意し、その和を計算する

ベンチマークs = 0for i in range(1, 100000001):s += iprint(s)s = sum(range(1, 100000001))print(s)30.21秒12.33秒0.38秒import numpy as npa = np.arange(1, 100000001, dtype=np.int64)print(a.sum())

問題点（？）• Numpy版は1～100000000が入った配列をあらかじめ用意している• つまりメモリが無駄• メモリにデータを入れるコストも無駄⇨Pythonistaはそんなこと気にしない！

ここまでのまとめ• Pythonの数値計算系ライブラリはC言語等で書かれているので速い• できるだけ計算はライブラリに任せたほうがいい• ライブラリとのやり取りを大量にするより、一度ライブラリに仕事を投げたらしばらく返ってこないくらいの処理がよい– Numpyには高速化のための仕組みがたくさんある（indexing, slicing, broadcasting, etc…）• そのためにメモリ量やメモリコピーコストがかかっても気にしない

でもそれができないときがある• ライブラリ内ではなく、Python側で条件分岐が大量に必要になる場合• どうしてもfor文（while文）で細かい処理をたくさん回さなければいけないとき• 例えば探索系アルゴリズム、組み合わせ最適化など

そんなときに…Cython• PythonをベースにしたC言語のジェネレータ• Pythonで書いたものをそのまま速くすることができる• ちょっと手を入れることでさらに速く

ベンチマーク例def prime(n):p = [True] * (n + 1)m = 2while m < n + 1:if p[m]:i = m * 2while i < n + 1:p[i] = Falsei += mm += 1i = nwhile not p[i]:i -= 1return in以下の最大の素数を返す関数（エラトステネスのふるい）通常のPython版：4.75秒 Cython化版：3.04秒prime(10000000)を計算（コードには手を入れず）

def prime(int n):cdef int i, mp = [True] * (n + 1)m = 2while m < n + 1:if p[m]:i = m * 2while i < n + 1:p[i] = Falsei += mm += 1i = nwhile not p[i]:i -= 1return idef prime(n):p = [True] * (n + 1)m = 2while m < n + 1:if p[m]:i = m * 2while i < n + 1:p[i] = Falsei += mm += 1i = nwhile not p[i]:i -= 1return i型宣言をいれる3.04秒 0.41秒

def prime(int n):cdef int m, icdef int * p = <int * >malloc((n + 1) * sizeof(int))for i in range(n + 1):p[i] = 1m = 2while m < n + 1:if p[m]:i = m * 2while i < n + 1:p[i] = 0i += mm += 1i = nwhile not p[i]:i -= 1free(p)return i0.41秒 0.17秒リスト（配列）についてもC言語風の型宣言と動的割当て

FAQこれって、最初からC言語で書いたほうが早くないですか？

Answer• 確かに最初から最終形がわかっていればC言語で書いたほうが早いかもしれないです。• しかし、とりあえずPythonで書いて動作を確認し、それから徐々に高速化するというのにはCythonは便利です。

まとめ• Pythonには数値計算、機械学習、データ分析に便利なライブラリがそろっている• Pythonはうまくつかうとかなり速い– できるだけ仕事はまとめてライブラリに任せる– それができないときはCythonを使う– Cythonならではの工夫（型宣言）などが必要

Movatterモバイル変換

Change Language

Pythonによる機械学習の最前線

Embed presentation

Recommended

More Related Content

What's hot

Similar to Pythonによる機械学習の最前線

More from Kimikazu Kato

Pythonによる機械学習の最前線