Movatterモバイル変換

Copyright © BrainPad Inc. All Rights Reserved. 名前– Tatsuya Atsumi– Twitter: https://twitter.com/__Attsun__ 仕事– BrainPad– 自社製品（DMP）の開発 好きなもの– Python• ６年くらい– Spark• １年半くらい その他– 今年刊行された「詳解Apache Spark」のレビュアーを担当させていただきました。とても良い本です！2自己紹介

Copyright © BrainPad Inc. All Rights Reserved. 対象者– Sparkについて興味があるが、詳しいことはまだよく知らない方。– Pythonで基本的なプログラミングができる方。 狙い– Sparkについての基礎的な特徴を理解していただく。– Pythonを使ったSparkの使用方法について理解していただく。– Sparkのライブラリについて、特にSparkSQLとMLlibについての理解をしていただく。3本プレゼンでの対象者と狙い

Copyright © BrainPad Inc. All Rights Reserved.公式ドキュメントによると、Apache Spark is a fast and general-purpose cluster computing system.つまり、「高速」と「多目的」を特徴とした分散処理システム。 複数台のサーバを使って、大量のデータを高速に処理できる。 タスクのスケジューリングや障害発生時の復旧のような分散処理にまつわる面倒な点はSparkがカバーしてくれる。 MapReduceで行われていたようなログ集計から、レコメンドシステム、リアルタイム処理まで幅広い用途で使われている。6Sparkとは

Copyright © BrainPad Inc. All Rights Reserved. 中間データの少ないインメモリによる処理7高速？入力データ処理中間データ処理出力データMapReduceの場合、処理ごとに中間データを作成しているため、処理が増えるほどディスクIOが増え、パフォーマンスに影響を与える。入力データ処理処理出力データSparkの場合、中間データを出力する必要のない処理はまとめて実行される。（勿論、中間データが必要になるケースもある。）

Copyright © BrainPad Inc. All Rights Reserved. 多様なライブラリ– Sparkには、便利なライブラリが最初から付属している。• SparkSQL（DBやJSONなど構造化データに対してSQLを使ってアクセス）• Spark Streaming（ストリーミングデータ処理）• MLlib（機械学習）• GraphX（グラフデータ処理）– すべてSparkのコアコンポーネントをベースとしているため、コードの再利用や学習コストの低下、メンテナンス容易性の向上が期待できる。8多目的？

Copyright © BrainPad Inc. All Rights Reserved. 何であるか？– 大規模データの分散処理フレームワーク• 従来のMapReduceの代替みたいなイメージ 何でないか？– 分散ファイルシステム（HDFS）• HDFSやS3を代替するものではない。– リソーススケジューラ（YARN, Mesos）• Sparkがこれらのリソーススケジューラ上で起動する。– 小規模なデータを処理するツール• シンプルにPython書いたほうが速いし楽。• 増え続ける大規模データを一定の速度で処理したい、スケーラビリティを確保したい、というケースでなければはまらないと思われる。10Sparkは何であるか？何でないか？

Copyright © BrainPad Inc. All Rights Reserved. わかりやすいインターフェース– APIはmap, filterなど動作が把握できるものが多い。SQLも使える。 高速– 大規模データを高速に処理できる。（従来のMapReduceに比べてという話） 様々なユースケースに対応できる多様なライブラリ– 機械学習、ストリーミングのようなモダンなユースケースに対応できるのは嬉しい。 従来のHadoopスタックが利用可能– YARNやHDFSといった、従来のHadoopスタックを使用できるため、クラスタを新たに作り直す必要はない。 情報量の多さとコミュニティの安心感– 類似の様々なフレームワークが存在するが、情報量ではSparkに分がありそう。– バージョンアップを行う際にも後方互換生を気にしてくれるなど、開発も硬い。11なぜSparkを使うか？

Copyright © BrainPad Inc. All Rights Reserved. 略歴– 2009年からUC Berkleyで開発が始められる。– 2010年にオープンソース化。– 2013年にApache Software Foundationに寄贈される。– 2014年にApache Top-Level Projectに昇格– 2014年にバージョン1.0.0がリリース– 2016年にバージョン2.0.0がリリース現在（2016/8/15時点）での最新バージョンは2.0.0。今日の解説は2.0.0を前提としています。12Sparkの歴史

Copyright © BrainPad Inc. All Rights Reserved. RDDは、クラスタ上に分散したデータを束ねるコレクションオブジェクト。 Sparkでプログラミングを行う際は、RDDのみを意識し、個々のデータがどこにどのように分散されているか、という点は隠蔽されている。 そのため、ユーザーは通常のコレクションオブジェクトに対する操作を書く感覚で分散処理を実現できる。20RDDデータデータデータデータデータデータデータデータデータパーティションノードRDD

Copyright © BrainPad Inc. All Rights Reserved. RDDはTransformationと呼ばれる処理ごとに、新たなRDDオブジェクトが作成される。– map– filter 実際の処理は、Actionと呼ばれる処理が実行されるまで遅延される。– count– take– saveAsTextFile21遅延実行RDD RDD RDDtransformationにより生成 transformationにより生成参照を保持参照を保持

Copyright © BrainPad Inc. All Rights Reserved. select, filter, join, limit, orderByのような基本的な操作 UDF（ユーザー定義関数）– もちろん、関数はPythonで記述可能。– https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SQLContext.registerFunction window関数 abs, ceilのような関数関数やメソッドはそれ以外にも数多くあります。APIドキュメントを参照。26DataFrameのメソッド

Copyright © BrainPad Inc. All Rights Reserved. SQLで処理を記述する場合、Spark固有のAPIを使う必要がない。 DataFrameを使う場合でも、より少ないコードで可読性の高いコードが書ける。– RDDと比べて。 オプティマイザにより処理が最適化される– Databricksのベンチマークを参照• https://databricks.com/blog/2015/04/24/recent-performance-improvements-in-apache-spark-sql-python-dataframes-and-more.html– RDDによる処理は、ScalaがPythonの倍以上高速– DataFrameによる処理では言語間の差がないほか、RDDよりも高速– RDDに比べて細かいチューニングが不要になる。28(jupyter)Spark SQLのメリット

Copyright © BrainPad Inc. All Rights Reserved. 学習モデルを作成する際によくある以下のような流れをシンプルに表現するためのAPI– spark.mlのみ。– 皆さんが好きなscikit-learnライブラリのPipelineに影響を受けたと書いてあります。– 入出力はDataFrame31パイプラインAPI元データ加工データ特徴量データ学習モデル加工・抽出処理特徴量作成処理学習処理

Copyright © BrainPad Inc. All Rights Reserved. Transformer– 入力データ（DataFrame）から異なる出力データ（DataFrame）を生成するコンポーネント。– 文章から単語を生成するTokenizerなど。• 「This is a pen」-> 「”This”, “is”, “a”, “pen”」 Estimator– DataFrameからTransformerを生成するコンポーネント。– LogisticRegressionやKMeansなどの学習アルゴリズム。 Pipeline– TransformerやEstimatorを組み合わせて予測モデルを構築する。32パイプラインAPIを構成するコンポーネント

Copyright © BrainPad Inc. All Rights Reserved. スパムメッセージの判定を行う。– データセット• UCI（カリフォルニア大学アーバイン校）にあるやつ• https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection• Sparkが生まれたのはバークレー校– 特徴量• 単語の出現頻度– モデル• ロジスティック回帰– 扱うライブラリ• SparkML• DataFrame34（jupyter）SparkML（&DataFrame）の使用例

Copyright © BrainPad Inc. All Rights Reserved. Sparkは、インメモリ処理による高速性と、多目的なライブラリを持つ分散処理フレームワーク。 Spark SQLとMLlibを組み合わせることで、弊社のケースのような大規模データに対する複雑な処理も簡単に。 データ量の少ないタスクにとっては速度的にも運用負荷の面でもいいことがないと思われるので、やみくもな導入は避けたい。36まとめ

Copyright © BrainPad Inc. All Rights Reserved. 自分で動かしてみて、Sparkを体感してみましょう。 本を買ってみましょう。 GraphXやSpark Streamingなど、今回触れなかったライブラリについて調べてみましょう。 DriverやExecutorといった実行モデルについて調べてみましょう。 Shuffle処理について調べてみましょう。– パフォーマンス改善の勘所の一つ37さらに知りたい方へ

Copyright © BrainPad Inc. All Rights Reserved.株式会社ブレインパッド〒108-0071 東京都港区白金台3-2-10 白金台ビル3FTEL：03-6721-7001FAX：03-6721-7010info@brainpad.co.jpCopyright © BrainPad Inc. All Rights Reserved.www.brainpad.co.jp

Copyright © BrainPad Inc. All Rights Reserved. 42Sparkの実行モデルDriverExecutor Driver– ユーザープログラムをtaskに変換し、executorに実行を命令する。– Actionに伴いexecutorからデータを取得する。– ユーザープログラムのmainメソッドを実行するJVMプロセス。driverが終了すると、Sparkアプリケーション自体が終了する。 Executor– driverから命令されたtaskを実行する。– RDDのキャッシュを保持する。– Spark起動時に起動されるJVMプロセス。※実際には、YARNやMesosなどのクラスタマネージャ上で動作するので、それによって実行モデルは若干異なります。ExecutorExecutor

Copyright © BrainPad Inc. All Rights Reserved.1. ユーザープログラムが、transformationを組み合わせてRDDの参照グラフを作成する。2. ユーザープログラムが、actionを実行する。3. Driverが、RDDの依存グラフから実行プランを作成する。– 実行プランは複数のステージからなる。– Stage• 複数のTaskの集合。• Shuffle（後述）が必要となるポイントでStageを分ける。• 同じパーティションに対する処理が連続している場合、マージすることで最適化する。– Task• executorの実行する処理の最小単位。１パーティションごとに作成される。4. Executorに各Stageの処理を命令する。43Driverによる実行計画作成

Copyright © BrainPad Inc. All Rights Reserved. Shuffle– reduceByKey等により複数のパーティションを１つにまとめるため、データをあるexecutorから別のexecutorに転送する処理。– 処理がローカルで済まなくなるため、パフォーマンス上のボトルネックになりやすい。– Shuffleがある場合、Stageの分割が発生する。44ShuffleRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDDRDD同じパーティションに閉じた処理ならシャッフルは不要（mapなど）別パーティションが必要になる処理では、シャッフルが生じる。

Copyright © BrainPad Inc. All Rights Reserved. Stageは、Shuffleを境界として分断される。– このケースではjoinがShuffleを起こしている。 同じパーティションに対する処理が連続する場合、処理は１つのステージにマージされる。（※）– Stage1はmapとfilterの2つの処理があるが、実際にはmapとfilterを合成した1つのStageに変換されている。– これは“pipelining”と呼ばれる。– Stageは複数のtaskで構成されており、それぞれがexecutorで処理される。※厳密には、親RDDが１つの子RDDからのみしか参照されていない場合。（複数パーティションをマージするunionもこれに該当する）45Stageの分割例map filtermapjoinStage1Stage2Stage3

Copyright © BrainPad Inc. All Rights Reserved. py4jを使って、PythonプログラムとJVMでやりとりをする。 アクションやシャッフル処理は、基本的にはJava / Scalaと同じくJVM上で実行される。– 一部のアクションやmap、filter等に渡される関数はJVMが起動するPythonで実行される。46PythonでのSpark実行モデルPython py4jDriver(JVM)py4j ExecuterExecuterExecuter(JVM)PythonPythonPython

Movatterモバイル変換

Change Language

Pythonで入門するApache Spark at PyCon2016

Embed presentation

Recommended

More Related Content

What's hot

Similar to Pythonで入門するApache Spark at PyCon2016

Pythonで入門するApache Spark at PyCon2016

Editor's Notes