Movatterモバイル変換

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.コンピューティングの進化データセンタ内の物理サーバデータセンタ内の仮想サーバクラウド上の仮想サーバ・高い使用率・プロビジョニング速度　の改善・改善されたアップタイム・ディザスターリカバリ・ハードウェアの独立性・投資コストと運用コスト　のトレード・よりスケール・より早い開発スピード・メンテナンスの削減・より高い可用性と耐障害性

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.サーバーレスな分析とは？下回りを気にせず，やりたいことに集中• データ収集: 設定だけで，あとは自動でデータを収集• データ管理: データのスキーマを自動で登録・更新• ETL: 処理を記述したスクリプトだけで，前処理を実行• クエリ: SQL だけで自由に分析• 可視化: ブラウザから簡単に GUI で可視化

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.AWS の分析サービスAmazon KinesisData Streams収集管理 ETL 分析・可視化機械学習AWS GlueAmazon KinesisData FirehoseAmazon EMRAWS GlueAWS DataPipelineAmazon AthenaAmazon RedshiftAmazon KinesisData AnalyticsAmazon ESAmazonQuickSightAmazon SageMaker

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.AWS のサーバーレス分析サービスAmazon KinesisData Streams収集管理 ETL 分析・可視化機械学習AWS GlueAmazon KinesisData FirehoseAmazon EMRAWS GlueAWS DataPipelineAmazon AthenaAmazon RedshiftAmazon KinesisData AnalyticsAmazon ESAmazonQuickSightAmazon SageMaker

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Amazon Kinesis Dataフルマネージド型リアルタイム大規模ストリーミング処理KDS: ストリームデータを収集し，後段で各種分析やデータ保存を実施KDF: ストリームを収集し，S3 / Redshift / ES / Splunk に簡単に配信KDA: 上記 2 つからストリームデータを取得して SQL を実施Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon KinesisData Analytics* Kinesis Processing Unit，1 KPU は 4GB メモリ，1 vCPU，および対応するネットワーク能力を表す

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Amazon Kinesis Dataサーバーレスによってストリームデータの収集・配信・分析のみに集中KDS: 利用シャード数を指定してリソースを確保KDF: データ量に応じて自動でスケールKDA: クエリ実行時のリソースを KPU* として確保Amazon KinesisData StreamsAmazon KinesisData FirehoseAmazon KinesisData Analytics* Kinesis Processing Unit，1 KPU は 4GB メモリ，1 vCPU，および対応するネットワーク能力を表す

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.AWS Glue完全マネージド型 ETL サービス大規模データに対して，Spark / Python ジョブによる ETL を実行データカタログを持ち，入力 / 出力のデータソースを管理定期的にクローラーを走らせることで，データソースのスキーマを更新多段のジョブフローを定義して，スケジュール実行

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.AWS Glueサーバーレスによってデータソースの管理と ETL のみに集中Spark ジョブを実行するためのクラスターを管理・運用する必要なしPython ジョブも同様に実行環境を意識する必要はないジョブ実行時に必要なリソースは，DPU として指定すれば自動で確保クローラーやスケジューラ，ワークフローもすべて Glue が管理* Data Processing Unit，1 DPU につき 16 GB メモリ4 vCPU が割り当てられる

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Amazon Athenaインタラクティブなクエリサービスクエリエンジンとして Presto を用い，S3 上のデータに直接クエリ数十 TB クラスのデータに対しても高速にクエリを実行Glue データカタログと連携しており，すぐに SELECT 文を実行可能BI ツールと連携して，S3 に格納したデータをすぐに可視化

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Amazon Athenaサーバーレスによって SQL クエリの実行のみに集中Presto クラスターは AWS 側で管理クエリ実行時に，使用リソースを指定する必要もないスキャンデータ量のぶんだけ課金** 1TB スキャンにつき 5$ の料金．S3 上にデータが圧縮して置かれている場合，圧縮データサイズに対して課金

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Amazon QuickSight高速な SPICE エンジンと直感的な操作，専門家不要の BIAWS 内外のさまざまなデータソースと簡単に連携わかりやすい UI を持ち，マウスだけで高速な可視化を実行可能セッション単位のリーダーライセンスにより，大きな組織でもコスト効率よく情報を共有することが可能** 1 セッション 30 分で，セッションあたり $0.30．最高 $5 の上限があるので，使わなければ $0 かつ金額も FIX 可能

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Amazon QuickSightサーバーレスによってデータの可視化のみに集中BI サーバ自体を AWS が運用するので，サーバ管理が不要利用ユーザー数が増えても，サーバ増設等を考える必要はないSPICE* にデータを取り込むことで，より高速な動作• Super-fast, Parallel, In-memory, Calculation Engine の略で，QuickSight 内部に腹持ちするデータストアのこと

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Glue ベースの S3 データレイク• 各種データソースのカタログを Glue で一元的に管理• データカタログは DynamoDB にも対応（7/10）• DX 経由で JDBC 接続可能なオンプレミス DB も，カタログに登録可能• S3 上のデータを Athena / Redshift Spectrum / EMR で分析

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Glue でパーティションの自動更新• 従来は，新しい Athena テーブルのパーティション認識のために，MSCK REPAIRTABLE / ALTER TABLE ADD PARTITION を実行する必要があった• Glue クローラーをスケジュール実行することで，常に最新のパーティション状態を認識させることが可能に• クローラーの設定で InheritFromTable を選択することで，クロール時にパーティション情報が自動でテーブル情報と同じものを使うように

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Glue で低レイテンシの Parquet 変換を実施• CSV / TSV / JSON 等のログファイルを Parquet に変換するために，従来は EMR などを用いる必要があった• Glue なら GUI 操作のみでも Parquet 変換ジョブを作成可能• S3 ファイル追加のイベントトリガーで Lambda を起動して，Glue ジョブを実行すれば，低レイテンシの変換処理が可能に

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Firehose 経由のログにニアリアルタイムでクエリ• Kinesis Firehose は year/month/day/hour という S3 キーの形で，Parquet データフォーマットで出力（5/10）• Parquet データは Athena から高速かつ効率的にクエリを実行可能• ログが置かれたら，すぐに分析クエリを投げることができる

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Step Functions を使ったジョブフローの構築• Step Functions でジョブフローを構築し，その中で Glue ジョブやそのほかのジョブを実行• Athena ETL + 集計クエリのフローも当然可能• 3rd Party スケジューラ製品からジョブをキックすることも可能StartGlue ETLExecuteIs Glue JobFinished ?load to RDSWait 1mYesNoIs loadFinished ?Wait 1mYesNoEndIs loadSucceed ?YesSend SNSnotificationNo

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.DMS によるマスタデータ出力を Athena で分析• RDS 上で利用しているマスタテーブルの更新履歴を，DMS + CDC を使って，S3 に逐次出力• マスタの履歴テーブルを作って，これを取り込むのがベター• Firehose 経由で S3 に送られてくる行動ログデータと JOIN することで，ニアリアルタイムな分析システムを構築

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.使い分けのポイント• Glue / Athena は，あえて選択肢を絞ったり，チューニングの要素を絞ったりすることで，運用の負荷を下げ，本来の目的（ETL / 分析）に集中できるようにしている• まずはサーバーレス分析サービスでやりたいことが実現可能か，ワークロードをサービスに合わせられるかを考える• それらが無理なときのみ，EMR / Redshift といったサービスの利用を考える

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Glue では対応できないこと• Spark 以外のアプリケーションを使ったジョブの実行• 実行する Spark バージョンの固定• Spark Job executer メモリサイズ等の設定変更• ジョブ実行時のスタートアップタイムのコントロールGlue はサーバーレスの ETL サービスであり利用者側で制御できない部分が存在する

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.EMR + Spark / Hive という選択肢• Hive の既存資産を活用したい場合は EMR を使用• 詳細なチューニングを行うことで，メモリヘビーな Spark ジョブを実行したり，パフォーマンスを向上させたりすることが可能• クラスタを前もって立ち上げておくことで，すぐにジョブを実行させることが可能+

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Athena では対応できないこと• ピークタイミングのノード数追加• Presto のパラメタ設定• 実行する Presto を特定バージョンに固定• 利用料金の固定• 詳細なセキュリティ設定や権限設定Athena はサーバーレスのクエリサービスであり利用者側で制御できない部分が存在する

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Athena が向いていない処理• リトライ機構がなく，データを絞って高速にスキャンするアーキテクチャのため，バッチ処理には向かない• 分析処理でも，大量データを長時間処理するのには向かない• Athena のデフォルトのクエリタイムアウト時間は 30 分（上限緩和可能）ユースケース適したサービス大規模なデータに対して，フルスキャンを定期的に行う処理 EMRテンポラリテーブルを活用した多段のETL処理 EMR, GlueサブクエリやJOINを駆使した複雑な集計処理 Redshift高頻度なレポーティングのための大量の分析処理 Redshift

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Redshift + Spectrum という選択肢• ホットデータに対する高頻度の重たいワークロードが主体の場合には，Redshiftを使う方が適切．詳細なパフォーマンスチューニングや，WLM/QMR/SQA/Result Caching 等の機能を利用可能• その上で Spectrum を使って，S3 上の大量のコールドデータに対するアクセシビリティを確保• Redshift は VPC に閉じた分析環境の構築，テーブルごとの詳細な権限設定等が可能• 多種多様な BI ツールが対応

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.Presto on EMR という選択肢• マルチデータソースアクセスや，バージョン固定，CTAS，詳細なチューニング等が可能• VPC に閉じた形の利用，Kerberos 認証，また詳細な EMRFS 認可機能を用いてセキュアなアクセスを実現可能• インスタンスフリートやスポットブロックを活用することで，利用時のコストを削減することも可能+

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.機械学習のサイクルにおけるよくある課題開発 & 学習推論エンジニアがプロダクション環境に構築エンドポイントを作成通常の API サーバA/B テストの仕組みデータサイエンティストが開発環境で作業開発と学習を同じ 1 台のインスタンスで実施Deep Learning であれば GPU インスタンスを使用

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.機械学習のサイクルにおけるよくある課題開発 & 学習推論エンジニアがプロダクション環境に構築エンドポイントを作成通常の API サーバA/B テストの仕組みデータサイエンティストが開発環境で作業開発と学習を同じ 1 台のインスタンスで実施Deep Learning であれば GPU インスタンスを使用開発• 学習時に合わせたハイスペックのインスタンスで開発もするため，コスト効率が悪い学習• 環境構築が大変なので，開発と同じインスタンスで 1 つのインスタンスを使いまわしがち• 学習用のインスタンスが 1 つしかないため，大量の学習ジョブも1 つずつ順番に実行するしかなく，時間がかかる• 1 ジョブあたりの学習時間を減らすために，分散学習環境を構築するのは，さらに手間がかかって辛い推論• API 予測サーバを使いたいだけなのに，環境構築・管理運用・スケーラビリティ等考えないといけないことが非常に多い

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.SageMaker が提供するアーキテクチャ開発学習推論SageMaker API を叩いてジョブを実行複数ジョブを同時実行分散学習も簡単に実行インスタンスの構築・実行・破棄は自動コンソールから起動主要ライブラリはプリインストール済開発用サンドボックスなのでインスタンスを意識する必要ありSageMaker API からエンドポイント作成オートスケーリングA/Bテストインスタンスの管理運用はほぼ存在しないJupyter Notebook Docker コンテナ Docker コンテナ

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.さまざまなフレームワークやアルゴリズムをサポート1. SageMaker のビルトインアルゴリズムを使う2. AWS がコンテナを用意しているフレームワークを使う1. Tensorflow2. Chainer3. PyTorch4. MXNet3. 機械学習のコードとライブラリを含んだコンテナを作成New!!

AWS 上で構築する機械学習システム

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.エッジサイドのリアルタイム推論工場の生産ラインにカメラを設置し，撮影した画像から不良品を判定Camera DeviceDetection AppGPUGreengrass CoreCameraAWS IoTGlueAthena QuickSightS3 SageMakerGreengrass

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.まとめ• AWS にはさまざまな分析サービスがあるが，特にサーバーレス分析サービスを活用することで，やりたいことに集中可能になる• まずはサーバーレスの選択肢を考えて，それらがはまらないときに他のサービスを検討する• 機械学習も SageMaker を利用することで，下回りを考えずにシステムを構築できるように

Movatterモバイル変換

Change Language

Serverless analytics on aws

Embed presentation

Recommended

More Related Content

What's hot

Similar to Serverless analytics on aws

More from Amazon Web Services Japan

Serverless analytics on aws