Movatterモバイル変換


[0]ホーム

URL:


NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)

NTTデータが考えるデータ基盤の次の一手~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)2020年10月14日(水)NTTデータシステム技術本部 デジタル技術部土橋 昌講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中!https://www.youtube.com/watch?v=gi9stEV45as

Embed presentation

© 2020 NTT DATA CorporationNTTデータ テクノロジーカンファレンス 2020NTTデータが考えるデータ基盤の次の一手~AI活用のために知っておくべき新潮流とは?~2020年10月14日株式会社NTTデータ エグゼクティブITスペシャリスト 土橋 昌
2© 2020 NTT DATA Corporation自己紹介 専門分野は、オープンソースソフトウェア活用、データ活用基盤、分散処理 Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に関する研究開発、システム開発を主導経歴 技術カンファレンス Strata Data Conference, Spark Summit,Kafka Summit, Hadoop/Spark Conference Japan,USENIX OpML 等 多 数 登 壇・採録 翔泳社 『Apache Spark入門』、『Apache Kafka 分散メッセージングシステムの構築と活 用』 など 執筆・監修登壇・出版など土橋 昌(どばし まさる)エグゼクティブ I T スペシャリストNTTデータ インテグレーション技術/OSSプロフェッショナルサービス
© 2020 NTT DATA CorporationAIや機械学習とデータ基盤3
4© 2020 NTT DATA Corporationなぜデータ基盤に着目するか?参考)「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換(2017),丸山 宏「 機械学習とデータ駆動システム &ソフトウェアエンジニアリング 」ESS2018招待講演, 鷲崎弘宜目標 データモデル アクション機械学習等では、モデル・アルゴリズムをデータから決定する
5© 2020 NTT DATA CorporationNTTデータの考えるAI適正利用においても基盤は重要別講演「信頼できるAI活用を支えるNTTデータの理念と技術」(NTTデータ冨安)から引用
6© 2020 NTT DATA Corporationビッグデータ関連の市場は堅調国内BDAテクノロジー/サービス市場支出額現場感覚で見ても将来に向けた取り組みのために、改めてデータ活用・活用基盤を見直す話が多いSource:『20200526_JPJ45144420_国内BDAテクノロジー/サービス市場予測、2020年~2024年(May2020,IDC #JPJ45144420)』Note:本市場予測は、2020年3月末時点における新型コロナウイルス感染症(COVID-19)の影響および見通しを考慮したものである
© 2020 NTT DATA Corporation 7【質問】データ活用に際し、ご自身の組織はITインフラスキルに自信がありますか?(選択肢)A. 自組織には専門家不在で困っているB. 一部専門家がいるが不安があるC. 専門家集団なのでスキルに問題ないD. 専門知識を使って他者を支援する組織である不安自信あり
8© 2020 NTT DATA Corporationデータを活用したサービスや改善が着実に登場している• 危険外来種植物検知• コンテンツ配信サービス
ケースチャレンジデータの種類9© 2020 NTT DATA Corporation■実現したいことの流れ■汎用的な並列分散処理基盤と機械学習基盤で実現公共:危険外来種植物の検知ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指す• 機械学習を利用し、大量の画像の中から危険外植物を見つける• 専門家でないと判別の難しい植物を見つける• 全地域を対象とすると膨大な量の画像データを取り扱うことになる• ドローンから撮影した土地の画像• 上記に対して専門家がラベルを付けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York危険外来種植物たくさんの土地の画像ドローによる撮影当社事例
ケースチャレンジデータの種類10© 2020 NTT DATA Corporationコンテンツ配信サービスNetflixの公開事例膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズする• 大量に集められたデータと機械学習を利用したパーソナライゼーション• データ量が膨大。総量10PB級。1億件/日を処理• リアルタイムとヒストリカルの両データを扱うが、データ品質管理が難しい• メンバデータ• ビデオデータ引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systemsオンラインパイプラインオフラインパイプライン機械学習の活用■パーソナライズ基盤の全体像■品質管理のためのモニタリングヒストリカルデータのデータ分析
11© 2020 NTT DATA Corporation実際の現場では基本的な課題が根強く存在?「データ分析における企業の課題トップ3は、人材/スキル、データ品質、ITインフラスキルである。」Q. データ分析を行う上で、現在どのような課題を持っていますか?(複数回答)Source: 『20200728_JPJ45144220_2020年国内ビッグテータ/アナリティクス市場企業ユーザー調査(IDC#JPJ45144220,July 2020)』データを扱い、活かすために、適切にITインフラを使いこなしたい
© 2020 NTT DATA Corporation 12【回答】データ活用に際し、ご自身の組織はITインフラスキルに自信がありますか?(選択肢)A. 自組織には専門家不在で困っているB. 一部専門家がいるが不安があるC. 専門家集団なのでスキルに問題ないD. 専門知識を使って他者を支援する組織である不安自信あり
© 2020 NTT DATA Corporation 13意外と悩ましいビッグデータ活用基盤
14© 2020 NTT DATA Corporation昔と比べて選択肢が増えてよくなった?ひと昔は、Hadoopが世を席巻
15© 2020 NTT DATA Corporation昔と比べて選択肢が増えてよくなった?ひと昔は、Hadoopが世を席巻要件の高度化 手段の多様化
16© 2020 NTT DATA Corporation人は考慮すべきものと選択肢が多すぎると決められない
17© 2020 NTT DATA Corporationそこで抽象化して考える⇒入力・処理・蓄積・活用本質的にはデータレイクを中心に入力と出力をつなげるだけ。しかし現実には要件と手段が多様すぎて単純化困難Collect.Data LakeData TransferTfVisualization/Analysis/BIPortal/Search(Management)VisualizationStreamingProcessingAI/ML(Modeling)ETLFileTransportingAPIBulk LoaderData HubDWHTrans-formingDataMartデータマートDataMartDataMartAI/ML(Inference)TfTo APINotification/AlertAccumu-lationTransforming UtilizationDataSourceBatchStreamCooperation/AnalysisDataOpsSystemCooperationReportingInteractiveData SearchReal-timeAnalysisFlexible DataProcessingPlatformUsability Scalability
18© 2020 NTT DATA CorporationNTTデータはリファレンスとして知見を集約して活用過去の知見を集約。例えば医療やユーティリティ※のような安心・安全が求められる領域におけるシステムグランドデザインや検討で参照されている※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用
19© 2020 NTT DATA Corporationポイント1:オープンソースソフトウェアを生かすには?データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなっている。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いたいプロダクトBのカバー範囲/得意分野プロダクトAのカバー範囲/得意分野実案件の要件範囲各プロダクトの特長を組み合わせて要件を満たすようにデザインするプロダクトCのカバー範囲/得意分野
20© 2020 NTT DATA Corporationポイント2:プロダクトの特性を的確にとらえるには?プロダクト誕生には「どうしても突破しなくてはならなかった課題」=秘話がある。「はじまり」をひも解き、変遷を理解することで特性が分かる論文化されていることもある現実の特性は実装に依存する成長とともにコア以外の要素が充実する
21© 2020 NTT DATA Corporationポイント3:的確に素早くグランドデザインするには?経験的なベストプラクティスを体系化して育てる。体系化されたリファレンスモデルをアレンジしてブートストラップベースのアーキテクチャ体系 ベースの検討観点 エンジニアリング
© 2020 NTT DATA Corporationデータレイクの新潮流
24© 2020 NTT DATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力データ基盤では「データレイク」が活用の起点Single Source of Truth※ここではデータレイク≒永続用のストレージとする
25© 2020 NTT DATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力現在のデータレイクの課題感の例データを永続的に扱うデータレイクを起点としたとき、軸①「データの取り回し」、軸②「活用のしやすさ」の2軸から課題を定義できる軸①データの取り回し軸②活用のしやすさストリームデータと合わせて扱おうとするとアーキテクチャが複雑になる分析や機械学習向けには、シンプル過ぎ。作りこみが煩雑になる。軸①データの取り回し 軸②活用のしやすさ
26© 2020 NTT DATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力現在のデータレイクの課題感の例データを永続的に扱うデータレイクを起点としたとき、軸①「データの取り回し」、軸②「活用のしやすさ」の2軸から課題を定義できる軸①データの取り回しストリームデータと合わせて扱おうとするとアーキテクチャが複雑になる軸①データの取り回し
27© 2020 NTT DATA Corporation軸①データの取り回し:まずは基本のバッチ処理Single Source of Truthとしてのデータレイクを中心に、その中のデータを活用するための処理エンジンを並べるデータレイク処理エンジン活用入力シンプル!
28© 2020 NTT DATA Corporation軸①データの取り回し:ストリームデータの流れを加えるデータレイクの横に、ニアリアルタイムでデータ処理するパイプラインを構成データレイク処理エンジン活用バッチ入力データハブメッセージングストリーム処理エンジンストリーム入力いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・途中や末端でのバッチとストリームの統合が難しい
29© 2020 NTT DATA Corporation軸①データの取り回し:そこでデータレイクを高度化データレイク上でストリームデータを統合し、分析用途にも扱いやすくできたら…?という一石を投じる技術が登場ストレージ部分で統合通知(ストリーム)加工分析・機械学習・AI活用収集収集 メッセージング/加工多様なクエリエンジンを利用分析・可視化高度化されたデータレイクDelta LakeHudiIcebergストリームバッチ
30© 2020 NTT DATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力現在のデータレイクの課題感の例データを永続的に扱うデータレイクを起点としたとき、軸①「データの取り回し」、軸②「活用のしやすさ」の2軸から課題を定義できる軸②活用のしやすさ分析や機械学習向けには、シンプル過ぎ。作りこみが煩雑になる。軸②活用のしやすさ
31© 2020 NTT DATA Corporation軸②活用のしやすさ:データレイクへの期待は高度化最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果的と言われたが、次第に高度で複雑なユースケースにも利用されるように…もっと高度な分析手法も使いたい大量のデータを分析したい大量のデータを処理したい78<>×∞ ∋
32© 2020 NTT DATA Corporation軸②活用のしやすさ:基盤に影響のある要件具体例引用:「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19:Proceedings of the 2019 International Conference on Management of DataJune2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050• ユースケースに合わせて多様に加工したい• ユースケースごとに異なる部分を使いたい• 多数のステークホルダで同じデータを使いたい• 結果をフィードバックし、再処理したい• 過去のデータを使って再現したい身近な要件例身近な要件例Apple社の論文から引用した機械学習におけるデータパイプライン
33© 2020 NTT DATA Corporation軸②活用のしやすさ:データ品質管理の例• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems• データを集計し、統計化することで特徴を明確化する(異常検知など)• データをただ保存するだけではなく、データを継続的に使いやすい状態で蓄積、加工してくには…?身近な要件例Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン
34© 2020 NTT DATA Corporation軸②活用のしやすさ:データマイグレーション時にも安全にデータを取り回したい• 複数のレーンで加工し、バリデートすることで安全性を高める• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems• 断続的に絶えず入力が行われる状況下で、複数のデータパイプラインで安全にデータを取りまわすには?身近な要件例Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン
35© 2020 NTT DATA Corporation軸②活用のしやすさ:データレイクに向けられる期待を体系化様々なプロジェクトでスケーラブルであることは前提となっている。特に多様性、柔軟性、安心を支える特徴が求められているデータ操作、処理 データ操作の補助 非機能多様なデータ 多様なライブラリ、入出力手法多様なストレージの活用再現性、説明可能性担保コラボレーション品質管理特徴把握スケーラビリティ可用性運用保守性移行性セキュリティOK※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。
36© 2020 NTT DATA Corporation軸①+②:データレイク高度化のアプローチ種類「データを扱う処理エンジン」と「データを溜めるストレージ」というパーツに注目すると、3種類のアプローチがある処理エンジン側を工夫ストレージをうまく使う技術を追加して工夫ストレージ側を工夫
37© 2020 NTT DATA Corporation軸①+②:データレイク高度化のアプローチ種類「データを扱う処理エンジン」と「データを溜めるストレージ」というパーツに注目すると、3種類のアプローチがある処理エンジン側を工夫ストレージをうまく使う技術を追加して工夫ストレージ側を工夫
38© 2020 NTT DATA Corporation軸①+②:ストレージをうまく使う技術の一例ストレージ( 分 散 フ ァ イ ル シ ス テ ム 、 オブジェクトストレージ 等 )ストレージレイヤソフトウェアアプリケーション、処理ライブラリ論理的なデータセットやテーブル便利な特徴を提供 読み書き素朴な機能を提供 データの実体や管理情報を読み書き論理的なデータセットやテーブルに読み書きすることで、便利な機能を使いつつ透過的にストレージに読み書き下回りにスケーラブルな基盤を利用可能
39© 2020 NTT DATA Corporationストレージレイヤソフトウェアの一例いずれもデータレイクのスケーラビリティを生かしながら、データフォーマットの工夫で新しい特徴を提供する仕組み分析用データセットのスケーラブルなテーブルフォーマット(Apache Iceberg) (Apache Hudi) (Delta Lake)ストレージにおけるストリームデータの扱いを改善する仕組みストレージにトランザクション管理の機能を提供する仕組み
40© 2020 NTT DATA Corporation別セッションで個別の技術に踏み込んだ説明をします2種類についてそれぞれアーキテクチャ、実装、実際の動作を踏まえて、実態に迫って解説します■10/16 13:30「分析指向データレイク実現の次の一手~Delta Lake、なにそれおいしいの?」■10/16 13:45「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」
41© 2020 NTT DATA Corporation本講演のまとめ• AIや機械学習の活用においても、データの取り回しが鬼門• データ基盤を体系化してリファレンスとして活用• データレイクへの期待が多様化。データレイクの進化は、例えば軸①:データの取り回し、軸②:活用のしやすさ、という2軸で考えられる• 注目したいOSSも登場
© 2020 NTT DATA Corporation記 載 さ れ て い る 会 社 名 、 商 品 名 、 サ ー ビ ス 名 は各 社 の 登 録 商 標 ま た は 商 標 で す

Recommended

PDF
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
PPTX
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
PDF
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
Oracle Analytics Cloud のご紹介【2021年3月版】
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
Oracle Data Guard による高可用性
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PDF
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
PPTX
祝!PostgreSQLレプリケーション10周年!徹底紹介!!
PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PPTX
OCI GoldenGate Overview 2021年4月版
PPTX
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PDF
Snowflake Architecture and Performance
PDF
分散トレーシング技術について(Open tracingやjaeger)
PDF
株式会社コロプラ『GKE と Cloud Spanner が躍動するドラゴンクエストウォーク』第 9 回 Google Cloud INSIDE Game...
PPTX
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
はじめての datadog
PPTX
Oracle Database Vaultのご紹介
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...

More Related Content

PDF
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
PPTX
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
PDF
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
Oracle Analytics Cloud のご紹介【2021年3月版】
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
Oracle Data Guard による高可用性
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
Oracle Analytics Cloud のご紹介【2021年3月版】
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PostgreSQLのfull_page_writesについて(第24回PostgreSQLアンカンファレンス@オンライン 発表資料)
Oracle Data Guard による高可用性

What's hot

PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PDF
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
PPTX
祝!PostgreSQLレプリケーション10周年!徹底紹介!!
PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PPTX
OCI GoldenGate Overview 2021年4月版
PPTX
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PDF
Snowflake Architecture and Performance
PDF
分散トレーシング技術について(Open tracingやjaeger)
PDF
株式会社コロプラ『GKE と Cloud Spanner が躍動するドラゴンクエストウォーク』第 9 回 Google Cloud INSIDE Game...
PPTX
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
PPTX
はじめての datadog
PPTX
Oracle Database Vaultのご紹介
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
祝!PostgreSQLレプリケーション10周年!徹底紹介!!
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
OCI GoldenGate Overview 2021年4月版
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
Snowflake Architecture and Performance
分散トレーシング技術について(Open tracingやjaeger)
株式会社コロプラ『GKE と Cloud Spanner が躍動するドラゴンクエストウォーク』第 9 回 Google Cloud INSIDE Game...
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
はじめての datadog
Oracle Database Vaultのご紹介

Similar to NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)

PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
Spark SQL - The internal -
PPTX
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
PDF
Apache Spark 1000 nodes NTT DATA
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PDF
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
PDF
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
PDF
避けては通れないビッグデータ周辺の重要課題
PDF
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
PDF
【基本を知ろう】クラウド・データレイクを実現する各サービス最新情報(Oracle Cloudウェビナーシリーズ: 2020年10月15日)
PDF
基調講演:「多様化する情報を支える技術」/西川徹
PDF
tut_pfi_2012
PDF
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
PPTX
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
PPTX
Data x AI x API で考えるビジネスインフラ
PPTX
【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~
PDF
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Spark SQL - The internal -
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
Apache Spark 1000 nodes NTT DATA
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)
避けては通れないビッグデータ周辺の重要課題
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
【基本を知ろう】クラウド・データレイクを実現する各サービス最新情報(Oracle Cloudウェビナーシリーズ: 2020年10月15日)
基調講演:「多様化する情報を支える技術」/西川徹
tut_pfi_2012
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
Data x AI x API で考えるビジネスインフラ
【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
 

More from NTT DATA Technology & Innovation

PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
PDF
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
PDF
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PDF
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PDF
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
PDF
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
PDF
Gartnerも注目するグリーンソフトウェアの実現に向けて (Green Software Foundation Global Summit 2024 T...
PDF
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
PDF
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
PDF
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
PDF
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
PDF
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
PDF
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
2025年現在のNewSQL (最強DB講義 #36 発表資料)
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
Gartnerも注目するグリーンソフトウェアの実現に向けて (Green Software Foundation Global Summit 2024 T...
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)

  • 1.
    © 2020 NTTDATA CorporationNTTデータ テクノロジーカンファレンス 2020NTTデータが考えるデータ基盤の次の一手~AI活用のために知っておくべき新潮流とは?~2020年10月14日株式会社NTTデータ エグゼクティブITスペシャリスト 土橋 昌
  • 2.
    2© 2020 NTTDATA Corporation自己紹介 専門分野は、オープンソースソフトウェア活用、データ活用基盤、分散処理 Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に関する研究開発、システム開発を主導経歴 技術カンファレンス Strata Data Conference, Spark Summit,Kafka Summit, Hadoop/Spark Conference Japan,USENIX OpML 等 多 数 登 壇・採録 翔泳社 『Apache Spark入門』、『Apache Kafka 分散メッセージングシステムの構築と活 用』 など 執筆・監修登壇・出版など土橋 昌(どばし まさる)エグゼクティブ I T スペシャリストNTTデータ インテグレーション技術/OSSプロフェッショナルサービス
  • 3.
    © 2020 NTTDATA CorporationAIや機械学習とデータ基盤3
  • 4.
    4© 2020 NTTDATA Corporationなぜデータ基盤に着目するか?参考)「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換(2017),丸山 宏「 機械学習とデータ駆動システム &ソフトウェアエンジニアリング 」ESS2018招待講演, 鷲崎弘宜目標 データモデル アクション機械学習等では、モデル・アルゴリズムをデータから決定する
  • 5.
    5© 2020 NTTDATA CorporationNTTデータの考えるAI適正利用においても基盤は重要別講演「信頼できるAI活用を支えるNTTデータの理念と技術」(NTTデータ冨安)から引用
  • 6.
    6© 2020 NTTDATA Corporationビッグデータ関連の市場は堅調国内BDAテクノロジー/サービス市場支出額現場感覚で見ても将来に向けた取り組みのために、改めてデータ活用・活用基盤を見直す話が多いSource:『20200526_JPJ45144420_国内BDAテクノロジー/サービス市場予測、2020年~2024年(May2020,IDC #JPJ45144420)』Note:本市場予測は、2020年3月末時点における新型コロナウイルス感染症(COVID-19)の影響および見通しを考慮したものである
  • 7.
    © 2020 NTTDATA Corporation 7【質問】データ活用に際し、ご自身の組織はITインフラスキルに自信がありますか?(選択肢)A. 自組織には専門家不在で困っているB. 一部専門家がいるが不安があるC. 専門家集団なのでスキルに問題ないD. 専門知識を使って他者を支援する組織である不安自信あり
  • 8.
    8© 2020 NTTDATA Corporationデータを活用したサービスや改善が着実に登場している• 危険外来種植物検知• コンテンツ配信サービス
  • 9.
    ケースチャレンジデータの種類9© 2020 NTTDATA Corporation■実現したいことの流れ■汎用的な並列分散処理基盤と機械学習基盤で実現公共:危険外来種植物の検知ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指す• 機械学習を利用し、大量の画像の中から危険外植物を見つける• 専門家でないと判別の難しい植物を見つける• 全地域を対象とすると膨大な量の画像データを取り扱うことになる• ドローンから撮影した土地の画像• 上記に対して専門家がラベルを付けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York危険外来種植物たくさんの土地の画像ドローによる撮影当社事例
  • 10.
    ケースチャレンジデータの種類10© 2020 NTTDATA Corporationコンテンツ配信サービスNetflixの公開事例膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズする• 大量に集められたデータと機械学習を利用したパーソナライゼーション• データ量が膨大。総量10PB級。1億件/日を処理• リアルタイムとヒストリカルの両データを扱うが、データ品質管理が難しい• メンバデータ• ビデオデータ引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systemsオンラインパイプラインオフラインパイプライン機械学習の活用■パーソナライズ基盤の全体像■品質管理のためのモニタリングヒストリカルデータのデータ分析
  • 11.
    11© 2020 NTTDATA Corporation実際の現場では基本的な課題が根強く存在?「データ分析における企業の課題トップ3は、人材/スキル、データ品質、ITインフラスキルである。」Q. データ分析を行う上で、現在どのような課題を持っていますか?(複数回答)Source: 『20200728_JPJ45144220_2020年国内ビッグテータ/アナリティクス市場企業ユーザー調査(IDC#JPJ45144220,July 2020)』データを扱い、活かすために、適切にITインフラを使いこなしたい
  • 12.
    © 2020 NTTDATA Corporation 12【回答】データ活用に際し、ご自身の組織はITインフラスキルに自信がありますか?(選択肢)A. 自組織には専門家不在で困っているB. 一部専門家がいるが不安があるC. 専門家集団なのでスキルに問題ないD. 専門知識を使って他者を支援する組織である不安自信あり
  • 13.
    © 2020 NTTDATA Corporation 13意外と悩ましいビッグデータ活用基盤
  • 14.
    14© 2020 NTTDATA Corporation昔と比べて選択肢が増えてよくなった?ひと昔は、Hadoopが世を席巻
  • 15.
    15© 2020 NTTDATA Corporation昔と比べて選択肢が増えてよくなった?ひと昔は、Hadoopが世を席巻要件の高度化 手段の多様化
  • 16.
    16© 2020 NTTDATA Corporation人は考慮すべきものと選択肢が多すぎると決められない
  • 17.
    17© 2020 NTTDATA Corporationそこで抽象化して考える⇒入力・処理・蓄積・活用本質的にはデータレイクを中心に入力と出力をつなげるだけ。しかし現実には要件と手段が多様すぎて単純化困難Collect.Data LakeData TransferTfVisualization/Analysis/BIPortal/Search(Management)VisualizationStreamingProcessingAI/ML(Modeling)ETLFileTransportingAPIBulk LoaderData HubDWHTrans-formingDataMartデータマートDataMartDataMartAI/ML(Inference)TfTo APINotification/AlertAccumu-lationTransforming UtilizationDataSourceBatchStreamCooperation/AnalysisDataOpsSystemCooperationReportingInteractiveData SearchReal-timeAnalysisFlexible DataProcessingPlatformUsability Scalability
  • 18.
    18© 2020 NTTDATA CorporationNTTデータはリファレンスとして知見を集約して活用過去の知見を集約。例えば医療やユーティリティ※のような安心・安全が求められる領域におけるシステムグランドデザインや検討で参照されている※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用
  • 19.
    19© 2020 NTTDATA Corporationポイント1:オープンソースソフトウェアを生かすには?データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなっている。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いたいプロダクトBのカバー範囲/得意分野プロダクトAのカバー範囲/得意分野実案件の要件範囲各プロダクトの特長を組み合わせて要件を満たすようにデザインするプロダクトCのカバー範囲/得意分野
  • 20.
    20© 2020 NTTDATA Corporationポイント2:プロダクトの特性を的確にとらえるには?プロダクト誕生には「どうしても突破しなくてはならなかった課題」=秘話がある。「はじまり」をひも解き、変遷を理解することで特性が分かる論文化されていることもある現実の特性は実装に依存する成長とともにコア以外の要素が充実する
  • 21.
    21© 2020 NTTDATA Corporationポイント3:的確に素早くグランドデザインするには?経験的なベストプラクティスを体系化して育てる。体系化されたリファレンスモデルをアレンジしてブートストラップベースのアーキテクチャ体系 ベースの検討観点 エンジニアリング
  • 22.
    © 2020 NTTDATA Corporationデータレイクの新潮流
  • 23.
    24© 2020 NTTDATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力データ基盤では「データレイク」が活用の起点Single Source of Truth※ここではデータレイク≒永続用のストレージとする
  • 24.
    25© 2020 NTTDATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力現在のデータレイクの課題感の例データを永続的に扱うデータレイクを起点としたとき、軸①「データの取り回し」、軸②「活用のしやすさ」の2軸から課題を定義できる軸①データの取り回し軸②活用のしやすさストリームデータと合わせて扱おうとするとアーキテクチャが複雑になる分析や機械学習向けには、シンプル過ぎ。作りこみが煩雑になる。軸①データの取り回し 軸②活用のしやすさ
  • 25.
    26© 2020 NTTDATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力現在のデータレイクの課題感の例データを永続的に扱うデータレイクを起点としたとき、軸①「データの取り回し」、軸②「活用のしやすさ」の2軸から課題を定義できる軸①データの取り回しストリームデータと合わせて扱おうとするとアーキテクチャが複雑になる軸①データの取り回し
  • 26.
    27© 2020 NTTDATA Corporation軸①データの取り回し:まずは基本のバッチ処理Single Source of Truthとしてのデータレイクを中心に、その中のデータを活用するための処理エンジンを並べるデータレイク処理エンジン活用入力シンプル!
  • 27.
    28© 2020 NTTDATA Corporation軸①データの取り回し:ストリームデータの流れを加えるデータレイクの横に、ニアリアルタイムでデータ処理するパイプラインを構成データレイク処理エンジン活用バッチ入力データハブメッセージングストリーム処理エンジンストリーム入力いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・途中や末端でのバッチとストリームの統合が難しい
  • 28.
    29© 2020 NTTDATA Corporation軸①データの取り回し:そこでデータレイクを高度化データレイク上でストリームデータを統合し、分析用途にも扱いやすくできたら…?という一石を投じる技術が登場ストレージ部分で統合通知(ストリーム)加工分析・機械学習・AI活用収集収集 メッセージング/加工多様なクエリエンジンを利用分析・可視化高度化されたデータレイクDelta LakeHudiIcebergストリームバッチ
  • 29.
    30© 2020 NTTDATA Corporationビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)データレイク処理エンジン活用入力データハブメッセージングストリーム処理エンジン入力現在のデータレイクの課題感の例データを永続的に扱うデータレイクを起点としたとき、軸①「データの取り回し」、軸②「活用のしやすさ」の2軸から課題を定義できる軸②活用のしやすさ分析や機械学習向けには、シンプル過ぎ。作りこみが煩雑になる。軸②活用のしやすさ
  • 30.
    31© 2020 NTTDATA Corporation軸②活用のしやすさ:データレイクへの期待は高度化最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果的と言われたが、次第に高度で複雑なユースケースにも利用されるように…もっと高度な分析手法も使いたい大量のデータを分析したい大量のデータを処理したい78<>×∞ ∋
  • 31.
    32© 2020 NTTDATA Corporation軸②活用のしやすさ:基盤に影響のある要件具体例引用:「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19:Proceedings of the 2019 International Conference on Management of DataJune2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050• ユースケースに合わせて多様に加工したい• ユースケースごとに異なる部分を使いたい• 多数のステークホルダで同じデータを使いたい• 結果をフィードバックし、再処理したい• 過去のデータを使って再現したい身近な要件例身近な要件例Apple社の論文から引用した機械学習におけるデータパイプライン
  • 32.
    33© 2020 NTTDATA Corporation軸②活用のしやすさ:データ品質管理の例• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems• データを集計し、統計化することで特徴を明確化する(異常検知など)• データをただ保存するだけではなく、データを継続的に使いやすい状態で蓄積、加工してくには…?身近な要件例Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン
  • 33.
    34© 2020 NTTDATA Corporation軸②活用のしやすさ:データマイグレーション時にも安全にデータを取り回したい• 複数のレーンで加工し、バリデートすることで安全性を高める• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems• 断続的に絶えず入力が行われる状況下で、複数のデータパイプラインで安全にデータを取りまわすには?身近な要件例Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン
  • 34.
    35© 2020 NTTDATA Corporation軸②活用のしやすさ:データレイクに向けられる期待を体系化様々なプロジェクトでスケーラブルであることは前提となっている。特に多様性、柔軟性、安心を支える特徴が求められているデータ操作、処理 データ操作の補助 非機能多様なデータ 多様なライブラリ、入出力手法多様なストレージの活用再現性、説明可能性担保コラボレーション品質管理特徴把握スケーラビリティ可用性運用保守性移行性セキュリティOK※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。
  • 35.
    36© 2020 NTTDATA Corporation軸①+②:データレイク高度化のアプローチ種類「データを扱う処理エンジン」と「データを溜めるストレージ」というパーツに注目すると、3種類のアプローチがある処理エンジン側を工夫ストレージをうまく使う技術を追加して工夫ストレージ側を工夫
  • 36.
    37© 2020 NTTDATA Corporation軸①+②:データレイク高度化のアプローチ種類「データを扱う処理エンジン」と「データを溜めるストレージ」というパーツに注目すると、3種類のアプローチがある処理エンジン側を工夫ストレージをうまく使う技術を追加して工夫ストレージ側を工夫
  • 37.
    38© 2020 NTTDATA Corporation軸①+②:ストレージをうまく使う技術の一例ストレージ( 分 散 フ ァ イ ル シ ス テ ム 、 オブジェクトストレージ 等 )ストレージレイヤソフトウェアアプリケーション、処理ライブラリ論理的なデータセットやテーブル便利な特徴を提供 読み書き素朴な機能を提供 データの実体や管理情報を読み書き論理的なデータセットやテーブルに読み書きすることで、便利な機能を使いつつ透過的にストレージに読み書き下回りにスケーラブルな基盤を利用可能
  • 38.
    39© 2020 NTTDATA Corporationストレージレイヤソフトウェアの一例いずれもデータレイクのスケーラビリティを生かしながら、データフォーマットの工夫で新しい特徴を提供する仕組み分析用データセットのスケーラブルなテーブルフォーマット(Apache Iceberg) (Apache Hudi) (Delta Lake)ストレージにおけるストリームデータの扱いを改善する仕組みストレージにトランザクション管理の機能を提供する仕組み
  • 39.
    40© 2020 NTTDATA Corporation別セッションで個別の技術に踏み込んだ説明をします2種類についてそれぞれアーキテクチャ、実装、実際の動作を踏まえて、実態に迫って解説します■10/16 13:30「分析指向データレイク実現の次の一手~Delta Lake、なにそれおいしいの?」■10/16 13:45「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」
  • 40.
    41© 2020 NTTDATA Corporation本講演のまとめ• AIや機械学習の活用においても、データの取り回しが鬼門• データ基盤を体系化してリファレンスとして活用• データレイクへの期待が多様化。データレイクの進化は、例えば軸①:データの取り回し、軸②:活用のしやすさ、という2軸で考えられる• 注目したいOSSも登場
  • 41.
    © 2020 NTTDATA Corporation記 載 さ れ て い る 会 社 名 、 商 品 名 、 サ ー ビ ス 名 は各 社 の 登 録 商 標 ま た は 商 標 で す

Editor's Notes

  • #10 危険外来種植物など統一する★
  • #11 NTC2020時に引用OKの旨%
  • #12 NTC2020時に引用OKの旨受領済み
  • #18 実際のところ、ここまで単純化するのに苦労する。単一の解というわけではなく、さまざまなバリエーションや亜種が存在する。
  • #36 機能・仕様一覧https://nttdseh.box.com/s/xkfanl4kh9pfvssex4euu6z44j6x47yr
  • #37 様々な処理エンジンで使える方法を提供(多くの処理エンジンが対応しているプロトコルを通じて透過的に特徴を提供すれば、幅広い処理エンジンに同時に対応できる)パブリッククラウドのストレージ、すでにデファクトスタンダードのHDFSなど、いじりづらい技術に変更を加えるより現実的。また既存のスケーラブルなストレージの特長をそのまま利用可能。
  • #47 Innovation Conference2020時に引用OKの旨受領済み

[8]ページ先頭

©2009-2025 Movatter.jp