Movatterモバイル変換


[0]ホーム

URL:


DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

DAIS2024参加報告~Spark中心にしらべてみた~(JEDAI (Japan Enduser Group | Databricks Innovation) DAIS Recap 講演資料)2024年10月1日(火)NTTデータグループInnovation技術部内藤佑太、北波紘子

Embed presentation

© 2024 NTT DATA Group Corporation 1Data+AI Summit 2024 参加報告~ Sparkを中心にしらべてみた ~株式会社NTTデータグループ 技術革新統括本部 Innovation技術部 内藤 佑太/北波 紘子
© 2024 NTT DATA Group Corporation 201自己紹介
© 2024 NTT DATA Group Corporation 3LT登壇者紹介北波 紘子Hiroko Kitaba株式会社NTTデータグループ Innovation技術部高度OSSサポート担当 主任<略歴>金融/製薬/エネルギーなど様々な業界でOSS使用プロジェクト開発/性能検証支援/アジャイル開発のコンサルティングに従事2023年Databricks Solutions Architect Champion 取得現在の業務は主にSpark、HadoopDatabricks使用プロジェクトの支援今はまっているものポケモンGO(パッチール集め)内藤 佑太Yuta Naito株式会社NTTデータグループ Innovation技術部高度OSSサポート担当 主任<略歴>Smart CityやMaaSなどのPoC案件におけるアジャイル型の開発支援やスクラムの導入支援/データプラットフォームやMobileアプリの開発に従事現在は、OSSのサポート業務及びSpark等のOSSを用いた基盤更改などの案件への技術支援
© 2024 NTT DATA Group Corporation 4普段の業務 [高度OSSサポート] とは⚫ Hadoop/Spark/Kafkaなどの高難易度なプロダクトのサポートを提供⚫ OSS活動やプロジェクト支援を実施するとともに、中長期的なサポートを提供している⚫ Hadoop/Spark/Bigtop などのコミッタも在籍高度OSSサポート• ミドルウェア等をソースコードレベルで理解/調査できる実力があるからこそ課題が解決できる• 技術の方向性にも影響を持つ• 世の中では提供仕切れていない「長期サポート」「高度サポート」を提供しているケースもある• 10年間安心して使える、なども支えている高い技術力安心・安全の実績
© 2024 NTT DATA Group Corporation 502会場の雰囲気
© 2024 NTT DATA Group Corporation 6Data + AI Summit 2024 とは?• Data + AI Summitは、Databricks社が毎年開催する最大規模のカンファレンス (旧 Spark + AI Summit)2024年は6月10日から6月13日までの4日間にわたってサンフランシスコで開催された• 今年のテーマは 「DATA INTELLIGENCE FOR ALL」過去最高の60,000人以上が視聴/16,000人以上が現地参加、600以上のセッション/130以上のスポンサーブース展示• 弊社メンバはApache Sparkや周辺サービスの最新動向などをキャッチアップしに行った会場Moscone Center(North, South, West)/インターコンチネンタルホテル
© 2024 NTT DATA Group Corporation 7スケジュール可能な限り聴講セッションを詰め込み(↓)、現地ではさらに聞きに行った講演たくさん!詰め込みすぎ!
© 2024 NTT DATA Group Corporation 8聴講セッションの紹介 KeyNoteKeyNoteについては弊社メンバのQiita記事まとめがあります。ぜひご確認ください1日目• #1 https://qiita.com/nttd-yuan/items/00710ead4910c2e1e742• #2 https://qiita.com/nttd-tamurasua/items/3db302751bfb184f66b02日目• #1 https://qiita.com/nttdg-naitouyut/items/9be0616c39ea0dff8423• #2 https://qiita.com/nttd-kitabah/items/af307e54af795ec2ea9e1日目 2日目#1 #2#1 #2
© 2024 NTT DATA Group Corporation 9ダジャレTシャツ by Google Cloud会場の雰囲気
© 2024 NTT DATA Group Corporation 10Data After Hours• SFMoMAを貸し切ったド派手なパーティーが開催• 現地の有名なラッパーがゲスト出演したという情報が(地元のバーで噂になっていた)• 会場で配られていたラーメンが美味カラフルなチーズパン光るわたあめラーメン
© 2024 NTT DATA Group Corporation 1103気になってしらべてみた①
© 2024 NTT DATA Group Corporation 12Sparkの機能紹介発表を聞いて気になった点を調べてみた・Spark Connect・Variant 型以前から聞いたことはあるが、普通にSparkを実行するのとで 何が違うのだろうか?半構造化データの処理性能が大幅に上がるらしいが、どんな仕組みなのだろうか?
© 2024 NTT DATA Group Corporation 13Spark Connect についてSpark Connect の背景は?• 密結合されたドライバーアーキテクチャにより、リモート接続やバージョンアップが困難• 現行では、クライアントアプリケーションとドライバーが密結合しており、クラスターの安定性や開発効率に課題Spark Connect とは?• クラスタへのリモート接続と操作を可能とするクライアントサーバーアーキテクチャの仕組み• DataFrame APIを基に、クライアントとサーバーを分離したリモート接続の仕組みを提供• 開発者がリモートでクラスターに接続し、DataFrame操作の実行を可能とする• クライアントとサーバーを分離することで、シームレスなアップグレード、安定性の向上、セキュリティ強化を目指すhttps://spark.apache.org/docs/latest/spark-connect-overview.html
© 2024 NTT DATA Group Corporation 14Spark Connect について使用によるメリット・SQL以外の言語でリモート接続するためには、外部ツール(Apache Livyなど)が必要・Spark Connectによりネイティブなリモート接続が可能・インタラクティブなデータ探索や最新の開発ツールとの統合がサポートされていなかった・Spark Connectにより、IDEなどのローカルツールとの統合が強化・1つのクライアントによるOOMなどの例外が全ユーザーに影響する可能性・分離されたアーキテクチャにより、安定性を向上・クライアントとサーバーのAPI密結合のためアップグレード時の依存関係問題が生じる・バージョン間の互換性を確保リモート接続 開発者体験安定性 バージョンアップ
© 2024 NTT DATA Group Corporation 15Spark Connect についてSpark Connect の仕組みについて1. DataFrame API 上に構築され、クライアント・サーバ間で言語に依存しないプロトコルを使用2. クライアントにおいてDataFrame 操作をプロトコルバッファーを用いてエンコードされる未解決論理プランに変換し、gRPCでサーバーへ送信3. サーバーではSpark Connect エンドポイントを通じてそれらを受信し、解析してテーブルやカラムなどの参照を解決した実行プランを、Spark の標準実行プロセスで開始する4. 実行結果はApache Arrow でエンコードされた行バッチとして gRPC 経由でクライアントに送信されるSQL QueryDataFrameUnresolvedLogical PalnLogical PalnOptimizedLogical PlanPhysicalPlanCostModelSelectedPhysicalPlanRDDsQueryExecutionPlannerOptimizerAnalyzerPlannerサーバー側の処理クライアント側の処理①②③ ④https://spark.apache.org/docs/latest/spark-connect-overview.html
© 2024 NTT DATA Group Corporation 16Variant 型についてVariant 型の背景は?• 従来のJSONなどの文字列と比較して処理性性能と柔軟性が向上した新たな半構造化データ• データ分析など多くのユースケースで半構造化データの取り扱いが増加• 半構造化データは、柔軟性がある一方でクエリ性能やデータ格納の効率に課題があるVariant 型とは ?• 一つのデータ型で様々な形式のデータを扱える柔軟な型を提供• 基本的なデータ型(プリミティブ型、配列、オブジェクト)を統合して扱う• ネスト構造が深いデータでも効率的にクエリを実行できるように設計
© 2024 NTT DATA Group Corporation 17Variant 型について使用によるメリット・ネスト構造でも高速なデータの解析と取得が可能・半構造化データの深いネストやフィールド数が多いデータの効率的なクエリが可能・データに応じたバイナリエンコーディングにより無駄なメモリ使用を削減パフォーマンスの最適化 データ格納の効率化効率的なクエリ処理
© 2024 NTT DATA Group Corporation 18Variant 型についてVariant 型の仕組み• メタデータと値のエンコーディング:Variant 型は2つのバイナリ値(メタデータと値)でエンコードされて効率的に格納できる• プリミティブ型、配列、オブジェクトのサポート:それぞれ異なるエンコーディング方式を用いて、異なるデータ型を統合的に扱う• 辞書ベースのフィールドID管理:オブジェクト内のフィールドは辞書により効率的に管理され、クエリや検索時に高速化を実現JSON String [ {"key1": 1, "key2": 2 }, {"key1": 3, "key2": 4} ]Value [ {0: 1, 1: 2 }, {0: 3, 1: 4} ]Metadata [ "key1", "key2" ]headerdictionarysize (N)keyoffset 1・・・keyoffset Nkey 1 key n・・・Metadataheadernumfields (k)fieldid 1fieldoffset 1・・fieldid k・・fieldoffset k・・fieldvalue 1fieldvalue kValueキーの数インデックスでアクセス可能な文字列のリストのようなものバージョン情報などキーを参照するフィールドID・重複するキーのフィールド名を複数回保存する必要がなく、個別のキーをメタデータに1回保存するだけで済む・特定の位置のキーのフィールドに二分探索でアクセスが可能Variant 型への変換・バイナリエンコードによりキーは数字に変換され、メタデータのインデックスと紐づく格納の仕方 変換例
© 2024 NTT DATA Group Corporation 1904気になって調べてみた②
© 2024 NTT DATA Group Corporation 20Spark4.0の発表参考講演:「KeyNote2日目」「What’s Next for the Upcoming Apache Spark 4.0 Release?」「pandas on Spark: Simplicity of pandas with efficiency of Spark」
© 2024 NTT DATA Group Corporation 21Spark4.0の発表1 Python UDTFの機能拡充2 構造化ログフレームワーク参考講演:「KeyNote2日目」「What’s Next for the Upcoming Apache Spark 4.0 Release?」「pandas on Spark: Simplicity of pandas with efficiency of Spark」Sparkでログを解析するとき苦労するので朗報だと思った!KeyNoteでPySparkが大々的に取り上げられていた!新しい機能が増えた!
© 2024 NTT DATA Group Corporation 22Python UDTF についてPython UDTF(Python User Defined Table Functions)自体はSpark3.5から使えるようになった機能Spark4.0でさらに機能が追加されたPython UDTFとは• 1行以上の入力に対し複数の出力行(テーブル)を返却するユーザ定義関数• 提供されている関数等では実現できないような柔軟なデータ加工が可能• Pythonだけでテーブル操作ができるため、保守性・可読性の向上につながる今までの実装方法との違いvs Python UDF(ユーザ定義関数、ユーザ独自の関数を定義できるPythonの機能の一つ)各呼び出しからスカラー値を渡す設計であるが、Python UDTFでは出力としてテーブル全体を返せるvs SQL UDTFSQL文のFROM節で呼び出され、表の形式で値を返す関数であるが、Python UDTFではその操作がPython内で処理完結できる
© 2024 NTT DATA Group Corporation 23ExecutorJVMPython UDTF 実現方法DriverExecutor②論理プラン作成③最終的な実行プラン作成TaskPythonプロセス①UDTFの登録Action処理が実行されたタイミング⑤Python UDTFとその引数をシリアライズ⑧処理の結果をデシリアライズするExecutor• 最初に@udtfのデコレータによってUDTFの登録がされ、論理プランに組み込まれる• Executor上ではPython UDFと同じくPythonプロセス上にUDTFとその引数が連携され処理される⑦処理終了後シリアライズした結果をJVMへ返却⑥デシリアライズ後にPython UDTF処理④各ExecutorへTaskとして配布※Driver側のシリアライズ機構は省略※注:従来のPython UDFと同じ
© 2024 NTT DATA Group Corporation 24Python UDTF 実装方法• 実装はドキュメントを参考• 今回のDATA+AI Summitの中でも、Sparkのドキュメントの拡充が発表されているhttps://spark.apache.org/docs/latest/api/python/user_guide/sql/python_udtf.html※4.0バージョンはないため、リンクはlatestバージョン関数をSQLの一部として呼び出すこともPySpark DataFrame APIで呼び出すことも可能
© 2024 NTT DATA Group Corporation 25Python UDTF について新しく追加された機能 4選Polymorphic Analysis:戻り値の型を動的に定義できるデコレータ(静的/既存)、analyzeメソッド(動的)での定義の2種類に 関連:SPARK-44380どちらか一方の指定ではないとエラーが出力されるバリデーション機構ありInput Table Partitioning:Partition、OrderByが入力テーブルで使える関連:SPARK-44503(クエリプランニング) や SPARK-44748 (クエリ実行)、 SPARK-45362(evalメソッド)、SPARK-46040(Analyzeメソッドへの変更) などVariable Keyword Arguments:evalメソッド(もちろんanalyzeメソッドも)の引数を可変にも定義できる関連:SPARK-44749Custom Initialization:analyzeメソッドからevalメソッドへ状態を引き継げるAnalyzeResultのサブクラスを作成することで、後続の関数呼び出しの初期化も行える 関連:SPARK-45402効率的に処理したい場合にはArrow最適化を使用するデフォルトでは無効化※されているため、有効化する際にはデコレータのuseArrowをTrueにするPython UDFはSpark4.0からデフォルトになったため今後有効化されるかも※動作が不安定であるため? SPARK-44479 (3.5.0で解決済み) など1234
© 2024 NTT DATA Group Corporation 26なぜ Apache Arrow を使用すると処理が速くなるかArrowのデータ形式• メモリ内に保存された列指向のデータ形式になる• 同じ列のデータが連続したメモリ領域にグループ化される (RecordBatchごと)※注:従来のPython UDFと同じデータは行単位でメモリ上に配置される列単位のアクセスはメモリ上に散らばったデータを取得するため時間がかかる全ての行がUDTFへ連携される大量データを連携する際には時間がかかるデータは列単位で同じメモリ領域に配置されるPandasによるデータ分析処理では列単位のアクセスが多いため、検索が高速化分析に必要な列のみ処理できるデータを列単位で連携することが可能であるため、UDTFへのデータ連携が高速化シリアライズも必要なデータのみに絞れるArrow最適化前 Arrow最適化後行指向データidnumtimestampidnumtimestampidnumtimestampSchemaColumns0123列指向データRecordBatchidnumtimestampデータはRecordBatch単位でArrow形式へ変換されるUDFの例になるが、1.5~2倍の性能差があると発表されていた
© 2024 NTT DATA Group Corporation 27戻り値の型指定Python UDTF 触ってみた (抜粋)デコレータで戻り値の型指定 analyzeメソッドで戻り値の型指定class定義メソッド定義戻り値の型定義analyzeで戻り値の型定義Python UDTF を触ってみての注意点・気を付けるべきことPython UDTFを使う際の注意点は基本的にPython UDFと同じどのくらいメモリを使用する処理なのか・出力があるかPython UDF以上に気を付けて設計すべき※おまけ:Sparkにこんな機能を追加したい① UDFやUDTF内で出たエラーを正確にDriverがキャッチできる機構Executor側のログを見ないと正確なエラーがわからないのがきついExecutorを大量に起動している場合には確認が大変② Pythonプロセス内でデータサイズ増加の予測や見積りできる機能知らず知らずのうちにデータ量が多くなる処理している
© 2024 NTT DATA Group Corporation 28構造化ログフレームワーク構造化ログフレームワークはSpark4.0から追加され、「Usability」の一つとして紹介された機能構造化ログフレームワークとは• ログが構造的になった (デフォルトログ形式がJSONに!) 関連:SPARK-47574• Sparkログは非構造であり分析が困難であったが、専用のシステムログディレクトリが導入されログが構造化された• フィルタリング機能でほしい情報を効率的に取得できる• 例:executor_idでフィルタして特定のExecutor情報を取得できるなぜ必要?• 欲しいログがすぐに検索できる• ログデータが分析しやすくなることにより、問題特定スピードが上がる• ログ解析システムへの連携が容易になる
© 2024 NTT DATA Group Corporation 29構造化ログフレームワーク 触ってみたSpark4.0.0Spark3.5.1{"ts":"2024-08-06T07:16:30.681Z","level":"INFO","msg":"Starting executor ID driver on hostip-172-24-192-237.ap-northeast-1.compute.internal","logger":"Executor"}構造化された見た目24/08/06 16:24:46 INFO Executor: Starting executor ID driver on host 172.28.220.134いつもの見た目このくらいだったら大差ないが、複雑で長いログになると欲しいログを取得するのが面倒
© 2024 NTT DATA Group Corporation 30構造化ログフレームワーク 触ってみた欲しいログをすぐに取得するには?WARNレベルの実行結果のメッセージを取得する例 (※)※stderrファイルの1行目にWARNING: Using incubator modules: jdk.incubator.vector と入っていたため、そのままjqコマンドで実行できなかったログの中身を確認する際にとても便利な機能jsonをインプットできるシステムとの連携が容易にSparkSQLやPandasで分析することも可能
© 2024 NTT DATA Group Corporation 3105まとめ
© 2024 NTT DATA Group Corporation 32まとめ• DATA+AI Summit2024で、DatabricksやSpark周りの開発やビジネスの盛り上がりを身をもって体感できた• Spark4.0の新機能が発表され、注目領域となっていた• Spark ConnectやVariant型など、データ利活用のシステムにおける実課題を見据えた対応も多い• PySparkで機能の幅が増え、また構造化ログ等によるユーザの使いやすさが向上• 世界中の技術者と会話できる。講演後も時間を設けてくれる方が多くフレンドリーまた来年も情報のキャッチアップのために参加したい• OSSのコミュニティ活動やデータ基盤の動向などの調査でも、技術/ビジネス それぞれで多くの発見を得られる!初めての海外イベント参加でDatabricks社の社員の方々はじめ、様々な企業の方にお世話になりました!この場をお借りして御礼を申し上げます。今後ともよろしくお願いいたします
© 2024 NTT DATA Group Corporation 33来年参加する方向け おすすめしたいこと講演スケジュールを詰めすぎてはいけない!• 体力が持たない!精神的にもきつい!講演後に講演者と話したくても時間がない!埋まっている講演も当日飛び入り参加が可能• 事前の予約ができなくても安心して大丈夫Teamsの録音機能がかなり優秀• 聞き取れなかったところを録音して確認した• 色々な英語に対応しており、文字起こし精度が良いLinkedInを登録する• 名刺も必要だが、LinkedIn交換が主流ドルをそこまで現金化しなくてよい• カード社会• ホテルの部屋のチップくらいしか使わなかった(10ドルくらい)事前に知り合い・現地に詳しい人と仲良くなっておく• 困ったときに連絡できるように• 現地での良いお店などの情報収集もできる生活面イベント参加面
© 2024 NTT DATA Group Corporation 3406会場の雰囲気 ~続~余裕あったら
© 2024 NTT DATA Group Corporation 35ハッカソン• ハッカソンにも参加。LLMがお題• 即興でチーム編成し、協力して構想、使うデータの選定、データの処理方式手法まで練れたが、時間内に実装が終わらず志半ばで終了…• お題にご興味ある方は→https://docs.google.com/document/d/e/2PACX-1vQ3RDr5eRItkO-48Zgftk72LXJydQwxYqWc6ftFHCzJEGFLTy1y-Ft2m7smwwHg5VrpLAEMf7p2qgMJ/pub#id.jx5gfjnth1z1• 時代はLLMを知っていること前提会場の様子上記リンクのQRコード
© 2024 NTT DATA Group Corporation 36サンフランシスコの様子• 街は噂に聞いていたより綺麗で治安も(気を付けていれば)よく、なにより気候がとても良い• 円安が加速しており(1ドル=160円)、外食すると最低でも$25~(約4000円)の印象• 食べものはどれも美味朝ごはん(オムレツ)内藤が食べたチーズケーキ北波が食べたチーズケーキ夜ごはん(ステーキ)
© 2024 NTT DATA Group Corporation 37現地でしかできないこと• Waymo• Lv4の自動運転• サンフランシスコ市内限定で走行• 運転が静かで乗り心地は最高
DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

Recommended

PDF
Apache spark 2.3 and beyond
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PDF
Spark SQL - The internal -
PPTX
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PPT
Quick Overview of Upcoming Spark 3.0 + α
PPTX
Apache Spark 2.4 and 3.0 What's Next?
PPTX
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
PPTX
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
PDF
Yifeng spark-final-public
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
The Future of Apache Spark
PDF
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
PDF
Sparkのクエリ処理系と周辺の話題
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
PPTX
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
PDF
Developers.IO 2019 Effective Datalake
PDF
強化されたEKSのオブザーバビリティ(AWS re:Invent 2025 re:cap LT 大会 発表資料)
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)

More Related Content

PDF
Apache spark 2.3 and beyond
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PDF
Spark SQL - The internal -
PPTX
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
Apache spark 2.3 and beyond
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
Spark SQL - The internal -
Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)
Spark Summit 2014 の報告と最近の取り組みについて
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall

Similar to DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PPT
Quick Overview of Upcoming Spark 3.0 + α
PPTX
Apache Spark 2.4 and 3.0 What's Next?
PPTX
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
PPTX
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
PDF
Yifeng spark-final-public
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
The Future of Apache Spark
PDF
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
PDF
Sparkのクエリ処理系と周辺の話題
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
PPTX
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
PDF
Developers.IO 2019 Effective Datalake
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
Quick Overview of Upcoming Spark 3.0 + α
Apache Spark 2.4 and 3.0 What's Next?
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Yifeng spark-final-public
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
The Future of Apache Spark
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Sparkのクエリ処理系と周辺の話題
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
Developers.IO 2019 Effective Datalake

More from NTT DATA Technology & Innovation

PDF
強化されたEKSのオブザーバビリティ(AWS re:Invent 2025 re:cap LT 大会 発表資料)
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
PDF
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PDF
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
PDF
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
PDF
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
PDF
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
PDF
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
PDF
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
PDF
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PDF
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
PDF
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
PDF
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)
強化されたEKSのオブザーバビリティ(AWS re:Invent 2025 re:cap LT 大会 発表資料)
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
SAFe実践から見えた、フレームワークより大切な組織変革の道程(Scrum Fest Sendai 2025 発表資料)
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
Can We Use Rust to Develop Extensions for PostgreSQL? (POSETTE: An Event for ...
つくって壊して直して学ぶ Database on Kubernetes (CloudNative Days Summer 2025 発表資料)
2025年現在のNewSQL (最強DB講義 #36 発表資料)
Java in Japan: A Journey of Community, Culture, and Global Integration (JavaO...
Unveiling the Hidden Layers of Java Class Files: Beyond Bytecode (Devnexus 2025)
論理レプリケーションのアーキテクチャ (第52回 PostgreSQLアンカンファレンス@オンライン 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
pgbenchのスレッドとクライアント (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLのgitレポジトリから見える2024年の開発状況 (第51回 PostgreSQLアンカンファレンス@オンライン 発表資料)
ストリーム処理はデータを失うから怖い?それ、何とかできますよ! 〜Apahe Kafkaを用いたストリーム処理における送達保証〜 (Open Source...
生成AI時代のPostgreSQLハイブリッド検索 (第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
静かに変わってきたクラスファイルを詳細に調べて楽しむ(JJUG CCC 2024 Fall講演資料)

DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

  • 1.
    © 2024 NTTDATA Group Corporation 1Data+AI Summit 2024 参加報告~ Sparkを中心にしらべてみた ~株式会社NTTデータグループ 技術革新統括本部 Innovation技術部 内藤 佑太/北波 紘子
  • 2.
    © 2024 NTTDATA Group Corporation 201自己紹介
  • 3.
    © 2024 NTTDATA Group Corporation 3LT登壇者紹介北波 紘子Hiroko Kitaba株式会社NTTデータグループ Innovation技術部高度OSSサポート担当 主任<略歴>金融/製薬/エネルギーなど様々な業界でOSS使用プロジェクト開発/性能検証支援/アジャイル開発のコンサルティングに従事2023年Databricks Solutions Architect Champion 取得現在の業務は主にSpark、HadoopDatabricks使用プロジェクトの支援今はまっているものポケモンGO(パッチール集め)内藤 佑太Yuta Naito株式会社NTTデータグループ Innovation技術部高度OSSサポート担当 主任<略歴>Smart CityやMaaSなどのPoC案件におけるアジャイル型の開発支援やスクラムの導入支援/データプラットフォームやMobileアプリの開発に従事現在は、OSSのサポート業務及びSpark等のOSSを用いた基盤更改などの案件への技術支援
  • 4.
    © 2024 NTTDATA Group Corporation 4普段の業務 [高度OSSサポート] とは⚫ Hadoop/Spark/Kafkaなどの高難易度なプロダクトのサポートを提供⚫ OSS活動やプロジェクト支援を実施するとともに、中長期的なサポートを提供している⚫ Hadoop/Spark/Bigtop などのコミッタも在籍高度OSSサポート• ミドルウェア等をソースコードレベルで理解/調査できる実力があるからこそ課題が解決できる• 技術の方向性にも影響を持つ• 世の中では提供仕切れていない「長期サポート」「高度サポート」を提供しているケースもある• 10年間安心して使える、なども支えている高い技術力安心・安全の実績
  • 5.
    © 2024 NTTDATA Group Corporation 502会場の雰囲気
  • 6.
    © 2024 NTTDATA Group Corporation 6Data + AI Summit 2024 とは?• Data + AI Summitは、Databricks社が毎年開催する最大規模のカンファレンス (旧 Spark + AI Summit)2024年は6月10日から6月13日までの4日間にわたってサンフランシスコで開催された• 今年のテーマは 「DATA INTELLIGENCE FOR ALL」過去最高の60,000人以上が視聴/16,000人以上が現地参加、600以上のセッション/130以上のスポンサーブース展示• 弊社メンバはApache Sparkや周辺サービスの最新動向などをキャッチアップしに行った会場Moscone Center(North, South, West)/インターコンチネンタルホテル
  • 7.
    © 2024 NTTDATA Group Corporation 7スケジュール可能な限り聴講セッションを詰め込み(↓)、現地ではさらに聞きに行った講演たくさん!詰め込みすぎ!
  • 8.
    © 2024 NTTDATA Group Corporation 8聴講セッションの紹介 KeyNoteKeyNoteについては弊社メンバのQiita記事まとめがあります。ぜひご確認ください1日目• #1 https://qiita.com/nttd-yuan/items/00710ead4910c2e1e742• #2 https://qiita.com/nttd-tamurasua/items/3db302751bfb184f66b02日目• #1 https://qiita.com/nttdg-naitouyut/items/9be0616c39ea0dff8423• #2 https://qiita.com/nttd-kitabah/items/af307e54af795ec2ea9e1日目 2日目#1 #2#1 #2
  • 9.
    © 2024 NTTDATA Group Corporation 9ダジャレTシャツ by Google Cloud会場の雰囲気
  • 10.
    © 2024 NTTDATA Group Corporation 10Data After Hours• SFMoMAを貸し切ったド派手なパーティーが開催• 現地の有名なラッパーがゲスト出演したという情報が(地元のバーで噂になっていた)• 会場で配られていたラーメンが美味カラフルなチーズパン光るわたあめラーメン
  • 11.
    © 2024 NTTDATA Group Corporation 1103気になってしらべてみた①
  • 12.
    © 2024 NTTDATA Group Corporation 12Sparkの機能紹介発表を聞いて気になった点を調べてみた・Spark Connect・Variant 型以前から聞いたことはあるが、普通にSparkを実行するのとで 何が違うのだろうか?半構造化データの処理性能が大幅に上がるらしいが、どんな仕組みなのだろうか?
  • 13.
    © 2024 NTTDATA Group Corporation 13Spark Connect についてSpark Connect の背景は?• 密結合されたドライバーアーキテクチャにより、リモート接続やバージョンアップが困難• 現行では、クライアントアプリケーションとドライバーが密結合しており、クラスターの安定性や開発効率に課題Spark Connect とは?• クラスタへのリモート接続と操作を可能とするクライアントサーバーアーキテクチャの仕組み• DataFrame APIを基に、クライアントとサーバーを分離したリモート接続の仕組みを提供• 開発者がリモートでクラスターに接続し、DataFrame操作の実行を可能とする• クライアントとサーバーを分離することで、シームレスなアップグレード、安定性の向上、セキュリティ強化を目指すhttps://spark.apache.org/docs/latest/spark-connect-overview.html
  • 14.
    © 2024 NTTDATA Group Corporation 14Spark Connect について使用によるメリット・SQL以外の言語でリモート接続するためには、外部ツール(Apache Livyなど)が必要・Spark Connectによりネイティブなリモート接続が可能・インタラクティブなデータ探索や最新の開発ツールとの統合がサポートされていなかった・Spark Connectにより、IDEなどのローカルツールとの統合が強化・1つのクライアントによるOOMなどの例外が全ユーザーに影響する可能性・分離されたアーキテクチャにより、安定性を向上・クライアントとサーバーのAPI密結合のためアップグレード時の依存関係問題が生じる・バージョン間の互換性を確保リモート接続 開発者体験安定性 バージョンアップ
  • 15.
    © 2024 NTTDATA Group Corporation 15Spark Connect についてSpark Connect の仕組みについて1. DataFrame API 上に構築され、クライアント・サーバ間で言語に依存しないプロトコルを使用2. クライアントにおいてDataFrame 操作をプロトコルバッファーを用いてエンコードされる未解決論理プランに変換し、gRPCでサーバーへ送信3. サーバーではSpark Connect エンドポイントを通じてそれらを受信し、解析してテーブルやカラムなどの参照を解決した実行プランを、Spark の標準実行プロセスで開始する4. 実行結果はApache Arrow でエンコードされた行バッチとして gRPC 経由でクライアントに送信されるSQL QueryDataFrameUnresolvedLogical PalnLogical PalnOptimizedLogical PlanPhysicalPlanCostModelSelectedPhysicalPlanRDDsQueryExecutionPlannerOptimizerAnalyzerPlannerサーバー側の処理クライアント側の処理①②③ ④https://spark.apache.org/docs/latest/spark-connect-overview.html
  • 16.
    © 2024 NTTDATA Group Corporation 16Variant 型についてVariant 型の背景は?• 従来のJSONなどの文字列と比較して処理性性能と柔軟性が向上した新たな半構造化データ• データ分析など多くのユースケースで半構造化データの取り扱いが増加• 半構造化データは、柔軟性がある一方でクエリ性能やデータ格納の効率に課題があるVariant 型とは ?• 一つのデータ型で様々な形式のデータを扱える柔軟な型を提供• 基本的なデータ型(プリミティブ型、配列、オブジェクト)を統合して扱う• ネスト構造が深いデータでも効率的にクエリを実行できるように設計
  • 17.
    © 2024 NTTDATA Group Corporation 17Variant 型について使用によるメリット・ネスト構造でも高速なデータの解析と取得が可能・半構造化データの深いネストやフィールド数が多いデータの効率的なクエリが可能・データに応じたバイナリエンコーディングにより無駄なメモリ使用を削減パフォーマンスの最適化 データ格納の効率化効率的なクエリ処理
  • 18.
    © 2024 NTTDATA Group Corporation 18Variant 型についてVariant 型の仕組み• メタデータと値のエンコーディング:Variant 型は2つのバイナリ値(メタデータと値)でエンコードされて効率的に格納できる• プリミティブ型、配列、オブジェクトのサポート:それぞれ異なるエンコーディング方式を用いて、異なるデータ型を統合的に扱う• 辞書ベースのフィールドID管理:オブジェクト内のフィールドは辞書により効率的に管理され、クエリや検索時に高速化を実現JSON String [ {"key1": 1, "key2": 2 }, {"key1": 3, "key2": 4} ]Value [ {0: 1, 1: 2 }, {0: 3, 1: 4} ]Metadata [ "key1", "key2" ]headerdictionarysize (N)keyoffset 1・・・keyoffset Nkey 1 key n・・・Metadataheadernumfields (k)fieldid 1fieldoffset 1・・fieldid k・・fieldoffset k・・fieldvalue 1fieldvalue kValueキーの数インデックスでアクセス可能な文字列のリストのようなものバージョン情報などキーを参照するフィールドID・重複するキーのフィールド名を複数回保存する必要がなく、個別のキーをメタデータに1回保存するだけで済む・特定の位置のキーのフィールドに二分探索でアクセスが可能Variant 型への変換・バイナリエンコードによりキーは数字に変換され、メタデータのインデックスと紐づく格納の仕方 変換例
  • 19.
    © 2024 NTTDATA Group Corporation 1904気になって調べてみた②
  • 20.
    © 2024 NTTDATA Group Corporation 20Spark4.0の発表参考講演:「KeyNote2日目」「What’s Next for the Upcoming Apache Spark 4.0 Release?」「pandas on Spark: Simplicity of pandas with efficiency of Spark」
  • 21.
    © 2024 NTTDATA Group Corporation 21Spark4.0の発表1 Python UDTFの機能拡充2 構造化ログフレームワーク参考講演:「KeyNote2日目」「What’s Next for the Upcoming Apache Spark 4.0 Release?」「pandas on Spark: Simplicity of pandas with efficiency of Spark」Sparkでログを解析するとき苦労するので朗報だと思った!KeyNoteでPySparkが大々的に取り上げられていた!新しい機能が増えた!
  • 22.
    © 2024 NTTDATA Group Corporation 22Python UDTF についてPython UDTF(Python User Defined Table Functions)自体はSpark3.5から使えるようになった機能Spark4.0でさらに機能が追加されたPython UDTFとは• 1行以上の入力に対し複数の出力行(テーブル)を返却するユーザ定義関数• 提供されている関数等では実現できないような柔軟なデータ加工が可能• Pythonだけでテーブル操作ができるため、保守性・可読性の向上につながる今までの実装方法との違いvs Python UDF(ユーザ定義関数、ユーザ独自の関数を定義できるPythonの機能の一つ)各呼び出しからスカラー値を渡す設計であるが、Python UDTFでは出力としてテーブル全体を返せるvs SQL UDTFSQL文のFROM節で呼び出され、表の形式で値を返す関数であるが、Python UDTFではその操作がPython内で処理完結できる
  • 23.
    © 2024 NTTDATA Group Corporation 23ExecutorJVMPython UDTF 実現方法DriverExecutor②論理プラン作成③最終的な実行プラン作成TaskPythonプロセス①UDTFの登録Action処理が実行されたタイミング⑤Python UDTFとその引数をシリアライズ⑧処理の結果をデシリアライズするExecutor• 最初に@udtfのデコレータによってUDTFの登録がされ、論理プランに組み込まれる• Executor上ではPython UDFと同じくPythonプロセス上にUDTFとその引数が連携され処理される⑦処理終了後シリアライズした結果をJVMへ返却⑥デシリアライズ後にPython UDTF処理④各ExecutorへTaskとして配布※Driver側のシリアライズ機構は省略※注:従来のPython UDFと同じ
  • 24.
    © 2024 NTTDATA Group Corporation 24Python UDTF 実装方法• 実装はドキュメントを参考• 今回のDATA+AI Summitの中でも、Sparkのドキュメントの拡充が発表されているhttps://spark.apache.org/docs/latest/api/python/user_guide/sql/python_udtf.html※4.0バージョンはないため、リンクはlatestバージョン関数をSQLの一部として呼び出すこともPySpark DataFrame APIで呼び出すことも可能
  • 25.
    © 2024 NTTDATA Group Corporation 25Python UDTF について新しく追加された機能 4選Polymorphic Analysis:戻り値の型を動的に定義できるデコレータ(静的/既存)、analyzeメソッド(動的)での定義の2種類に 関連:SPARK-44380どちらか一方の指定ではないとエラーが出力されるバリデーション機構ありInput Table Partitioning:Partition、OrderByが入力テーブルで使える関連:SPARK-44503(クエリプランニング) や SPARK-44748 (クエリ実行)、 SPARK-45362(evalメソッド)、SPARK-46040(Analyzeメソッドへの変更) などVariable Keyword Arguments:evalメソッド(もちろんanalyzeメソッドも)の引数を可変にも定義できる関連:SPARK-44749Custom Initialization:analyzeメソッドからevalメソッドへ状態を引き継げるAnalyzeResultのサブクラスを作成することで、後続の関数呼び出しの初期化も行える 関連:SPARK-45402効率的に処理したい場合にはArrow最適化を使用するデフォルトでは無効化※されているため、有効化する際にはデコレータのuseArrowをTrueにするPython UDFはSpark4.0からデフォルトになったため今後有効化されるかも※動作が不安定であるため? SPARK-44479 (3.5.0で解決済み) など1234
  • 26.
    © 2024 NTTDATA Group Corporation 26なぜ Apache Arrow を使用すると処理が速くなるかArrowのデータ形式• メモリ内に保存された列指向のデータ形式になる• 同じ列のデータが連続したメモリ領域にグループ化される (RecordBatchごと)※注:従来のPython UDFと同じデータは行単位でメモリ上に配置される列単位のアクセスはメモリ上に散らばったデータを取得するため時間がかかる全ての行がUDTFへ連携される大量データを連携する際には時間がかかるデータは列単位で同じメモリ領域に配置されるPandasによるデータ分析処理では列単位のアクセスが多いため、検索が高速化分析に必要な列のみ処理できるデータを列単位で連携することが可能であるため、UDTFへのデータ連携が高速化シリアライズも必要なデータのみに絞れるArrow最適化前 Arrow最適化後行指向データidnumtimestampidnumtimestampidnumtimestampSchemaColumns0123列指向データRecordBatchidnumtimestampデータはRecordBatch単位でArrow形式へ変換されるUDFの例になるが、1.5~2倍の性能差があると発表されていた
  • 27.
    © 2024 NTTDATA Group Corporation 27戻り値の型指定Python UDTF 触ってみた (抜粋)デコレータで戻り値の型指定 analyzeメソッドで戻り値の型指定class定義メソッド定義戻り値の型定義analyzeで戻り値の型定義Python UDTF を触ってみての注意点・気を付けるべきことPython UDTFを使う際の注意点は基本的にPython UDFと同じどのくらいメモリを使用する処理なのか・出力があるかPython UDF以上に気を付けて設計すべき※おまけ:Sparkにこんな機能を追加したい① UDFやUDTF内で出たエラーを正確にDriverがキャッチできる機構Executor側のログを見ないと正確なエラーがわからないのがきついExecutorを大量に起動している場合には確認が大変② Pythonプロセス内でデータサイズ増加の予測や見積りできる機能知らず知らずのうちにデータ量が多くなる処理している
  • 28.
    © 2024 NTTDATA Group Corporation 28構造化ログフレームワーク構造化ログフレームワークはSpark4.0から追加され、「Usability」の一つとして紹介された機能構造化ログフレームワークとは• ログが構造的になった (デフォルトログ形式がJSONに!) 関連:SPARK-47574• Sparkログは非構造であり分析が困難であったが、専用のシステムログディレクトリが導入されログが構造化された• フィルタリング機能でほしい情報を効率的に取得できる• 例:executor_idでフィルタして特定のExecutor情報を取得できるなぜ必要?• 欲しいログがすぐに検索できる• ログデータが分析しやすくなることにより、問題特定スピードが上がる• ログ解析システムへの連携が容易になる
  • 29.
    © 2024 NTTDATA Group Corporation 29構造化ログフレームワーク 触ってみたSpark4.0.0Spark3.5.1{"ts":"2024-08-06T07:16:30.681Z","level":"INFO","msg":"Starting executor ID driver on hostip-172-24-192-237.ap-northeast-1.compute.internal","logger":"Executor"}構造化された見た目24/08/06 16:24:46 INFO Executor: Starting executor ID driver on host 172.28.220.134いつもの見た目このくらいだったら大差ないが、複雑で長いログになると欲しいログを取得するのが面倒
  • 30.
    © 2024 NTTDATA Group Corporation 30構造化ログフレームワーク 触ってみた欲しいログをすぐに取得するには?WARNレベルの実行結果のメッセージを取得する例 (※)※stderrファイルの1行目にWARNING: Using incubator modules: jdk.incubator.vector と入っていたため、そのままjqコマンドで実行できなかったログの中身を確認する際にとても便利な機能jsonをインプットできるシステムとの連携が容易にSparkSQLやPandasで分析することも可能
  • 31.
    © 2024 NTTDATA Group Corporation 3105まとめ
  • 32.
    © 2024 NTTDATA Group Corporation 32まとめ• DATA+AI Summit2024で、DatabricksやSpark周りの開発やビジネスの盛り上がりを身をもって体感できた• Spark4.0の新機能が発表され、注目領域となっていた• Spark ConnectやVariant型など、データ利活用のシステムにおける実課題を見据えた対応も多い• PySparkで機能の幅が増え、また構造化ログ等によるユーザの使いやすさが向上• 世界中の技術者と会話できる。講演後も時間を設けてくれる方が多くフレンドリーまた来年も情報のキャッチアップのために参加したい• OSSのコミュニティ活動やデータ基盤の動向などの調査でも、技術/ビジネス それぞれで多くの発見を得られる!初めての海外イベント参加でDatabricks社の社員の方々はじめ、様々な企業の方にお世話になりました!この場をお借りして御礼を申し上げます。今後ともよろしくお願いいたします
  • 33.
    © 2024 NTTDATA Group Corporation 33来年参加する方向け おすすめしたいこと講演スケジュールを詰めすぎてはいけない!• 体力が持たない!精神的にもきつい!講演後に講演者と話したくても時間がない!埋まっている講演も当日飛び入り参加が可能• 事前の予約ができなくても安心して大丈夫Teamsの録音機能がかなり優秀• 聞き取れなかったところを録音して確認した• 色々な英語に対応しており、文字起こし精度が良いLinkedInを登録する• 名刺も必要だが、LinkedIn交換が主流ドルをそこまで現金化しなくてよい• カード社会• ホテルの部屋のチップくらいしか使わなかった(10ドルくらい)事前に知り合い・現地に詳しい人と仲良くなっておく• 困ったときに連絡できるように• 現地での良いお店などの情報収集もできる生活面イベント参加面
  • 34.
    © 2024 NTTDATA Group Corporation 3406会場の雰囲気 ~続~余裕あったら
  • 35.
    © 2024 NTTDATA Group Corporation 35ハッカソン• ハッカソンにも参加。LLMがお題• 即興でチーム編成し、協力して構想、使うデータの選定、データの処理方式手法まで練れたが、時間内に実装が終わらず志半ばで終了…• お題にご興味ある方は→https://docs.google.com/document/d/e/2PACX-1vQ3RDr5eRItkO-48Zgftk72LXJydQwxYqWc6ftFHCzJEGFLTy1y-Ft2m7smwwHg5VrpLAEMf7p2qgMJ/pub#id.jx5gfjnth1z1• 時代はLLMを知っていること前提会場の様子上記リンクのQRコード
  • 36.
    © 2024 NTTDATA Group Corporation 36サンフランシスコの様子• 街は噂に聞いていたより綺麗で治安も(気を付けていれば)よく、なにより気候がとても良い• 円安が加速しており(1ドル=160円)、外食すると最低でも$25~(約4000円)の印象• 食べものはどれも美味朝ごはん(オムレツ)内藤が食べたチーズケーキ北波が食べたチーズケーキ夜ごはん(ステーキ)
  • 37.
    © 2024 NTTDATA Group Corporation 37現地でしかできないこと• Waymo• Lv4の自動運転• サンフランシスコ市内限定で走行• 運転が静かで乗り心地は最高

[8]ページ先頭

©2009-2026 Movatter.jp