Movatterモバイル変換

© 2024 NTT DATA Group Corporation 3LT登壇者紹介北波紘子Hiroko Kitaba株式会社NTTデータグループ Innovation技術部高度OSSサポート担当主任＜略歴＞金融/製薬/エネルギーなど様々な業界でOSS使用プロジェクト開発/性能検証支援/アジャイル開発のコンサルティングに従事2023年Databricks Solutions Architect Champion 取得現在の業務は主にSpark、HadoopDatabricks使用プロジェクトの支援今はまっているものポケモンGO(パッチール集め)内藤佑太Yuta Naito株式会社NTTデータグループ Innovation技術部高度OSSサポート担当主任＜略歴＞Smart CityやMaaSなどのPoC案件におけるアジャイル型の開発支援やスクラムの導入支援/データプラットフォームやMobileアプリの開発に従事現在は、OSSのサポート業務及びSpark等のOSSを用いた基盤更改などの案件への技術支援

© 2024 NTT DATA Group Corporation 4普段の業務 [高度OSSサポート] とは⚫ Hadoop/Spark/Kafkaなどの高難易度なプロダクトのサポートを提供⚫ OSS活動やプロジェクト支援を実施するとともに、中長期的なサポートを提供している⚫ Hadoop/Spark/Bigtop などのコミッタも在籍高度OSSサポート• ミドルウェア等をソースコードレベルで理解/調査できる実力があるからこそ課題が解決できる• 技術の方向性にも影響を持つ• 世の中では提供仕切れていない「長期サポート」「高度サポート」を提供しているケースもある• 10年間安心して使える、なども支えている高い技術力安心・安全の実績

© 2024 NTT DATA Group Corporation 6Data + AI Summit 2024 とは？• Data ＋ AI Summitは、Databricks社が毎年開催する最大規模のカンファレンス (旧 Spark ＋ AI Summit)2024年は6月10日から6月13日までの4日間にわたってサンフランシスコで開催された• 今年のテーマは「DATA INTELLIGENCE FOR ALL」過去最高の60,000人以上が視聴/16,000人以上が現地参加、600以上のセッション/130以上のスポンサーブース展示• 弊社メンバはApache Sparkや周辺サービスの最新動向などをキャッチアップしに行った会場Moscone Center(North, South, West)/インターコンチネンタルホテル

© 2024 NTT DATA Group Corporation 8聴講セッションの紹介 KeyNoteKeyNoteについては弊社メンバのQiita記事まとめがあります。ぜひご確認ください1日目• #1 https://qiita.com/nttd-yuan/items/00710ead4910c2e1e742• #2 https://qiita.com/nttd-tamurasua/items/3db302751bfb184f66b02日目• #1 https://qiita.com/nttdg-naitouyut/items/9be0616c39ea0dff8423• #2 https://qiita.com/nttd-kitabah/items/af307e54af795ec2ea9e1日目 2日目#1 #2#1 #2

© 2024 NTT DATA Group Corporation 13Spark Connect についてSpark Connect の背景は？• 密結合されたドライバーアーキテクチャにより、リモート接続やバージョンアップが困難• 現行では、クライアントアプリケーションとドライバーが密結合しており、クラスターの安定性や開発効率に課題Spark Connect とは？• クラスタへのリモート接続と操作を可能とするクライアントサーバーアーキテクチャの仕組み• DataFrame APIを基に、クライアントとサーバーを分離したリモート接続の仕組みを提供• 開発者がリモートでクラスターに接続し、DataFrame操作の実行を可能とする• クライアントとサーバーを分離することで、シームレスなアップグレード、安定性の向上、セキュリティ強化を目指すhttps://spark.apache.org/docs/latest/spark-connect-overview.html

© 2024 NTT DATA Group Corporation 14Spark Connect について使用によるメリット・SQL以外の言語でリモート接続するためには、外部ツール（Apache Livyなど）が必要・Spark Connectによりネイティブなリモート接続が可能・インタラクティブなデータ探索や最新の開発ツールとの統合がサポートされていなかった・Spark Connectにより、IDEなどのローカルツールとの統合が強化・1つのクライアントによるOOMなどの例外が全ユーザーに影響する可能性・分離されたアーキテクチャにより、安定性を向上・クライアントとサーバーのAPI密結合のためアップグレード時の依存関係問題が生じる・バージョン間の互換性を確保リモート接続開発者体験安定性バージョンアップ

© 2024 NTT DATA Group Corporation 15Spark Connect についてSpark Connect の仕組みについて1. DataFrame API 上に構築され、クライアント・サーバ間で言語に依存しないプロトコルを使用2. クライアントにおいてDataFrame 操作をプロトコルバッファーを用いてエンコードされる未解決論理プランに変換し、gRPCでサーバーへ送信3. サーバーではSpark Connect エンドポイントを通じてそれらを受信し、解析してテーブルやカラムなどの参照を解決した実行プランを、Spark の標準実行プロセスで開始する4. 実行結果はApache Arrow でエンコードされた行バッチとして gRPC 経由でクライアントに送信されるSQL QueryDataFrameUnresolvedLogical PalnLogical PalnOptimizedLogical PlanPhysicalPlanCostModelSelectedPhysicalPlanRDDsQueryExecutionPlannerOptimizerAnalyzerPlannerサーバー側の処理クライアント側の処理①②③ ④https://spark.apache.org/docs/latest/spark-connect-overview.html

© 2024 NTT DATA Group Corporation 16Variant 型についてVariant 型の背景は？• 従来のJSONなどの文字列と比較して処理性性能と柔軟性が向上した新たな半構造化データ• データ分析など多くのユースケースで半構造化データの取り扱いが増加• 半構造化データは、柔軟性がある一方でクエリ性能やデータ格納の効率に課題があるVariant 型とは ?• 一つのデータ型で様々な形式のデータを扱える柔軟な型を提供• 基本的なデータ型（プリミティブ型、配列、オブジェクト）を統合して扱う• ネスト構造が深いデータでも効率的にクエリを実行できるように設計

© 2024 NTT DATA Group Corporation 18Variant 型についてVariant 型の仕組み• メタデータと値のエンコーディング：Variant 型は2つのバイナリ値（メタデータと値）でエンコードされて効率的に格納できる• プリミティブ型、配列、オブジェクトのサポート：それぞれ異なるエンコーディング方式を用いて、異なるデータ型を統合的に扱う• 辞書ベースのフィールドID管理：オブジェクト内のフィールドは辞書により効率的に管理され、クエリや検索時に高速化を実現JSON String [ {"key1": 1, "key2": 2 }, {"key1": 3, "key2": 4} ]Value [ {0: 1, 1: 2 }, {0: 3, 1: 4} ]Metadata [ "key1", "key2" ]headerdictionarysize (N)keyoffset 1・・・keyoffset Nkey 1 key n・・・Metadataheadernumfields (k)fieldid 1fieldoffset 1・・fieldid k・・fieldoffset k・・fieldvalue 1fieldvalue kValueキーの数インデックスでアクセス可能な文字列のリストのようなものバージョン情報などキーを参照するフィールドID・重複するキーのフィールド名を複数回保存する必要がなく、個別のキーをメタデータに1回保存するだけで済む・特定の位置のキーのフィールドに二分探索でアクセスが可能Variant 型への変換・バイナリエンコードによりキーは数字に変換され、メタデータのインデックスと紐づく格納の仕方変換例

© 2024 NTT DATA Group Corporation 21Spark4.0の発表１ Python UDTFの機能拡充２構造化ログフレームワーク参考講演：「KeyNote2日目」「What’s Next for the Upcoming Apache Spark 4.0 Release?」「pandas on Spark: Simplicity of pandas with efficiency of Spark」Sparkでログを解析するとき苦労するので朗報だと思った！KeyNoteでPySparkが大々的に取り上げられていた！新しい機能が増えた！

© 2024 NTT DATA Group Corporation 22Python UDTF についてPython UDTF(Python User Defined Table Functions)自体はSpark3.5から使えるようになった機能Spark4.0でさらに機能が追加されたPython UDTFとは• 1行以上の入力に対し複数の出力行(テーブル)を返却するユーザ定義関数• 提供されている関数等では実現できないような柔軟なデータ加工が可能• Pythonだけでテーブル操作ができるため、保守性・可読性の向上につながる今までの実装方法との違いvs Python UDF(ユーザ定義関数、ユーザ独自の関数を定義できるPythonの機能の一つ)各呼び出しからスカラー値を渡す設計であるが、Python UDTFでは出力としてテーブル全体を返せるvs SQL UDTFSQL文のFROM節で呼び出され、表の形式で値を返す関数であるが、Python UDTFではその操作がPython内で処理完結できる

© 2024 NTT DATA Group Corporation 23ExecutorJVMPython UDTF 実現方法DriverExecutor②論理プラン作成③最終的な実行プラン作成TaskPythonプロセス①UDTFの登録Action処理が実行されたタイミング⑤Python UDTFとその引数をシリアライズ⑧処理の結果をデシリアライズするExecutor• 最初に@udtfのデコレータによってUDTFの登録がされ、論理プランに組み込まれる• Executor上ではPython UDFと同じくPythonプロセス上にUDTFとその引数が連携され処理される⑦処理終了後シリアライズした結果をJVMへ返却⑥デシリアライズ後にPython UDTF処理④各ExecutorへTaskとして配布※Driver側のシリアライズ機構は省略※注：従来のPython UDFと同じ

© 2024 NTT DATA Group Corporation 24Python UDTF 実装方法• 実装はドキュメントを参考• 今回のDATA＋AI Summitの中でも、Sparkのドキュメントの拡充が発表されているhttps://spark.apache.org/docs/latest/api/python/user_guide/sql/python_udtf.html※4.0バージョンはないため、リンクはlatestバージョン関数をSQLの一部として呼び出すこともPySpark DataFrame APIで呼び出すことも可能

© 2024 NTT DATA Group Corporation 25Python UDTF について新しく追加された機能 4選Polymorphic Analysis：戻り値の型を動的に定義できるデコレータ(静的/既存)、analyzeメソッド(動的)での定義の2種類に関連：SPARK-44380どちらか一方の指定ではないとエラーが出力されるバリデーション機構ありInput Table Partitioning：Partition、OrderByが入力テーブルで使える関連：SPARK-44503(クエリプランニング) や SPARK-44748 (クエリ実行)、 SPARK-45362(evalメソッド)、SPARK-46040(Analyzeメソッドへの変更) などVariable Keyword Arguments：evalメソッド(もちろんanalyzeメソッドも)の引数を可変にも定義できる関連：SPARK-44749Custom Initialization：analyzeメソッドからevalメソッドへ状態を引き継げるAnalyzeResultのサブクラスを作成することで、後続の関数呼び出しの初期化も行える関連：SPARK-45402効率的に処理したい場合にはArrow最適化を使用するデフォルトでは無効化※されているため、有効化する際にはデコレータのuseArrowをTrueにするPython UDFはSpark4.0からデフォルトになったため今後有効化されるかも※動作が不安定であるため？ SPARK-44479 (3.5.0で解決済み) など１234

© 2024 NTT DATA Group Corporation 26なぜ Apache Arrow を使用すると処理が速くなるかArrowのデータ形式• メモリ内に保存された列指向のデータ形式になる• 同じ列のデータが連続したメモリ領域にグループ化される (RecordBatchごと)※注：従来のPython UDFと同じデータは行単位でメモリ上に配置される列単位のアクセスはメモリ上に散らばったデータを取得するため時間がかかる全ての行がUDTFへ連携される大量データを連携する際には時間がかかるデータは列単位で同じメモリ領域に配置されるPandasによるデータ分析処理では列単位のアクセスが多いため、検索が高速化分析に必要な列のみ処理できるデータを列単位で連携することが可能であるため、UDTFへのデータ連携が高速化シリアライズも必要なデータのみに絞れるArrow最適化前 Arrow最適化後行指向データidnumtimestampidnumtimestampidnumtimestampSchemaColumns0123列指向データRecordBatchidnumtimestampデータはRecordBatch単位でArrow形式へ変換されるUDFの例になるが、1.5~2倍の性能差があると発表されていた

© 2024 NTT DATA Group Corporation 27戻り値の型指定Python UDTF 触ってみた (抜粋)デコレータで戻り値の型指定 analyzeメソッドで戻り値の型指定class定義メソッド定義戻り値の型定義analyzeで戻り値の型定義Python UDTF を触ってみての注意点・気を付けるべきことPython UDTFを使う際の注意点は基本的にPython UDFと同じどのくらいメモリを使用する処理なのか・出力があるかPython UDF以上に気を付けて設計すべき※おまけ：Sparkにこんな機能を追加したい① UDFやUDTF内で出たエラーを正確にDriverがキャッチできる機構Executor側のログを見ないと正確なエラーがわからないのがきついExecutorを大量に起動している場合には確認が大変② Pythonプロセス内でデータサイズ増加の予測や見積りできる機能知らず知らずのうちにデータ量が多くなる処理している

© 2024 NTT DATA Group Corporation 28構造化ログフレームワーク構造化ログフレームワークはSpark4.0から追加され、「Usability」の一つとして紹介された機能構造化ログフレームワークとは• ログが構造的になった (デフォルトログ形式がJSONに！) 関連：SPARK-47574• Sparkログは非構造であり分析が困難であったが、専用のシステムログディレクトリが導入されログが構造化された• フィルタリング機能でほしい情報を効率的に取得できる• 例：executor_idでフィルタして特定のExecutor情報を取得できるなぜ必要？• 欲しいログがすぐに検索できる• ログデータが分析しやすくなることにより、問題特定スピードが上がる• ログ解析システムへの連携が容易になる

© 2024 NTT DATA Group Corporation 29構造化ログフレームワーク触ってみたSpark4.0.0Spark3.5.1{"ts":"2024-08-06T07:16:30.681Z","level":"INFO","msg":"Starting executor ID driver on hostip-172-24-192-237.ap-northeast-1.compute.internal","logger":"Executor"}構造化された見た目24/08/06 16:24:46 INFO Executor: Starting executor ID driver on host 172.28.220.134いつもの見た目このくらいだったら大差ないが、複雑で長いログになると欲しいログを取得するのが面倒

© 2024 NTT DATA Group Corporation 30構造化ログフレームワーク触ってみた欲しいログをすぐに取得するには？WARNレベルの実行結果のメッセージを取得する例 (※)※stderrファイルの1行目にWARNING: Using incubator modules: jdk.incubator.vector と入っていたため、そのままjqコマンドで実行できなかったログの中身を確認する際にとても便利な機能jsonをインプットできるシステムとの連携が容易にSparkSQLやPandasで分析することも可能

© 2024 NTT DATA Group Corporation 32まとめ• DATA＋AI Summit2024で、DatabricksやSpark周りの開発やビジネスの盛り上がりを身をもって体感できた• Spark4.0の新機能が発表され、注目領域となっていた• Spark ConnectやVariant型など、データ利活用のシステムにおける実課題を見据えた対応も多い• PySparkで機能の幅が増え、また構造化ログ等によるユーザの使いやすさが向上• 世界中の技術者と会話できる。講演後も時間を設けてくれる方が多くフレンドリーまた来年も情報のキャッチアップのために参加したい• OSSのコミュニティ活動やデータ基盤の動向などの調査でも、技術/ビジネスそれぞれで多くの発見を得られる！初めての海外イベント参加でDatabricks社の社員の方々はじめ、様々な企業の方にお世話になりました！この場をお借りして御礼を申し上げます。今後ともよろしくお願いいたします

© 2024 NTT DATA Group Corporation 33来年参加する方向けおすすめしたいこと講演スケジュールを詰めすぎてはいけない！• 体力が持たない！精神的にもきつい！講演後に講演者と話したくても時間がない！埋まっている講演も当日飛び入り参加が可能• 事前の予約ができなくても安心して大丈夫Teamsの録音機能がかなり優秀• 聞き取れなかったところを録音して確認した• 色々な英語に対応しており、文字起こし精度が良いLinkedInを登録する• 名刺も必要だが、LinkedIn交換が主流ドルをそこまで現金化しなくてよい• カード社会• ホテルの部屋のチップくらいしか使わなかった(10ドルくらい)事前に知り合い・現地に詳しい人と仲良くなっておく• 困ったときに連絡できるように• 現地での良いお店などの情報収集もできる生活面イベント参加面

© 2024 NTT DATA Group Corporation 35ハッカソン• ハッカソンにも参加。LLMがお題• 即興でチーム編成し、協力して構想、使うデータの選定、データの処理方式手法まで練れたが、時間内に実装が終わらず志半ばで終了…• お題にご興味ある方は→https://docs.google.com/document/d/e/2PACX-1vQ3RDr5eRItkO-48Zgftk72LXJydQwxYqWc6ftFHCzJEGFLTy1y-Ft2m7smwwHg5VrpLAEMf7p2qgMJ/pub#id.jx5gfjnth1z1• 時代はLLMを知っていること前提会場の様子上記リンクのQRコード

DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

Movatterモバイル変換

Change Language

DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

Embed presentation

Recommended

More Related Content

Similar to DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)

More from NTT DATA Technology & Innovation

DAIS2024参加報告 ~Spark中心にしらべてみた~ (JEDAI DAIS Recap 講演資料)