Movatterモバイル変換

Transcript

CARTA の AI CoE が挑む「事業を進化させる AI エンジニアリング」 CARTA Generative
AI Lab リーダー海⽼原昂輔 (@co3k)
CARTA Generative AI Lab リーダー海⽼原昂輔 (@co3k) 略歴 •
2005 年より Web アプリケーション開発に従事する傍ら、セキュリティ脆弱性に関する報告や啓蒙活動などを精⼒的におこなう • 2014 年に株式会社 VOYAGE GROUP (現: CARTA HOLDINGS) に⼊社後、複数の新規事業開発に参画。 Web フロントエンド、 Web バックエンド、 iOS、 Web セキュリティといった様々な領域において開発を主導 • 2017 年、 VOYAGE Lighthouse Studio (現: Lighthouse Studio) 創業より CTO として神ゲー攻略などの⼤規模メディアの運⽤、開発を主導 • 2024 年より CARTA HOLDINGS CTO 室スタッフエンジニアとして全社⽂脈での課題解決に取り組む。同年夏より CARTA Generative AI Lab リーダー就任 • 2025 年より CARTA HOLDINGS ICT 本部を兼任 CARTA 内の役割 CARTA Generative AI Lab リーダー (今⽇はこの帽⼦！) 事業⼦会社 CTO, Tech Board ICT (コーポレート IT), セキュリティ
CARTA HOLDINGSについて 18 8 180 エンジニア組織事業人 (エンジニアのみ) 2000人over
TL;DR (DL?) 私たち CARTA Generative AI Lab が重視していること、そして、みなさんに今⽇お伝えしたいことは次の三点です。 •
AI アプリケーションの難しさと向き合う • AI-CoE 基盤とタイガーチーム機能の⼆軸で全社横断しながら AI 活⽤推進する • 「みんながほしがるもの」は作らない
突然ですが…… こんな AI アプリケーションに心当たりはありませんか？
なんでも回答しすぎるチャットボットその 1 会議室のスピーカーが壊れているみたい。どうしたらいい？こちらの申請フォームから IT 部⾨に問い合わせてね！⾶んでみたら「オフィス備品購⼊申請」
とか書いてある……え、私が買うの？不明なことや決まった⼿続きがないことについても頑張って無理⽮理回答を返そうとしてしまう
なんでも回答しすぎるチャットボットその 2 いまオフィスなんですがちょっと疲労気味で、気分が悪くなってきてしまいました体調を崩されている場合、休職を検討することができます。以下のページから必要な⼿続きを確認してくださいいきなり休職！？仮眠室とかないのかなとか思った
だけなんだけど…… 質問の⼀部に関連しそうな知識があれば安易に提⽰してしまうので極端な回答になりやすい
回答しなさすぎるチャットボット Slack に業務委託者を追加したい。どこから申請すればいいんだっけ？申し訳ございません、私の知識の範囲では回答できません回答の厳格性を追求した結果、ファジーな問い合わせで「回答不能」に倒れてしまいがちに (そんなはずは……あ、) Slack にマルチ
チャンネルゲストを追加するにはどうしたら？ Slack にマルチチャンネルゲストを追加する場合、以下のフォームから申請をおこなってください
開発時に期待していない⼊⼒への出⼒精度が極端に悪いキャッチフレーズ⽣成アプリケーション開発時の想定（おせちに関するこだわりなど詳しい情報が載ったページの URL）「あるおせち通販（博多発）のプロモーションのためにキャッチフレーズを⽣成したい」⼊⼒
出⼒「博多発！⽼舗料亭のお届けする本格おせちをご家庭で」「和洋折衷の豊富な⾷材で⽼若男⼥に幅広く親しまれるおせち」キャッチフレーズ⽣成アプリケーション実際の利⽤（情報量の少ないおせち通販ランディングページの URL）⼊⼒出⼒「伝統と⾰新が融合した、極上の味わい博多ラーメン」「ラーメン通も納得！厳選⾷材と独⾃製法によるこだわりスープ」博多！？じゃあラーメンだ！！！
01 AIアプリケーションの難しさ
主要であるコンポーネント「プログラム」の性質 • 書いたとおりに動く • 同じ⼊⼒に対し、何回試⾏しても決まった振る舞いをし、決まった出⼒を返す →「確定的な振る舞い」⼊⼒A 出⼒A'
主要であるコンポーネント「プログラム」の性質「振る舞いが確定的」ということは…… • 複数のプログラムを組み合わせてアプリケーションを構築することも⽐較的容易 • この特性を活かし、現実の⼤きく複雑な課題に対しても、⼤⼩様々なプログラムを組み合わせることで⽴ち向かってきた
ある程度確率的に振る舞う「機械学習モデル」 • 意図しない結果を返すことがある • 出⼒が⼀様に定まらないが、こうした性質がさほど問題にならないような⼯夫、配慮がなされている（特定の課題にフォーカス、学習時に汎化性能向上に取り組む、などなど……）⼊⼒A 出⼒ B
出⼒ B 出⼒ C 出⼒ B ※ある程度確率的に振る舞うが、コントラビリティもある
予測不可能性の塊「⼤規模⾔語モデル」⼊⼒A 出⼒ B 出⼒ B 出⼒ C 期待された確率的振る舞い出⼒
🦐 期待された範囲を超えた確率的振る舞い ↓ プログラムのような確定的なコンポーネントとの相性が悪い • 多様な出⼒を⽣む LLM ◦ 学習データやパラメータの膨⼤さ ◦ ⾃然⾔語の⾃由度の⾼さ → そもそもそういう意図で設計されている
「ハルシネーション」の抱える問題 • LLM が⾃信を持って間違える「ハルシネーション（hallucinations; 幻覚）」 ◦ LLM は「正しい」出⼒をしようとしているわけではない ◦ ましてや「間違った」出⼒をしようとしているわけでもない
LLMは学習データに基づき、「確率的にあり得そうな（もっともらしい）」出⼒を連続的かつ離散的に⽣成し続けているだけであるハルシネーションそれ⾃体が幻であるとも⾔える確率的にこうかな？
「ハルシネーション」は避けられない • つまり「ハルシネーション」の⽣じる原因は LLM の動作原理そのものにある • プロンプトエンジニアリング等によって推論を誘導することで軽減はできても、回避しきることはできない ◦ 「正しい」結果を返している場合も、技術的には「ハルシネーション」していると
いえる ◦ ある尺度のもとでは「正解」もしくは「問題にならない」パターンを引いた、というだけで • LLM のもつこの特性は、アプリケーションに組み込むうえで⼤きな問題となりうる
直接的な LLM との対話における「ハルシネーション」 • 対話型の AI アプリケーション ◦ ユーザがプロンプトをある程度意識的に作成して⼊出⼒を得る •
ハルシネーションが⽣じても... ◦ 知識があれば間違いだとわかる ◦ ユーザ⾃⾝で⽣じた不都合に対して回避、対応ができるユーザユーザ
AI アプリケーションにおける「ハルシネーション」 • 対話型でない AI アプリケーション ◦ 開発者の作成したプロンプトの意図を読みづらい ◦ ユーザは「プログラム」のような確定的な振る舞いを期待しやすい
• 結果としてハルシネーションによる影響が⼤きくなりやすい ◦ ユーザの直接的なリカバリも難しくなる開発者ユーザ
AIアプリケーションとの向き合い方⾒えない壁：⾼度な技術的理解が必要制御不能な確率性ただ使うだけなら簡単教育‧啓蒙必要だが不⼗分
02 CARTA Generative AI Lab の構造とその取り組みについて
CARTA Generative AI Lab タイガーチーム機能 AI CoE 機能全社の⽣成
AI リテラシーと技術基盤を底上げする⽀援機能事業部の重要課題に深く⼊り込み、 PoC 開発から実装までを担う実⾏機能 AIとエンジニアリングの⼒で CARTA の事業価値向上を加速存在意義 0 1 02 内包する機能
ふたつの側面を有する全社横断チームタイガーチーム機能 (実⾏機能) AI-CoE機能 (⽀援機能) 役割⼿を動かす実働型タイガーチーム CARTA 横断の AI-CoE
⽬的事業固有の課題を解決するため、PoC 開発から実装までを担う全社の⽣成 AI リテラシーと技術基盤を底上げする主な活動広告クリエイティブ分類 PoC、メディア審査業務効率化など、事業固有の応⽤開発‧実装 LLM Ops 基盤 (Langfuse)、プロトタイピング基盤 (Dify, n8n) の構築‧運⽤、技術⽀援活動領域ニッチで、かつ実現難易度の⾼い課題汎⽤的な課題解決⽀援、プロトタイピングの⺠主化キーワード事業固有、実⾏、⼿を動かす、泥臭く実践的全社基盤、⽀援、技術⽀援、仕組み化
AI-CoE としての活動
AI-CoE（AI Center of Excellence）機能全社の⽣成 AI リテラシーと技術基盤の底上げ⽬的グループ全社との連携
事業部の技術的⽀援各事業⼦会社が利⽤できる技術⽀援の「選択肢」を増やすグループ全社が持続的に⽣成AIを活⽤できる「仕組み」を構築 01 02 提供機能インフラストラクチャ型 CoE 具体的なインフラの構築運⽤技術サポート等のサービス提供 03 事業会社‧ユーザ
中核的活動 1：プロトタイピング基盤の構築・運用 • 全社的な AI 活⽤の「エントリーポイント」として、 Dify や n8n をセルフホスティング
• 緩い制約 ―だが社内に閉じた―のもと、活⽤できるプロトタイピング基盤として提供社内認証基盤プロトタイピング基盤
中核的活動 1：プロトタイピング基盤の構築・運用社内認証基盤プロトタイピング基盤 (セルフホスト ) 対象業務の業務マニュアルのチャットボット化業界ニュースの
定期的な収集レポーティングタスクの⾃動化指定⾔語で翻訳する翻訳Slack bot エンジニアの介在なしに業務効率改善が実現
中核的活動 2：LLMOpsと「観測可能性」（Langfuse） • ⼊出⼒がブラックボックスしやすい • 実際の価値発揮において上⼿くいっているかどうかがぼやける課題感 Langfuse の導⼊と普及を推進
観測性の発揮機会を増やす LiteLLM によるプロキシとの組み合わせでの透過的なトレースを記録 AI アプリケーションの品質、精度、コストを継続的にモニタリング‧改善できる体制を確⽴ 01 02 アプローチ成功体験の醸成タイガーチームとしての活動のなかで Langfuse の活⽤も含めた成功体験の醸成 03
タイガーチームとしての活動
タイガーチーム機能「泥臭い」実装による事業貢献⽬的「みんなが欲しがるもの」は作らないニッチで実現難易度の⾼い課題に絞って取り組む 01 02 ⼼がけていること事業会社‧ユーザ
失敗の教訓から導かれたタイガーチームとしての戦い方
事業子会社テレシーとの共同開発プロジェクト (2024 秋-) • クライアントの Web サイトや紙⽂書等から情報を収集‧整理 ( 0 次分析)
し、ベネフィット抽出とキャッチコピー案までを⽣成する (PoC では 0 次分析にかかる時間を 33% 削減) • 実⽤段階へのブラッシュアップに向け、ハルシネーション対策等に苦⼼（先ほどの「博多おせち→博多ラーメン」事件に苦しめられたりもしていました）
「黒船」の襲来。開発凍結へ • 2024 年 12 ⽉： Gemini Deep Research リリース
• 2025 年 1 ⽉：Google Workspace ユーザに Gemini が全解放され NotebookLM がカジュアルに使いやすくなる Gemini Deep Research、NotebookLM と作成したツールを⽐較すると... • 他の事業でも使え、広範囲に扱える • ハルシネーションが抑えられている • 精度も⾼い →どうにも太⼑打ちできるようなビジョンが描けず、共同開発プロジェクトは凍結することに
教訓：「一般的なニーズ」での競争回避 • 今回作成した 0 次分析ツール ◦ Web ページ等の各種リソースから情報を収集してコンテンツを⽣成する機能 ◦ 解決策として作られたツールは「⼀般的なニーズ」に応えるもの
• 「⼀般的なニーズ」 ◦ 現時点では存在しなかったとしても、すぐに代替物が出現することは明⽩ • 本気で「⼀般的なニーズ」の競争に参戦するのでない限りは... ◦ もっと「固有の事業課題の抽出および解決」にこだわり抜くべき →「みんなが欲しがるもの」は作らない
タイガーチームと AI-CoE ふたつの側面の相互作用
Generative AI Lab は何を解くべきか？難易度難易ニーズ⼀般特有
タイガーチームはこのあたりの課題を狙う
Generative AI Lab は何を解くべきか？難易度難易ニーズ⼀般特有
タイガーチームはこのあたりの課題を狙うこの辺の課題は世の中で解決されることを期待このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築
Generative AI Lab は何を解くべきか？難易度難易ニーズ⼀般特有
タイガーチームはこのあたりの課題を狙うこの辺の課題は世の中で解決されることを期待このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築ドメインエキスパート⾃⾝での Dify 等による PoC
Generative AI Lab は何を解くべきか？難易度難易ニーズ⼀般特有
タイガーチームはこのあたりの課題を狙うこの辺の課題は世の中で解決されることを期待このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築ドメインエキスパート⾃⾝での Dify 等による PoC タイガーチームとして本格利⽤に向けたアプリケーション開発
Generative AI Lab は何を解くべきか？難易度難易ニーズ⼀般特有
タイガーチームはこのあたりの課題を狙うこの辺の課題は世の中で解決されることを期待このあたりの課題が CARTA 全体で解けるように AI-CoE による基盤構築ドメインエキスパート⾃⾝での Dify 等による PoC 利⽤事例の蓄積による横展開タイガーチームとして本格利⽤に向けたアプリケーション開発
（再掲）ふたつの側面を有する全社横断チームタイガーチーム機能 (実⾏機能) AI-CoE機能 (⽀援機能) 役割⼿を動かす実働型タイガーチーム CARTA 横断の AI-CoE
⽬的事業固有の課題を解決するため、PoC 開発から実装までを担う全社の⽣成 AI リテラシーと技術基盤を底上げする主な活動広告クリエイティブ分類 PoC、メディア審査業務効率化など、事業固有の応⽤開発‧実装 LLM Ops 基盤 (Langfuse)、プロトタイピング基盤 (Dify, n8n) の構築‧運⽤、技術⽀援活動領域ニッチで、かつ実現難易度の⾼い課題汎⽤的な課題解決⽀援、プロトタイピングの⺠主化キーワード事業固有、実⾏、⼿を動かす、泥臭く実践的全社基盤、⽀援、技術⽀援、仕組み化
タイガーチームとしての取り組み事例
事例: 広告クリエイティブ分類プロジェクト • 広告クリエイティブとは ◦ Web メディアへ掲載される広告として制作されたコンテンツ • なぜ分類が必要か ◦
アダルト性のある広告はメディアへ掲載できない ◦ 現状は⼈⼒でアダルトかどうか判定している広告クリエイティブメディア
事例1: 広告クリエイティブ分類プロジェクト初期検証 (精度 51.9%) 分類基準を整理プロンプトに組み込む • 実際の広告クリエイティブ/⼈間による分類結果‧分類基準をもとに取り組みを開始 •
様々な⼿法で仮説検証を繰り返し、段階的に精度向上を実現プロンプトエンジニアリング (59.7% → 65%) Tree of Thought Chain of Thought DSPy の導⼊、最適化 (75.32%) プロンプト⾃動⽣成‧最適化最新⼿法の適⽤(GEPA) 複数データセット複数モデル検証をおこなう基盤の構築 Tree of Thought : 4 時間/検証実⾏時間最適化の試みも実施プロンプト最適化を 1105 回のループにて⾃動的実施 3フェーズで実施
事例: 広告クリエイティブ分類プロジェクト • DSPy は LLM のプロンプトや推論のステップをプログラム的に最適化する • 本プロジェクトでは正解とされる分類結果に合致しているかどうかという評価基準を設け、その評価基準に沿うように⾃動的にプロンプトを最適化させている
初期プロンプト 1. 実⾏ (Execution) プロンプトでタスクを実⾏ 2. 評価 (Evaluation) 出⼒と正解を⽐較しスコア化 3. 改善 (Improvement) スコアに基づきプロンプトを修正最適化されたプロンプトループ
事例2: ヘルプデスク問い合わせ効率化 • ヘルプデスクの問い合わせ対応の効率化 • 担当者⾃⾝で社内のマニュアル等のナレッジを基に LLM によってこれらの業務を効率化できないか試⾏錯誤→うまく精度を出すことができず CARTA
Generative AI Lab に相談
事例3: セキュリティアラートトリアージ • エンドポイントセキュリティ対策のひとつ、 EDR による振る舞いベース検知の効率化 • ボーダーラインの検知が多く、⼀般的な価値判断基準だけでは不充分。属⼈性も⾼い • アラートやデバイス等の情報を
LLM に分析させ、⼀般的な判断を代⾏ • セキュリティチームとしては CARTA 独⾃の判断に集中できるように ◦ LLM の⼊出⼒は Langfuse にてトレースを記録しており、継続的な精度向上も振る舞い検知必要な情報の収集セキュリティチームアラートの受信 LLM の判断結果の評価分析トレースの記録従業員 EDR トリアージエージェント
まとめ
まとめ • AI アプリケーションの本質的な難しさと向き合う ◦ LLM は「予測不可能性の塊」 ◦ 完全な制御は不可能。ハルシネーションは避けられない前提で設計する •
CARTA Generative AI Lab の⼆軸アプローチ ◦ AI-CoE 機能：全社の AI 活⽤基盤を構築（Dify、Langfuse など） ▪ 「誰もが試せる環境」から「観測可能な本番運⽤」まで ◦ タイガーチーム機能：ニッチで難易度の⾼い事業固有課題に挑む ▪ 「みんなが欲しがるもの」との競争を避け、差別化領域で価値を創出 • 実践からの学び ◦ ⼀般的ニーズへの取り組みは、ビッグプレイヤーの進化速度に勝てない ◦ 事業固有の課題×⾼難易度領域にこそ、持続的な価値がある ◦ PoC から実⽤化への道のりでは、精度向上の「泥臭い」試⾏錯誤が不可⽋
ご清聴ありがとうございましたブース展開中 / 求人→

Movatterモバイル変換

CARTAのAI CoE が挑む「事業を進化させる AI エンジニアリング」 / carta ...

CARTAのAI CoE が挑む「事業を進化させる AI エンジニアリング」 / carta ai coe evolution business ai engineering

More Decks by CARTA Engineering

Other Decks in Technology

Featured

Transcript