Movatterモバイル変換


[0]ホーム

URL:


Upgrade to Pro — share decks privately, control downloads, hide ads and more …
Speaker DeckSpeaker Deck
Speaker Deck

社内のデータ分析・抽出依頼への対応時間を80%削減した話 / 250325_ci_data

Avatar for Sansan R&D Sansan R&D
March 24, 2025

社内のデータ分析・抽出依頼への対応時間を80%削減した話 / 250325_ci_data

■ イベント
コミュニケーションデータを扱う SaaS 企業が切り拓く、新たなビジネス機会
https://ivry.connpass.com/event/346397/

■ 発表者
技術本部 研究開発部 SocSciグループ
金髙 右京

■ 研究開発部 採用情報
https://media.sansan-engineering.com/randd

■ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Avatar for Sansan R&D

Sansan R&D

March 24, 2025
Tweet

More Decks by Sansan R&D

See All by Sansan R&D

Other Decks in Technology

See All in Technology

Featured

See All Featured

Transcript

  1. Sansan株式会社 部署 名前 社内のデータ分析・抽出依頼への 対応時間を80%削減した話 #250325_ci_data Sansan株式会社 ⾦髙 右京

  2. ⾦髙 右京 ukanetaka Sansan株式会社 技術本部 研究開発部 研究員 早稲⽥⼤学政治学研究科修⼠課程修了。在学中は、国際政治学や 政治学⽅法論(ベイズ統計モデリング・因果推論)の研究に取り 組む。

    2024年にSansan株式会社に新卒として⼊社し、データアナリス ト/アナリティクスエンジニアとして社内データ利活⽤推進に従 事。データ整備から効果検証までデータに関することなら何でも やってます。 最近はトレランにどハマり中。奥武蔵にほぼ毎週います。
  3. 会社概要 2 本社 神山ラボ Sansan Innovation Lab 社 名 Sansan株式会社

    所在地 渋⾕サクラステージ本社 東京都渋⾕区桜丘町1-1 渋⾕サクラステージ 28F グループ 会社 Sansan Global Pte. Ltd.(シンガポール) Sansan Global Development Center, Inc.(フィリピン) Sansan Global (Thailand) Co., Ltd.(タイ) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社⾔語理解研究所 従業員数 1,789名(2024年11⽉30⽇時点) 2007年6⽉11⽇ 設 ⽴ ⽀店名:関⻄⽀店、福岡⽀店、中部⽀店 サテライトオフィス:Sansan神⼭ラボ(徳島)、 Sansan Innovation Lab(京都)、Sansan⻑岡ラボ(新潟) 拠 点 寺⽥ 親弘 代表者
  4. 請求 ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 名刺管理 名刺DX 営業 営業DX 契約 契約DX 経理DX

    個⼈向けDX 法⼈向けDX 必要な情報を すぐに⾒つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活⽤しやすく データに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅ 働き⽅を変えるDXサービス
  5. 各R&Dテーマの事業領域における位置付け 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・因果推論 データ可視化 プロダクトマネジメント 新規事業 営業/CS

    (社内課題) 解約阻⽌・利⽤促進(CS) 営業効率化(営業) テキスト抽出/認識 VQA ⼊⼒の⾃動化 OCR/項⽬分割など 画像補正 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメンデ ーション ラベル 予測 名寄せ RCT ABテスト ・効果検証 パネルデータ 分析 Sansan Labs (新機能開発) Sansan BI (BI提供) キーバリュー抽出 帳票のデータ化 Graph Neural Network
  6. 各R&Dテーマの事業領域における位置付け 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・因果推論 データ可視化 プロダクトマネジメント 新規事業 営業/CS

    (社内課題) 解約阻⽌・利⽤促進(CS) 営業効率化(営業) テキスト抽出/認識 VQA ⼊⼒の⾃動化 OCR/項⽬分割など 画像補正 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメンデ ーション ラベル 予測 名寄せ RCT ABテスト ・効果検証 パネルデータ 分析 Sansan Labs (新機能開発) Sansan BI (BI提供) キーバリュー抽出 帳票のデータ化 Graph Neural Network
  7. データから、営業の⾏動変容を⽣み出す あらゆるデータを統合 Sansanで営業戦略の意思決定を⾏い、実⾏するための基盤がSansan BIです。 個社の意思決定と実⾏に必要なデータやインターフェースで、営業の⾏動変容にコミットします。 Sansan Data Hubの ⾼度な名寄せ技術を活⽤し、 意思決定に必要なSansan内外のデータを

    統合・構造化できる。 UIをカスタマイズ 固定のUIではなく、 利⽤者にとって最適なUIで データを活⽤することができ、 ⾏動変容につなげられる。 ⽣成AIでの気付き 情報の要約やインサイトの提供が ⽣成AIを⽤いて⾏え、 特に営業マネジメント層の ⽣産性を向上できる。
  8. 社内のデータ分析・抽出依頼への 対応時間削減への取り組み

  9. 社内におけるデータ分析・抽出依頼 - 全社横断データ基盤による社内データ利活⽤推進 - プロダクトに関わらず、社内全てのユーザーからのデータ依頼を承っている - 営業、CS、事業企画、PdM、研究員、エンジニアまで様々データ連携、リスト抽出、 効果検証、BI整備など何でも データ 基盤

    提供 データ分析・抽出の依頼 分析・抽出
  10. Cloud Storage Amazon S3 Amazon Aurora Storage Transfer Service Cloud

    SQL Logging Cloud Composer Project データ基盤 Data lake BigQuery Project データ分析A BigQuery DWH BigQuery Data mart BigQuery Project データ分析B BigQuery Group A Group B データ基盤エンジニア その他 AWSリソース Azure Blob Storage Salesforce データ基盤アーキテクチャ
  11. Time-to-insight削減への取り組み - データ基盤チームとして、依頼からデータ提供までにかかる時間 (Time- to-insight; TTI) の削減へ取り組んでいる - 依頼量の⼤幅増加に伴い、⼀件あたりの捌くスピードが落ちてしまっている -

    データ基盤側がデータ利活⽤推進のボトルネックとなりかねない逆説的な 状況に - データ提供までのスピードを上げ、よりデータドリブンなカルチャーを醸成 していく
  12. Eight事業部からのデータ依頼への 対応時間を80%削減した話

  13. 名刺アプリ「Eight」 Eightは価値ある出会いをつなぐ、 ビジネスのための名刺アプリです。 つながった相⼿の昇進・異動・転職などの情報が ⾃動で更新されるため、 周囲の近況をスマートに把握できます。

  14. 対応時間を80%削減 - 1依頼あたり約6.8⽇ (2024-11時点) → 1.2⽇に削減 (2025-02時点)

  15. なぜ対応時間を80%も削減できたのか 1. 全社横断基盤へのデータ連携 - サイロ化されたデータ環境フローを全社横断基盤にアラインし、社内ユーザ ーがデータ利⽤しやすいような形へ 2. 秘伝のタレ的クエリの撲滅 3. 徹底したdimensional

    modeling
  16. - 全社横断データ基盤にプロダクトDB側にあるデータの連携を強化 1. 全社横断基盤へのデータ連携 Cloud Storage Amazon S3 Amazon Aurora

    Storage Transfer Service Cloud SQL Logging Cloud Composer Project データ基盤 Data lake BigQuery Project データ分析A BigQuery DWH BigQuery Data mart BigQuery Project データ分析B BigQuery Group A Group B データ基盤エンジニア その他 AWSリソース Azure Blob Storage Salesforce
  17. - 昔から存在していたレガシー的なデータ 抽出クエリを解読し、全社横断基盤での データ取得を⾏えるようにした - 元々プロダクト側で利⽤していた Redashのレスポンスが悪く、またクエ リも効率化されてない - BigQueryでなんとかする

    2. 秘伝のタレ的クエリの撲滅
  18. 3. 徹底したdimensional modeling - dbt を⽤いたdimensional modeling - 全社基盤へのデータ連携によりアナリスト側でのtransformが可能に -

    秘伝のクエリ解読によるロジック把握および事業部側との協⼒から Dim/Factを特定し、徹底的なデータモデリングを⾏った - Ex.) ユーザー/企業Dim, 名刺交換Fact, etc. - 効率的にデータ分析および抽出作業が可能となり、依頼対応時間削減に ⼤きく貢献
  19. 「デカい」dimensionは 全てを制す

  20. - ユーザー・企業属性を網羅した巨⼤な分析特化Dimensionを作成 - 利⽤状況、職種、業界といった属性を各ソースからモデリング - CTEsやサブクエリを使うことなくselect / from / join

    / where のみの単純なクエ リでデータ分析・抽出が可能に - データ抽出⽤のアプリケーションを作り、事業部側ユーザーだけで 抽出プロセスが完結するようにした - 属性情報を選択するだけで必要なデータが取れる世界 *賛否あるかも 「デカい」dimensionは全てを制す* I
  21. 「デカい」dimensionは全てを制す II デカい ◡̈

  22. 「今⽉の名刺交換数について業界×業種で分析して!対象はAユーザーのみで!」 「デカい」dimensionは全てを制す III 「デカい」dimensionで楽々 ◡̈

  23. 「AだけどBではないユーザー、もしくはCなユーザーのIDとメアドを抽出して!」 「デカい」dimensionは全てを制す IV 「デカい」dimensionで楽々 ◡̈

  24. おわりに

  25. Concluding remarks - データ連携やモデリングを通して80%の依頼対応時間削減を実現した - データ利活⽤の⼤幅推進とデータドリブンなカルチャーの醸成につながる - セルフサービス化も達成しつつある - 「デカい」dimensionは全てを制す

    - 属性を広く網羅したテーブルで⽚づける、分析は10秒で終わらせる - 副産物として、並⾏して⾏っている効果検証やEDAの速度も向上した - ただし、現状だとただのパワープレーに過ぎず、もっとやれる - LLM君がもっと⼤胆に解決してくれるかも?模索中...
  26. Sansan 研究開発部 募集ポジション紹介 https://media.sansan-engineering.com/randd

  27. None

[8]ページ先頭

©2009-2025 Movatter.jp