Movatterモバイル変換

■Twitter「the-algorithm」における推薦システムの数学的抽象化

Twitterの「the-algorithm」リポジトリをもとに、推薦アルゴリズムを数学的に極限まで抽象化すると、以下のように表現できます。

1.問題設定

ユーザー u ∈ U に対して、一連の候補アイテム（ツイート） i ∈ I をスコア付けし、降順に並べて上位 K を表示します。

要するに、以下を最大化する推薦問題です：

argmax{i∈C(u)} S(u,i)

ここで C(u) は候補集合、S(u, i) はスコア関数。

2.パイプライン 構造：4段階モデル

(1)候補生成（Retrieval）

数千万から億単位のツイート全体 Iから、まず候補集合 C(u) ⊂ I を生成。

グラフ構造（フォロー関係）や「SimClusters」「TwHIN」など埋め込みから近似。

検索インデックス（Lucene/Earlybird）による検索スコアによる絞り込み。

数理的には、潜在空間中でユーザーとアイテムの距離または類似度sim(u, i) が上位のものを選ぶ操作。

(2) 軽量ランク付け（Light Ranker）

候補数をさらに削減。特徴量 xᵤ,ᵢ を簡易学習モデル（線形モデルなど）に入力し出力スコア：

Slight(u,i) = wᵀxᵤ,ᵢ

重み w やバイアスは学習済み。

(3) 重量ランク付け（Heavy Ranker）

多層ニューラルネット＋マルチタスク学習で、複数のユーザー行動（いいね、リプライ、リツイートなど）確率 Pₖ(u, i) を予測。

スコア関数は以下の形：

S(u,i) = Σₖ αₖPₖ(u,i)

例：リプライ Pᵣₑₚₗᵧ に重み 27、著者返信あり Pᵣₑₚₗᵧ_ₐᵤₜₕₒᵣ に 75 など。

ここで係数 αₖ は A/Bテストなどで最適化されます。

(4)可視性フィルタ／スコア調整（Filtering & Boosting）

ランキング後、フィルタやスコア修正を施す：

ブロック・ミュート・NSFW・スパムなどで除外。

投稿者がBlue Verifiedなどでスコアを×4または×2倍。

同一投稿者続出の抑制、逆風バイアス（negative feedback）などが入る。

これは以下のような修正：

S̃(u,i) =mS(u,i)

ただし m はフィルタとブーストによる乗数。

3.数学的抽象 表現

以上を統合すると、推薦問題は以下のように整理できます：

候補生成：C(u) = {i ∣sim(u,i) ≥ τ}
軽ランク：Slight(u,i) = wᵀxᵤ,ᵢ
重ランク：P = fᶿ(u,i) ∈ [0,1]ᴷ，重み α によるスコア合成
調整後最終スコア：S̃(u,i) = m(u,i) Σₖ αₖPₖ(u,i)
推薦：argmaxₖ S̃ を選定し表示。

この構成は一般的なレコメンダシステムの「Retrieval → Ranking → Filtering」の標準パイプラインと整合。

4.抽象化の限界と詳細（モデル・信号・推定）

学習モデル fᶿ は特徴量集合・ニューラル構造・訓練データによって依存し、ブラックボックス的。

特徴量 xᵤ,ᵢ は埋め込み、行動履歴、文脈、信頼性指標（tweepcred）等多次元で複雑。

スコア重み αₖ は明示されるが、最適化は A/Bテスト・実システムでの評価に基づく。

信頼性・安全性のルールはフィルタとして明示されるが、その詳細（具体的しきい値など）は省略・秘匿されている。

数学的に本質を抽象すると

S̃(u,i) = m(u,i) Σₖ αₖ fᶿₖ(u,i)

ここで、

C(u)：ユーザー u にとって意味ある候補集合
fᶿ：深層モデルからの行動確率推定
αₖ：行動重み
m(u,i)：フィルタやブーストによるスコア調整

という、レコメンドパイプラインの抽象テンプレートに帰着します。

5.結論

Twitterの「the-algorithm」は、コード構造の多くを公開しているものの、モデルパラメータ・学習データ・設定ファイルは秘匿されており、上述パイプラインの数学的な枠組みは把握できても、実際の挙動はまだブラックボックスです。

とはいえ、レコメンデーション理論の観点からは、上記の抽象モデルで十分に説明可能であり、汎用の数学モデルとして整合しています。

Permalink |記事への反応(0) | 11:25

ツイートシェア

Movatterモバイル変換

2025-06-06

■Twitter「the-algorithm」における推薦システムの数学的抽象化

1.問題設定

2.パイプライン 構造：4段階モデル

(1)候補生成（Retrieval）

(2) 軽量ランク付け（Light Ranker）

(3) 重量ランク付け（Heavy Ranker）

(4)可視性フィルタ／スコア調整（Filtering & Boosting）

3.数学的抽象 表現

4.抽象化の限界と詳細（モデル・信号・推定）

数学的に本質を抽象すると

5.結論

記事への反応（ブックマークコメント）

人気エントリ

注目エントリ

Movatterモバイル変換

2025-06-06

■Twitter「the-algorithm」における推薦システムの数学的抽象化

1.問題設定

2.パイプライン構造：4段階モデル

(1)候補生成（Retrieval）

(2) 軽量ランク付け（Light Ranker）

(3) 重量ランク付け（Heavy Ranker）

(4)可視性フィルタ／スコア調整（Filtering &amp; Boosting）

3.数学的抽象表現

4.抽象化の限界と詳細（モデル・信号・推定）

数学的に本質を抽象すると

5.結論

記事への反応（ブックマークコメント）

人気エントリ

注目エントリ

(4)可視性フィルタ／スコア調整（Filtering & Boosting）