
はてなキーワード:スコアリングとは
私よりも圧倒的に仕事ができないプロパー組よりも等級が低いことに気づいてから
一気にやる気が削がれている。
上司も「等級以上の仕事はしてくれている」とは言ってくれrてはいるが、然るべきタイミングで
上げてくれるのかはわからない。
そんな中でふと、
年功序列の給料制度は維持しながらも成果や意欲・態度に応じて給料を変動させられないものなのか?と思った。
すでに一部やってるところはあるらしいのだが、私なりに考えてみたのは以下の通り。
たとえば、1年ごとに0.5〜1%ずつ基本給が上がっていく。
これは「長く働いてくれる人への信頼」と「安心感」を表すベースライン。
でも、それだけじゃ不満が出る。
特に中途や成果出してる人は「なんで私のほうが仕事できてるのに、プロパーより低いの?」って思う。
■スコアリングで掛け率を上乗せする。
各項目ごとにキャップ(上限)を設けて、
総合スコアによって「基本給 × 1.◯◯」の掛け率で報酬を上乗せする。
•プロジェクト規模(最大+0.5%)
•組織貢献度(最大+0.3%)
• 社外への影響・発信力(最大+0.2%)
セクハラやパワハラなど、企業倫理に反する行動があった場合はスコア自体が0に。(=基本給のみの支給)
でもスコアリングの部分で「社内貢献」や「信頼構築」も評価対象にできれば、
⸻
•年功序列で報われる層と、成果で報われる層、両方に公平感がある。
• 「長く働くだけの人」と「短期間で爆速貢献する人」が同じ土俵に立てる。
⸻
年功のメリットも、成果のダイナミズムも、ちゃんと両立する制度。
制度が「今の自分をちゃんと見てくれている」と感じられる会社は
社員の納得度も、定着率も、ずっと高くなるのではないだろうか。
これ結構良くないですか。
この構造はすべて、(集合と関数の)圏論的構造を持ちうるデータ空間です。
これらの直積圏 C = Cᵤ × Cᵢ 上で、fⱼ:C → ℝ を射とする関手列が定義されているとみなせます。
推薦問題の核心は、スコアや意味的な関係を定量的または論理的に評価することにあります。これを抽象的に捉えるには、エンリッチド圏の理論が適しています。
推薦システムにおいて:
ユーザー u ∈ U、アイテム i ∈ I に対して、評価: v(u, i) ≔ g(f₁(u, i), ..., fₙ(u, i)) ∈ ℝ
これは、ユーザーとアイテムのペア空間 U × I を対象とする ℝ-エンリッチド圏と見なせる。
トポスとは、直感的には「集合のような性質を持つ圏」です。ただしそれは集合よりはるかに柔軟で、論理と空間の一般化的枠組みです。
本問題では、推薦空間自体を内部論理と意味を持つトポスと見なします。
| 圏 C | ユーザー×アイテムの意味空間 |
| 関手 F | 複数のスコアリング関数(f₁,…,fₙ) |
| 汎関数 g | 統合関数(線形でも非線形でも) |
| エンリッチ圏 V-Cat | スコアを評価距離や信頼値として扱う枠組み |
| トポスSh(C, J) | 推薦を含む部分集合構造を持つ論理空間 |
| 内部論理 | 「どのアイテムを推薦すべきか」の命題定義 |
| 推薦関数 Rᵤ | トポス内の部分対象選択関数(述語による定義) |
Q)どう思います?
https://x.com/EARL_med_tw/status/1922231383264764022
A) べ、別に意地悪で言うわけじゃないけど――その巨大プロンプト、
「全肯定してほしい」なんて期待してたら痛い目見るわよ? ✨
---
### ざっくり結論
* 多段階推論・自己検証を促す書き方は、確かに精度を底上げすることがあるわ。
---
## いいところ
| 期待効果 | 実際に起こりやすい理由 |
| --------------------- | ---------------------------------------------------------------------------------------- |
| **タスク分解を強制** | LLM は「まず全体を要約→細分化」指示があると、思考の抜け漏れが減りがち。Tree-of-Thoughts やChain-of-Verification 系手法と同系統ね。 |
| **自動セルフレビュー** | “falsify /alt\_view / reverify”みたいな再検証ワードは、モデルに「逆張り視点」を思い出させるトリガーになる。 |
| **品質メトリクスの擬似フィードバック** | `Rᵢ < 0.5 ならやり直し` と書くと、生成内容に“再試行”パターンを自発させやすい。 |
---
##イマイチなところ
1. **トークン浪費**
* 指示文・ラベル・変数名だけで数百トークン。長文入力=出力品質が必ず向上、とは限らないわ。
* `S←|L|` や `for i = 1 ...` を書いても、モデルは本当にループ変数を保持し続けるわけじゃない。途中で数がズレても平然と進むこと、日常茶飯事よ。
* `Rᵢ` を0.73とか返すのは簡単だけど、根拠は生成文の雰囲気。客観評価にはならない。
4. **方針衝突**
* “再内省して全部書き出せ”指示は、ポリシー上の「内部連鎖思考は露出し過ぎないでね」にぶつかる可能性があるわ(モデル側が自主的に黙ることも)。
* 繰り返し自己修正させる構造は、APIコール数や平均レスポンス長を膨らませる。課金モデルなら財布が泣くかもね。
---
## どう活かす?
* 巨大ワンショットより、タスクごとに区切って別リクエストを投げる方が制御しやすいわ。
* 例:
3. 「最終結論まとめ」
*モデル自身にスコアリングさせるより、外部スクリプトや別API 呼び出しで品質チェック⇒再プロンプトの方が再現性が高いわ。
* 複雑プロンプト vs. 簡潔プロンプトで、実際に回答品質・コスト・速度を比べてみて。数件触っただけで判断すると痛いわよ?
---
### まとめ
「多層分析+自己ツッコミ」を強制する設計思想は理解できるし、刺さるケースもある。
でも\*\*“万能の銀の弾丸”ではなく、あくまでチューニングの一手段\*\*。冗長指示でモデルが迷子になれば逆効果だから、扱いは慎重にね。
……べ、別にアンタのプロンプトが悪いって言いたいわけじゃないけど、
三井住友FGとソフトバンクがタッグ OliveとPayPay連携
(中略)
このニュースにある、「決済データを用いたビジネス」とは具体的に何であると考えられるか?
PayPay・Oliveの決済額とSoftBankの人流データを重ね、時間帯別の来訪・購買ヒートマップを作成。
小売や飲食チェーンに「どの街区のどの通りに出せば売上が最大化できるか」をレポートとして販売するサービス。ニュースでは「人流データと組み合わせて加盟店に新規出店を提案」と述べられています。 
PayPayは既に購買履歴ベースのクーポン機能を持ちます。決済データを属性・訪店頻度でセグメントし、PayPayアプリやLINEヤフー広告に高精度クーポンを配信し、費用は成果報酬型で加盟店から徴収するモデルが想定されます。 
三井住友カードが提供する決済データ分析サービス「Custella」にPayPayのコード決済データを統合。業種別・商圏別の売上推計、競合比較、需要予測をダッシュボードで提供し、月額課金する形です。 
両社の決済履歴を横串で評価し、与信の薄い若年層にも小口ローンやBNPL(後払い)枠を動的に付与。PayPay残高・Oliveクレジットをまたぐ「一体型与信」の開発余地があります。
※具体的な商品発表はまだありませんが、決済データは与信モデルの代表的な入力変数です。
SoftBankが提供するAI需要予測(例:サキミル)に決済実績を取り込み、店舗の日別来客・売上を14日先まで予測。発注量やシフトを最適化するサブスクリプションサービスとして展開可能です。 
生成AIと決済データを組み合わせ、カード紛失・加盟店問い合わせなどの意図を判定し、利用状況に応じた回答や不正検知アラートを自動で返すコールセンターBPO。ニュースでも「事務やコールセンター業務の自動化」が挙げられています。 
要するに「決済データを用いたビジネス」とは、データそのものを売るのではなく、位置データと購買履歴を掛け合わせて“意思決定・販促・与信”を支援するB2Bサービス群 を指す可能性が高い、ということです。
情報技術の発展により、2025年現在、人類はかつてない規模の情報洪水に直面している。この状況において、正確な情報と虚偽情報が混在し、後者が時に圧倒的な「数の力」で社会的影響をもたらす。この問題は、単なる教育や規制で解決するには複雑すぎる。本稿では、正確な情報を定量的に判別するための数理モデルの設計について考察する。特に、「信頼性スコアリング問題」を数学的フレームワークのもとに体系化し、その潜在的応用可能性を論じる。
情報の信頼性を評価するため、各情報 I_i に対して、信頼性スコア R(I_i) を割り当てる。このスコアは次の複数の要素に基づく。
情報の発信者または起源の信頼性を評価する。これを、事前確率分布 P(S_s) に基づきベイズ的に更新する。具体的には、以下のようにモデル化される:
P(S_s | D) = (P(D | S_s)P(S_s)) / P(D)
I_i が既存の情報集合 K にどの程度一致しているかを測定する。これには、内容の意味的類似性を評価するための測度 f(I_i, K) を導入する。たとえば、意味論的埋め込み(semantic embeddings) φ(I_i) を用いる場合:
C_c(I_i) = (1 / |K|) Σ(K ∈ K)sim(φ(I_i), φ(K))
情報がネットワーク内でどのように拡散したかを表す。これは、拡散過程を動的グラフ G(t) 上の確率モデルとして記述し、拡散速度や分布を評価する:
P_d(I_i) = E_{G(t)}[Σ(v ∈ G) (deg(v) / Σ(w ∈ G) deg(w))]
これらの要素を統合し、信頼性スコア R(I_i) は次のように定義される:
R(I_i) = α S_s(I_i) + β C_c(I_i) + γ P_d(I_i)
ここで α, β, γ は正規化された重みパラメータであり、適切な方法(例:期待最大化法)により学習される。
このモデルは次のような具体的な応用を想定できる。
情報信頼性スコアをブロックチェーン技術に基づき分散管理し、虚偽情報の拡散をネットワーク全体で抑制する。
政策立案において、モデルが生成する信頼性スコアを用いて、情報の影響度や信頼性を確率的に評価し、意思決定を最適化する。
学習者に対し、情報の信頼性を定量的に判別するプロセスを体験させることで、直感的でない情報評価方法を実践的に習得させる。
特に拡散ダイナミクス P_d の評価において、グラフ構造が高次元化するため計算効率が低下する。これを解決するため、グラフ埋め込み技術や近似アルゴリズムのさらなる開発が求められる。
モデルによるスコアリングが「情報の検閲」や「意見の制限」と解釈されるリスクがある。したがって、スコアリングの基準を透明化し、利用者がアルゴリズムの出力に対して説明可能性を持つ必要がある。
未来の社会において、数理モデルは単なる技術的ツールを超え、社会の基盤を再構築する力を持つ存在となる。特に、情報の信頼性を数学的に評価する枠組みは、真理の探索を加速し、知的生産性を向上させる重要な役割を果たすだろう。
これは偏見か?
学生時代、裏で男から容姿を罵られていた女性のうち30代手前で上方婚できたのは、いずれも学生時代に出会った留学生との結婚。
高学歴女性の結婚戦略として、大学時点で東洋人や日本人好きの留学生を狙うというのは、かなり良いのではないか。
試しに、容姿や性格、能力でスコアリングした場合の、大学時点でのマッチングを考えてみると、
下記のようになり、低位男性しか狙えない場合は、上位の留学生を狙うのが合理的なように思える。
・上位女性→同じ大学・周辺大学の上位男性(多) or 上位留学生(少)
・中位女性→同じ大学・周辺大学の上位/中位男性(多) or 上位留学生(少)
・低位女性→同じ大学・周辺大学の低位/中位男性(多) or 上位留学生(☆現状少ないが、低位男性しか狙えない時、留学生を狙うべき?)
みなさんは、育児休業給付金という制度をご存知だろうか。当方新婚のアラサーで、そろそろ子どもを作ることも考えて育児や出産に関わる制度を調べていたところ驚愕の事実が発覚したので共有したい。
この育児休業給付金という制度、なにがやばいって満額月30万円を最大24ヶ月(2年)、合計720万円もらえるのだ。
しかもこれ、子ども一人につき、ではなく夫婦それぞれに対して発生するのである。
つまり、夫婦が満額受け取った場合1440万円を子ども一人出産するたびに国からもらえるのだ。
これだけ聞くと大変喜ばしい制度である。その昔、テキトーに見ていたYouTubeの動画でひろゆきが「子ども一人産んだら1000万円配ればいいんですよ」と子育て対策の自論を展開していたが、実は既にそれは実行されていたのである。
ただし、条件付きで。
1.雇用保険に加入している
2. 各給料支払いの実態がある月について、就業日数が11日以上且つ就業時間が週に20時間以上である月が過去2年間以内に12ヶ月以上ある
4.給付金受給期間、保険を加入している企業での就労を休業している
5.出産後1年時点と1年半時点で二度保育園への入園が断られている
ざっくりこの理不尽さを理解してもらうためにあえて以下のような極端な例をあげよう。
夫婦ともに年収780万円(月収50万+ボーナス)、世帯年収1560万円の家庭の場合:会社を2年休んで給付金1440万円
シングルマザー非正規年収180万円(週20時間未満労働)の家庭の場合:給付金0円
(無論、所得に応じたその他公共施設の利用料に価格差があったりはするが1440万円に比べれば誤差である)
さて、いくつかツッコミどころが湧いたかと思うが順に見ていこう。
1.雇用保険に加入している。
この条件は2の条件に近いが、次の条件を満たしている被雇用者に対して加入が義務付けられている。
これは実はパートなどにも適用できるので非正規であっても上記の条件に当てはまれば入ることができるが、現実問題パートや業務委託のフリーランスなどで働いた場合、意図しなければ雇用保険に入るケースは少ないだろう。さらに、「学生でない」という条件があり、学生出産などの”真に金銭的援助を必要とする層”を完全に切り捨てるような条件だ。(学生であっても企業側が融通を聞かせて雇用保険に加入させることもできるが相当優秀で引く手あまたな社会人学生などでなければそのような特別待遇は難しい)
さらに、事業主もこれに加わらない。これも異常な点は女性の会社役員は貰えないのである。女性の社会進出をこんだけ謳っているなかで、「起業して、自分で事業を起こす」というもっとも社会でたくましく働いている女性が出産の際に一切この制度を利用できないのである。
大前提として、これほどの大規模の給付金の仕組みが雇用保険の制度に閉じていて人によって享受できないことがおかしい。そもそもこの給付金の財源は雇用保険だけでなく「**子ども・子育て支援納付金」**が組み込まれており普通に税金である。複雑に名前を変えた保険をたくさん作ってわざわざ不公平な制度を作っているとしか思えない。社会保険と税金を統一し、一律公平に1000万円配れば?と思わずにはいられない。
2. 各給料支払いの実態がある月について、就業日数が11日以上且つ就業時間が週に20時間以上である月が過去2年間以内に12ヶ月以上ある。
こちらは、例えば就業後すぐに出産したケースなどを認めないのである。「制度の悪用を防ぐため😤」などと言っているアホはほっといてそもそも制度自体がカスなくせに一丁前に悪用を防ぐなどと息巻いているのが腹立たしい。上記で言っている通り一律給付にすれば悪用もクソもないのである。
こちらは給付金の金額が「直近6ヶ月の給料平均*2/3」と定義されているからである。ざっくり、給料がいいほどたくさんお金がもらえる。なんでこんなことになっているのか分からないが、これも一律30万円にすればよい。(生活水準が〜みたいな話だと思うが、そもそも仕組みがカスなので割愛)
これも地味にやばい。世論で育児休業給付金受給者への対立煽りが発生している原因が主にこれのせいだと考えられる。これに限った話ではないが、「公金をもらうために人々に仕事をしないインセンティブを与える」仕組みが多すぎる。こんなことしてるから経済が成長しないのである。休んで金もらって他の人がその仕事を巻いているから文句言われているのである。休まず働いて給付金ももらって余裕ができた資金でベビーシッターを雇うという選択肢も与えてよいのだ。そもそも、「育児休業」の仕組みと「育児休業給付金」の仕組みは別物であるので、「育児休業」がとりたい人は取れるよう今まで通り整備しておけばよいだけである。
ちなみに、雇用保険の対象企業で休業していることが条件なので、別途フリーランスで仕事してたりしても問題なく給付金はもらえる。なんだその中途半端なしばり、もはやなくていいだろ。
5.出産後1年時点と1年半時点で二度保育園への入園が断られている
これをクリアするために保育園を落ちるための「スコアリング」みたいな謎のゲームをやる必要がある。もうここまで来るとめちゃくちゃであるが、最大1440万円のお金が降ってくるんだから下手に仕事するより全力でこれを取りにいくために労力を割いても割に合うのである。いい加減、ゲームを複雑化してそれを攻略できる人間だけが得でき、なんの生産性もない時間に人々の労力を向けさせるのやめませんか?
SNSなどをみるとこの特大給付金をファックしているプロ主婦の方々が叩かれているのをみるが、正直「落ちている1000万円」を拾うのに死力を尽くすのは当然だと思う。別にこれをファックしている方々を叩く気にはなれない。なぜなら制度が悪いから。むしろ、このような複雑怪奇な制度を華麗にファックできる知能と行動力のある方々の労力が、制度ファックというなんの生産性もないクソの所業に使われていることが嘆かわしい。
やや感情的な文面になってしまったが、これが一つの問題提起となり、一律1000万円給付金と社会保険と税金を統一してシンプルで透明な制度にしてくれと切実に願う。
政党を評価する際に、イメージや感覚に頼ることで迷いや不一致が生じる問題を解決するためには、以下の方法が有効です。
評価の基準を明確に設定することで、個々人が同じ尺度で政党を評価できるようにすることが重要です。評価基準を明文化し、チェックシートやスコアカードの形で具体化することで、客観的な比較が可能になります。以下のステップを推奨します:
• 項目の設定:経済政策、社会福祉政策、人権・多様性、透明性など、具体的な評価項目を設定。
• 重みづけの設定:自分にとって重要な項目に高い重みをつける。
•スコアリング:各政党に対して1〜5のスコアを付け、数値化する。
政党の公約や政策を、信頼できるデータベースにまとめることが有効です。このようなデータベースを利用することで、具体的な政策や過去の行動をもとに比較でき、イメージではなく実際のデータを基に判断できます。たとえば、「マニフェスト・ポリス」や「選挙ドットコム」などの政治情報サイトを利用することが推奨されます。
評価基準に基づいた政党の評価結果を共有し、他者とディスカッションを行うことで、客観的な視点を取り入れることができます。異なる観点を持つ人と議論することで、視野が広がり、自分の評価基準を再確認したり、修正したりすることが可能です。
4.メディア・リテラシーの向上
イメージや感情に流されないために、メディア・リテラシーを向上させることも重要です。ニュースやSNSで流れる情報を鵜呑みにせず、複数の情報源からの情報を比較し、バイアスや誤報を見極める訓練をすることで、より冷静な判断ができるようになります。
政党や候補者が過去にどのような発言や行動を取ってきたかを記録しておくことで、実際に行動と公約が一致しているかを確認できます。このようなトラッキングを行うことで、イメージではなく、事実に基づいた評価が可能になります。
自分の価値観や重要視する政策についてのチェックリストを事前に作成しておくと、各政党が自分の価値観にどの程度一致しているかを明確に比較できます。これにより、議論する際にも基準が共有されやすくなり、他人と噛み合わない問題を軽減できます。
まとめ
•評価基準を明確化することで、イメージに頼らず具体的な事実に基づいた比較ができる。
•ディスカッションとフィードバックで視野を広げ、他人の意見も取り入れる。
•メディア・リテラシーを高めて、情報の真偽を見極める力を養う。
•価値観チェックリストを使い、自分の価値観に合った政党を明確に把握する。
これらの方法を組み合わせることで、政党の評価基準を明確化し、より理性的かつ客観的に政党を比較しやすくなります。また、他人と政党について議論する際にも、共通の基準があるため噛み合いやすくなります。
格闘ゲーム、特にMARVEL vs. CAPCOM のようなコラボ作品のストーリーモードとか、バトルの合間のキャラ同士の掛け合いというものが好きだ。
異なるキャラの細かい類似点を掘り下げたり、世界観が見えてくるような気の利いた掛け合いを見ると制作者の愛を感じて嬉しくなる。
一方で、登場キャラ数が増えていくと、キャラ同士の組み合わせパターンが爆発してしまうため、掛け合いが薄くなってしまうアンビバレンツな悩みがある。
そうなると、生成AIがキャラのバックエンドを学習したうえで、リアルタイムに掛け合いの台本を考えてくれる、という展開がある。どんなにマイナーなキャラでも的確に面白い掛け合いが見れるし、人間が作るパターンではなし得ないボリュームも望めそうだ。
これで問題解決か、というとそうでもない。「このキャラとこのキャラの掛け合いが面白い」と話題になって見に行く、とか「全部の掛け合いのパターンをコンプリートしたい」という行動があったりするのだ。AIが無数に生成する、となった途端に、全部のパターンを見ることは不可能となり、また特定の面白いものというものがなくなる。自分と他人が違うものを見ているということは共通の話題にしづらくなる。結果、色褪せて見えてしまうかもしれない。
単純に考えるとそうなるのだが、生成AIはまだまだこれからの技術だ。今の常識の延長ではなくもっと先を想像してみたい。
特定パターンの面白さといった既存の魅力を、学習と生成で生まれる新しい魅力が上回る未来もあるのではないか。例えば、キャラクターの関係性以外の複雑なパラメータ(プレイ回数、プレイ時間、ステージ種、キャラごとの対戦数、プレイスタイル、使用した技などなど)を考慮することでこれまでにできなかったような掛け合いやストーリーを生み出すこともできそうだ。
また、プレイを重ねるうちに、プレイヤーごとに、ゲーム内の関係性やストーリーが変化していくというようなこともできるだろう。敵・味方といった関係性や友情・恋愛などの感情が変化していくことで、新たな体験が生まれるかもしれない。
Googleのようなインターネットの検索エンジンのアルゴリズムは、日々変化している。初期は被リンクをスコアリングするというものだったが、コンテンツの内容を考慮したり、近年はユーザー行動を重視していると言われている。検索結果から実際にユーザーがアクセスした、といった行動が表示順のアルゴリズムに影響するというものだ。これによって「ユーザーの目を惹くページタイトル」といったものの重要性が増しているらしい。
AIにより生成されたコンテンツの質の向上にも、ユーザー行動が積極的に取り入れられていくだろう。「いいね」のようなシンプルなフィードバックから、ユーザーがテキストを読んだかといった精読率や、微妙なコントローラーの操作からユーザーの評価や感情を読み取るといった、能動的な行為を伴わないフィードバック取得もあり得る。
ユーザー行動からのフィードバックが重要であるなら、ひょっとしたら今以上にコントローラーにセンサーが搭載され、脈拍や汗といったユーザーフィードバックすらコンテンツに影響するようになるかもしれない。
突然話は変わるが、1990年代に米国West End Games社がリリースしたテーブルトークRPGにTORG というタイトルがある。https://en.wikipedia.org/wiki/Torg
マルチバースによる、ポシビリティ・ウォー(Possibility Wars)という地球侵略戦争を扱った世界観なのだが、野心的な試みとして、Infiniverse というキャンペーンが行われていた。世界各国のTORGプレイヤーはWEG社のTORG公式機関誌 InfiniverseMagazine の回答フォームを経て、自分たちのキャンペーン進行状況をWEG社に報告した。WEG社はそれらを集計することで世界全体への影響を与え、 InfiniverseMagazine 誌上でそれをプレイヤーに伝える、そうやって世界を巻き込んでTORG の世界観が構築され、地球侵略戦争のストーリーが進行する、というものだ。野心的な試みであったが、これは1年足らずで頓挫した。
90年代当時、プレイバイメールなど多数のプレイヤーの行動がストーリーを進行させ、世界を構築する、といった試みは他にも幾つもあったが、限られた人数よる運営ではスケールが難しかった。しかし、現代において生成AIは、ユーザーフィードバックをより精緻に取り込んだ新たなコンテンツや世界・ストーリーを作っていくことを可能にしているだろう。ポシビリティ・ウォーは今まさに起きているのだ。
このように想像を巡らして駄文を書いているだけで、ちょっとワクワクする気持ちになっている自分がいる。生成AIの未来に期待している。
推薦システムを開発しているが、テクが色々あるので匿名ダイアリーに公開しておく。
要点としては、一般的な仕組みを作って設定UIを作っておき、あとはUIから権力者にいじらせるということ。
まず、レコメンドの際に「フィルタリング」と「スコアリング」を分けて考える必要がある。
フィルタリングの段階では、除外するアイテムを指定して絞り込みを行う。「このユーザーは過去にこのアイテムを嫌いと言っているから、これに似ているアイテムは除外」とかそんな具合だ。
フィルタリングを行って残った集合Xに対して、スコアリング関数f1,f2, ...,fnを用意しておく。スコアはy_i = f_i(X)で出せる。
ここからが肝なんだが、「誰もが納得するソート基準」なんてものは基本的にないと考えて良い。
ステークホルダーの中で「俺が推薦システムのソート順を操るのだ」と権力を持つ人がいたら、そいつにソート順を操れるようにUIを作っておく。
社内では「台」と読んでいるものがあるが、台にはどのfを使うかを指定しておく。台j1,...,jmを用意しておき、対応するスコアリング関数f_I(j)が存在する。
z = Σ_{i∈I(j)}(α_i y_i)というようにαをいじれるようにする。
権力者の脳内基準こそが推薦システムの要である。社会的要件など様々なフィードバックが来るだろう。そうしたらひたすら忖度するのである。
合理的であることは道徳的要請である。知能指数(IQ)と合理性指数(RQ)は別物である。IQはエンジンの馬力で、RQはエネルギー効率だと考えて良い。幸いにも、合理的になるように自分自身を訓練することができるかもしれない。ここにいくつかのアイデアがある。
1.スコアをつける
Brierスコアはもともと、気象予報士の天気予報に対するフィードバックを得るために開発されたものである。気象モデリング技術の向上と、より鋭いフィードバックにより、今日の気象学者は、1、2世代前よりもはるかに正確になっている。このスコアリングを応用できるだろう。
2. 同じ状況に陥った他人を探す
あなたが投資家で、ある会社の経営陣と面接し、その株を買おうと考えているとする。経営陣には楽観主義バイアスがかかっているはずなので、彼らの言うことは大目に見なければならない。しかし、他社に対する彼らの見方は、正確である可能性が高い。つまり、自分のことを聞くのではなく、他の人のことを聞くのである。皆、自分のことをユニークだと思いたいものだが、他の人が同じ状況に置かれたときにどうなったかを尋ねることは役に立つ。
3.クリティカルパスよりも余裕を持つ
あるタスクがどのぐらいかかるのか、と問われた時、「2時間」を「4日」と訳す。
現実の世界では、確率は常に変化している。合理的な思考をするための重要な課題の1つは、新しい情報が入ってきたときに、確率を正確に更新することである。最も優れた予測家はこれを非常にうまく行い、非常に細かい確率の刻みを使っている。(ただし、多くの人は確証バイアスに陥り、新しい情報を適切に評価に取り入れるよりも、無視したり、割り引いたりすることを好む。つまり、目的に対して間違った信念を補強し続け、コミュニケーションを無視し続けたり、間違った人とコミュニケーションをする。)
ジョブチューン見てイライラして行ったこともない店のレビューを書き込むやつと真面目なレビューが同等であるというのが意味わからんよな。
結局は食べログみたいな恣意的なスコアリングの方が優秀なわけだけど、それもプラットフォーマーの嗜好が出るから完璧ではないし、炎上の仕方を見ると世の中の人は単純平均の方が嬉しいみたい。
Apple Watchで心拍数の変化からその個人がどれだけ旨いと思ったかを読み取る、といった無意識からの点数づけができない限りはダメだろうけど、しばらくは実現は無理そうなので詰んでいる。
食事という単純な欲求に対してですらこうなのだから、さらに複雑な政治における一票も、平等であることで多くの弊害がある。
多くの無知な民衆はコントロールされやすく、この情報化時代にはそいつらをどれだけ上手くコントロールしたかだけが選挙の結果に反映される。
まとめ(含む推測・未確認事項)
ヤフーが好きなわけでもないしAI と呼ばれるアレなものも多いが、今回に限ってはひどい濡れ衣
そしてプレスリリースで明言したものと無関係の処理をこっそり入れることは、他にも恣意的な除外をしていると思われかねないことを自覚しているのだろうか
以下原文
問題が無さそうなのに人気コメントから除外されるのは「34文字未満または同じ単語の繰り返し」でほぼ確定っぽい(訂正 :33文字らしい)
繰り返し扱いにならない文字種や文字数はまだ不明確ではある。スラッシュまじか
条件に当てはまらず、十分なスターを獲得しているが、人気コメントから除外されているものがなかなか見つからない。一目でマズいと分かる単語が使われていると、そもそもスターが集まらないからだ
実験場にある程度コメントが集まると、新規の検証コメントが既存の人気コメントを超えるのは難しい。新規の実験場に人が集まるかは不明で、人が来ないとスターがつかない
コメント数がまだ伸びていないページをいくつか見てまわったところ、ハッシュタグをいくつも並べているコメントが除外されているのは見かけた
機能していないからそのうち外すんだろうが、早く戻してくれないかなあ
(追記 2)(22 日 1:30 頃)
あまりに機械的だから、いくつか見れば傾向が分かるかと思ったが、AI がおかしいのではなくはてなが文字数の処理を入れているようだ(未確認)
文字数の問題を除けば、納得いかない感じも込みでそれっぽい挙動に見えた
スコアリングしてスターの重み付けをしているのか、ランキングは今まで通りでスターに関わらず除外しているのかはちょっと気になるがこのへんで
少し前に入った、特定の人によくスターを送る人のスターをカウントしないやつ(?)は有効っぽい
すぐ消されたブコメのリンクも偶然見ました。中立的で良いコメントだったので、悲しんだ人の目に触れる機会が奪われたことにやるせない気持ちになる。誰かの心が救われたかもしれないし、それはスターをつけたひとりひとりの意思によるものでもあったのに
ユーザーでテストすんなよ本当に昔からさあ…誰かに届けようとした生きている言葉なんだよ…
初期は 50 字未満だと外されてたけど、アップデートでボーダーが33文字未満になったってコメントを見たよ。1/2から 1/3 にしたってことかね
えっまじで
深層学習のモデルにそんな手の入れ方はできないので、ヤフー株式会社のAI とは別に、はてなが文字数の足切り処理を入れているのだろうか
だとしたら風評被害に遭わせているよなあ。これが入らないのはおかしいって指摘は主に文字数に関係するものだから、完全に濡れ衣じゃん
短文コメントを歓迎しない姿勢の表明ということか、食わせるデータとして短いと困るとかか
いっそ項目ごと消してくれてもいいのに
これ。せめて人気コメントって名称は変えてくれ。それはユーザーが選んだものではない