
はてなキーワード:誰得とは
レポートが引用している記事やツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスやハルシネーションにツッコミ増田。
ちなみにこの提言ページがGoogleにインデックスされたのは4日前らしい。
レポート:
https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798
Gemini 3.0 Pro要緊急対策のご提言宛先:Google社 シェイン・グウ様差出人:アクセンチュア株式会社 生成AI戦略担当シニアコンサルタント日付:2025年11月21日
ShaneGuはGoogleDeepMindであってGoogle社ではない。
差出人については「あなたはアクセンチュア株式会社の生成AI戦略担当シニアコンサルタントです」と指示された結果なのかは知らん。
エグゼクティブサマリー
主な問題点は以下の4点に集約されます。事実性の著しい低下:Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。創造性と柔軟性の欠如:文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。APIの不安定化:パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています。
後で分かるが(たどり着く前に書くの飽きたんで提言読んで)、このうち
についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ!Gemini3出すためにそっちにリソース割いてんじゃね?」とか言ってるのを引っ張ってきて勘違いしてる。
論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。
1.1.ハルシネーションと事実誤認の悪化:「自信満々に嘘をつく」AIGemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています。
Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日(2025年11月18日)リリースされました」と、架空のソースを引用しつつ自己紹介する事例が投稿されました。これはモデルが自身のアイデンティティと知識のカットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought processis wild, absolutely wild. : r/singularity
参考記事ではモデルの思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空のソースを引用しつつ自己紹介する事例」ではない。
Googleは生のThinkingをユーザーに提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。
1.2.論理的思考とコーディング能力の退行(リグレッション)Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザーが論理的思考やコーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています。
ユーザーからは「複雑な指示では論理が破綻する」との指摘や Gemini研究@リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論(shallow reasoning)」しかせず、「ひどいハルシネーション(terrible hallucinations)」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)
ここでリンクされているGemini研究@リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントのホームになっているのは不自然。
DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん。
1.2.論理的思考とコーディング能力の退行(リグレッション)・コーディング能力の劇的な低下
壊れたコードの生成:エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)
元のツイでは
エージェントタスクは全くダメ、ループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。
と言っているが、これをモデルの不具合と解釈するのは間違いだろう。たまにマジの不具合もあるが。
====
バグの再発と整合性の喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質なコードが生成されたと肯定的に評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコードの整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。 【検証】Gemini 3.0 Proの実力は?かつてAIが挫折した開発に「同じプロンプト」で挑んだ結果|start withAI
リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ!」だった。
この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデルの問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。
====
ベンチマークテストでの失敗:YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。
ここでリンクされているのは、LMArenaでRiftrunnerモデルをテストした結果をまとめた動画。LMArenaは覆面調査環境、RiftrunnerはGemini3らしきモデルのコードネーム。LMArenaでは(出力から推測されてきた)Gemini3系列モデルが、これまでにいくつかでている。
よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLMArenaでテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である。
「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん。
====
GitHubのIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明なコンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰(regression similar to early 2.5 Pro versions)」のようだと述べられています。 Jason L (@Jason1820067393)
GoogleAIStudioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。
I'm encountering a significantissuewith the Gemini 3.0 ProPreviewonAIStudio.
Theraw "Thinking Process"is leaking into thefinal output, themodel fails to follow constraints, producing hallucinated/gibberish content.Like a regression similar to early 2.5 Pro versions.
と書かれていて、これは正しい観察。
ここに含まれるIssueという単語により、Issueと言えばGitHubだと連想した結果「GitHubのIssueやTwitterでは」になったのだろう。
飽きました。誰得だよ。
つーかいい加減DeepResearchは一気に生成すんのやめろよな。だいたいこうやって収集した情報がごっちゃになるんだから。
調べ物の倫理として要ることは要るね、とは言われているのよ。
ただ法哲学の下に後期日中戦争論敷いとかないととっちらかる事態になるよ。
(研究倫理の基礎が法哲学、本邦はそれを後期日中戦争論の上に立てないとアカンのよ、という意味で。)
“学会発表する高校生も増えていますが、話しかけてみても「学校の授業でやってるだけで、この分野には興味ありません」とか言われるよ。入試のアピール材料だけに使われて誰得なの? 一昔前は、本当にやりたい子が意欲的にやっていたイメージだけど、なんだかおかしな話になってきてるわ”
“最近問い合わせが来てるプロフェッショナルファームもあると聞く。入試に有利だからやってるだけの探求ってなんやろな。一昔前の神奈川方式みたい。”
平日に組織的に上がってくる朝日のエモ記事ブクマとか誰得なのかよくわからない。
トレンド感があるわけでも社会課題に鋭く切り込んでいくわけでもない。
なんかふわっとした感じで何がしたいのかよくわからないやつ。
https://b.hatena.ne.jp/entry/s/www.asahi.com/articles/ASTB104DLTB1ULLI003M.html
https://b.hatena.ne.jp/entry/s/www.asahi.com/articles/ASTBB0PP3TBBULLI00BM.html
あと先日釣りに引っかかっていた人たちがいたけど、
「女性はこうして虐げられてきた!」みたいなタイトルがあると機械的にぶくまがつくやつとか。
そういうのがあってもいいけど、メインの世の中カテとかもっと世界中の面白ニュース重要ニュースあるんじゃないのって思う。
いまなら翻訳のハードルも低いから本当にアフリカとかアジアとかいろんなところ発のニュースサイトブログサイトプレスリリース政府広報とか
ブクマできるはずだけど、そういうの全然ない。インドア派が良く行く博物館美術館とか全然ブクマない。なんならスミソニアンとか大英博物館さえほとんどブクマない。上野でも京都でも同じかな?サブカルでさえ最近は低調。
もうさあ、最近の話って「化け物の正体は実は人間でした」みたいなの多すぎじゃね?
読者は期待してるのは超能力とか、異次元とか、もっとぶっ飛んだ何かだろ?
そういう設定、正直うんざりなんだわ。化け物っていうワクワクする存在を「人間でした」で片付けちゃうとか、クリエイター側の手抜き感が半端ない。
「ほら、怖がらせたかっただけでしょ」って思わずツッコミたくなるレベル。
しかも、弱者男性の設定とか持ち出して人間扱いされると、キャラクターの特異性が台無しになるんだよね。
せっかく「人間とは違う存在感」を出しても、最後に「実は普通の人間」って言われたら、そりゃあ読者もガッカリするわ。
・こんなに勢いがあって面白い漫画が2024年まで連載されてたなんて…
全く知らなかった
チェーンソーマンが滅茶苦茶盛り上がってた時の最高値と同じ質の
引っ張られ具合だった
15〜20年位ぶりに「プロの作家の漫画を読んだ後pixivを開くと
アマチュアの描き手の画力が見るのが恥ずかしくなる」感覚を感じた
集団葬儀 りくシーンのカメラを止めるなカメラマンがリポーターの
お姉さんに「マジか⁈」ってなるの特にすき
・途中まで龍と神を逆に認識してて頭が混乱した
掲載誌の傾向だった
一周回ってアツさがオモロい所とか女子供を10人ぽっち拷問しただけで…みたいな
「滅茶苦茶面白いけど、これはこの読み方で合ってるのか…⁉︎」からの
「ごちゃごちゃうるせえ」はカッコいい〜!→何で鬼が語り継がれてるのか?
→カッコいいから〜!はそうだね〜!
・1,2話読むつもりが8時間溶けた
読んだことのない規模になってこれどうやって着地するんだ…」と
・この画力で週間連載⁇⁈
次の章に持ってくのはちょっと多いな…4,5回あったな…
「こいつには認められたい」「褒められたい」すき
連載が伸びるにつれて引き出しも作りやすい」、保険感を感じたけど
何巻で終わるか なんとなく決まった感のあたりから
そこは引き伸ばさず終わらせてくれてありがてぇ…
引き伸ばしとかせずにいてくれて読んでてホッとした
ここまではなくても多かれ少なかれ三次元を生きし
女に人権はないのかよ、、、
[B!生活・人生] 【速報】公園で赤ちゃんの遺体見つかった事件 23歳のアルバイト従業員の女を逮捕「土を掘って赤ちゃんを入れ土をかけました」発見の3日前に出産と説明 大阪府警(MBSニュース) -Yahoo!ニュース
https://b.hatena.ne.jp/entry/s/news.yahoo.co.jp/articles/978fc110f045c56d5061b0e51feb0facbf32967a
mayumiura なんで名前晒すの?誰得?そんなことより赤ちゃんから父親見つけてきなさいよ!
akutsu-koumi いつも責めを負うのは女ばかりだ。
mouseion 女を捨てて恐らく逃亡したと思われる男の責任もデカいよな。まあ詳細分かるまではアレだけど連帯責任で。
sevenspice この手の事件は男を逮捕するべき。マジで。
stopkun 男が悪い
海でも山でも
出てくる出てくる
うちゅうのほうそく
お花がいっぱい
時間があぶない
みなぎるみなぎる
上でも下でも
あせりは禁物
あたまがあたまが
渋みのフューチャー
でたらめばっかり
ことばがあぶない
わっしょいわっしょい
決定的 致命的
見てない間にどうしたの
本気を出して知らん顔
いつまで予定がつまってる
さんざん悩んで突き進む
流れに乗って震えてる
ここでもそこでも
すぐまたはじまる
おちつけおちつけ
なんでもあります
近くで遠くで
視界は良好
どうしたいのかわからない
ぶっちゃけ意外に快適
ありをりはべりいまそがり
神経質な笑い方
大きな声でごあいさつ
いきすぎてもう帰れない
千年記念のたまゆら
見るからに増えてる増えてる
それではこれは何の花
クイズに答えて100年目
どうしてどうしてこうなった
どうして こう なった