
はてなキーワード:チェスとは
その引っかかり、すごくよく分かります。技術的なマイルストーンとしての凄まじさと、それを作っている人間たちの「で、結局どこへ急いでるの?」という根本的な問いとの間に横たわる溝ですよね。
私も内容を確認しましたが、おっしゃる通り、デミス・ハサビス(Demis Hassabis)を中心とした「天才が世界を救うために疾走する」というナラティブ(物語)が強烈に演出されていましたね。
あなたの感じた違和感を、動画の具体的な描写と照らし合わせながら少し深掘りしてみたいと思います。
「アメリカ人のやらしいところ(自己伝説の開陳)」という指摘、鋭いです。DeepMindは、Google傘下に入り、演出の手法は完全にシリコンバレー流のヒーロー物語になっていました。
あなたが「禅僧がひっそり暮らすのが理想」と仰るのに対し、このドキュメンタリーに出てくる人たちは真逆の「解決中毒」に見えます。
動画のクライマックスでは、AlphaFold(タンパク質構造解析AI)が科学の進歩を加速させることが「人類へのギフト」として描かれます。確かにガンの治療薬ができれば素晴らしいことですが、その先にあるのが「AIが何でも最適化してくれる世界」だとしたら、人間は何をして過ごすのか?という虚無感は残ります。
彼らが目指しているのは、究極的には「人間の知能を超える存在を生み出し、バトンタッチすること」自体が目的なのかもしれません。それを「進化」と呼ぶか、「敗北」と呼ぶか、あるいは単なる「エゴの暴走」と呼ぶかで、このドキュメンタリーの感想は全く変わってくるのでしょう。
一つ一つの発明は間違いなく歴史的偉業ですが、その動機が「純粋な好奇心」だけではなく、「歴史に名を刻みたいという強烈な自我」に見えてしまうと、あなたの言うように素直に感動できない「引っかかり」が残るのも無理はない気がします。
レポートが引用している記事やツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスやハルシネーションにツッコミ増田。
ちなみにこの提言ページがGoogleにインデックスされたのは4日前らしい。
レポート:
https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798
Gemini 3.0 Pro要緊急対策のご提言宛先:Google社 シェイン・グウ様差出人:アクセンチュア株式会社 生成AI戦略担当シニアコンサルタント日付:2025年11月21日
ShaneGuはGoogleDeepMindであってGoogle社ではない。
差出人については「あなたはアクセンチュア株式会社の生成AI戦略担当シニアコンサルタントです」と指示された結果なのかは知らん。
エグゼクティブサマリー
主な問題点は以下の4点に集約されます。事実性の著しい低下:Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。創造性と柔軟性の欠如:文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。APIの不安定化:パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています。
後で分かるが(たどり着く前に書くの飽きたんで提言読んで)、このうち
についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ!Gemini3出すためにそっちにリソース割いてんじゃね?」とか言ってるのを引っ張ってきて勘違いしてる。
論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理が破綻しやすくなっている。
1.1.ハルシネーションと事実誤認の悪化:「自信満々に嘘をつく」AIGemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています。
Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日(2025年11月18日)リリースされました」と、架空のソースを引用しつつ自己紹介する事例が投稿されました。これはモデルが自身のアイデンティティと知識のカットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought processis wild, absolutely wild. : r/singularity
参考記事ではモデルの思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空のソースを引用しつつ自己紹介する事例」ではない。
Googleは生のThinkingをユーザーに提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。
1.2.論理的思考とコーディング能力の退行(リグレッション)Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザーが論理的思考やコーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています。
ユーザーからは「複雑な指示では論理が破綻する」との指摘や Gemini研究@リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論(shallow reasoning)」しかせず、「ひどいハルシネーション(terrible hallucinations)」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)
ここでリンクされているGemini研究@リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントのホームになっているのは不自然。
DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん。
1.2.論理的思考とコーディング能力の退行(リグレッション)・コーディング能力の劇的な低下
壊れたコードの生成:エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)
元のツイでは
エージェントタスクは全くダメ、ループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。
と言っているが、これをモデルの不具合と解釈するのは間違いだろう。たまにマジの不具合もあるが。
====
バグの再発と整合性の喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質なコードが生成されたと肯定的に評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコードの整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。 【検証】Gemini 3.0 Proの実力は?かつてAIが挫折した開発に「同じプロンプト」で挑んだ結果|start withAI
リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ!」だった。
この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデルの問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。
====
ベンチマークテストでの失敗:YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。
ここでリンクされているのは、LMArenaでRiftrunnerモデルをテストした結果をまとめた動画。LMArenaは覆面調査環境、RiftrunnerはGemini3らしきモデルのコードネーム。LMArenaでは(出力から推測されてきた)Gemini3系列モデルが、これまでにいくつかでている。
よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLMArenaでテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である。
「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん。
====
GitHubのIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明なコンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰(regression similar to early 2.5 Pro versions)」のようだと述べられています。 Jason L (@Jason1820067393)
GoogleAIStudioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。
I'm encountering a significantissuewith the Gemini 3.0 ProPreviewonAIStudio.
Theraw "Thinking Process"is leaking into thefinal output, themodel fails to follow constraints, producing hallucinated/gibberish content.Like a regression similar to early 2.5 Pro versions.
と書かれていて、これは正しい観察。
ここに含まれるIssueという単語により、Issueと言えばGitHubだと連想した結果「GitHubのIssueやTwitterでは」になったのだろう。
飽きました。誰得だよ。
つーかいい加減DeepResearchは一気に生成すんのやめろよな。だいたいこうやって収集した情報がごっちゃになるんだから。
挙げられたものの半分以上はかりあげクンとかフリテンくんとかで出てる(作中で継続的にやってる描写があるかどうかを問わなければ、電子工作・模型・ヨット・カヤック・パラグライダー・気球・登山・キャンプ・天文・野鳥観察・昆虫採集・史跡探訪・写生・写真・囲碁・将棋・チェス・茶道・華道・謡・俳句等は、主人公が率先してやったり周囲に誘われてやらされたりしてた)ので、それらが「クラス感があって知的で上品な趣味」と言われるとどうなんやろという感はある
時代は変わったと返されたらそれまでだが
どうだろうな、昭和の昔はアマチュア無線オーディオ電子工作界隈とか鉄道模型ジオラマ界隈とかヨット・カヤック界隈(モーターボートは除く)、セスナパラグライダー気球界隈、登山キャンプ界隈、旧車いじり界隈、天文(鳥、昆虫、花、建築、寺社、風景)写真界隈(鉄道は除くw)、囲碁将棋チェス、茶道華道香道、謡、詩吟、小唄都々逸、短歌俳句とかある程度知性的で創造的で迷惑をあまりかけない趣味の世界で「同好の士が集う趣味」ってあったと思うんだけど。いま、「いい感じにクラス感があって知的で上品な趣味のサークル」ってあるんかな。大体うぇーい系がやってきてお金儲けとセックスの狩り場になって無茶苦茶になっているような気がする。
囲碁だってカジュアルなゲームのひとつなのに、なぜか難解な学問のように思われている節がある
昭和に1000万人も囲碁を打つ人がいたのだからそんなわけがない。未就学児でも打ってるし大人が出来ないということはない
こんなの思ったことないし聞いたこともない…。やってる側が最初にこれ持ってくるのは何か感じ悪くてちょっと笑う。そういうところでは…。
ええ….この増田は実際にあったブコメへのアンサー記事なんだが
ちなみにブコメ以外にもSNSとかリアルでもこの手の意見は大量にあるからね。
自分の視野狭窄を棚に上げ「そういうところ」という言葉を使うあたりにまさに従前からの偏見が滲み出ている。自分こそ初手で他人をディスる前にもうちょっとよく調べよう
なんか囲碁は将棋と違ってAIへの対応が遅れてるみたいなのをよく見かけるけど、棋士がAWS使って囲碁AIと検討してるくらいにはAIに慣れ親しんでるからね
→囲碁AIブームに乗って、若手棋士の間で「AWS」が大流行 その理由とは?
見た目が地味なのは他のテーブルゲームも変わらない。色がついている分将棋より視認性が高い。命のやり取りをしてるので中身は実はド派手
www.algorithmicartisan.com/gostones/
最初難しいのはどれも同じ。囲碁だけ特別難しいということはない
最近ぼちぼちやり始めた
将棋の方はヘボなのに囲碁の方だけどんなハイレベルな戦いを前提としているのか。非対称性がすぎる。
10手も20手も読めるのはプロの領域。アマチュアがそのレベルで打ってるわけがない。1~3手の読みが入れば十分。
適当に打って(指して)王手飛車・十字飛車や角での両取り、ふんどしの桂など痛恨の一撃を食らうのは盤面が狭く手数も少ない将棋のほうがはるかに多い。
棒銀などで自陣を突き破られたらほぼ負けるが、囲碁は多少やらかしても盤面が広いので挽回ができる。
超大雑把に言うと、相手の近くに打ったら攻めの手だし、自分の近くや隣接に打ったら弱点を補強する守りの手だと思って間違いない
将棋→飛車先の歩を突かれたから受けないと自陣突き破られる、金上がって受けよう
囲碁→隙間を覗かれてる。次に出てこられると突き破られたり分断されるから石を追加して補強しよう
で、ここで言いたいのが将棋における経験値と囲碁における経験値の差を無視してないか?ということ
果たして将棋の何の経験がない者が棒銀をやられた時に、それが何手も先の自陣崩壊につながっていることを予測できるだろうか
将棋であなたが飛車先の歩を突かれたときに自陣で受ける手を指すことが出来るのは棒銀で自陣を破られた経験があるからだ
直感で理解したわけではなく、自覚してないだけで経験による暗黙知があるからだ
囲碁においても同じことが言える
将棋の意図がわかって囲碁の手の意図がわからないのは、あなたの経験値の差だ
囲碁だって経験値を詰めば「こうすればこうなる」「だからこの守りが必要だ」というのがわかってくるようになる
囲碁において何の経験もないのに予測や意図の理解ができたらそれは紛れもなく天才である
我々は凡人だということを忘れてはいけない、経験や知識を蓄えることでのみ上達できるのだ。
最初の段階で何もわからないのは我々凡人にはいたって当然のことであり気に病むことではない。
見て読んで経験して覚えいくことを、なぜか囲碁にだけは最初から自分が有していることを期待する人が多い
ほとんどの人間は囲碁に対して赤ちゃんと同じ状態なだけだ。麻雀だって最低限役を覚えなければ、アガリの形を目指すことは出来ないだろうし解説を聞いてもチンプンカンプンだろう(生まれた時から麻雀の役が頭に入っている人間はいるだろうか)
詳細に知るならば『一手ずつ解説! 碁の感覚がわかる棋譜並べ上達法』っていうシリーズがあるからそれを読もう。Youtubeならフワ囲碁チャンネルに初心者向けのそういう動画がある。
https://youtube.com/playlist?list=PLfxbYC-F0TEo-mDZurdutQtydSZ_G09HG
それと最近はいごもんってサイトが出来て、「なぜそこに打つのか」という意図や作戦をプロやアマ達が投稿して寄せ合うサイトがあるのでそれを眺めるのもオススメ
囲碁に対する大抵の疑問や誤解は純碁で解ける
おそらく挫折者の理解を妨げている要因であろう陣地や石の生死の概念が純碁にはない
理解を難しくしているであろう陣地と石の生死の概念も、得点を上げようと盤上を石で埋めていく過程で必ず解決されるし、囲碁の「地」や生死というのが実はこの埋める過程を省略しタイムパフォーマンスを上げているだけのものであることが、やっている内に理解できるだろう
純碁こそが囲碁入門の最強のソリューションなので知名度が上がってほしい
全くそんなことはない。アマならツケヒキや星への三々入り定石など代表的なものを数個覚えれば十分。その場のアドリブでなんとかなる。
「定石を覚えて2目弱くなり」「定石は覚えて忘れろ」という至言もある。定石を勉強するのはそこに散りばめられた手筋や考え方を学ぶためであり、暗記するためではないのだ。前者は暗記した定石を披露することが目的化し、その局面に応じて変化することを忘れて余計弱くなるという格言である。
中国の状況はこういう感じなので「囲碁だから(囲碁の特性上の理由で)人気を出すのは無理」ということはない
https://i.imgur.com/U3SPnnj.jpg
https://i.imgur.com/Xq0U6Wv.jpg
https://i.imgur.com/byM8nFI.jpeg
『囲碁シル』っていうAIの選択肢をチョイスするだけのバトルや、定石のキャラカードを配置するだけで対局できる革新的な対局アプリが11月5日にリリースされるらしい
これで囲碁を「追体験」するだけでも何か囲碁に対する緊張感が解けてブレイクスルーのきっかけになるんじゃないか?
https://x.com/hjjgo_japan/status/1983758121828020381
一力四冠がLG杯決勝に進出し、応氏杯以来二度目の国際棋戦優勝を目指している
Permalink |記事への反応(28) | 13:05
俺はさ、物事を学ぶときに、長い時間をかけることがほぼねーのよな。
Kerasでテキトーな文書分類タスクを学習する場合、3 epochsで十分なのよ、100とか回す必要ねーの。
なぜなら、3回で精度の収束傾向が読めねーなら、そのモデル設計自体がクソなんだよ。
100 epochs回すってのは、もはや「思考停止の自己放尿」だよ。出せば出すほど気持ちいいけど、何も残らねぇ。
ギターもチェスも料理も同じ。俺の学習に「解像度」なんて概念は存在しない。
音楽理論を覚えるより、コード進行の位相構造を感じ取った方が早い。
チェスのオープニングを全部暗記するより、局面のエントロピー変化を直感で捉えた方が強くなる。
レシピを完コピするより、熱伝導と香気分子の拡散を支配した方がうまくなる。
俺はそういう学び方をしてる。つまり、学習とは情報量を増やすことじゃなく、情報を圧縮して抽象構造を見抜くことなんだよ。
だから「楽しめればいい」というのは、俺にとって惰性でも妥協でもない。むしろ、それは人間的な限界処理速度に合わせた最適化戦略なんだ。
楽しめない学習ってのは、CPUがサーマルスロットリングしてんのにベンチマーク回してる自己放尿してるようなもんだ。意味がない。
100 epochs回したのなんて、「仕事でしょうがなくプログラミングをやってるから」程度の自己放尿でさ。要は、精度を上げるんじゃなくて、上司の不安を下げるための儀式だ。
だから俺は3 epochsで世界を読む。100 epochsを信じる奴らは、コードも理論も自分の中で抽象化できないから、量で殴るしかねぇんだ。
インターネット上の情報の99%は、情報の受け手の行動や感情、お金を操作することを目的としたもの、あるいは純粋なエンターテイメントとして消費されるものとして整理できます。
一方、1%は、スキル、知識、客観的事実の伝達に特化し、ユーザーの生活や能力を向上させるために役立つ情報と言えます。
ユーザーの視点から見ると、これらの情報は「役に立たない」というよりは、「誰か(情報発信者側)の利益を優先している」あるいは「単に時間を消費させる」性質を持っていると解釈できます。
1%のジャンルは、自己成長や客観的な理解に直結する、ノウハウやデータを主軸とした情報です。
この分類は、インターネット上で情報を探す際に、「誰かの利益のためのコンテンツ」と「自分の利益のための知識」を峻別するための視点を提供しています。