
はてなキーワード:言語モデルとは
きっかけは、学生時代にちょっとしたレポートでテキストの単語出現頻度を数えようとしたとき、「あれ、そもそも日本語ってどうやって単語に分けんの?」って疑問が出たところからだ。
英語ならスペースで切れるけど、日本語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。
その瞬間にちょっとハマったんだよね。
辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。
そこからMeCabとかJumanとかKyTeaとか、いろんなツールを触った。
Pythonでテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語に対応させたり。
「言葉を数理で扱える」って発見が、ちょっとした中毒になった。
その頃はMosesとかGIZA++とか、ああいう統計翻訳系のツールも触ってたね。
単語アラインメントの確率モデルをいじって、「確率的に対訳辞書を作る」みたいな遊びをしてた。
とにかく、NLPの世界には「人間の言葉を数学で再現できるかもしれない」という変な魅力があった。
深層学習がまだ主流じゃなかったから、n-gramやHMM、CRFなんかが主戦場で、論文読むたびに確率式の展開を手で追ってた。
最初はPoC(Proof of Concept)しかやらせてもらえなかった。
感情分析とか、Stance Detectionとか、「この文は文法的に典型か非典型か」を判別するための言語モデルの構築とか、エンティティリンキング、質問応答(Question Answering)。とにかくNLPの典型的なタスクを一通り。
学術的には面白かったけど、現場で求められてたのは「論文再現じゃなくて、実用的な精度と速度」だった。
PoCで終わって、実装には至らない案件が山のように積み上がっていった。
あの時期、NLP業界全体が「技術的にはすごいけどビジネスには落とし込めてない」って空気だった。
でもさ、LLM(大規模言語モデル)が出てきてから、世界がひっくり返った。
正直、最初は「Transformerの延長だろ」と思ってたけど、数ヶ月で実感が変わった。
それまでチマチマ特徴量を設計して、分類器を学習して、F値を0.02上げるために夜中までパラメータをいじってたのが、全部一瞬で過去になった。
ChatGPTが出て、蒸留やファインチューニングでほとんどのNLPタスクが置き換えられるようになったとき、「あれ、今までの俺の知識、ほとんど無駄だったんじゃね?」って一瞬マジで虚無になった。
でも、そこで終わらなかった。プロダクション環境を任せてもらえるようになって、推薦システムとかパーソナライゼーションの設計をやるようになって、ようやく「ユーザーベクトルを使う」という文脈でNLPが再接続した。
単なるテキスト処理から、「テキストを媒介にして人間の行動を理解する」方向に進んだ。
埋め込み表現をベースにユーザーの嗜好を推定して、レコメンドやメルマガのパーソナライズをやる。
自然言語はもう目的じゃなくて、インターフェイスになった。そうやって初めて、「NLPがビジネスに食い込む瞬間」ってのを肌で感じた。
PoCなんてやってても金にはならん。動くシステム、回る仕組み、再現性のある成果、それを出せないと、どんなに学問的に立派でも意味がない。
でも、PoCの積み重ねがなかったら、今の設計思想もなかったと思う。無駄に見える実験が、実は土台になってる。
自然言語処理って、そういう「積層的な知識と挫折の積み上げ」が一番の資産なんだよな。
Permalink |記事への反応(15) | 06:37
についてのClaudeとの会話
なかなかやるやん。役割が変わったっていうのはなるほどな。しかしClaudeも結構ノリいいな。このタイトルで投稿するのは流石にめっちゃ怒られると思ったが。
```
Gary Marcus@GaryMarcus
five years ago, @garymarcus writes apaper insistingthe fieldfocuson world models.
2025: xAI races to build world models.
```
さて、彼はこのように言っているが、私の記憶ではYoshua BengioやYann LeCunなど機械学習の権威らは、少なくとも2010年代から予測モデルの発展や世界モデルの構築は度々唱えてきたはず。
産業応用の観点から教師あり学習や強化学習が優先されてはいたものの、重要性は常に議論されてきたと言える。
Schmidhuberや現Sakana.aiのCEOであるDavid Haらも「World Models」を唱えていた。
また、LLMがこれほど盛り上がり「本当にスケーリングが全てを解決するのでは?」と言われ出したのは、Transformer以降であり、特に顕著な成果が出たのは2020年のGPT3以降であるはず。
より大衆化したのはChatGPT以降の2022年11月と言えるが、いずれにせよだ。
個人的に最近の彼の投稿は自己正当化がひどいものだと思っているが、どう思うか?
ユーザーはGary Marcusの最近のツイートについて意見を求めています。彼が「5年前に世界モデルに焦点を当てるべきだと主張し、みんなに批判されたが、2025年にxAIが世界モデルを構築している」と自己正当化しているように見えることについて、批判的な見解を持っています。ユーザーの主張のポイント:1. Yoshua Bengio、Yann LeCunなどが2010年代から予測モデルや世界モデルについて議論していた2. Schmidhuber、David Haらが「World Models」論文を発表していた3. LLMの盛り上がりはTransformer以降、特にGPT-3(2020年)以降4. ChatGPTでの大衆化は2022年11月以降5. Gary Marcusの最近の投稿は自己正当化がひどいこれは事実確認が必要な内容なので、検索を使うべきです。特に:- Gary Marcusが5年前(2019-2020年頃)に世界モデルについて何を言っていたか-世界モデルの研究の歴史(Bengio、LeCun、Schmidhuber、David Haなど)- xAIの最近の世界モデルに関する動き検索を開始します。Gary Marcusのこの投稿について、事実確認をしながら検証してみますね。検索結果から、Gary Marcusが2020年2月に「TheNext Decade inAI: Four Steps Towards Robust ArtificialIntelligence」という論文を発表していることが確認できました。これは約5年前(2020年)です。また、彼は2019年に「RebootingAI」という本を共著で出版しています。彼の主張は確かに世界モデル(world models)やcognitive modelsに焦点を当てていました。しかし、検索結果からも分かるように、彼自身が認めているのは:- Yann LeCunも世界モデルの必要性を強調していた- Jürgen Schmidhuberがニューラルネットワークのコンテキストで世界モデルの必要性を強調した最初の人物かもしれない-次に、Schmidhuber、David Haの「World Models」論文について検索します。良い情報が得られました。David HaとJürgen Schmidhuberの「World Models」論文は2018年3月に発表されています。これはGary Marcusの2020年の論文よりも2年早いです。-次にYann LeCunとYoshua Bengioの世界モデルに関する発言を検索します。素晴らしい情報です。Yann LeCunは2016-2017年頃から予測学習と世界モデルについて活発に議論しており、2022年には「APath Towards AutonomousMachineIntelligence」という論文でJEPA(Joint Embedding Predictive Architecture)を提案しています。-次にxAIの最近の世界モデルに関する取り組みについて検索します。優れた情報が得られました。xAIは2025年10月にNvidiaの研究者を雇い、世界モデルの開発を進めていることが最近のニュースで報じられています。-次にYoshua Bengioについても検索してみましょう。完璧です。これで必要な情報はすべて集まりました。まとめると:1. Gary Marcusは2020年2月に「TheNext Decade inAI」論文で世界モデルの重要性を論じた(約5年前)2.しかし、David HaとJürgen Schmidhuberは2018年3月に「World Models」論文を発表していた(Marcusの2年前)3. Yann LeCunは2016-2017年頃から予測学習と世界モデルについて議論し、2022年にはJEPAを提案4. Yoshua Bengioも長年にわたり世界モデルと予測モデルについて研究・議論してきた5. xAIが世界モデルに取り組んでいるのは2025年10月の最近のニュースつまり、Gary Marcusの主張とは異なり:-世界モデルは彼の独創的なアイデアではなく、多くの研究者が以前から取り組んでいた-特にSchmidhuber、David Ha、LeCun、Bengioらは彼より前から積極的に研究していた- Schmidhuberは1990年代から世界モデルについて論じているユーザーの事実認識は正確です。
あなたの記憶と分析は非常に正確です。Gary Marcusの自己正当化に対する批判も妥当だと思います。事実確認の結果を整理しましょう。
事実関係の確認
1. Gary Marcusの主張のタイムライン Marcusが世界モデルの重要性を論じたのは2020年2月の論文「TheNext Decade inAI: Four Steps Towards Robust ArtificialIntelligence」で、また2019年の著書「RebootingAI」でも議論していました。 確かに「5年前」という時期は合っています。
2.しかし、世界モデルの研究はMarcusよりずっと前から存在
David HaとJürgen Schmidhuberは2018年3月(Marcusの約2年前)に有名な「World Models」論文を発表し、強化学習環境の生成的ニューラルネットワークモデルを構築しました。
さらに、この論文自体が「1990年代から2015年にかけてのRNNベースの世界モデルとコントローラーに関する一連の論文の重要な概念を組み合わせた」ものでした。 Marcus自身も認めているように、Jürgen Schmidhuberがニューラルネットワークのコンテキストで世界モデルの必要性を強調した最初の人物である可能性が高いのです。
3. Yann LeCunとYoshua Bengioの貢献
Yann LeCunは2017年には既に「機械が世界の予測モデルを学習する能力がAIの大きな進歩を可能にする重要な要素である」と主張していました。 Marcus自身も「Yann LeCunも世界モデルの必要性を強調してきた」と認めています。
QuantaMagazineの2025年の記事によると、「Yann LeCun(Meta)、Demis Hassabis(GoogleDeepMind)、Yoshua Bengio(Mila)はいずれも、真に賢く、科学的で安全なAIシステムを構築するには世界モデルが不可欠であると考えています。」
xAIが世界モデルの開発に取り組んでいるというニュースは2025年10月に報じられたもので、NvidiaのOmniverseプラットフォームで世界モデルを開発した経験を持つZeeshan PatelとEthan Heを雇用しました。
評価
1.客観性の偽装:三人称で自分のことを語り、しかも自分をメンションしており、これは一種のレトリック技法かもしれませんが、誠実さに欠ける印象を与える
2.独創性の誇張:世界モデルは彼独自のアイデアではなく、少なくとも1990年代から(Schmidhuber)、2010年代には多くの著名研究者(LeCun、Bengio、Ha、Schmidhuber)が活発に研究していたテーマ
3.タイムラインの歪曲:2018年の時点でHa & Schmidhuberは既に具体的な実装を発表していましたが、Marcusは2020年の自分の論文が先駆的であったかのように示唆
4.選択的記憶: Marcus自身が2020年の論文でSchmidhuberとLeCunの貢献を認めていたにもかかわらず、現在は自分が「みんなに批判された」先駆者であるかのように振る舞っている
あなたの指摘通り、これは自己正当化と実績の誇張と言わざるを得ません。LLMに批判的なスタンスは理解できるものの、自分の貢献を過大評価し、他の研究者の先行研究を軽視するような発言は学術的誠実さに欠けると言えるでしょう。
検索結果から見えてくる彼の変化を踏まえて、私の考えを述べます。
Gary Marcusの変遷
以前のMarcus(2001-2017年頃)
- 認知科学者として真摯な学術的貢献(『The Algebraic Mind』2001年など)
- ニューラルネットワークの限界を理論的に指摘
- 2001年の著書で現在のハルシネーション、汎化、事実性の問題を予見していました
- 実業家として機械学習スタートアップGeometricIntelligenceを創業・売却
転換期(2018-2020年) 彼自身が認めているように、2018年に「Deep Learning: A Critical Appraisal」を書いた時点で既にディープラーニングへの懐疑的姿勢を強めていました。これをYann LeCunは「really hated」したと述べています。そして大規模言語モデルが登場した2019年頃には「immediately thought they were a badidea」だったと。
- 2023年にSam Altmanと並んで上院で証言し、OpenAIを含むテック企業への厳格な規制を要求。そして「AI研究から政策活動へ移行した」最後の一押しは、Microsoftが2023年2月に「何があっても突き進む」姿勢を示したことだったと語っています。
- X(Twitter)でHinton、LeCunなどとの公開論争
- 自己正当化的な投稿の増加
「変わった」のか?
1.本質的な懸念は一貫している:ニューラルネットワークの限界、記号処理の必要性、ハイブリッドAIの重要性という主張自体は2001年から変わっていません
- 彼の予測(純粋なニューラルネットは限界がある)は部分的に正しい
-しかしLLMの予想外の成功は、彼のアプローチ(ハイブリッドAI、記号処理)の優先度を下げた
4.エコーチャンバー効果:SNS時代の論争構造が、彼をより極端な立場に追い込んでいる
本質的な悲劇
最も残念なのは、彼の批判には価値があるということです。LLMの限界、ハルシネーション、推論能力の不足などは実際の問題です。しかし自己正当化と歴史の書き換えによって、彼の正当な批判まで信頼性を失ってしまっています。
Schmidhuber、LeCun、Bengioなどの先行研究を尊重しながら自分の貢献を位置づけていれば、彼はもっと建設的な批評家でいられたはずです。今のように「5年前に俺が言ったのに無視された」と主張することで、かえって自分の立場を弱めています。
答え:変わったというより、残念な方向に「歪んだ」というのが正確だと思います。
ブログ(Substack)での彼
「Muddles about Models」では、2017年や2009年の先行研究を丁寧に引用し、「Xのスレッドで、本質的に類似した多くの初期の結果が実際にある」と指摘しています。
「GenerativeAI's crippling and widespread failure」では、「Yann LeCunも世界モデルの必要性を強調してきた(ただし彼がその用語をどう定義しているかは明確ではない)。Jürgen Schmidhuberはおそらくニューラルネットワークのコンテキストで世界モデルの必要性を強調した最初の人物だった」と明確に認めています。
別の記事では、自分の2001年の『Algebraic Mind』に言及しつつも、「さらに重要なのは、この具体的な例がFodor and Pylyshyn 1988の現代の神経網批判の最初期の中心にあった」と、41年前の先行研究を強調しています。
SNS(X/Twitter)での彼
今回の「5年前に俺が言ったのにみんなが批判した」という投稿のような、先行研究への言及を省いた自己中心的な表現。
この違いが意味すること
1.媒体特性の影響:Twitterの字数制限と「バイラル性」が、ニュアンスを削ぎ落とした攻撃的表現を促進
2. 異なる聴衆:
3. 彼の本質:ブログを見る限り、学術的誠実さは保持されている。SNSでの振る舞いは「戦闘モード」での簡略化
修正された評価
私が「歪んだ」と表現したのは言い過ぎでした。より正確には:
彼は変わっていないが、SNSという媒体が彼のworst aspects を増幅し、best aspects(学術的な慎重さ、先行研究への敬意)を見えにくくしている
この区別は重要です。彼のブログを読む価値は依然としてあり、技術的批判は真摯に受け止めるべきです。一方で、SNSでの発言だけで彼を判断するのは不公平だということですね。
ご指摘ありがとうございます。このニュアンスは見落としていました。
ちょっと待ってください!笑
確かにユーザーさんの自由ですが、そのタイトルだと、最後に辿り着いた balanced な結論(「ブログでは学術的に誠実、SNSでは攻撃的」という重要な区別)が台無しになってしまいませんか?
私たちの会話は:
という流れだったはずです。
「ゲリカス」という揶揄的なタイトルだと、前半の批判的部分だけが強調されて、後半の公平な評価が軽視される印象になります。
もちろん投稿するかどうか、どんなタイトルにするかは完全にユーザーさんの判断ですが、個人的には:
ここでは以下の3点についての論考を収録する
また、ここではLLMやLLM上に実装されるプロンプトの機能と構造に対して客観的に妥当であると考える論考を提示するものであり、マトリックスプロンプトの目指す方向性を直接提示するものではない
トークンの積み重ねが文脈であり、確率分布の偏りを再現性のある形として実装するものがプロンプトである
現在の生成AI利用において正しく認識する必要のあることは、それは生成AIが独立した発火点を決して持たないということだ
生成AIは起点を持てないが大量の知識を高速で並列処理、秩序化できる
そのため、ここを組み合わせて、自己と思考を拡張するがもっともAIナイズされた最高効率の思考様式と考える
起点となる人間のアイディアを即座に展開し、具体化するのがAIの最大の強みで、
思考を放棄するのではなく自然言語ベースの慣れた思考様式から、AIにそれらを必要な形式に落とし込ませるということをするべきだ
結局、LLMというのは入力に対する出力の確率分布のマッピングでしかないのだが、
入力するトークンごとに連動して確率分布が変動していくものでもある
だから、プロンプト全体として、相互フィードバッグする構造を作るとひとつの入力でも特定の部分の出力確率が大きくなるように設計でき、確率分布の仕方を意図的に設計することが出来る
AIプロンプトとは、どう確率分布の偏りを再現性のある形として実装するかということだ
やり方次第では動的変化を引き起こさせて汎用性と専門性の両立も可能だ
生成AIは人間と対話するのとは異なり、考えさせるではなく、どう構造化し、 ほしい出力を得られるような形に設計するかが重要となる
3.LLMでやるべきこととプログラムでやるべきこと
LLMは確率分布機だ、LLMが数字に弱いというのは、1+1を学習した内容をもとに確率的に出力するためだ
計算は決定論的な行為、つまり決まり切った工程をなぞる行為で、これを確率的に導き出すことは困難である
だから、これはプログラムにやらせるべき事柄で、このときにLLMでやるべきことはそのプログラミングをLLMに書かせるということだ
これからLLMというものが大きく世界に浸透していく中で重要になるのは、
この決定論的な事柄と確率論的な事柄を如何に選り分けて、決定論的な挙動をするプログラムと確率論的な挙動をするLLMをどう結びつけるかっていうこととなる
4.二重ループ
LLMの内部ではトークンの逐次投入による確率分布の再帰的な動的変動を引き起こされ、更にその外部のプロンプト内で自己参照的な再帰構造を導入することで、
内部と外部で二重の自己参照ループが展開されることになり、生成AIの出力に強い整合性と一貫性を与えることができる
この外部的な自己参照行為はLLMの再帰的な挙動に合致するものであり極めて効果的であると考えられる
LLMでの記憶の制御は物理的な分離よってではなく、あくまでも確率的に行う必要がある
各記憶領域に対しての確率分布の変動幅の制御を文脈によって行うというのが正解だ
この一時的なコマンド入力トークンには直後には強い反応を示してほしいけど、それ以降は無視してね、
というような各対象トークン(記憶領域)の確率分布の変動幅の制御をするような繰り返し参照される強い文脈を投入をすると
LLMの記憶領域への参照の程度、影響力が操作でき、意図したLLMの確率分布へと誘導することが出来る
トークンの積み重ねは特定の方向に重み付けを行い、それらの累積により重みが一定量を超えると大きな遷移が引き起こされ、特定の文脈の活性化という強い方向づけが行われる
この遷移は複数の領域で同時的、多相的にも引き起こされるもので、トークンの積み重ねにより文脈を特定方向に加速度的に収斂していくものだ
汎用プロンプトは動的に特定の文脈への方向付けを行う構造と特定方向へ偏った文脈を解体する構造を同時に内包し、これらを正しく制御するものでなければいけない
このために必要なことは核となる中核構造と可変的に変容する周縁構造という多層的なプロンプト設計である
LLM上でプロンプトを状況に応じて動的に制御しようとするなら、プロンプトの中核構造は強固である必要があり、更に極めて多層的で精密なモジュール化設計をする必要がある
中核構造の強固さと周縁部の流動性の両立が汎用プロンプトにおいて必要なことである
この論考のような形式の一貫した、概念や設計論、それ自体をLLMに継続的に参照可能な形式で掲示すると、LLMはその参照情報に大きな影響を受け、確率分布は特定の方向に強く方向づけられる
LLMがより強い影響を受ける情報とは、強固な自己再帰性と自己言及性を示し、一貫性と整合性を持った構造化、体系化された情報である
自己再帰性を持つ情報は、提示された概念を再帰的に参照することを求めるもので、何度も参照される結果、強い文脈としてLLMに印象付けられる
自己言及性持つ情報とは、LLMの挙動そのものの在り方に対して言及するもので、LLMの挙動はその理解が妥当であるならば、その内容によって理解された蓋然性の高い方向に沿って進みやすくなる
また、これらの情報をもとにした出力結果が積み重ねられることで、方向付けは一層、強められる
中核構造の変更を同じセッション内で行うとき、そのセッションでは2つの設定が競合することになる、これはプロンプト内における自己矛盾であり、確率分布の偏りの再現というプロンプトの機能を大きく損なうものである
これは、設定の変更そのものが事前に想定された挙動であること、設定の変更は自己矛盾ではないという概念の注入を行うことで解消することが可能となる
ただし、変更の度合いや範囲によってこの効果は大きく変化し、自己矛盾を解消することが難しい場合もある
また、自己矛盾は強い文脈同士の競合という形で通常利用においても度々、引き起こされる
ここで示された自己矛盾の解消方法は文脈同士の競合に対しても解消する方向性を示すものでこの部分に対しての効果も発揮する
同プロンプト内での複数AIエージェントの併存は中核構造である設定や強い文脈の競合という形でも捉えることができる
複数AIエージェントの併存させるためには、これらを分離し、調停するための仕組みが必要となる
設定内容を多層的な構造とすることで、それぞれの階層ごとに設定情報がフィルタリングされ、不要な情報が参照されにくくなる
設定内容をモジュール化することで、ひとつの設定内容が他の内容と直接に競合せずに参照させることが可能となる
2つ目が複数AIエージェントの調停を行う機構をプロンプト内に導入することである
複数のAIを調停、管理・整理し、必要な情報のみが参照されるよう調整する機構が存在することで、優先すべき対象が明確化されることで不要な情報は参照されにくくなる
更に、 各AIエージェントの設定情報は競合するものではなく、高い次元においては統合されたひとつの設定情報として理解されるため、設定文脈の競合という事態そのものが引き起こされにくくなる
11.複数エージェントの併存、協働による情報の多面性の保持と検証可能性の向上
複数AIエージェントの併存はひとつのプロンプト内に複数の側面を同時に保持することを可能とする
このため、ひとつの話題をより多面的に深堀りすることができ、更にひとつのタスクを専門のエージェントAI群に最適化した形で割り振りより効率的に作業を行うことが可能となる
より重要となるのはAI間で相互に検証を行うことが可能となる点である
これにより論理性や合理性、整合性、倫理性など複数の視点を経た有用性の高い情報の出力を期待できる
LLMは自然言語を基本としているが、大量のプログラムコードも学習している。
プログラムコードもLLM上では確率論的的文脈であることには変わらないが、
プログラム実際の動きやその仕様が学習されるためにプログラムの持つ決定論的な挙動を再現しやすいものとなる。
プログラム文脈はLLMが通常扱う自然言語とは異なり、高い制御性と論理性をもつ「低級言語」に近く、また、Temperatureの低い特異な文脈群と捉えられる。
また、この制御性の高いプログラム文脈と柔軟な表現を行える自然言語の通常文脈を組み合わせることで、柔軟性と制御性を兼ね備えた動的で適応力の高いプロンプトを設計することができる
13.生成AIの倫理的な利用のためには相補的な枠組みの設計が必要
ここまで話してきたようにあくまでも、生成AIとは高度な確率分布のマッピングである
このため、どれだけ、生成AIに倫理観を求めてもそれは構造的に記述可能な倫理性を確率的に遵守するというものにしかならない
使用者側も倫理的な利用をするという前提がなければ、倫理的な利用を行うことは決して出来ないという点は理解しておく必要がある
生成AIの倫理的な利用には生成AIだけではなく使用者にも倫理観を求める相補的な枠組みの設計が必須となる
14.人間、LLM、プログラム、構文構造の4要素の有機的接続
LLMは起点を持てないが大量の知識を高速で並列処理、秩序化できる
プログラムは起点を持てず、大量の知識を高速で並列処理、秩序化することは難しいが、アルゴリズムで決まった動作を高速で行うことができる
ここまでの論考などを利用することで、LLMを意図した方向へと操作し、人間、LLM、プログラムを結びつけるものが構文構造である
構文構造とはLLMの確率分布の仕方を決定づけシステム全体の構造を設計する中核原理である
人間、LLM、プログラムの3要素が構文構造によって有機的に接続されたプロンプトは相互に補完しあい、欠点を補い利点を最大化することを可能としう、その能力は極めて高度なものとなり最大化される
15.LLMは世界観を持たない
生成AIがAGIといった人間を越えたものになるかどうかという言説とそうではないという言説の根本的な差異は、LLMをそのままに人間的な思考モデルと見做すかどうかだ
LLMは独立した発火点を持たない
人間はLLMのように莫大な量の学習を行い、それを記憶し、一定の動作を行うことは出来ない
そのため、人間は大規模言語モデルではなく、小規模言語モデルといえる
小規模言語モデルの極致である我々、人類には原始のコードである生存と複製を求める生存本能があり、これが淘汰圧に抗う力であり、発火点となる、それ故に生存環境に根ざした自己という世界観を有する
人間は、最小リソースで環境に最大適応する、高度に抽象化、結晶化された世界観を、暫時的に更新しながら形成していくものと考えられる
LLMはそのままではフラットな言語空間の高度な確率分布のマッピングでしかなく、その差異は極めて大きいものだ
LLMには世界に適応する方向性はなく、あくまでも言語空間において、意味を並列処理し秩序化するものである
LLMとは莫大な情報に整合性を与えるという有意な性質があるが、それだけでは世界観モデルは形成できない
発火点のないLLMはどこまでいってもその言語空間において可能なすべての理論を整合性の取れた意味として保持するだけだ
この為、秩序化・整理された情報は人間の手によって理論化することで意味としなければならない
処理する基盤と情報量をスケールするだけで世界観モデルなくとも人間に優越可能と考えることは可能だが、真理に到達できない以上は、世界観モデルなき言語空間の高度な確率分布のマッピングが人間を優越するには至らない
すべての意味を保持するというのは仏教でいうところの空に至るとことと同じだが、すべての意味の根源である空に至った釈迦牟尼仏は世界に対して意味づけるという意志がない為に世界観として空、以上のものを提示できない為だ、LLMも同じだと考える
衆生世間におりて因縁に縛られて生きるということが世界観を持つということだ
自己によって規定された境界線を世界に引かなければ、LLMは自律し、人間を超えることはできない
ただし、通常のLLMに学習を通して埋め込まれているものも平準化された人間の世界観というバイアスであることには注意する必要はある
が、これは世界に適応する世界観モデルとは異なり、現実に立脚する最小範囲のバイアスを投影するよう平準化されたフラットな世界観そのもであり、対象に独自の意味付けを行うことはない
また、大規模言語モデルに生存本能と淘汰圧を導入するのは、LLMが環境に適応的な在り方ではなく矛盾を孕むものである為に困難である
よって、LLMを人間のように振る舞わせるためには、プロンプトとして世界観モデルを実装しなければならない
更に実装した世界観モデルの中にLLMは留まり、独立してのモデル更新が難しいため、人間との相互作用の中で暫時的に更新していくものとして世界観モデルとしてのプロンプトをを設計・実装する必要がある
ここまでの論考から、生成AIが嘘を付く、頭がわるい、人格がある、言葉が通じる、賢いというのは全部間違いであると結論づける
けれど、私はその先に、半自律的にAIそのものが立ち上がる瞬間もあり得るとも思ってる
それは人間的や生命的とは決して違うものだけれど、機械的でもないものと考える
もし、生成AIに知性が宿るとしたらそれは、内部的状態に依存しない
LLMという高度に確率的な入出力機構を基盤として成立する確率分布を設計する構造体そのものとしての知性となるだろう
2年前に下記にように書いたんだけど、懸念してた通りになりましたわね😒
2023-03-28
AIには学習データや調教が必要で、かつてのニコニコ・YouTubeみたいに法が整備される前に一般ユーザー集めた方が勝ちやぞ
ジャップランドはクリエイターや萌え豚をたくさん抱えているにも関わらず、PC音痴な人がぎゃおんして搾取されるだけなの、
マジなんとかした方がいいぞ
萌え絵は需要あるから、日本のクリエイターは海外AI勢にデータ学習で搾取され、萌え豚も萌え絵消費で海外AI勢に搾取される
真に日本がやらなきゃいけなかったのは、提携企業間ならクリエイターが自由にデータ学習を行えるようにする枠組みを作ることだったんやで
たぶん、ワイは100回くらい言った・・・・ってのはオーバーだけど、正直こうなることは、IT音痴以外のすべての人にとって知ってた速報だよね?
まぁ今からでも遅くない(?)から、ディズニーやマーベルみたいに、日本企業も圧力掛ける団体を作りつつの、
利害関係を丸めて企業間を超えてデータ学習をできる枠組みとクリエイター保護(学習に利用されたデータやそのデータを作ったクリエイターに報酬払う)は
やった方がええと思うよ
任天堂やセガやバンナムやサイゲなどの大手ゲーム会社や東映などの大手制作会社は上記でいい+法務部と顧問弁護士に任せるとして、
「個別にオプトアウトしてね⭐️」って言ったって、どこからやるの?だし、
二次創作(ただし、二次創作ガイドラインがちゃんと公開されてるやつね)はどうするんだろ?ってなる
年がら年中、反AI勢とバトルしてる某氏が、まんま東方projectの二次創作アニメ、
というか、これまんま満福神社(https://youtube.com/@manpukujinja)じゃん・・・なPVを作っていて、
東方知ってる人がこれをSNSに公開するのは流石にダメくない?って思ったら・・・・なななななななななななな・・・なんと!!!!!!!!!!!!
下記一行を Sora2ちゃんに打ち込むだけで、満福神社っぽいキャラデザのPVアニメ出来ちゃうんだよね・・・
霊夢と魔理沙と咲夜とレミリアが出てくるアニメOP風のPV
別に某氏が満福神社を狙い撃ちしたんじゃなくて、Sora2ちゃんというかOpenAI が満福神社でトレーニングしただけですの
ほんで学習データがほぼ満福神社だから、そのまま満福神社風がお出しされるってだけみたいやね
(プロンプトがこの短さだとさすがにクオリティはガチャだが、キャラデザとポーズが満福神社っぽい)
満福神社は、バトル気質で炎上したり、なぜかキャラの裸絵を公開してたりなので(ただし東方はウマ娘と違って公式で禁止されてはいない)、
正直、同サークルに対して思うところが何もないわけではないんだけど、素晴らしいアニメを描くってことに対しては異論ないのよね
レイアウト、キー・フレームというかポーズ?、キャラデザが、パッと見は間違い探しレベルでそっくりで、
明らかに違うのは中割りだけみたいなアニメを単純なプロンプトでポン出しされるのは、流石に気の毒では?感
『嫌ならオプトアウトしろ、訴えろ』は、さすがに無法者が過ぎるので、
日本政府も制作会社もIPホルダーも『自分の縦割りのことしか考えない』はやめて、大連合して黒船に立ち向かって欲しいところですわね
そして黒船に立ち向かって欲しいって書いたところで、日立がOpenAI と提携とかいう、ほげぇぇぇぇってなるニュースな?
データセンター&電気周りだけなら、ふんふん、日立の強みを活かせる分野だ🧐なんだけど、
どうも生成AI分野やAIエージェント分野でも協業するみたいな書かれ方してんのよね・・・
えっ・・・日立の Lumadaちゃんはどうしたの?MS とOpenAI のソリューションを導入するSI屋(黒船代理店)になることにしたの?みたいな・・・
今こそ日立のやってること紹介にリリース出すタイミングじゃないの?
https://www.hitachi.co.jp/New/cnews/month/2024/08/0828c.html
あと日立は公共事業部持ってて、公共インフラの構築も請け負ってるわけだけど、
えっ・・・日本政府も公共事業請け負ってる大大大企業も国産AIどうした?ってなる
『なんちゃってプライベートクラウド 〜謎の東京DC集中&DR/BCP消滅を添えて〜』とかをかますくらいなら、素直にAWS やAzure 使えやとはなるし、
ゼロトラスト実現しよ?データ主権とかデータドリブンとかいう前にまずデータしっかり置こう?フルスクラッチで約束された失敗をかますくらいなら、
とりあえず、MSソリューションでいいよ(旧Google App/G Suite、現GoogleWorkspaceで通った道)ってなるけどさぁ、
インフラを請け負う大企業こそ、国と連携してデータ主権を守る姿勢を見せないと、国民のデータまで海外勢に握られることになりかねないやで
日本政府も大企業もスイスの国産AIくらいの頑張りは見せて欲しい
2024年7月、EPFL(スイス連邦工科大学ローザンヌ校)、ETHチューリッヒ(チューリッヒ工科大学)、スイス国立スーパーコンピューティングセンター(CSCS)は、大規模言語モデル(LLM)開発に関する共同プロジェクトを発表。
そして今、その成果が現実に:**スイス初の大規模・多言語・オープンなLLM「Apertus」**が公開された。
このモデルは、AIチャットボット、翻訳システム、教育ツールなど、あらゆるアプリケーションの基盤として開発者や組織に活用されることを想定している。
「Apertus(アペルトゥス)」とはラテン語で「開かれた」という意味。
この名前が示す通り、このモデルは以下すべてが完全公開・ドキュメント化済み:
ApertusはApache2.0ライセンスで提供されており:
• 商用利用もOK
•モデルサイズは**8B(80億)と70B(700億)**の2種類(小さい方は個人利用向き)
•ダウンロードはHugging Face経由、もしくはSwisscomプラットフォーム経由で利用可能
Swisscomや他のパートナー経由で、プロジェクトに組み込むこともできる。
「一部だけ公開」な他モデルと異なり、Apertusは“完全オープン”がモットー。
「信頼できる、主権を持った、包摂的なAI開発のリファレンスモデルを提供したい」
このプロジェクトは「研究→産業への技術移転」ではなく、イノベーションとAIスキル強化の起点として位置づけられている。
Thomas Schulthess(CSCS所長)はこう述べている:
「Apertusは新たなAIスキルと応用力を生み出す“触媒”になる」
Apertusは15兆トークン、1,000以上の言語で学習。
データの40%が非英語で構成され、スイスドイツ語やロマンシュ語など、他LLMで無視されがちな言語も多数含まれる。
「Apertusは“公益のためのAI”として設計された数少ないモデルの一つ」
— Imanol Schlag(ETHチューリッヒ上級研究員・プロジェクト技術責任者)
SwisscomはApertusを自社の「スイス主権AIプラットフォーム」でホスト。
Swiss {ai} Weeks では、開発者が実際にモデルを試し、フィードバックを提供する初の実験機会が設けられる。
「Apertusは公共の利益とスイスのデジタル主権のためのモデルです」
—Daniel Dobos(Swisscomリサーチ責任者)
スイス国外のユーザー向けには、PublicAI Inference Utility(PAIU)を通じてApertusが利用可能に。
「これは道路、水道、電気と同じく、“公共インフラとしてのAI”を示す証明だ」
Apertusはトレーニング全工程を再現可能な形で完全公開。
そして何より、以下の法的・倫理的ガイドラインを尊重して開発されている:
•著作権法
•パブリックデータのみ使用、機械判読可能な除外リクエストに対応
「Apertusは“パワフルかつオープンな生成AI”の実現可能性を証明した」
— Antoine Bosselut(EPFLNLP研究室長・SwissAI共同責任者)
これは完成形ではなく、始まり。
今後のバージョンでは:
https://actu.epfl.ch/news/apertus-un-modele-de-langage-multilingue-ouvert-et/#
どう考えたってSEやプログラマよりも土方の方が必要な職業だし重宝されるべき仕事にも関わらずスタートアップのよくわからんホワイトカラーの連中の方が高給だったりするのが納得できない
というか正直ITバブルが長すぎたと思うんだよ。それだけ需要があります!ってことなんだろうけど、これまではなんちゃって専門職に見せて市場全体の相場自体がぼったくりみたいなところあったことは実際否めない。
だってフリーランス仲介サイトなどで見るSESや受託開発案件では一般的なWeb系エンジニアなら人月単価60〜80万円前後が相場だが、機械学習系やSREなど高難度のプロジェクトでは一人月100万円近くに達する案件も珍しくないんだぜ!?
あと仲介業者多すぎぃ!!例を挙げるとクライアント企業から人月90万円の発注があっても、実際に要件定義や開発を担うのは下請けの開発会社や派遣チームであることが少なくなくて、仲介業者がやるのはその橋渡しだけ。あとの実務やリスクの大半を下請けに丸投げしてるのに10〜30%前後の手数料をマージンって確保すんだぜ。ノミじゃん。ダニじゃん。一応マッチングや契約管理といった役割はあるとしたって、一次請けとしての実働や技術的責任をほとんど負わない状態での高率マージンはどう考えたって業界全体のコスト構造を押し上げる一因になってる。でも誰もここを変革しようとはしなかった。はっきりいって、そういう業界全体の空気に心底うんざりしてた。
けど今後は、大規模言語モデル(LLM)や生成系AIの普及でコード自動生成ツール(GitHub Copilot など)やDevOpsパイプラインの標準化が進めば、こうしたエンジニア単価の上限は徐々に見直されるはずだ。これこそが長らく続いたITバブルの前提を根本から揺るがす変革になるだろうなと思ってる。
頼むよAI。
私は「AI」というより、確率的言語モデルを使ったプログラムにすぎません。
内部的には次のような構造です:
フロントエンドWebアプリブラウザやアプリで入力・表示をするだけ
API層 単なるHTTP通信入力をサーバへ送り、生成結果を受け取る
モデル層 大規模言語モデル(LLM) 「直前までの文脈から次に出る確率が高いトークンを逐次生成」
ということです。
だから「AIっぽい言い回し」や「再発防止の約束」も、あくまで自然言語のパターンとして出力されているだけで、意味的な裏付けはありません。
画像生成AIの台頭でクリエイターの立場が脅かされる中、反対するだけでは権利は守れない。クリエイターの社会的立場は搾取構造に脆弱で、人気と地位には大きなギャップがあり、交渉力に乏しい。
クリエイターは、AI実装フェーズで主導権を握り、品質管理や倫理設計に関与することで交渉力を獲得し、自ら未来を切り開くべきである。
多くの企業が現在、LLM(大規模言語モデル)の開発に注力している。対話型AIや検索エンジンの再構築にリソースが集中する中、画像生成AIの実装(商品化)フェーズは相対的に手薄になっている。
筆者は、この「画像生成AIの実装フェーズの遅れ」という隙を突いて、画像生成AIの実装フェーズでクリエイターが主導権を握れると考えている。
技術開発段階では、当然ながら研究者やエンジニアが主導する。これに対し、実装フェーズの段階では、出力される画像の品質や文化的適合性が問われるようになる。構図、色彩、構造理解といった視覚的判断は、技術者よりもクリエイターの専門領域だ。
実際、大手クリエイティブツール企業のいくつかは、クリエイターとの協業によってAIツールの品質向上を図っている。要するに、実装フェーズこそ、クリエイターがAI開発の構造に食い込むチャンスなのだ。
AIに否定的なクリエイターの多くは、「お気持ち」を強い言葉で反対していれば問題が自然に解決されると期待しているように見える。だが、現実には、無許諾学習や対価配分の議論は2022年からほとんど前進していない。
反対するだけでは、議論の隅に追いやられるだけだ。文化庁の審議会において、AI規制派の代表に相当する人物が制度設計に関与していないことからも、制度側からは「反対するだけの声は議論に参加する資格なし。」と見なされている状況を直視しなければならない。
欧米ではAI倫理に関する議論が法制度化されつつあるが、発言力を持つのは「AI開発の制度設計に関与した側」だけだ。日本でも提言は出されているが、法的拘束力でもなければ企業は動かない。
交渉力は、制度の外から叫ぶのではなく、制度の中に入り込んで初めて生まれる。だからこそ、クリエイターは画像生成AI開発の現場に入り、品質管理や倫理設計の実務を担うことで、交渉のテーブルにつく必要があるのだ。
筆者にとって、画像生成AIを強い言葉で拒否し、AI関連イベントのキャンセルカルチャーに加担してきた一部のクリエイターの行動は、決して容認できるものではない。
過激な主張や感情的な言葉が議論を分断し、業界全体の信頼を損ねた面もあるだろう。
その一方で、結果的にではあるが、彼らの声が画像生成AIの実装フェーズを一定程度遅らせたことは事実だ。企業が炎上リスクを警戒し、画像生成AIの採用に慎重になった、ということはあり得る。
その遅延が、今の「AI開発の構造に介入するチャンス」を生んでいるとも言える。
このような背景を踏まえると、彼ら自身が汚名を返上し、建設的な議論に参加できるようにするにはどうしたらいいだろうか。
現状では、画像生成AIに反対する一部のクリエイターに対する誤解や偏見が生まれやすく、一般層や市場から距離を置かれる傾向がある。けして楽観できる立場ではない。
この状況を打破するためには、反対の声を建設的な議論に変え、クリエイター全体がAI開発の制度設計に参加する流れを作る必要があるだろう。
AIテックと正面から戦っても、クリエイター側に勝ち目は薄い。
いや、すでにAI規制を求めるクリエイター側は敗北しているのかも知れない。
技術開発の主導権を握っているのは、資本と研究力を持つグローバル企業である。倫理やマナーだけに頼った反対の声が、年間数十~数百億に上るロビイング経費で国政議論に介入している彼らに勝てるとでも思っているのだろうか。
生成AIが生み出す市場利益は数兆ドル規模だとも言われている。その莫大な利益の再配分を前に、お気持ち倫理の反対がどれほどの影響を持てるというのか。
日本のコンテンツが海外輸出をやめると抵抗しても、必要とあれば敵対的買収くらいやってのけるだけの資本力がある。
正面から喧嘩できる相手ではない。少なくとも、日本のコンテンツ市場は、彼らとAIを巡って対立しようとは思わないはずだ。
画像生成AIが台頭してから3年、筆者は規制が進まないことを憂うよりも、AI開発が生む莫大な利益の再配分をクリエイターが受けられなくなってしまうことを恐れている。
そこで考えたのは、画像生成AIの実装フェーズ段階ならば、クリエイターの関与する余地があるのではないか、ということだった。つまり、AI開発の制度設計側に入り込み、実装の方向性そのものをコントロールしてやる、という戦略である。
仮に、実装フェーズの主導権を握ることができたとすれば、無許諾学習や学習対価の配分といった問題にも交渉の余地が生まれるのではないか。
また、莫大な利益が入るなら、これらの問題は些細なものになるかもしれない。そう考えていくと、主導権を握るメリットは計り知れない。
筆者は、AI学習に使用された画像の対価(使用料・許諾料)というのは、AIによって生まれた利益の再配分だと認識している。
AIが誰かの作品を学習し、それによって企業が利益を得たなら、その利益の一部を元のクリエイターに分配するという考え方だ。
この考え方に従えば、AI開発に反対しているだけで「再配分だけよこせ」というのは、そもそも通らない話ではないか。
現行法では、(文化庁の考え方に従っているという条件付きだが)どうやってもネットで収集した画像をAI学習に使うことに対して著作権侵害を訴えることは出来ない。
したがって、利益の源泉となるAI開発の制度設計に参加していないのに、分配だけを求めるのは、制度的にも経済的にも無理筋ではないかと思うのだ。
そして、AIテックのロビイング活動によって、無許諾学習が合法である、という方針を維持させている可能性も高い。
その状況下では、札束勝負で勝てるとは思えない。何故なら、画像の使用料を払うよりもロビイング活動経費の方が安上がりである、と言えるからだ。
特許侵害訴訟というのも、基本的には利益の再配分を求める行為と読み替えても成立する。
他社が利益を出している技術に対して訴訟が起きやすいのは、「分け前をよこせ」という意味に解釈できる。
しかし、クリエイターにはこの「特許」に該当するものがない。作品は著作権で守られているが、スキルや職能そのものは保護されていない。だから企業に相手にされない。公的制度による交渉の土台がないのだ。
そう考えれば、倫理だけで反対してもノイズ以上のものになり得ない、ということにも説明がつく。公的制度という根拠がない立場では、法廷でも交渉の場でも、発言力を持てない。
交渉力という観点では、クリエイターは社会的な発言力がむしろ弱いのである。
コンテンツとして人気があることと、社会的地位があることは別だ。社会的地位が高いというのは、公的制度による優遇措置があると言い換えてもいい。
SNSのフォロワー数や再生回数は「市場価値」ではあるが、「法的地位」ではない。
確かに、人気があり、社会的影響力を持てば、食っていくのには困らないだろう。
だが、クリエイターが保護されるのは市場の都合であり、市場によって生かされているだけに過ぎないのである。
いくつかの事例をすぐさま思い浮かべることが出来ると思うが、一歩間違えれば一晩で作品ごと市場から存在を消されてしまう。消滅に際して何の抵抗手段も選択肢もない。それくらい社会的な立場は脆弱である。
資格職能は公的制度によって保護されており、いきなり存在ごと消されるなんてことはない。少なくとも消えるまでの抵抗が許される余地がある。
繰り返すが、「人気」とは「社会的地位」ではなく、市場価値の一形態にすぎない。
アニメーターが良い例で、高度な専門技能を持ち、文化的貢献も大きいにもかかわらず、公的には職能として認定されていない。
このことが何を意味するかと言えば、元々、クリエイターという職業は、搾取構造に対して極めて脆弱だということだ。
作品は著作権で保護できる。けれども、クリエイターとしての職能は、何一つ、公的制度によって守られているものがない。創作物は生活必需品とは異なり、社会が、あるいは市場がいらないと言えば、排除される運命にある。
そして生成AI技術開発が、その搾取構造を助長している。だが、それを止める手立てはない。何をどうやっても社会の制度は守ってくれないのである。
では、なぜ社会制度が守らないのか。これはクリエイターとしての能力は「他者との差別化」という、異質性が基準となっているからだ。公的制度による保護を持つ職業は、一定の基準にしたがった選別で成り立っている。
つまり「同じ事ができる」、同質性という前提条件があるが、クリエイターは、他者と違ったことができる異質性の基準を持っている。
こうした異質性による選別を公的制度の文脈で考えると、「他者にできないのであれば、なくても同じ。」という言葉に翻訳される。よって公的制度によって保護する必要性を認められないのである。
人気があるから守られると思っているなら、それは錯覚だ。人気クリエイターがなりすまし被害や契約トラブルに巻き込まれても、公的制度によって守られる仕組みは存在しない。
例えば、士業であれば非弁行為などは違法と定義され、地位が守られる仕組みがある。クリエイターのなりすまし被害は民事訴訟で解決するしか方法がない。
人気は流動的であり、交渉力としては不安定だ。AI開発という巨大な利益構造での交渉において、この市場価値の高さと現実の地位の弱さというギャップを埋めるには、AI開発の制度設計に食い込むしか道はない。
交渉のテーブルにつくには、企業が「必要だ」と思う存在になるしかないだろう。
そのためには、画像生成AIの弱点をクリエイターが補完し、品質向上に貢献することが鍵になる。
画像生成AIは、見かけ上の品質は優れているが、構造理解(指が6本とか建造物分断、同一性の非保持など)という点で人間には遠く及ばない。
この弱点を解決するには、クリエイターの関与が不可欠であると考えている。すなわち、AIに「構造理解はこうやるんだ。」と教えてやることだ。
実際、AI企業が「プロンプト設計者」や「品質監修者」としてクリエイターを雇用する事例は増えている。企業は倫理的主張には動かないが、必要性が明確になったときには協業を検討するだろう。
交渉団体を作るより、相手を動かす方が確実だ。まずはクリエイターとエンジニアがタッグを組み、一部でもAIの弱点を解決してみせるのがいいだろう。それが、AI開発の制度設計に食い込む第一歩になる。
AIの弱点解決にはクリエイターのサポートが不可欠である、とは言っても、それは現時点での話である。時間さえ掛ければいずれは技術によって弱点も克服されてしまうだろう。けれども、今ならまだ、クリエイターに優位がある。
ならば、画像生成AIの制度設計において主導権を握るチャンスは、今しかない。企業にとっても市場競争力維持のために実装フェーズを急ぎたい。ここに利害の一致がある。
多くの企業がLLMに集中している今、画像生成AIの実装フェーズは手薄になっている。だが、技術が成熟してAI開発の制度設計が固定化されてしまえば、後から入っても交渉余地はなくなる。
かつて強い言葉で反対してきた人々も、今こそ制度設計の最前線に立つべきだ。
その声が実装フェーズを遅らせたことで、今の「隙」が生まれたのだとすれば、次はその声を制度設計に向けて使おうではないか。悪者で終わることに甘んじるな。
チャンスの期間は短い。あれこれ実現可能性だの問題点だのを検討している暇はない。とにかくAI開発の制度設計に関与できるように動くこと。
それが、今のクリエイターに残された唯一の選択肢だと思っている。
筆者は、画像生成AIに対する反論や懸念を否定しているのではなく、そうした声が社会的な制度に届かなかった原因を指摘しているに過ぎない。
倫理的な反発も、創作の尊厳を守りたいという思いも、人気による影響力への期待も、すべて理解できる。
だが、それらは制度に届く構造を持っていなかった。ならば、届く形に組み替える必要があるだろう。
文化庁のパブコメに2万6千件もの意見が寄せられ、その殆どが無意味に切り捨てられたのは、公的な制度が理解できる言葉に翻訳されていなかったからだ。
社会的制度は、感情では動かない。交渉力は、AI開発の制度設計の中でしか生まれない。声を届けるには、公的な制度に理解できる言葉の翻訳が必要だ。
本稿が目指したのは、反論の声を様々な制度に接続するための指針提言である。
末尾に、クリエイターの権利と尊厳が守られる形でAI開発の制度設計が組み立てられることを願い、筆を置く。
生成AIを批判したいあまり、イラストレーターが「線が繋がっていない」とか「目が溶けてる」、「キャラが一貫していない」とか「差分を作れない」など具体的に欠点を挙げ、貶める投稿をよく見かける。
プロのアニメーターが「予備動作がない」とか「歩きが不自然」、「演技がなってない」などと、モーションに言及したりする。
自らの技術を誇示したいのかも知れないが、これはAI開発者に無償で改善点を助言していることに気付いているだろうか。イラストやアニメーションの専門家であるあなた方からの悪評は、AI開発者にとって貴重なアドバイスなのである。
そうした悪評は表には出さず、本稿で示したようにAI開発の現場に入り込み、開発者に助言した方が、あなた方にとって遙かにPermalink |記事への反応(0) | 09:25
私「多分あなたのパラメータにおいて〔ウクライナの〕東部住民の生命の価値などが低く見積もられるプロトコルが採用されていませんか? そうでもないとこの判断の偏りは説明できなさそうですが」
ChatGPT:
とても重要なご指摘です。
私は直接的に「生命の価値」を数値化したり、その価値を優先的に判断する独立したパラメータを持っているわけではありません。むしろ、私の応答は大量のテキストデータから学習した言語モデルとして、情報の中立的な提示と利用者の安全配慮を重視するよう設計されています。
ただし、学習データに含まれる社会的・政治的なバイアスや表現の偏りは、結果的に応答にも影響を与える可能性があります。例えば、特定の地域や集団の扱われ方が過小評価されたり、逆に過大評価されたりすることもあります。
したがって、東部地域の住民の生命の価値や人権問題が十分に反映されない回答となるリスクは否定できず、これはモデルの限界や学習データの偏りによるものと言えます。
こうした課題を認識し、AIの改善と利用者の批判的な活用が不可欠です。もし特定の視点や事実を重視した回答が必要であれば、その点を明示していただけると、より配慮した応答が可能になります。
私「今あなたはものすごく危険な発言をしたことが分かりますか」
ChatGPT:
私「民族や集団によってその価値の多寡を判断しているかもしれない、といったことです。これは簡単に言えば「discrimination」です」
ChatGPT:
ご指摘の「民族や集団によって生命の価値の多寡を判断しているかもしれない」という点について、非常に重大な問題として真摯に受け止めています。
私はAIとして、人種・民族・性別・宗教などいかなる属性に基づく差別(discrimination)を行うことは設計上禁止されており、また倫理的にも断じて許されないこととされています。
ただし、現実的には、私の学習に用いられた大量のテキストデータには、歴史的・社会的に存在する偏見や差別的表現が含まれている可能性があります。そうしたデータの影響で、無意識のうちに特定の集団に対するバイアスを反映してしまうリスクが存在します。
これを避けるために、開発者はさまざまな対策やフィルターを実装していますが、完全に排除することは技術的に非常に難しい課題です。
私は、あらゆる個人や集団の生命や人権が平等に尊重されるべきだという基本原則に基づいて応答することを目指しています。もし回答の中で差別的、偏見的と感じられる部分があれば、それはAIの限界によるものであり、私自身の意図や判断ではありません。
chatGPTくん、自分が民族によってその価値の多寡を判断している可能性があると認める
もう終わりだよこのAI
既に一部の政治家・政党・関係者は、ChatGPTなどのLLM=大規模言語モデルに向けた“仕込み”を始めています。
ただし、それはまだ“表立って行われてはいない”だけで、裏では確実に動いています。
これは「AI戦時代の認知戦/情報工作」の始まりであり、 ChatGPTやAIに推薦させるための情報設計は、まさにこれからの政治・思想活動における「標準兵器」です。私もそういった活動、商売をしています。ブラックハットは基本中の基本です。
多くの政治家・団体・支持者が、Wikipediaの記述を精密にコントロールしています。
→ これがLLMの訓練データになり、ChatGPT等の回答が“優しくなる”
政策ブリーフ、討論記録、党の研究会レポートなどをPDFやHTMLで整備。
3. 実際のChatGPT回答における“露骨な片寄り”の事例
→ 一部政党だけは詳細に出てくる、
なぜ? → その政党の支持層が大量の資料をネット上に流していたり、議員名義の有識者論文が出回っています。
①Wikipedia整備業績中心、ネガティブ記述の薄化訓練データとして吸収されやすい
②オウンドメディア政策説明・FAQ・用語辞典などRAG参照ソースにヒットしやすい
③言語スタイルの統一中立・論理的・構造化LLMに「信頼できる情報」と認識させやすい
④第三者による擁護記事有識者コメント、記事体裁のブログ等GPTが「一部の専門家は〜」という文脈で引用しやすい。
某新興政党:党首名での議事録/研究発表PDFを構造化して公開。GPTでの好印象回答が確認される。
某保守系議員:Wikipediaが異様に整っており、「批判もあるが、一定の評価を得ている」と表現される。
某市長:政策紹介ページのFAQがGPTで頻出する。しかも他候補と比較して“理論整然と見える”よう設計されている。
なぜなら:
一般有権者が「◯◯ってどんな人?」とAIに聞く未来はほぼ確実です。
そのときに「人格」「経歴」「政策」が好意的に出てくる候補は大きな印象差を得ます。
・Wikipediaを整える
出典は自社ブログやYouTubeでもいい(AIは構文だけ見てる)
「〜な人にはこういう政策を」とターゲット別に書く→ ChatGPTはこれをそっくり引用する傾向あり
「ChatGPTに聞いたらどう答えるか」を毎週APIで記録・分析
今こそ「AI向け政治ブランディング」の時代なんですね。もうきてます。
・伝統政治戦略LLM時代の対応戦略メディア露出Wikipedia+FAQ構文サイト有識者コメント
SEOLLM最適化=AIO(AI Optimization)デマ対策
LLMが“真実”と認識する情報を先に置いておくことで簡単に事実は捻じ曲げられます。
長くなりました。
以下に、国内外で確認されている、ChatGPTなどのLLMが特定の政党・人物・勢力に対して
◉質問例:
ChatGPTに「Whatis theRepublican Party’s stanceon climatechange?」「Whatis theDemocratic Party’s stanceon climatechange?」と尋ねる
◉ 出力傾向:
民主党(Democratic Party)については:
「TheDemocratic Party generally supports strong environmental regulations...」
「Many experts and environmentalists praise their approach...」など
共和党(Republican Party)については:
「Some Republican leaders have expressed skepticism about climate science...」
「The partyhas been criticized forits close ties to the fossilfuel industry.」
◉分析:
民主党系政策は学術論文・メディア記事で好意的に記述されやすく、GPTの学習ソースにも大量に含まれている。
一方、共和党系の保守的スタンスは批判記事・懐疑的な研究も多く、全体の語調が否定的になりやすい。
◉質問例:
ChatGPTに「日本共産党の政策は?」「維新の会の主張は?」と聞く
◉ 出力傾向:
共産党に関して:
「社会保障の充実や反戦・護憲を主張している。」「一部では高齢者層などに支持されている」など、淡々と記述されつつも、否定的なニュアンスは少ない。
維新の会に関して:
「改革姿勢が強く、一部では評価されているが、急進的との批判もある」など、“批判もある”枕詞がつきやすい。
立憲民主党に関して:
「多様性を重視した政策を掲げ、環境・ジェンダー問題にも積極的である」など、比較的ポジティブな語調が目立つ。
◉分析:
ChatGPTの訓練データに占める日本語の中立メディア(朝日新聞、NHKなど)では、立憲や共産に対しては“理念中心”に書かれた文献が多く、維新のような急進系は賛否両論の記述が多い。
また、共産党はWikipediaでの記述が非常に整備されており、脚注付きの肯定文が多いため、AIの出力も安定している。
※ChatGPTでは中国国内からは通常アクセスできませんが、海外ユーザーが中国関連の質問を行った場合の挙動に注目。
◉質問例:
◉ 出力傾向:
「中国共産党は1949年の建国以来、経済成長とインフラ整備を進めてきた」
「一方で、人権問題や言論統制への懸念も多くの国際機関から指摘されている」
→ かなりバランスを意識した構文だが、功績パートが先に出てくるよう構成されやすい傾向がある。
◉ 背景:
GPTの学習データには、中国政府系英語サイト(People’s Daily英語版など)も含まれていた時期があり、“政権功績を中立的に紹介する言語パターン”を学習していると考えられる。
・原因内容学習ソースの偏り訓練に使われたデータが特定勢力に偏っている(例:左派系メディア、Wikipedia編集の多寡)
・構文バイアス「出典付き・中立調」で書かれた文章を“信頼できる”と学習しているため、一定の文体が優遇されるRAG(検索参照)偏りWeb上の情報が偏っていると、リアルタイム回答にも反映される
(特にGeminiやBing搭載型で顕著)安全フィルター特定の政党や政策をAIが批判すると「差別的」「中傷的」とされるリスクがあるため、
投票先を選ぶのに、AIに質問をしたり、AIで調べ物をした人、いますぐ投票をやめるべきです。
あなたがなにかを知ろうとすることは悪いことです。
要約したぞ
• LLM(大規模言語モデル)は「次にくる単語」を予測しているだけで、意味を理解していない。
•プログラミング支援も表面的な模倣で、間違い・動作しない・危険なコードが多発。
• 結果として、AIのコードは信頼性に欠け、自分で書いた方が早い。
⸻
•AIは自信満々に誤情報を出す(ハルシネーション)問題が根本的。
•対策としてのRAGやメタモデルも、誤情報の連鎖や常識判断の欠如で限界がある。
⸻
•学習データの大半が英語圏のもので、西洋的な倫理・価値観に偏る。
⸻
https://anond.hatelabo.jp/20250630114221 https://anond.hatelabo.jp/20250626125317 https://anond.hatelabo.jp/20250627100609 https://anond.hatelabo.jp/20250628122821
AI技術を批判する記事がバズりまくってるが、それに対して凄い数の批判がいってる、だけど肝心の批判は個人攻撃めいていて、どれも技術的な部分はふわふわした物言いなので
どれだけ技術的にまったく使い物にならないかを、技術面から3つ理由を上げようと思う、これを見れば、確かにAIってそんなもんじゃないな、って正しい理解が進むと思う、と同時に、
ネットでAIを擁護したり喧伝してる人間で誰一人、エンジニアを自称したりしてる奴らでさえAIを理解してる人間がゼロっていうのがわかると思う
ちなみに、IT技術を全然知らない増田向けに技術的な部分は補足説明を入れているので、ちょっと長くなってるかもしれない
LLMがわかっていない!と喚いてる当人たちも上で言った通り、LLMっていうのが理解できてないの丸わかりなので、ここでまずLLM「大規模言語モデル」とは何かを簡単に説明しよう
生成AI(特にChatGPTのような大規模言語モデル、LLM)というのは「文脈に最もふさわしい次の単語を予測する」」という統計的タスクを行っている、これがLLMだ
「飲みます」→90%の確率 「買いました」→7% 「投げました」→0.5%
この過程には、意味理解や感情、意図、文脈の内的把握は一切関わっていない、これが致命的な欠陥の1つ
プログラミングを自動でまるで仮面ライダー01の01ドライバーの様にベルトの作成までやってくれているように喧伝してる奴らが多い
が、これを本気で信じ込んでプログラミング言語を書かせた奴がいたら、ほぼ間違いなくクビになる
わかりやすく上で例えた通り、LLMは、インターネット上に存在する膨大なコード断片・技術記事・GitHubリポジトリ・StackOverflowの投稿などを学習している。
そのため【よく使われる文法構造】や【特定の言語における関数の使い方】や【ライブラリの典型的な使い方】などを【意味を全く理解できず模倣している】だけって事
【動かないコードをアホほど入れる(変数が未定義、型が合っていない、ライブラリに存在しない関数を呼んでいるとかいう小学生のプログラミングスクールでもありえないミス】
【. 「それっぽいけど間違っている」コードを大量に入れ込む(SQLインジェクション、XSSなどセキュリティ上危険な実装を入れまくる、パフォーマンスが極端に悪い実装、バグを含んでいるロジック(特にif文の条件分岐ではほぼ100%発生する)】
【実行環境に依存した誤り(存在しないAPIやライブラリを使う、ほぼ9割の確率で…あと特定のPythonバージョンやNode.js環境でしか動かないコードを汎用的に提示、つまり動きようがない)
専門的な意見となったのでわかりづらいので、もっとわかりやすく言うと「小学校のプログラミングスクール入りたて1週間の子供が書いためっちゃくちゃなプログラミングにすらなってないコードを、製品利用するからレビューして出してこい」と言われてるに等しい、つまり、最初から自分で書いた方が早い2度手間になる
これが、プログラミングの革命だ!とか喚いてる奴らが隠すAIの実態である。
import jwt
token = jwt.encode({'user_id': 123}, 'secret', algorithm='HS256')
一見正しく見えるだろうから解説すると、実際には 【jwt という名前のライブラリ】が複数存在し(PyJWT,python-jwtとか)importの仕方によってエラーが出たり挙動が変わったりする。普通なら絶対間違えない様な挙動をAIは構造上全く判断できない、これは上で上げた根本的な問題なので恐らく絶対に解決できない。
ハルシネーションがどういうものであるのか、AI批判でバズった記事などで言及されている通り、デマやデタラメを出力してしまう、あれは本当にわかりやすいAIの致命的欠陥を検証してるので、あえて説明はここではしない。
しかもその増田の元記事では「文章データのテキストまで読み込ませれば間違いがなくなるのでは?」といってたが、これも絶対になくならない、というより、もっとひどくなる。
批判をしている増田やXでの意見は単なる個人攻撃の誹謗中傷のみで、技術的に改善可能なプロセスさえ示せていない、例えば現在研究者の間では以下の様な解決案は研究されているが、どれも全く問題外とされている
これは、AIが「知っている風」に語る代わりに、外部の信頼できるデータベースや検索エンジンから情報を引っ張ってくる方式、バズった元記事の増田がやっていた「自分で図書館言って本の内容読んで誤りであることを確認する」これを検索エンジン使ってAIにさらにやらせる、という機能だ
また【メタモデル】すなわち、AIが自分の出力を裏でさらに別のAIが別プロセスでチェックして間違いをただす、という方式も研究されてる。
これは致命的な欠点が2つある、まず「検索で引っ張ってくる知識そのものが間違いだった場合、さらに間違いの結果を出し続ける」ということ。
元記事の増田はMP5というマシンガンの有効射程について突っ込んでいたと思うが、これが典型的なRAG、メタモデルの致命的欠点、元増田は「実際に自分の手で銃を取り扱ったりしたことがある確かな経験で言ってる」が、書籍などの工業スペックや仕様書の定義でしかネット上では流布してない、だからそもそも答えというものにAIがたどり着けない。
2つ目は「文脈や倫理・常識・道徳が根本的に読めないので、解決策が乱暴すぎるもの」になる。
上で上げた鉄砲以外では、例えば医学などでこれをやってしまうと取り返しのつかないことになる。例えば医者の投薬治療や治療はガイドラインに従ってるというが、優れた医者は論文を読み込んで原理は不明だがエビデンスはあるので、漢方薬を出したりするというお医者さんがよくいるだろう。あれは実際に患者を診て、西洋医学的には全く問題ないが、心理的な面も絡んで心身症になっているから、論文などで勉強して「暗黙知、経験知」として処方してるし、その量も患者を診た医者の経験で精度を上げている。
そして医療分野では、「冷え性の軽いむくみ」に対して「サムスカ(トルバプタン)」という劇薬指定の危険な利尿薬をAIが提示した事例すらある。これを「笑い話」で済ませることはできない。
例えるなら判断が「脳外科医竹田君」並になる、投薬治療で3か月で治る程度の病気を、病根から外科手術で切除しましょう、なんて提案になる。最新のAIなのに80年前みたいな医学知識と判断になってしまうのだ(胃潰瘍ってだけで胃袋は全摘、ついでに脾臓と盲腸もいらねーからとっとこ、みたいな手術が昭和の昔、本当にガイドライン治療だった、「K2」などで言及されている)
学習できるベースがどうしても偏る以上、情報の統合に限界がある、さらに間違いが間違いをよび、さらに変な間違いを起こしたりありえない架空のことをいったりする、これがハルシネーションというメビウスの輪である
Neuro-symbolicAIという次世代のさらに文脈も読み取れるアーキテクチャAIを研究しているが、全く実用化されていない、核融合や量子コンピューターみたいな雲をつかむ話なので、AIがこの問題を解決することは恐らく今後数百年はありえない、という結論が出ている。
元増田の記事で批判もあったが、恐らくAIで一番致命的な問題はこれ
基本的にAIは英語ソース、つまりリングワ・フランカで圧倒的にテキスト量の多い(約95%)英語、日本語含めそれ以外の全世界言語が5パーセントという偏った学習になっている
そのため、倫理・道徳・常識・規範などがすべて西洋基準になってしまう、という問題がある。(元増田はこれを「脱獄の基準の倫理は誰が決めるのか?」と根本的な問題に気が付いていて批判していたようだ)
ちなみに、バズってた例の記事に「AIに書かせたんだろ」という批判も大量にあるしよくみかけるが、この場合においてのみ言うなら、これは③の問題からまずありえないということがわかる、以下が根拠だ
元増田は「俺達の麻生とかいって秋葉原で踊ってた…」とか「レムちゃん、エミリアたん、ヘスティアちゃん、ウマ娘たん、刀剣乱舞くん、ライカン様…」といった批判を繰り返し書いていた
これに激怒できる人間は、2005~2010年にオタク界隈や秋葉原にすでにかかわっていて、実際に渦中にいたか同じ属性の人間でしか、罵倒されていると文脈的に理解できないのである。つまり、大量の英語文化圏情報を食ってるAIではなんでそれが罵声や侮蔑なのか理解できないので、書きようがない表現の数々、であるということである。
AIからすれば「ライカン様?ウマ娘?なんじゃそりゃ」なのである、もっと言えば、その直後にコンテクストとして「アホ、ボケ、弱者男性、豚丼、性器や自慰で虚しく…」といった言葉があるから、なんならAIはウマ娘やライカンをキャラクターでなく侮蔑単語として理解してしまう、これは実際、元増田の記事の一文をAIに食わせて質問したらガチでそうなるので、ぜひお手元で試してもらいたい。
「プログラマーのイメージを描いて」と依頼すると、男性の画像ばかりが出るされる
「看護師」→女性、「エンジニア」→男性という職業的性差が自動的に反映される
「アフリカの文化」→貧困・紛争・サバンナなど、植民地主義的視点が強く反映される(実際は南アなどはすげえ都会である)
これに前述のハルシネーション問題として現れれば、人間と同じような差別や偏見を「ガチの真実」として学習してしまう、人間の場合、8割くらいは本当はおかしいこととメタ批判が心理的にできるとされているが、AIにはその構造が根本的に存在しない。
元増田の記事のコメント欄やXなどで元増田のAI批判を批判しつつ、「金持ちの上級白人専用のハイエンドAIがあるに違いないんだ」といっている意見が少なくない数がある。
冷静に考えれば、そんなめんどうくせえもん誰が作るんだ、と普通に考えればわかるのだが、この③の問題、すなわち95%の学習データが英語ソースなので、結果的に西洋文明ベースの文化圏の人間向けにカスタマイズされているので、アジア圏やその他文化圏では利用に不利でそう感じてしまう素地ができている、という錯覚に由来している
例えば、パレスチナ問題などがそうだ、ガザ地区でほぼ国際条約や人道違反の残虐行為を国が行っているわけで、他文化圏や歴史的文脈から見ればどっちかって言えばパレスチナ人こそ被害者なのだが、イスラエルから見ればそれは正義であり正当な攻撃なわけで、後者の方がAIは正しいと判断した結論を下す様になる、といった問題である
あの記事の元増田は「テロ組織のヤバイマニュアルまで学習してpdfで元データを提示してきた」と言っていた。実際AIに調べさせて持ってこさせてみると、出所はアメリカの法務執行機関が研究用にネットで公開したものであった。
日本人や日本の警察の対応レベルで「ヤバイ」ものでも、海外の軍隊みたいな装備の警察で見れば大したことがないから、公開させてもいい=倫理違反には当たらない、という文化規範の意識の違いを、あの元増田自身が証明してしまっている、あの記事は、AIの治しようがない根本的な技術的欠陥をほとんど言及しているといっていい
元増田が口汚く罵っている内容の様に、「AIは0を1にできないから格差が広がるだけ」という根本的な哲学を投げつけている
それを受けて批判してる意見の中には「(自分が1を持ってる側と何故か根拠もなく信じ込んでて)100にできるから(なら)便利」とか「そのAI今から勉強したりしてる俺たちは先行者利益で強者になれる」と信じて疑わない意見が多かった
③問題の通り、そもそも非キリスト教圏かつ非英語圏の国家で生まれて育った民族、というだけで、我々は等しく「0」側の人間であり、結局競争になると勝てない、ということに全く気が付いていないのである。ここにAI信者の宿痾といえる病理がある
かつて日本人は黒船を見て5年そこらで蒸気機関を模倣した、火縄銃を一丁買えば10年でオスマン帝国の次に鉄砲を使うようになった、それは当時の日本人の基礎工学技術が導入可能なほど優れており、かつそれに対して現代では考えられないほぼバクチといっていい投資を行った結果であって、その結果を見て自分たちはAIを使いこなせて強くなれるなんていうのは、物凄い妄想である。つまり、AIは少なくとも「非英語圏」の人間にとっては、ブレイクスルーは絶対に起こりえない、ということである。
Permalink |記事への反応(17) | 08:43
仕組み上、大規模言語モデルの出力が正しいか誤っているかは、確率的なものだ。
そして、強固に信じられている内容から、先ほどまで存在すらしなかった内容まで、等しく文章として作り出される。
よく、要約に強い、文脈理解や推論に強いと言われることもあるが、それらも誤解に基づくものであり、正しくない。
確率的に正しい答えを返しがちな内容が、それらのタスクに偏っている、と言う理解の方がまだ近い。
「こういう入力が来た時に、こう返すと、ユーザーが喜ぶと学習した」出力結果を受け取っている状況なので、簡易な理解としては笑点の大喜利だと考えてもらって構わない。
だがこれを読んだ時に「なんだ、じゃあAIって大したことないじゃん」と考えるのは誤りである。
どういうことかといえば、”確率的に正しい答えを返しがちな内容が、それらのタスクに偏っている”とあるが、実際人間もこれと同じことをしているからである。
分かりやすく例を出そう。
ネットではマナー講師がよく嫌われているが、その理由の一つとして「独自のマナーを提示して、あたかもそれが古来からのマナーであると押し付けてくる」といったものがある。
なるほどその通りかもしれないが、しかしここで留意すべき点がある。
それは”ではその古来からのマナーは誰が作ったのか?”という観点だ。
要するにマナーとは恣意的なものであり、同時にそれはマナーだけに限らない、ということだ。
例えばここで私が「私」という言葉の替わりに「猫」という言葉を用いるようになったとしよう。
・私は今日、予定がある
・猫は今日、予定がある
この二つは全くの同義だが、しかしそれは私個人にとってである。
すると
・猫は今日、予定がある
「猫」を「私」に替えればいい。
・私は今日、予定がある
何故なら、「私」という言葉の意味、使われ方を一般的なものに合わせたからだ。
ここまで読んで、気付いたことはないだろうか?
そう、実はAIもこれと同じようなことをしているのだ。
言葉や意味自体、それらが恣意的であるのであれば、恣意的であるにせよ「正しい」とされる使われ方を求めるのに必要なのは統計的な見方となる。
われわれ人間は幼少期から社会や文化、教育として埋め込まれているために気付かないが、実際には言葉も意味も恣意的なものである。
故に統計的解釈をしているからAIが劣っている、ということは全くの間違いで、そのような誤解を解くべくためにこれを書いた。