
はてなキーワード:ロジスティックとは
データを集め、確率を計算し、そこから最適解を選び出す。そういう構造があるのは事実だ。だから「まったく違う」と言い切るのも嘘になる。
だが、それを「AIって結局は統計だろ?」なんて一言で片づけるのは、あまりに横暴だ。
統計そのものを動かす理論や数理、そこに積み上げられたアルゴリズムの厚みを無視してしまっているからだ。
たとえば俺が本気で勉強したときにぶん殴られたのは統計の延長で片付けられないようなもっと複雑でもっと美しい構造だった。
だから、この言葉にモヤモヤするのは「半分は当たっているけど、半分は外している」から。
その両義性を理解せずに「統計だろ?」で済ませるのは、ピアノの音を聴いて「ただの鍵盤を叩いてるだけだろ?」って言ってるようなものだと思う。
そこで、AIの仕組みについて漠然と理解している人のためにおすすめの本を三冊紹介する。
ここで紹介する三冊は、そんな俺のモヤモヤを実際に言語化してくれた本たちだ。
難しいし、読み進めるのに何度も心が折れかけた。けど読み切ったとき、AIは統計か?それとも統計じゃないのか?という問いが、ようやく立体的に見えるようになったんだ。
だから是非一読してみてほしい。険しい山ほど、山頂からの景色は美しいものだから。
著者:Christopher M. Bishop
けど、それでも読み進めると「機械学習ってバラバラなアルゴリズムじゃなくて、確率という一本の軸で全部つながってるんだ」って感覚が急に開けてくる。
ロジスティック回帰もSVMもニューラルネットも、ぜんぶ親戚だったのかよ!って衝撃。
何度も挫折しかけてはメモ書きしながら戻って、理解できた瞬間に鳥肌が立つ。
俺にとって本書は、AIという森の入口に置かれた地図そのものだった。
著者:Michael Sipser
PRMLとは真逆の本。ここではただ無機質なオートマトンやチューリングマシンのみ。
「計算ってそもそも何なんだ?」っていう根本を突きつけてくる。AIだってこの枠組みの外には出られない。
NP完全問題の章なんか読んだ暁には「世界にはどう足掻いても効率よく解けない領域がある」って現実にぶん殴られる。
AIが万能に見えても、その背後には絶対の限界があるんだと分からされる。
ここを通ると、妄信的に「AI最強!」なんて言えなくなるしいい意味で冷や水ぶっかけられる本。
AI万能説が唱えられる昨今、この一冊を読み理解することでAIの本質を理解できるようになるのは確かだ。
著者:Ian Goodfellow, Yoshua Bengio, Aaron Courville
PRMLで仕組みの家系図を見て、計算理論で壁にぶち当たったあと、ここに来ると「でも実際に世界を変えてるのはこっちだろ」って現実を知ることができる。
CNNがどうやって画像を認識してるのか。RNNがどう文章を扱ってんのか。GANがなぜフェイクをリアルにするのか――それが手元の紙と数式の上でほどけていくと、ニュースのAIが急に手触りを持つ。
もちろんクソ難しい。何度も心折れた。
でもここにいまの世界の心臓部があるって思ったらページを閉じられなかった。
読み切ったあと、AIは魔法じゃなくて地道な科学だって確信が腹の底に残る。
名著。
数式だらけで頭が痛くなるし、途中で本を閉じて「俺には無理だ」って投げ出したくなる瞬間が何度もあった。
だけど不思議とまた戻ってきてしまう。何故か?何故ならそこにワクワクがあるからだ。
ページをめくるたびに「うわ、こんな発想があるのか!」って驚かされる。
統計だけじゃない。論理だけじゃない。人間の思考を真似しようとした末に生まれた知恵の積み重ね。
それを追体験するのは、ちょっとした冒険みたいなものだ。難しさと楽しさが同じ場所にある。
白状するが、当時は俺もそう思っていた。
実際に学んでみればそれがどれだけ奥深く、そして人間の営みそのものみたいに豊かな世界だったかが見えてくる。
だからもし、ここまで読んで「ちょっとやってみるか」と思った人がいたら、迷わず飛び込んでみてほしい。
でも、そのうち泳げるようになる。スイスイ泳げるようになる。それも保証しよう。
そして気づくはずだ。
巨人の肩に乗って見える景色は、めちゃくちゃ美しいんだなってことを。
Permalink |記事への反応(23) | 15:29
具体的にどんなモデルをつかってるの?
LLMでラベルつけて単純な非NNのロジスティック回帰にするってことはLLMは単に外部のAPIで呼んでて全部呼ぶほどのタスクじゃないのでラベル付けだけに使って自分のとこの超基本的な「モデル」のトレーニングに使うってことでしょ?
威張って人をレベル低いだの馬鹿だのアホだのいうほどのことじゃないよ
お金ないだけ
いろんな分野のAPIで1コール1ドルとかそういうのいくつもあっていちいち呼ぶ予算ないし全部のデータいらないから呼んだ結果を「蒸留」してローカルに置いておくなんてのもよくある話で
それとかわらない
はい、それは「知識の蒸留(Knowledge Distillation)」と呼ばれる、非常に強力で実用的な技術です。
巨大で高性能なLLM(先生モデル)が持つ特定の能力だけを、ロジスティック回帰のような軽量で高速なモデル(生徒モデル)に継承させる手法を指します。
まるで、万能な知識を持つ賢い先生が、特定のテスト範囲だけをまとめた超シンプルな「虎の巻」を作るようなイメージです。
巨大なLLMをそのまま使うのではなく、わざわざ軽量なモデルに「蒸留」するのには、明確なメリットがあります。
基本的な考え方は「LLMを、高品質な教師データを大量に生成するアノテーションツールとして利用する」ことです。
まず、ラベルが付いていない大量のデータ(例:ユーザーレビュー10万件)を用意します。そして、LLMに対して「このレビューはポジティブかネガティブか?」と問い合わせます。
ここでのポイントは、単に「ポジティブ」という結果(ハードラベル)をもらうだけでなく、「ポジティブである確率98%、ネガティブである確率2%」といった確率情報(ソフトラベル)も一緒に出力させることです。
この確率情報には、LLMが判断にどれだけ自信があるか、どちらの要素をどの程度含んでいるか、といった豊かな情報が含まれています。
次に、ステップ1でLLMが生成した大量の「データとソフトラベルのペア」を使って、ロジスティック回帰モデルを学習させます。
生徒モデル(ロジスティック回帰)は、LLM先生の「思考のニュアンス」が含まれたソフトラベルを正解として学習することで、単に0か1かを当てるよりも、よりLLMの判断基準に近い能力を身につけることができます。
これらのタスクは、LLMの持つ高度な読解力や文脈理解能力の一部だけを必要とするため、蒸留に非常に適しています。LLMの「汎用的な知性」は不要で、特定の「分類能力」だけを抜き出してくれば十分なのです。
この方法で作られた軽量モデルは、あくまで学習した特定のタスクしかこなせません。LLMのように対話したり、文章を生成したりする能力は持っていません。まさに「虎の巻」であり、万能な教科書ではないのです。
まず以下のタスクがある。
これは逐一LLMを使うと時間がかかるし、かといって「ポジとネガ」を表すラベルをdistant supervisionで抽出するとノイズがあるんだよ
ここで「LLMでアノテーションをする」という話になる
機械学習を学ぶ時にロジスティック回帰はまず基本としてやってその後ニューラルネットワークにディープラーニングとなってくもんやで
アノテーションってのは、手作業でテキストにラベル付けする作業のこと
大規模言語モデルの性能が高くなってきたから、それが手作業じゃなく自動化できるって話
テキストデータに対してアノテーションを行う、という作業が数年前は盛んだった
感情分析とかね。あれは、実際には手作業じゃなく、X投稿の絵文字をラベルにして半自動化した
では、AIで任意のテキスト分類問題に対するアノテーションをするとどうなるかというと...どうなるの?
まあさらに小さいモデルへ圧縮する(蒸留と言う)というのはできるな。あと特徴語分析とか、テキストマイニングとか
追記:
https://github.com/Zhen-Tan-dmml/LLM4Annotation
追記2:
LLMの能力の一部をより軽量なモデル(例:ロジスティック回帰)へ蒸留するって話すら理解できないなら、お前エンジニアやめたほうがいいよ
中東の産油国が金があるからと言うて最先端半導体工場は建てられない。
半導体を作るには様々な原料を供給する国内工業の整備が必須となる。
半導体ともなると原料を作る原料まで必要になる。多段構造で輸入していては採算が取れない、
それらを原料すべて国内自給できる国と価格や品質で勝負にならない。
国家や地域の工業発達の初期段階ではまずセメント工場が作られる、新興国などで今でも観察できる。
セメント製造のプロセスは枯れており比較的カンタンな割に需要が大きく利幅も大きい。
さらに工業が発展し経済が順調に伸びると食糧問題が出始めて肥料を自国で作り出す。
肥料から化学工場が発展しこれらの産業規模が安定すると最後に製鉄、高炉となる。
コークス(製鉄に必要な石炭の蒸し焼き)まで自前で作れるようになるとほぼ先進国の仲間入りとなる。
ここまでくれば人材も育ち金融やロジスティックスの産業インフラが整っており伸びが加速する。
すでに空気分離による高品質で安定的な窒素、酸素が自国で賄える状態になっている。
電力事情も安定し始める。
さて製油である。現代文明は炭素の原子的(原始的ではない)結合力で発展してきたのだ。
炭素は引っ付けたり離したり、好きなように分子構造、組成を制御することができる。
万能のりのようなもので非常に重要。燃料もいうなれば結局はただの炭素。
半導体を産業の米などというが、炭素は工業のコメ、水、空気、必須元素なのだ。
話を戻す、
化学工場ができ始める段階になると原料の原油、ナフサをどーするか、となる。
産油国ならえいやっで石油精製を自前でやればよいのだがそれ以外の国は悩ましい。
すでにそこそこ産業、工業が発展するとガソリンの需要は大きくなっている。
ならば原油を輸入してガソリンを消費し、搾りかすを国内化学工場で消費する、としたほうが経済合理性は高い。
石油精製工場を中心に石油コンビナートを整備し化学工場群を稼働させる。
とはいえこれは簡単なことではない、莫大な投資が必要でありリスクも高い。
話は変わるが原油タンカーを日本と中東で1往復させると10億円の輸送費がかかる。
で、原油から必要なのはぶっちゃけガソリンだけでそれ以外の成分はゴミ。
75%はゴミ。
ゴミを運ぶのに1往復10億円。
そしてどーにも使い道が無い搾りカスの中でもさらに無用なタンクの底に貯まるピッチ、ネバネバドロドロのタール。
さぁこれをなんに使おうか、海に垂れ流すわけにはいかない。
10億円かけて25%しか使い道がない原油なんぞを運ぶのは経済合理性が悪い。
そこでアメリカは中東など産油地で粗精製して必要な有効成分だけ運ぶ
搾りかすはてめぇらでどうにかしろと捨てて帰る、アメリカの特権。
経済性、施工性、性能の面で道路はアスファルトよりもコンクリートの方が良い。
原油を輸送せず粗製ガソリンを国内に持ち込むのでアスファルト原料となるピッチが生産されないので市場が無い。
分析ツールを作って、様々な凝った統計情報を表示したいと思ったことはないだろうか。
ロジスティック回帰でモデリングして係数表示をしたり、決定木を視覚化したり、相関の行列をヒートマップで表示したりと、いろいろなことができる。
しかしいざツールを作ってみると、「そんな分析は必要ない」と叱責されてしまうのである。これは一体どういうことなのか。
それは開発に近い人の考える「分析」とビジネスに近いところにいる人の「分析」が、メンタルモデルからして全然違うのである。
ドメインに近いところにいる人たちは、もっと基本的な統計を要求するだろう。
収益の推移だったり、アイテムが特定の属性のユーザーにクリックされる確率だったり、特定の条件に合致するアイテムの単価の分布だったりと、そういうものだ。
開発者がやるべきことは、csvファイルをアイテムに対する特定の検索条件・グルーピング条件などで出力してダウンロードさせることだ。
ケンブリッジアナリティカが、心理学的データ等を利用して政治工作をしていたというニュースが結構前にあった。
ユーザーが持つ興味というのは、相関行列から求めることができる。
ユーザー×アイテム、といった行列はユーザーがどのアイテムに興味を持つかを表し、これを複数のユーザー間で比較して相関を求め、ユーザー×ユーザーに変換することができる。
このような相関行列は、ユーザーをさらにクラスタに分類することができる。
ユーザーが興味を持つアイテムから、IQ、MBTI、Big5、政治志向などを予測するロジスティック回帰モデルを学習させる。
そしてそのような予測から得たユーザー×パーソナリティの行列も援用して、ターゲティング広告の内容を決定する。
このモデルの問題点は、パーソナリティ予測の性能が低いことだ。
ケンブリッジアナリティカがやろうとしていたのは、政治志向があやふやな「説得可能」な人々を見つけ出し、トランプ派へ誘導することである。
ところが、予測精度が低ければ「政治志向があやふや」であるという予測は占いのようになってしまう。
仮に予測精度が高かったとしても、「政治志向があやふやだから説得可能性が高い」という前提が疑わしい。
結局、ケンブリッジアナリティカの問題は「個人情報を間違った方法で利用していること」である。
スキャンダルがかっこ悪いから、自分たちがすごいことをしていると見せかけるために、「俺達は政治を誘導することに成功した」などというハッタリをかましているだけである。
メリーランド州民主党、「組織的な人種差別」を解体するために白人女性を指導部から排除すべきだと宣言
民主党選出議員は講演者のラインナップについて「白人は…少数であるべきであり、それには正当な理由がある」と述べた
FOX初–教育委員会の会議で発言したイスラム教徒の子供たちが「白人至上主義者と同じ側にいる」と主張して最近批判されたある民主党のメリーランド市議会議員は、「白人女性」や「白人至上主義者」をバッシングした経歴もある。シオニストユダヤ人」とFOXニュースデジタルが報じた。
元公立学校教師のクリスティン・ミンク氏は、12月に第5地区を代表してモンゴメリー郡議会議員に選出された。
彼女は「これは公平だ」と宣言しながら、火曜日の夜の教育委員会会議で、 LGBTQ+のカリキュラムに反対するイスラム教徒の子供たちは「白人至上主義者と同じ側にいる」と論じた。
「残念なことに、この問題は…一部のイスラム教徒の家族を白人至上主義者や完全な偏屈者と同じ立場に置くことになっている」と民主党は述べた。「私はあなたをそれらの人々と同じカテゴリーに入れるつもりはありませんが、ご存知のとおり、彼らはこの特定の問題について同じ側に陥っているので、それは複雑です。」
彼女はまた、「愛国者」という言葉は白人を表すのに使われると主張した。
「今こそ『愛国者』という言葉を取り戻す時だ。そして明確にしておきたいのですが、私が『『愛国者』という言葉を取り戻せ』と言うとき、私は実際に『愛国者』という意味でその言葉を使っている人たちが、『白人』という意味でそれを使っている人たちからその言葉を取り戻しているということです」と彼女は語った。
同市議会議員はまた、黒人や警察との衝突の間、白人は自らの身体を人間の盾として使用すべきだという要求への支持を表明した。
彼女は「現場で白人たちの特権をどのように活用するかをロジスティックに教えてくれる主催者たち」に感謝した。
カリフォルニアの教育指導者らがオサマ・ビンラディンに憧れたマルクス主義者を称賛する授業をCRTで推進
DER SPIEGEL:では、はっきりさせておきましょう。あなたもSPDもドイツ国民も平和主義者ではありません。ではなぜ、ウクライナをロシアに対して軍事的に支援するために全力を尽くさないのでしょうか?
ショルツ:まさにそうしています。
DER SPIEGEL:ここ数日、キエフとその同盟国、そして外相を含むあなたの政府連合の政治家たちは、重火器の提供を迫っています。なぜそれをしないのですか?
ショルツ:まず、我々が行っていることについてお話ししましょう。我々はドイツ軍の在庫から対戦車兵器、対空装備、弾薬、車両、そして多くの物資を供給しており、それはウクライナの自衛の戦いを直接助けている--何十もの同盟国が行っているのと同じようにだ。このことは、ウクライナ軍の軍事的成功の中に見ることができます。
DER SPIEGEL:数週間前、ウクライナ側は緊急に必要とする武器のリストを送ってきました。なぜ、そのリストをできるだけ早く処理しないのですか?
ショルツ:ドイツ連邦軍の武器庫からさらに武器を供給する選択肢は、ほとんど尽きています。しかし、対戦車兵器、対戦車地雷、砲弾など、まだ利用可能なものは必ず提供するつもりです。そのため、ドイツの産業界と協議して、迅速に納入可能な軍備のリストを作成し、ウクライナ国防省と協議しているのです。つまり、従来通り、防御用の武器や砲撃用の迫撃砲などです。これらの武器納入のための費用は、私たちが負担しています。ドイツは合計20億ユーロを提供しており、その大部分がウクライナに直接恩恵をもたらすことになる。
DER SPIEGEL: 他の国は重装備を供給していますが、ドイツは小切手を出しています。それがこの戦争における役割分担なのでしょうか?
ショルツ:間違っている。米国、フランス、イタリア、英国、カナダと緊密に協力し、ウクライナ東部での今後の戦闘に必要な兵器を納入しました。兵員輸送車や大砲はすぐに配備可能です。そのため、これらの機器に関する迅速な訓練で同盟国を支援し、適切な装備がまだこちら側から入手可能かどうかを確認する用意があるのです。軍備は、長時間の訓練やさらなるロジスティックス、そして我が国の兵士がいなくても配備できるものでなければなりません。そのためには、ウクライナ人がよく知っている旧ソ連の兵器を使うのが最も手っ取り早い。そのため、東欧のNATO加盟国数カ国がこれらの兵器を供給していること、そしてどの加盟国もこれまで西側戦車を供給してこなかったことは偶然ではないでしょう。私たちは、スロベニアのケースで述べたように、パートナーによるこれらの納入によって生じたギャップを、ドイツからの代替品で順次埋めていくことができます。中期的には、ウクライナの防衛力整備を、やはり西側兵器で支援する。
DER SPIEGEL:つまり、アンドリー・メルニク駐ドイツウクライナ大使がドイツのマーダー戦車を要求するとき、彼は自軍がその操作さえできない事実を無視しているのですか?
ショルツ:またしてもです。我々は現在、同盟国が合意した枠組みに沿って、ウクライナ政府が武器を調達できるよう支援しています。そして、ロシアの東部での大規模な攻勢を阻止するために、できるだけ早くこれを行う。世界を見渡すと、すべてのパートナーが、私たちと同じように合意の枠組みの中で活動していることがわかります。
DER SPIEGEL:カナダ、米国、オランダは、ウクライナに重機を迅速に届けたいと考えています。なぜ私たちは遅れをとっているのでしょうか?
ショルツ:持っているもの、渡せるものしか届けられない。どの機材がいつ、どの程度使えるのか、よく見極めなければなりません。どんな機関銃でも撃ち抜けるような車両を提供しても、ウクライナ軍の役には立たないのです。
DER SPIEGEL:キエフは、ドイツが連邦軍から配備可能な装備を継続的に供給し、その後徐々に置き換えていくことを提案しています。それに対する反論は?
ショルツ:同盟国の領土を常に防衛できるようにする必要がある。ロシアからのNATO領域への脅威は続いているため、パートナーとともに常に行わなければならない難しいバランス感覚です。特にバルト海沿岸のパートナーからは、連邦軍のプレゼンスを高めるよう求められています。そのため、私たちはスロバキアやリトアニアなどの部隊と緊密に連携しています。NATOは、通常攻撃を受けても弾薬と装備で12日間持ちこたえられるようにすることを目標として掲げています。特に現在の脅威の状況下では、この公約を忘れることなく最大限の努力をするつもりです。
DER SPIEGEL:米国政府は、ジョー・バイデン氏の署名からウクライナへの武器納入が開始されるまで48時間しかかからなかったと発表しています。私たちにとっては48日というところでしょうか。
ショルツ:私もそれは読みました。私たちのストックからの納入も早かった。米軍の在庫はかなり多い。ここ数十年のドイツ連邦軍の削減は、その痕跡を残しています。今、それを変えようとしているのです。
DER SPIEGEL:あなたは、重火器の納入を求める批判者たちを、知識をググった「少年少女」だと断じました。
ショルツ:ラジオのインタビューでの発言が即座に侮辱と受け取られるのは、状況がいかに緊迫しているかを物語っています。武器輸出のような争点になると、もちろん私とは違う意見を持つ人も多く、それを公言することもあります。それが良い民主主義の一部なのです。
DER SPIEGEL:あなたは常に重火器納入に対する新たな議論を持ち出しているようですね。ウクライナ人の訓練が十分でないこともあれば、武器の準備が整っていないこともあり、また、私たち自身が何も提供できないこともあります。このようなメッセージの変化がどれほど混乱を招くか、おわかりでしょうか。
ショルツドイツにとって、この紛争地帯に武器を供給すると発表したことは、大きな方向転換となりました。そのことを改めて申し上げたい。過去にこの措置を断固として拒否した多くの人々が、今では、問題の正確な事実を知りもしないのに、より多くのものを提供するよう要求し、自らを凌駕している。そのことには留意している。しかし、このような状況では、冷静な判断と慎重な決断が必要です。なぜなら、わが国はヨーロッパ全体の平和と安全保障に責任を負っているからです。ドイツとNATOがウクライナの戦争の当事者となることは正当化されないと思う。
★ できない言い訳を次々発明してるみたいなんですけど? というツッコミ
www.DeepL.com/Translator(無料版)で翻訳しました。