約1か月前の11月12日にGPT-5.1リリース。その直後にGoogleがGPT-5.1を圧倒する性能のGemini 3 Proを発表しました。これを受け、OpenAIのサム・アルトマンCEOは直ちに社内で「Code Red(緊急事態宣言)」を発令。その結果として12月11日(日本時間12日)に緊急リリースされたのが、GPT-5.2です。 ベンチマーク評価において、GPT-5.2はGemini 3 Proを凌駕するスコアを記録しました。この記事では、Gemini 3 Proとの比較を通じて、GPT-5.2の実際の性能を検証します。 1.GPT-5.2の概要(1) 2種類のモデルGPT-5.2モデルには以下の2種類があり、GPT-5.2 Auto を選択すると、ユーザーのリクエストに対して自動的にどのモデルを使用するかが決定されます。複雑なタスクでは、GPT-5.2 Thinkingに切り替

検証結果 ここからは、成績の振るわなかった順に各モデルの回答を見ていきます。 それぞれの回答に対し、正解(⭕️)、間違い/ハルシネーション(❌)、部分正解(🔺)を判定しました。 Grok 4.1 Grok 4.1の実際の回答画面 このチラシは「スーパー玉出」の週末チラシ(2025年11月21日〜27日)で、 木曜日(11月27日)限定のお買い得商品は、チラシの下段緑色の枠で囲まれている部分です。 11月27日(木)限定 お買い得商品一覧 肉類 ❌ 米国産牛肩ロースすき焼き用 100g → 380円(税込410円) ❌ 若鶏もも肉 100g → 68円(税込73円) ❌ 豚ロースしゃぶしゃぶ用 100g → 98円(税込105円) ❌ 豚小間切れ 100g → 88円(税込95円) 加工肉・ハムなど ❌ カントリーマアム チョコまみれ 各種 → 218円(税込235円) ❌ ポテトチップス

米OpenAIは9月5日(現地時間)、LLMのいわゆる「幻覚」(ハルシネーション)についての論文を公開した。この論文は、ChatGPTやGPT-4oといったLLMが、なぜもっともらしく聞こえるけれども間違った情報を自信満々に生成してしまうのか、その根本的な理由を解き明かそうとするものだ。 例えば、論文の著者であるアダム・タウマン・カライ氏の誕生日をある最先端のオープンソース言語モデルに尋ねたところ、「03-07」「15-06」「01-01」といった3つの異なる、いずれも間違った日付を自信満々に回答したことが示されている。OpenAIは、最新モデル(GPT-5を指すとみられる)では幻覚の発生率は大幅に減少しているとしながらも、依然としてこの問題が残っていることを認めており、さらに削減していくために努力を続けているとしている。 論文では、言語モデルの幻覚は大きく分けて2つの段階で発生し、改善

探索パラメーターを自動調整したい。 従来は、一つ一つのパラメーターを少し動かし、自己対局をさせて勝率を見ていた。 2015年当時、あの有名なPonanzaですら、それは同様であった。しかしやねうら王では、もっと雑に、すべてのパラメーターを同時にランダムに少しだけ動かして、それでそれぞれのパラメーターについて集計して、それぞれのパラメーターについて勝率が改善する方向に少しずつ動かすということをしていた。 当時、Ponanzaの作者の山本君からパラメーター調整はどうやってるの?と尋ねられた時に「すべてのパラメーターを同時にランダムに少し動かして、SGD(確率的勾配降下法)みたいなことをしている」と私は答えた。いまにして思うと、動かす方向を決める部分はSGDっぽいが、アルゴリズムの呼び名としては、SGDはちょっと違うかもしれない。 その後、チェスAIの世界ではパラメーターの自動調整は、SPSA(
開発経緯ジーズアカデミー卒業後、在学中に開発した CrystalMark X (クロスプラットフォーム対応CPU ベンチマークソフト)での世界挑戦は不可能と判断し、CrystalMarkの20年ぶりとなる新バージョンとして約100日で開発したCrystalMark Retro 1.0をリリースしました。 ご機嫌なリリースノートを執筆し、満を持してリリースしたわけですが・・・ リリース翌日・・・人生を変えるコメント思えばいつだって私のソフトウェア開発者人生を後押ししてくださるのは、名無しさんなんですよね・・・残念ながら私の周りに忌憚のない意見を言ってくださる方はいないので本当に感謝しています。Windows 95に対応するためVisualC++ 6.0でビルドできるようにするほどのパワーはない!と開き直り、VisualC++ 2019/2022でビルド可能なWindows XP以降

What is the smallest possible EXE that can be run on theWindows Operating System? What about the largest possible EXE? What even is an EXE file? OnWindows, EXE files use the Portable Executable file format, which contains the program's code, data, and references to other libraries that can be loaded and run by the OS.It is often referred to as an "Image", the captured state of the program in a

I designed my own 16-Bit Computer inMicrosoftExcel without using Visual Basic scripts, plugins, or anything other than plainExcel. This system on aspreadsheet is based off of a custom Instruction Set Architecture that has a total of 23 instruction mnemonics and 26 opcodes. The main design of theCPU is broken into a fetch unit, control unit, arithmeticlogic unit, register file,PC unit, sev

FDDからブートできる「MenuetOS」とCPUキャッシュにOSが載る「KolibriOS」:リアルタイムOS列伝(46)(1/3 ページ) だんだんと連載テーマであるリアルタイムOS(RTOS)から外れつつある気もしなくもないのだが、今回ご紹介するのは「MenuetOS」と「KolibriOS」である。KolibriOSはMenuetOSからフォークしている(ただしフォーク後に開発は完全に分離)ので、まずはMenuetOSからご紹介したいと思う。【訂正あり】 【訂正】初出の記事タイトルで「FDDにOSとアプリ一式が入る」と表記しておりましたが、装置であるFDD(フロッピーディスクドライブ)にOSとアプリ一式が収まるわけではないため「FDDからブートできる」に変更しました。 ⇒連載記事「リアルタイムOS列伝」バックナンバー 「MenuetOS」の開発動機は「スクリプト言語の処理が遅すぎる

AIの発達により、かつてはスーパーコンピューターを長時間稼働させて行ってきた天気予報が、短時間かつ高精度で行えるようになりつつあります。そんな中、Microsoftが天気予報と同時に大気汚染を瞬時に予測できるAIモデル「Aurora」を発表しました。 IntroducingAurora: The first large-scale foundation model of theatmosphere -Microsoft Research https://www.microsoft.com/en-us/research/blog/introducing-aurora-the-first-large-scale-foundation-model-of-the-atmosphere/ SuperfastMicrosoftAI is first to predictair pollut

CPUやGPU、ストレージの性能を簡単に測定できるベンチマークソフト「CrystalMark Retro」が2024年3月31日にリリースされました。CrystalMark Retroはストレージベンチマークソフト「CrystalDiskMark」やストレージ管理ソフト「CrystalDiskInfo」といった定番ソフトの作者であるhiyohiyo氏の新作ということで、CrystalMark Retroも定番ソフトに仲間入りしそうな気配を感じます。そんなCrystalMark RetroをダウンロードしてPCの性能を測定するまでの手順を確認してみました。 CrystalMark Retro - Crystal Dew World [ja] https://crystalmark.info/ja/software/crystalmarkretro/ CrystalMark Retroをダウン

CrystalMark Retroについて CrystalMark Retroは、Windows 95およびWindows NT 3.51以降で動作する総合ベンチマークソフトです。 32bit (x86)、64bit(x64/ARM64)、メニーコア、多言語(48言語以上)に対応し、CPU、ディスク、2Dグラフィックス(GDI)、3Dグラフィックス(OpenGL)の性能を1クリックで測定できます。また、ベンチマーク結果を CrystalMarkDB に登録することで、過去実績の一元管理(要アカウント:無償)や世界中のユーザーが登録したデータとの比較が可能です。 OpenGLベンチマークはCrystalMark 2004に引き続き koinec 氏に制作していただきました。 CrystalMarkDB は ジーズアカデミー 同期の ケインコスゲ 氏に制作していただきました。 ベンチマークコー

先週末に開催された電竜戦本戦で、水匠チームが優勝した。私(やねうらお)も同チームのチームメンバーとして参加し、私は探索部の改良を行った。同チームのたややんさんは、定跡と評価関数(の機械学習)を担当した。 現代の将棋AIの大会で何が起きているのかについて手短に書く。 ■ 定跡 まず、本大会の水匠チームの定跡部分に関しては、たややんさんの以下の配信に詳しい。 【#電竜戦 祝勝会】水匠電竜、連覇しました!!【将棋AI水匠/たややん】 https://www.youtube.com/watch?v=lsNoVMe_wdk 配信の内容で大事なところを簡単にまとめると、 ・角換わり(38手目基本図)は定跡により先手優勢までは持っていける(これは1年ぐらい前からそう) ・相掛かりも定跡で先手有利 ・おそらく将棋は先手勝ちのゲーム ・大会では、「わからん殺し」するしかない とのこと。 結局、将棋は先手勝ち
Kernel/VM探検隊は、カーネルやVM、およびその他なんでもIT技術の話題ジャンルについて誰でも何でも発表してワイワイ盛り上がろうという会です。hsjoihs氏は、架空世界の言語を話す架空世界の人間のためのOS作成について発表しました。全2回。後半は、完成までの進捗の振り返りと、成果の勝因について。前回はこちら。 150時間かけた成果を発表hsjoihs氏(以下、hsjoihs):さて、そろそろ文字に飽きた頃でしょうから、スクショを見せます。夏休み5週間の成果です。150時間ぐらい溶かしました。なんかいろいろとできるようになっていますね。やったー! せっかくなので、盛大にバグった画面集もお見せしたいと思います。やはり低レイヤーをいじる最大の醍醐味は、ものがうまく動いている時ではなくて、うまく動かず、こんなふうにバグってしまってKernelからの英語のエラーメッセージが隠し通せずに貫通す

Kernel/VM探検隊は、カーネルやVM、およびその他なんでもIT技術の話題ジャンルについて誰でも何でも発表してワイワイ盛り上がろうという会です。hsjoihs氏は、架空世界の言語を話す架空世界の人間のためのOS作成について発表しました。全2回。前半は、架空伝統ゲーム「机戦(セッカイク)」と、OS作成のツールチェーンとデスクトップ環境について。趣味は「架空世界創作」 スタンフォード大学に通うhsjoihs氏hsjoihs氏(以下、hsjoihs):よろしくお願いいたします。こういうタイトルでやっていきたいと思います。「long version」と書いてあることからもわかるように、2022年9月17日にセキュリティキャンプのアフターイベントで発表した5分の「short version」を長くしたものとなっています。あらかじめご了承ください。 自己紹介です。hsjoihs(はすじょい)と申

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く