たとえば、このスレのスクショを貼って解説を頼むと以下の回答が返ってくる
Xさん、この画像はスマートフォンの画面キャプチャっぽいね。具体的には、はてな匿名ダイアリー(anond.hatelabo.jp)のページを開いている様子が表示されている。上部には「10:12」や通信状況、電池残量(36%)が示されているバーがあって、その下にブラウザのアドレスバーが「anond.hatelabo.jp」となっている。
ページ本文部分では、はてな匿名ダイアリー上で、ある記事の投稿とその反応が表示されているっぽい。日付表示「2024-12-06」の下に記事内容があり、「o1の画像理解力すげえわ ほぼ人間」といったコメント文が確認できる。これは、何らかの画像認識技術やツール(“o1”と呼ばれているもの)が人間並みの画像理解力を持つ、と感心している書き込みらしい。
また、画面上にはYという靴ブランドの広告が表示されている。黒い革靴の写真が二足並んでいるバナー広告で、上部には「Y」というロゴと靴のイメージがあり、下部にはもう一つ、横スクロールできる形で複数種類のYの革靴が表示されている(スニーカー型やチャッカブーツ風の靴が並んでいるように見える)。
記事部分には「Permalink」や「記事への反応」というリンクがあり、これははてな匿名ダイアリーの標準的なUIで、投稿記事ごとの恒久リンクや他の匿名ユーザからの反応コメントへのリンクを示すものだ。
下の方に「具体的にどんな感じ?」というコメントがあるので、これは記事投稿者や別のコメント者に対する返答か、追加質問をしているようなやり取りになっていると思われる。
まとめると、この画像は
•スマホのブラウザではてな匿名ダイアリーの記事ページを閲覧しているスクリーンショット
•コメント欄で「具体的にどんな感じ?」という質問がついている
といった状況を映している。
o1の画像理解力すげえわ ほぼ人間
具体的にどんな感じ?
たとえば、このスレのスクショを貼って解説を頼むと以下の回答が返ってくる Xさん、この画像はスマートフォンの画面キャプチャっぽいね。具体的には、はてな匿名ダイアリー(anond....
うわ、すげーな。 広告、本文、コメントというコンテキストの理解もさることながら、OCRも完璧じゃん。 ここまで進んでるんだな。
すごいよね 画像認識AIは、まずOCRが不正確だったり一部しか解説をしなかったりするからイケないイメージだったけど、 妙な推測なく正確・網羅的で背後のコンテキストまでちゃんと読...