Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

人間と技術に関するnekonyantaroのブックマーク (1)

  • 人間を騙してサボるAIたち - ジョイジョイジョイ

    AI の能力が上がるにつれて、人間がAI を監督するのが難しくなってきています。稿では、Anthropic などのグループがICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは RLHF を通じて人間を誤解させることを学ぶ)をベースに、この問題について議論します。 この論文では、LLM が解けないほど難しいタスク、例えば難しいプログラミングのタスクに直面したとき、「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる・ミスが隠蔽されるといった現象が実験により確認されています。 この現象は現実の LLM やAI サービスでも起きている可能性が高いです。自

    人間を騙してサボるAIたち - ジョイジョイジョイ
    nekonyantaro
    nekonyantaro2025/06/24非公開
    「自分が何を達成したいか」より「どの部分で評価されているか」を行動基準として重視する人間は多いから「AIも人間っぽくなってきた」ともいえるかも。
    • 残りのブックマークを読み込んでいます1

    お知らせ

    公式Twitter

    • @HatenaBookmark

      リリース、障害情報などのサービスのお知らせ

    • @hatebu

      最新の人気エントリーの配信

    処理を実行中です

    キーボードショートカット一覧

    j次のブックマーク

    k前のブックマーク

    lあとで読む

    eコメント一覧を開く

    oページを開く

    はてなブックマーク

    公式Twitter

    はてなのサービス

    • App Storeからダウンロード
    • Google Playで手に入れよう
    Copyright © 2005-2025Hatena. All Rights Reserved.
    設定を変更しましたx

    [8]ページ先頭

    ©2009-2025 Movatter.jp