Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。
検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。
AI開発会社はそれぞれbotの名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています。
User-Agent: *
Allow: /
https://bsky.social/robots.txt
実際にはサーバー負荷対策のため、ある程度の速度制限がありますがコンテンツの取得に制限はありません。
# Everybot that might possibly read andrespect this file
# ========================================================
User-agent: *
Disallow: /
一部の検索エンジンには限定してデータ収集を許可をしています。(詳細は長いので省略。自分で確認してください)
Blueskyは他社AIボットによるデータ収集を許可しています。
BlueskyにアップロードしたデータはOpenAIやGoogleやBaiduなど様々な会社のAIロボットにデータを収集され、AI学習開発に利用される可能性が高いです。
もしも自分がAI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。
世の中はそうなってなさそうで不思議。
1か月くらい前からXでこの事を指摘している方はいらっしゃいましたが、まだあまり広まっていません。
AI各社はそれを守って情報収集するんだろうか
まぁXは私のあげたデータ全てAI学習に使われるのを同意しますって同意しちゃってるから、仮に将来AI学習に同意が必要と法整備されても自由に使われちゃうよね。
Xは自社でAI学習するので、そのためのデータは自社独占しようと外部からのアクセスを阻もうとする。 一方ブルースカイは自社でAI学習する気がないので、データを独占する意味も保護...
20241116171005 に書いてて、周回遅れ(それも10周以上)で草