はてなキーワード:クローラーとは
これはVeryストレートでリアル。リアリティーのあるテクニカル・プロブレムに、ダイレクトなアクションをリクエストしてるわけよ。まさに “ファクトはフィクションよりストレンジャー” ね。
「Wetopplayersはマーケットでベネフィットをオプティマイズするために、データセントリックなベスト・ストラテジーをアプライします!」
コンプリートにBuzzwordカクテルのワンダーランド!でもね、ミーニングがフローティングしてて、どこにランディングするのかドントアンダースタンド!
「ミーはリアルをトラストするガイ。だから、テックのトークをチョイスしてトラスト!セールスのワードは、もうちょっとグラウンディングしてからトーク・トゥ・ミー!」
ということで、トゥギャザーしようぜ、リアリティと!
AIの訓練データをwebから拾ってくる研究って昔からあって、クローラーの開発競争とかあったんだけど
世界中のwebをクロールできたとして、自動で行き着ける範囲は無料でアクセスできる範囲でしか無いんだよね
無料で手に入る訓練データなんて無料品質でしか無いというのが定説だった
だからAI開発は高品質で大量の有料データを効率良く確保するビジネス手法が必須というのが2010年代の風潮にあった
でもOpenAI等の開発ってほぼweb上のデータだけでできてるぽいんだよね
個人的にはそれを社会にデプロイすると思ってなかったし、社会が受容して活用するとも思ってなかったのですげえ驚いた
堂々と違法サイトクロールするのが正解を最速導出するという認識が無かった
結構近い分野で研究してたので、その認識に至れなかったの悔しいな〜というのがある
データである以上複製は避けられないし、暗号化した所で人間の目に入る瞬間には復号化したデータがメモリ上に乗ってるはずなので
それをスニッフしちゃえば理論的には全ての有料販売は海賊版サイトに転載される、可能性がある
絵師様が無断転載禁止とか言ってるのを見てると、いやアップロードすんなやと思うが
有料販売品が無料で海賊版出されてるのは流石に絵師様が悪いと思えない、海賊版サイトを潰せという認識で世界が統一されてほしい
ここ数年、インターネットに散在するコミュニティ上での異常事象の存在が、SCP財団内でしばしば議題に上るようになってきた。匿名性の高いSNSやコメント欄、掲示板はもちろんのこと、とりわけ「はてな匿名ダイアリー」(以下「増田」と呼称)においては、他のプラットフォームでは見られない特異なアノマリーが複数確認されている。増田は、ユーザー登録をせずとも誰でも簡単に匿名の文章を投稿できる点や、その内容が検索エンジンを介して幅広く閲覧されるという特徴を持つ。その結果、財団の観測網をかいくぐって潜伏しやすい土壌が形成されており、過去数年間で複数のSCPオブジェクトが確認されるに至った。
本報告書では、増田上に跋扈するSCPについての調査概要と確認された事例、ならびに暫定的な収容手順を示す。なお、本報告書に示されるSCP事例は現在進行形で調査が行われており、記載内容はあくまで暫定的なものであることに留意されたい。
1. 背景と問題の経緯
はてな匿名ダイアリーは日本国内を中心としたWebサービス「はてな」が提供するブログプラットフォームの一部で、アカウントを持たない投稿者であっても「増田」と呼ばれる匿名枠にテキストを投稿できる仕組みを提供している。そこでは個人的な悩みや告白、社会への批判や仕事・日常の愚痴まで、多種多様な文章が毎日大量に投稿されている。
増田特有の気軽さや匿名性の高さは、投稿者の真意を推測しにくくする要因であり、その投稿を閲覧する読者側もまた「増田だから真偽がわからない」といった曖昧な認識のもと、批判や同情、考察などを寄せる。その混沌とした言説空間は、ときに不特定多数のユーザーの集合的な感情を刺激し、新たな炎上や論争を生み出す源泉ともなる。
こうした特質はSCP財団から見ると、アノマリー(異常存在)が自己の活動や影響力を隠蔽したまま周囲に感染・拡散するのに非常に都合がよい環境といえる。特に増田では、投稿時に明確なユーザーIDやアカウント情報が残らず、内容の信憑性を裏付ける手段が事実上ないため、「書かれていることが虚実入り混じっている」前提で閲覧されやすい。結果として、何らかのアノマリーが潜入していても発見が遅れがちである。
財団が増田における最初の異常を検知したのは、20██年頃に投稿された「この世を正しく終わらせる方法と手順」と題された増田が発端だった。その増田の内容はいわゆる「終末論」を扱うものであり、極めて支離滅裂かつ狂信的な文体ではあったが、読了した閲覧者の中から数名が突発性の精神不調や共時性の幻視を訴えはじめ、その症状が財団の監視ネットワークに引っかかったのである。その後、財団の調査チームが投稿の書式や文体を解析したところ、当該増田の背後に未確認のミーム汚染因子が潜んでいる可能性が高いと判断された。この事例をきっかけとして、財団は増田の投稿ログを精査し、複数のアノマリーを検出していくこととなった。
以下、財団が確認し、暫定的なオブジェクト分類(Safe/Euclid/Keter 等)を行ったSCPを紹介する。なお、詳細な文書は別途SCPファイルとして管理されているが、本報告書では概要と特徴を簡潔に示す。
概要:増田の特定記事上でコメント欄が自動的に増殖し続け、システム上の最大コメント数を無視して延々と付与され続ける現象。ユーザーが投稿したはずのコメントが複数回重複表示されたり、「名無しのオブザーバー」というハンドルネームでシステムが自動生成したとみられるコメントが絶え間なく追加されたりする。最終的に記事本体よりもコメント欄が何十倍も長くなり、閲覧者がページを読み込むだけでブラウザや端末に極端な負荷をかける。
異常性:コメント数が増え続けるだけでなく、中には本文を改変するようなスクリプトが混入しており、ページをリロードするたびに本文の一部が改変・増殖する事例が報告されている。閲覧者が長時間そのページを開いたまま放置すると、ブラウザ履歴やクッキー情報を勝手に書き換える痕跡が確認されている。
暫定収容手順:財団エージェントがはてな側のシステム管理者に接触し、問題の増田を管理者権限で凍結。また、既に拡散したミラーサイトやアーカイブを順次削除し続けているが、完全な根絶には至っていない。現状、定期的にウェブクローラーを走らせ、類似現象の発生を監視・排除する措置を取っている。
概要:一見するとありふれた日常報告や匿名の愚痴を綴った文章なのだが、記事本文を最後まで読了した閲覧者の脳内に「その人物が最も不安に感じている秘密」や「他人に言えない後ろ暗い過去」を強制的に想起させ、それを吐き出させる形でコメント欄へ投稿させる現象。コメント欄の体裁を取りつつ、実際には閲覧者自身が投稿した認識のない状態で、勝手に恥部をさらすようなコメントが掲載される場合もある。
異常性:このSCPの投稿は複数回確認されているが、書式やタイトルは毎回異なる。共通するのは「冗長かつ最後まで読まないと内容がよくわからない文体」であることと、本文の終盤に読者の潜在意識を刺激する特殊な文章構造が組み込まれている点だ。財団心理学部門の解析では、いわゆる「ミーム改変文字列」が散りばめられており、読み進める中で読者の深層心理に干渉していると推測される。
被害と対処:実際に被害に遭った閲覧者は投稿後しばらくしてから自身のコメント内容に気づき、極度の羞恥や恐慌状態を引き起こす。財団は可能な限り対象投稿を速やかに削除し、被害者のコメント記録を抹消すると同時に、クラスA記憶処理を施して事態の収拾を図っている。問題は、このSCPが投稿される「増田」のアカウント特定が極めて困難な点であり、繰り返し新規IDから投稿が行われていると推定される。新たな投稿が発生次第、いかに早期に検知し削除・封鎖するかが大きな課題となっている。
概要:ある増田上で連続的に展開される「複数の登場人物が互いに呼応しあう」形のスレッドが、実際には単一の存在(SCP-増田-C本体)の手によって形成されているとされる現象。日記本文とコメント欄があたかも多数の異なるユーザーによる対話のように見えるが、財団のIP解析ではすべて同一の不明ホストから投稿されたトラフィックであることが確認されている。
異常性:単なる自作自演ではなく、スレッド内で展開される複数の人格が、投稿のたびに微妙に文体を変化させるだけでなく、実在の第三者のようにリアルタイムで会話を重ねていく。そのやりとりは短時間で数百件以上に膨れ上がり、外部から見ると非常に説得力をもって「議論」が進行しているように映る。読者はそれぞれの人格が持つバックグラウンドストーリーに引き込まれ、スレッドを精読するうちに「どの意見が正しいか」を探り始めるが、最終的には一種の混乱状態に陥り、どの人物が何を意図しているのか判別不能になる。
被害:このスレッドに長時間深く没入した閲覧者は、自分の中に複数の人格が芽生えるような感覚を訴えたり、現実社会で他者と会話する際に「この人は実在しているのか疑わしい」という妄想を抱くようになるケースが報告されている。財団職員の複数名も監視過程で同様の症状を呈し、軽度の精神崩壊を起こした事例があるため、当該増田の監視担当者には定期的な心理カウンセリングが義務づけられている。
暫定対策:疑わしい長文対話形式の増田を早期に検知し、アクセス制限をかける監視システムを導入しているが、アルゴリズムの網をかいくぐる巧妙な投稿が頻発している。加えて、外部のまとめサイトに引用やスクリーンショットが保存されることで事後封じ込めが難航している。
概要:一度投稿された増田が、投稿時刻自体を過去に改変して再掲載される現象。通常、はてな匿名ダイアリーのシステムでは投稿日時を随意に改変することは不可能とされているが、このSCPは投稿履歴を操作して「数年前に投稿された」という形でエントリーを復活させる。
異常性:改変された記事は実在する日付の増田ログに紛れ込む形となり、当時の利用者のコメントやブックマークまで再現されている場合がある。過去ログを遡っていくと、該当記事がもともと存在した痕跡こそないものの、「当時その記事を読んだ」という証言を行うユーザーが現れるなど、現実改変の兆候も疑われる。現状の技術では投稿者の特定に至っておらず、どのようなプロセスで投稿日時を操作しているかは不明である。
注意点:時間改変系のSCPはカテゴリーとして非常に扱いが難しく、無闇な干渉は時間線に予期せぬ影響を及ぼす恐れがある。財団タイムアノマリー対策部門と連携しながら、記事そのものは閲覧制限下に置き、ネットアーカイブやウェブキャッシュの検索を遮断するなどの措置を行っている。
これらSCPが増田上で確認された背景には、以下の要因が考えられる。
増田はアカウント登録不要で誰でも書き込みが可能であるため、投稿者を特定したり、過去の投稿傾向から異常を推定したりする難易度が高い。その結果、アノマリーの一次検知が遅れる傾向が強い。
はてな匿名ダイアリーは、投稿された増田が多くのユーザーに瞬時に閲覧・ブックマークされる仕組みを持つ。また、はてなブックマークを介してさらにコメントや引用が拡散されるため、いったん話題が盛り上がると多方面にコピーや引用が散逸しやすい。
読者や閲覧者の「ネタ」への寛容さ
増田の読者は内容が真実か否かをあまり厳密に問わず、エンターテインメントやストレス発散目的でアクセスしている者が少なくない。結果、多少異常な文章であっても「一風変わった怪文書」「ただの創作」として受け流されやすく、深刻な異常だと気づかれにくい。
こうした要因によって、SCPを含む異常投稿は容易に潜伏し、拡散する。財団としては、はてな運営会社との連携を強化し、AIを用いた自然言語解析による異常兆候の検知システムを導入するなど、対策を進めている。しかし、はてな匿名ダイアリーは日々膨大な数の投稿が行われるため、どこまで網を広げられるかは未知数である。また、海外ホスティングによるミラーサイトや転載が出現し始めると、現実的な削除要請の範囲を超えてしまう。すでにTwitterや他のSNSでもまとめが回ることで、被影響者が増加する事態は避けられない。
はてな匿名ダイアリーにおけるSCP存在は、ネットコミュニティの構造変化に応じて今後も増加する可能性が高い。特に「自らがアノマリーであると自覚していないままネット上で活動している存在」や、「人格を装いながら多人数の読者とインタラクションを行うことで自己増殖するミーム型SCP」は、増田のような自由投稿プラットフォームでさらに悪質化・複雑化する恐れがある。
財団が最も警戒すべきは、増田を起点としてリアル社会へ飛び火するタイプのアノマリーの拡散だ。たとえば、本報告書で例示したSCP-増田-Bのように読者個人の深層心理に入り込み、現実での行動や社会的信用を毀損する現象が拡大すれば、大規模なパニックや社会秩序の混乱を招きかねない。あるいは、SCP-増田-Dのように時間改変的な特性を持つアノマリーがさらなる発展を遂げれば、歴史修正や因果律破壊といったレベルの被害もありうる。
また、はてな匿名ダイアリーは日本国内だけでなく海外からも閲覧・投稿が可能であり、英訳や翻訳を介して国際的に広まる余地がある。財団の各支部やデータ分析班が協調して監視を強化し、各国の法規制とも連携して削除要請を進める必要があるものの、現実には各国プライバシー法や表現の自由との兼ね合いで対応が難航することが予想される。
5.結論
はてな匿名ダイアリー(増田)は、日常の雑感や炎上ネタから深刻な告白や感情の吐露まで、あらゆる情報が密集する場である。その匿名性ゆえに、SCPオブジェクトが潜伏しやすく、また多くのユーザーが「真偽のほどはわからないがとりあえず読む」態度で消費することから、アノマリーの拡散リスクは高いと言わざるを得ない。すでにSCP財団が確認しただけでも、いくつものSCPが増田に棲みついていることが判明している。
ただし、全投稿を強制的に削除・監視するような強硬策をとれば、はてなプラットフォームの存続意義自体を揺るがすと同時に、財団の存在が表面化するリスクも高まる。一方で、アノマリー拡散を放置すれば、ネット空間を通じてリアル社会にも致命的な影響を及ぼす恐れがある。財団はこのバランスの狭間で慎重な対応を求められている。
今後の具体的な方策としては、増田への新規投稿を常時チェックするAI分析モジュールのさらなる精度向上や、異常記事をいち早く発見し隔離するための専用クローラの整備が必須とされる。また、読者側への啓発活動――「増田を閲覧する際には、妙に長文で意味不明な投稿には注意すること」「不可解な体験があれば速やかに共有し、アクセスを控えること」など――の実施も有効である。しかし、匿名の特性ゆえに抜本的解決策は見通せていない。
財団としては、はてな運営との連携強化を引き続き図り、相互に対策技術をアップデートし合う形でアノマリーの早期封じ込めを目指す。SCP財団が確認した増田におけるSCP事例は氷山の一角に過ぎず、さらなるPermalink |記事への反応(2) | 15:12
かつてあった相互リンク文化。掘り出したブログもいくつかのブログ、というか個人HPと相互していた。
古くは高校時代あたりに絡んでいたもので、それらを好んでよく読みに行ってたのもそのころ。高校卒業後は足が遠のいて社会人になってからは未観測だった。
それらもいくつか覗きに行ってみた。
多くのレンタルHPやブログが閉鎖した今、続けて書いている人は皆無。
相互じゃない一方通行でリンクしてるだけのような、当時から一線をいってるようなのは残っていた。単なる一購読者でしかないけど、僕秩とか。当時も今も越えられない存在。
相互さんたちとの繋がりとしてはアニメレビューとかお絵かき交えた雑記系。自分と同じように2010年くらいまでは息をしていたようだけどその後更新が途絶えているようだ。
当時は多分日PV3,4桁以上あったような人たちだろうと思うんだけど、そんな人達ですらもう続けてない。自分ならそんな見られるなら…とか思っちゃうけど…。まぁでもXとかやってるんだろうな。
中にはどんどんPVを落としていっている人もいた。最後の方はだいぶこじらせていた。小説とか書くようになってたけどそれも続かなかったようだ。
彼らは今どんなことをしているんだろう。探せばXとか出てくるのかもしれないけど、逆にXとかで近況見ると生々しすぎて興味が失せちゃうんだよな。
まぁもうこれ以上掘って出てくるものはないかな。欲を言うなら当時Flashで作ってた個人HPとかもう一度見たいけど、Flashなのとちょい古くてアーカイブのクローラーとか来てないんじゃないかと思う。
Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。
検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。
AI開発会社はそれぞれbotの名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています。
User-Agent: *
Allow: /
https://bsky.social/robots.txt
実際にはサーバー負荷対策のため、ある程度の速度制限がありますがコンテンツの取得に制限はありません。
# Everybot that might possibly read andrespect this file
# ========================================================
User-agent: *
Disallow: /
一部の検索エンジンには限定してデータ収集を許可をしています。(詳細は長いので省略。自分で確認してください)
Blueskyは他社AIボットによるデータ収集を許可しています。
BlueskyにアップロードしたデータはOpenAIやGoogleやBaiduなど様々な会社のAIロボットにデータを収集され、AI学習開発に利用される可能性が高いです。
もしも自分がAI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。
世の中はそうなってなさそうで不思議。
1か月くらい前からXでこの事を指摘している方はいらっしゃいましたが、まだあまり広まっていません。
AI使ってますか?Xで翻訳ボタン押すと海外のポストでも日本語で読めるの便利ですよね。
機械学習から連綿と続いた先にある生成AIの隆盛、大変エモいものがあります。
自分はまだニューラルネットワークと呼ばれていたころからこの分野で細々と研究をしており、趣味は主に写真です。絵はたしなむ程度。
今の反AI運動は、誰に対して何を反対しているのか良くわからなくなってしまっているので、正しく反対するのが良いと思っています。
結論から、なぜそうなるのか、どうしたら良いのかと整理しておきます。
(Xの利用規約がいつ変更され、どのように利用されるかについては、他の方の記事に詳しいため略します)
たいていの場合、人間が利用可否を判断できる程度には高解像度な写真と、ストックフォト社のロゴ、撮影者の名前、管理IDが入っています。
もちろん商業印刷に使える高解像度は購入後にしか手にすることはできません。ただサンプル画像ですが、機械学習用途では十分です。
ロゴなどを取り除くのは難しくありませんし、学習用途では十分なイメージサイズがあり、機械学習に十分使えます。
しかし、実際にはそういった事例は見聞きしません。(個人で学習されている方もほぼいないでしょう)
なぜならば、もしも利用が発覚した場合に使用料を請求されるからです。
同様に、無償の用途であっても、例えば軍用機や戦車など、IDやサインを写真に入れる方は少なくありません。
これは、端的にはパクられた時に自分の写真だと主張する為です。
現行法下では、いわゆる"無断学習"を止めることはできません。
機械的に大量の学習が行われるのが問題であるという論建ても見聞きしますが、あまり良い筋論とは思えません。
なぜならば、少ない学習量で良い結果を出すというのは、機械学習的にはかなり昔から熱心に研究されているテーマだからです。
(例えばコンピュータ将棋に新風を吹き込んだBonanzaは、たった6万局の棋譜を学習させることで評価関数を作成しています)
実用的にも、事前に学習させたモデルを準備しておき、少ないサンプル画像(数枚~数百枚)で、不良品検査に使えるモデルを作成する、などは熱心に行われています。
現状でも、対象となる絵を人間が模写して、模写側を学習させるだけで、十分に元画像に近似した画像を出力できます。
人間が目で見て判別できる程度のノイズやウォーターマークは、前述の通り除去にさほど手間はかかりません。
Xを利用する以上、利用規約に同意しなければ使えないので、これについて学習を防ぐことはできません。(非公開ポストについては学習されませんが、これもXの利用規約変更が無いことが前提です)
例えばpixivは機械的な画像収集がガイドラインで禁止されています。また、画風を模倣した作品の投稿についても一定の制限のもとで禁止されています。
対価を取る旨の明記とは、例えばpixivFANBOXのメンバー限定コンテンツを、無断で転載されてしまった場合、損害を負ったと外部に対して明確に説明が出来ます。
これらを行ったうえで、故意に学習され、似た作風の生成AI画像を公開されるという嫌がらせを受けた場合は、上記の旨を前提として、嫌がらせであると都度対応する必要があります。
これは知らなかった、うっかりしていたでは起こりえない状態にしたうえで、きちんと嫌がらせに向き合うということです。
生成AI画像をそもそも見たくない、というものは、現行では防ぎようが無く、どちらかというとロビー活動に近いものになります。
こいつは画像生成AIで絵を出力している!というのは、指摘として正しいか否かは別として、あまり意味をなしません。
ただ、自分の趣味である写真でも、いわゆる加工をどこまで許容するかは人やコンテストによって異なる為、そういった住み分けの話になってくると思っています。
例えば、ある画家が自分の画風を学習させた生成AI画像を出力して販売したとしても、それを咎める理由は思い当たりません。
現状でもまだ過渡期であり、人間の目で判別不能な画像を出力するようになるのは、時間の問題です。(既に人間が書いた絵であっても生成AI絵だと誤認される事例は数多くあり、指摘できる人間の数は減っていきます)
どちらかと言えば、作画過程のタイムラプス動画に価値を見出すような、違った付加価値の話になってくると思います。
生成AI画像技術を禁止する、学習を禁止するなどは、現行法下ではできません。
法改正もしくは法解釈の変更が必要なためロビー活動を行うしかありません。
しかし、自分の絵を商用利用を禁止し、それを許容するプラットフォームで発表することはできます。
Xでは非公開ポストにしない限り、機械学習に利用されることを防ぐことはできません。利用規約で既に利用が可能になっているからです。
露悪的に言えば、Xを利用するのに学習されたくないのは虫が良い、と言えます。ただし、Xに対して一定の金額を払うことで対象から除外してもらうように働きかけることはできるかもしれません。
ウォーターマークやサイン、ノイズを機械学習を防ぐ目的に使う効果はとても薄いです。ロゴやウォーターマークの除去もテーマとしては昔からあるものであり、難易度はそれほど難しくありません。
ただし、意図して除去していることは明確になるので(Xには規約で学習されてしまうが)X以外の例えば悪意ある第三者に学習された場合に、悪意ある行動だ、と指摘することが出来ます。
この場合、対価を取って公開している場合、損害が明確になるので、アクションを取りやすくなります。
X社に学習されるのは諦めて、小さくても良いのでトリミングで取り除かれない位置にサインを入れてポストするのが最もベターです。ウォーターマークである必要はありません。
(取り除かれて転載された場合、タイムスタンプを基に悪意ある転載だと指摘できるため。逆に言えば別に大きくいれてもさして違いは無いので自分の好みで入れれば良い)
また、自分の画風のAIモデルを開発中である、これの対価はAI陣営には買えないくらいとても高い、とプロフィールに書くだけでも十分抑止になります。
生成AIに反対する為に、自分でAIモデルを作り高額で販売するつもりである、と表明すれば良いからです。
嫌がらせで自分の画風を真似たモデルが作られて販売もしくはそれを使った出力画像が出た際に、自分は損害を負ったと主張できます。
また、第三者のゲームのスクリーンショットに勝手に透かしやサインを入れるのは止めましょう。適切なガイドラインのもとで適切に利用するのが最も大切です。
既に法律でも、利用規約でも、生成AIや機械学習側がリードしている状態です。
Xが学習するというのを妨げるのは、プラットフォームを利用する側としてはどちらかと言えば非難される側になってしまいます。(規約にあり、利用しており、それでいて相手を妨害する為)
イラスト界隈で活動して6年目になる俺が、反AIがここまで隆盛した理由を自分なりに整理してみた。
これは生成AIが出る前から思っていたことだが、とにかく特権意識が強い。
主にフォロワー・いいね数を基準として、人気がある方が偉いという価値観の下で生きているから、
人気のある絵師がそうでない絵師のキャラクターや構図をパクるのはお咎めなしだが、
逆をやると即学級会からの良くて追放、悪くて活動停止まで追い込まれてた。
俺は面倒に巻き込まれたくなくてそれとなくフォロワーが多い方に追従してたけど、
「イラストを描ける自分は偉い・優れている」と思ってないとこんな傲慢な振る舞いはできないと思うんだけど、
今回の騒動はそれを露わにしただけなんだと思う。元々、絵師以外はバカにして当然みたいな空気もあったし。
今、無断学習が「因習」って呼ばれてるのはかなり正確な表現で、
実際に絵師界隈は村文化というか、悪い田舎の性質を凝縮したようになっている。
他人の一挙手一投足に注目して、村の掟に従わない人間がいたらすぐに吊るす。
村の外のルールなんてものは関係なくて、自分たちの決めたルールが絶対。
こんなんだから外部の人間に理解されるわけはないし、なんなら界隈内の一部の人間からも忌避されていた。
外から見たらおかしいのは一目瞭然だが、どうも絵師様は違うらしい。
正直、これが一番問題だと思う。これがなければ前の二つは成立しないか、してもすぐ瓦解するんじゃないかな。
とにかく他人の意見を鵜呑みにするからバカみたいなカースト制度にも従うし、
これがおかしいと気づける人間は界隈からいなくなるから、自然と「そういう」人間だけが残る。
誰かが「AIは悪だ!」と叫んだのに追従して"無断学習"などという存在しない概念を生み出し、
自分の絵が学習されたら死んでしまうくらいの勢いでAIを弾圧している。
現状の生成AIに全く問題がないなんてことはないが、奴らは具体的な問題点を論じるわけでもなく、
ただ判を押したように「AIは悪だ!AIを規制しろ!」としか言わない。
今流行っているウォーターマークとかglazeとかも、見てる側からしたらただのノイズでしかないから消してほしい。
村の教えではAIを滅することができることになっているかもしれないが、実際はそんなことないんだ。ただ絵をぐちゃぐちゃにしているだけなんだ。
SNSを移動したら学習されないなんてことはないんだ。どこに行ってもクローラーがいるし、何なら外部のクローラーを弾いてるXは親切なくらいだ。
思考を放棄して被害妄想に憑りつかれるままに大暴れするさまは、滑稽を通り越して憐れでさえある。
結局のところ、反AIをやっているのは絵師様(笑)しかおらず、
そうでない人は生成AIを快く思っていなくても妥当な落としどころを探るための建設的な議論を進めようとしているだろう。
実際、俺の周囲にも何人かそういうスタンスの人はいる。そういう人は(少なくとも俺の周囲は)自分で調べて自分で考えることができている。
・robots.txtなどでWebクローラーに避けてもらう
・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする
・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする
・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)
・スクレイピング対象から避けやすくするため長辺を256px未満にする←New!
上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。
仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。
=====
そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。
CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。
ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。
でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので)よろしくない。
逆に、Skebはなぜ (依頼した人に渡す分じゃなくて)ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。
反AIが無学(高卒オタクマン)な上に人の忠告を聞かないせいで、実在しない問題、恐怖を内輪で膨らませてた例が最近無茶苦茶多いので備忘録的にリスト。
実際は、1000枚に522回分(1枚には0.522回分)と書いてあったのを、英語も読めないのに機械翻訳(AI…😂)で無理矢理引用して誤読。
そもそもスマホの電池容量は約20Whほど。522回分では10kWhになる。電気代で言えば卸値でも100円はする。1枚にそんなにかかっていたら商売が成り立たないとも気づかない頭の悪さ(一部は「だからこそ誰かが金を出してる陰謀なんだ」とか訳のわからないことまで言い出す始末)。
英語力、計算力、金銭感覚のなさ、そして無意識にAI翻訳を頼るという馬鹿に馬鹿を重ねる失態。
普通の英語力があれば解るが、名詞の複数形にsomeがつく場合とそうでない場合では大分訳し方が違う。
「もともとクリエイティブと呼べないほどの仕事もあった」という程度の言葉を「すべてのクリエイターに対する挑戦」のようにねじ曲げ拡散するのは政治的な行いなのか、単なる狂気なのか。
そもそも「学習対策」は無作為のクローラー対策のためにネットにアップする画像に施すものであり、copainterなどの自分で下絵をアップロードするi2iサービスには何の効果もない(というより、もはや何を狙っているのかも不明)のに(詳細は→ https://anond.hatelabo.jp/20240626081537)、イラストに猫の画像を埋め込んで「上手く生成できない画像はこうだ」とか、現在進行形で盛り上がってる。
あいつらの脳内ではこの自分勝手な被害妄想?(というより、ry)で意味不明な発狂を起こしていることすら「AIのせいでクリエイターが先の見えない対策に追われている」と変換されているのがなお凄い。
その「対策」に何の先も見えないのは、AIが凄いからじゃなくて、お前らが自分で何をやっているのかが解ってないからだw
AIを怖がるにしても、せめて最低限の仕組みぐらいは理解してから、仕組み的にありえることを怖がれw
別にいいけどそもそもクローラーとかそんな大した仕事ではないし
普通は一から作るというのは大規模なサービスを一から書き直すような時に使うわけよ
いちいちスクラッチとかフルスクラッチとかいう話ではないんだよね
何人月?って話で
いやフレームワークも使わないで素のPythonでファイルサーバーにファイルをあげるクローラーをマイクロサービスって言う人君しかいないよ
真昼間に書いてんのも君だし