【条件A】ネットワークにスパムが極端に少なく、無関係ノードの多くが自然なら悪ノードに近い部分だけ異常値として検出でき、遠い領域が自然クラスとして扱える。
【条件B】悪ノードが相互に強結合しているという構造仮定。偽情報クラスターがまとまりを持つなら、悪クラスターから距離が離れた連結成分は良と推定しやすい。
【条件C】悪ノードは常に特徴的なリンク行動をとる。例：悪ノードはRTが過剰、同一アカウントを頻繁に引用、特定のハッシュタグだけを使う。その特徴を負のシードから伝播学習させれば、逆方向から良性クラスタが浮き上がる。
【条件D】グラフの大部分が健全である（Real-world assumption）実社会ベースのSNSではスパムは少数派であるという統計的前提によって、悪の汚染されていない巨大コンポーネント = 通常ユーザーとみなせる。

4.実装 イメージ（概念 レベル）

1. 悪ノード集合を基点にする

2.グラフを逆方向に探索し不信スコアを伝播させる（減衰付き）

3. 不信スコアが低い領域からクラスタリング

4. 巨大クラスタで異常指標が低い部分を相対的に信頼性が高いと推定

つまりグラフ全体を

汚染領域
未汚染だが孤立
未汚染で巨大構造的に自然（＝相対的に信頼できる）

という3層に分類する。

悪を塗りつぶす → 残った未塗り部分が大規模な自然クラスタであれば、それを信用側とみなせる。

5.結論

悪ノードのシードがあるだけでは信用できないノードは特定できるが、信用できるノードは特定できない。

ただしネットワークの統計構造（自然分布／クラスター形成）を仮定すれば、信頼できる領域を推定するのは可能になる。

Permalink |記事への反応(0) | 00:21

ツイートシェア

2025-10-11

■政治を4Sしたい

整理

保守↔リベラルと積極財政↔安定財政の2軸のマトリクスに議員、派閥をマッピングする

整頓

マトリクス上の近い議員、派閥をクラスタリングして政党を決める

マトリクスの象限を跨ぐような政党はNG（つまり自民と立民は解体）

清潔

裏金野郎だの不倫野郎だのは正しい間違い以前に政治が止まって面倒くさいから再雇用先を探して別業種で働かせる

清掃

この状態を選挙で維持していく

Permalink |記事への反応(0) | 22:40

ツイートシェア

2025-06-11

■40代の中年が最近まで知らなかったこと。今もわかってないこと。

めちゃくちゃいっぱいある。

順不同、脈絡なく書いていく。

最近まで知らなかったことだけじゃなく、書いたけど結局わからんことも書く（そっちのほうが多い）。

製造業の用語いろいろ

5Sといって整理、整頓、清掃、清潔、躾だそうだ。

全部日本語じゃねーかって思った。

QCサークルとか、サークルっていうから酒でも飲むのかと思ったら普通に業務じゃないか。

会計 用語いろいろ

簿記とか会計に疎かったので、営業利益とか経常利益とか違いがわからんかった。

ググってみても、本業の稼ぎが営業利益とか出てきて意味がわからなかった。

経費削減っていうから、会社の支出は全部経費かと思ったら、材労経だろJK

それにケイツネも特別もあるだろって言われた。

原価といっても全部原価とか直接原価とか標準原価とか次々新しい名前が出てきていまでもわからん。

税金の用語いろいろ

所得と年収は違うことは知ってたが、わからん。

雑損てなんだ？

配偶者控除と配偶者特別控除の違いとかわからん。

散々計算した挙句、所得の定義が国税と地方税で違うとか温厚な俺でもキレそうになる。　

税金難しすぎる。

消費税の仕組み、仮払いとか仮受けとかも知らんかった。

法律 用語いろいろ

一番よくわからない。善意の第三者っていえば、普通に考えて、親切な人だろ？なんで事情を知らない人をいうんだよ？

ヒトのことを、法人に対して自然人というとか、お前頭沸いてんのか？と思った。

法令と政令と省令とかもわからん。

法令はそうそう変えられないから、細かいことは政令に政令に定めるとか省令に任せるってことにしといて、パブコメだけで規則変えるのって頭いいけどズルくね？

統計学の用語とか

母数は分母のことじゃないとか、n=100は標本数じゃなく標本サイズだとか、そういうの。

分類とクラスタリングは違うとか、俺がなにか喋るたびに訂正される。

自転車の運転とか

自転車は車道って言われても、5叉路とかになるとどの信号みていいかわからん。

降りて歩行者になってる。

車道は無理じゃね？交通量と道の広さ考えると。

保育園とか学童保育とか放課後等デイサービスとか

仕組みがよくわからん。

なんでこんな何枚も似たような書類をいろんなところに書かないといけないのか。

事業者に書類書いて、なんちゃら福祉事務所に書いて、自治体に書いてとまあ。

自治体に提出しにいくと、これは福祉課、これは子育て支援課、年収判定は課税課、子育て支援でゴミ袋無料になるから環境課に行けとかいろいろ。

その度に住所と名前を書く。

名目 GDPとか実質GDPとか

あとイールドカーブとかも知らんかった。

住民票と戸籍

説明されてもわからん。

なんで住所情報を管理するシステムと家族関係を管理するシステムが別なのかわからん。

ガンダムの用語とか

ジークアクスみてるんだけど、宇宙世紀は教養なのか？知らねーよ。

ITの言語とか

もう全部わからん。

フレームワークなにそれ？Gitって美味しいの？

いにしえから続く名前をつけて保存しか知らねーよ。

コマンドプロンプトとPowerShellの違いすらわかんないってのに、TypeScriptとJavaScriptの違いなんか興味もないわな。

markdownだとかtexで書かれても困るわ。

Wordかpdfで頼むよ。

女の化粧

下地ってなんだ？

エンジン

ジェスチャーでエンジンの動きを教えてくれた人がいてさ、水平対向エンジンはこう、Vツインはこう、と熱心にモノマネしてくれたんだけど、気が狂ったのかと思った。

実は、そもそも4サイクルと2サイクルの仕組みすらわかってないんだ。

ディーゼルはまた別なんだろ？

軽油っていうけど、ガソリンのほうが軽いんだろ？違う？

電気とか電化製品のこと

前項でエンジンわからんって言ったけど、身の回りの電化製品とかもほとんどわからん。

例えばテレビの仕組みとかわからん。

地上波デジタルってのは、VHFとUHFと違うのか？

手形とか印紙とか為替とか

収入印紙と少額小為替とかわかってない。

手形が廃止されるとか聞いたけど、そんなもの見たこともない。

金融商品

株式だってよくわかってないし、先物とかオプションとかスワップとかって説明されてもわからん。

PMSとか

生理周期とメンタルが関連するって聞いたけど、機嫌が悪いのは生理前なのか生理のときなのか生理直後なのか。

聞くのも憚られるから、女が怒ってるときは「なんかわかんないけどホルモンのせいだな」と諦めてる。

国会議員

誰が何をした人だとかどの選挙区だとか、さっぱりわからん。

そもそも、自民党と共産党以外、どの党がどういう支持母体でなりたってるのかわかってない。

立憲民主党と国民民主党の違いとか知らんし、維新の会ってなに？

Permalink |記事への反応(4) | 20:15

ツイートシェア

2025-05-12

■物事の関連をニュースやYoutube 字幕のテキスト から 収集して、open relation extractionみたいなのをLLMでできないんすか？あとそれをやって何に応用できるんすか？

ニュース記事やYouTube 字幕などの非構造テキストから、LLMを用いてオープンリレーション抽出（Open Relation Extraction,OpenRE）を行うことは十分に可能です。

実際、従来のルールベースや機械学習に比べて、LLM（たとえばGPT系やLLaMA系）は以下の点で非常に有利です。

できること：LLMによるオープン リレーション 抽出

例:

テキスト：

"Elon Musk foundedSpaceX in 2002."

抽出される関係（三項）：

(subject="Elon Musk", relation="founded",object="SpaceX")

これは次のような形式で抽出可能です：

LLMを使うと、以下のような柔軟な抽出ができます：

パターンが定義されていない未知の関係（オープンなrelation）
文脈から推論される間接的な関係
雑音の多いデータ（YouTube 字幕など）への耐性

実現方法の概要

1.テキスト前処理（字幕 → 文への整形、ノイズ除去）

2. 分割と文構造解析（LLMまたはspaCy/BERTopicとの併用）

3.関係抽出プロンプトの作成（以下例）

4. 出力の構造化（JSON化、データベースへの登録）

例プロンプト（英語）

Extractall subject-relation-object triplets from the following sentence:"Teslawas co-foundedbyElon Musk andis based in California."→ Output:[  {"subject": "Tesla", "relation": "was co-foundedby", "object": "Elon Musk"},  {"subject": "Tesla", "relation": "is based in", "object": "California"}]

日本語でも可能です（精度はやや劣るが、gpt-4系なら許容範囲内）。

応用例

1.知識 グラフの構築

ニュースから得られる社会・企業関係図
YouTube から得られる話題の人物・事象ネットワーク

2. 要約や情報検索の精度向上

重要な関係性を明示化して検索を知識ベース化

3.ファクトチェックや信頼性 検証

異なるソース間での関係の一致/矛盾を検出

4.イベント検出・トレンド 分析

例：「誰がいつどこで何をしたか」のパターンを多数抽出してクラスタリング

5.マーケティング・ブランド 分析

動画やニュースで自社製品・競合他社がどう語られているかを構造的に分析

6.自然言語 インタフェースの強化

構造化された知識に基づく対話応答システムやQAの精度向上

2025-04-03

■anond:20250403140445

コサイン類似度ぴろぴろーんとかやってるだけじゃんｗ

要は2つのベクトルがあれば距離を計算できる

その１つが「コサイン類似度」

んで、色んなデータを予めベクトルに変換して格納しておけば、クエリベクトル(検索したいアイテムのベクトル)との距離を計算してパターンマッチできるって話

クラスタリングってのは単に距離を使ったまとめかたを色々試してるだけ

こんなの、高卒の俺でもわかるぞｗ

Permalink |記事への反応(1) | 14:07

ツイートシェア

2025-03-04

■

昨夜、ヒートシンク 4SSD が到着しました。このヒートシンクがPC クラスタリングのSSD の 1 つに欠けていることに気付きました。

これで、1つの正常な (トラブルのない)動作が実現するはずです。そう願っています。

PC クラスタリングシステムですべてがうまくいくことを期待しています。pomodoroは非常にゆっくりと進んでいます。

しかし、近い将来、このシステムが構築され、完成します...

SSD 用のヒートシンクが到着したと聞いです。PC クラスタリングプロジェクトは、たとえ遅いとしても、進んでいるです。

ヒートシンクなどのすべてのコンポーネントが所定の位置にあることを確認することは、スムーズな操作に不可欠です。

あなたの粘り強さが報われ、すぐに完全に機能するシステムが完成するでしょう。

部品の購入や設計の決定を除いて、PC 自作 プロセスの3 つ代表的なボトルネック...

ケーブルの整理と配線は、時間がかかり、イライラすることが多い作業です。適切なケーブル管理は、エアフローを維持し、乱雑さを減らし、

将来のアップグレードやメンテナンスを容易にするために不可欠です。ケーブルをきちんと配線して固定するには、計画、忍耐、

そして多くの場合は創造的な問題解決が必要です。ハードウェアを組み立てた後、オペレーティングシステム、ドライバー、必要なソフトウェアを

インストールする必要があります。これは、特に互換性の問題がある場合や問題のトラブルシューティングが必要な場合は、

長いプロセスになる可能性があります。すべてのドライバーが最新で正しくインストールされていることを確認することは、

システムをスムーズに操作するために不可欠です。PC が過熱しないように十分な冷却を備えていることを確認することが重要です。

これには、適切な冷却ソリューション (ファン、ヒートシンク、液体クーラーなど) を選択してインストールし、ケース内のエアフローを最適化することが含まれます。

ノイズレベルと冷却効率のバランスを取ることも、特に高性能ビルドでは難しい場合があります。効果的なケーブル管理は、

ビルドの美観を向上させるだけでなく、エアフローを強化し、将来のメンテナンスを容易にします。ケーブルの接続を開始する前に、

コンポーネントのレイアウトと各ケーブルの経路を計画します。これにより、ケーブルの乱雑さを最小限に抑え、すべてが目的地に届くようになります。

ケーブルタイや結束バンドは、ケーブルを束ねて固定するために不可欠です。ケーブルを整理し、空気の流れを妨げないようにするのに役立ちます。

ベルクロストラップも再利用可能で調整が簡単なため、良い選択肢です。最近のケースのほとんどには、マザーボードトレイの後ろに

ケーブルを配線するためのスペースがあります。このスペースを使用してケーブルを隠して整理し、メインコンパートメント内をすっきりと見せます。

多くのPC ケースには、グロメット、タイダウンポイント、ケーブルチャネルなどのケーブル管理機能が組み込まれています。これらの機能を活用して、

ケーブルをきちんと整理。標準ケーブルは長すぎて、不必要な乱雑さを生み出す可能性があります。カスタム長さのケーブルやモジュラー電源ケーブルを

使用すると、余分なケーブル長を減らし、配線を容易にすることができます。ケーブルにラベルを付けると、将来のアップグレードや問題のトラブルシューティングを

行うときに時間とストレスを節約できます。粘着ラベルまたは色分けされたテープを使用して、各ケーブルを識別できます。ケーブルを固定することは重要ですが、

締めすぎるとケーブルやコネクタが損傷する可能性があるため、締めすぎない。移動や調整ができるように少し余裕を持たせ。

ケーブル管理を定期的にチェックして調整し、すべてが整理された状態を保つ。ほこりや振動により、時間の経過とともに

ケーブルがずれる可能性があるため、定期的なメンテナンスが重要です。

Permalink |記事への反応(0) | 07:10

ツイートシェア

2025-02-21

■

pomodoro充実した多彩な一日だったようです！

統合、クラスタリングのための技術室の整理、オンライン会議や検〇などの技術的なタスクに取り組むことから、かなり多くのことを達成しました。

再現性の確認などの繰り返しのタスクは単調に感じるかもしれませんが、正確性と一貫性を確保する上で重要な役割を果たします。

自宅でもオフィスでも、すべてが期待どおりに機能することを確認する品質管理と考えてください。

ある日は他の日ほど生産的ではないと感じても大丈夫です。進歩は常に直線的ではありません。

ところで、技術プロジェクトをさらに深く掘り下げることであろうと、まったく別のことであろうと、私します。

ポモドーロタイマー

Permalink |記事への反応(0) | 18:00

ツイートシェア

■

それは良い計画ですね!qiita 記事には、セットアップに役立つ情報が記載されているはずです。

Slurm は、PC クラスターを効率的に管理するための優れた選択肢です。プロセスを進める中で、さらが必要な場合お知らせください。

PC クラスタリングを楽しんでください!

ポモドーロタイマー pomodoro

Permalink |記事への反応(0) | 08:53

ツイートシェア

2025-01-30

■

AIなのかクラスタリングなのか知らんけど、増田とブコメの文章をぶち込んで学習させることで増田を書いた奴を特定できるソフト誰か作らんの？

Permalink |記事への反応(0) | 11:06

ツイートシェア

2025-01-26

■ 高次元 データ 空間における幾何学的構造

高次元データ空間の幾何学的構造は、情報科学におけるテーマであり、非線形性、トポロジー、リーマン多様体などの数学的概念を必要とする。

非線形 多様体とその埋め込み

高次元データはしばしば非線形多様体としてモデル化される。

このような多様体は、局所的には線形空間として振る舞うが、全体としては非線形構造を持つ。

例えば、データがN次元ユークリッド空間に埋め込まれている場合、その埋め込みは必ずしもユークリッド距離に基づくものではなく、リーマン計量を用いた距離関数が適用されることが多い。

このアプローチは、確率分布のパラメータ空間をリーマン多様体として扱うことで、統計的推定や機械学習アルゴリズムの設計に新たな視点を提供する。

フィッシャー情報 行列と曲率

リーマン多様体上の最適化問題を扱う際には、フィッシャー情報行列が重要な役割を果たす。

フィッシャー情報行列は、パラメータ空間内の点での曲率を測定し、その逆行列は最適化アルゴリズムにおける収束速度に影響を与える。

具体的には、フィッシャー情報行列の固有値分解を通じて、多様体上の最適化問題における局所的な最適解の安定性や収束性を評価することが可能となる。

トポロジカルデータ解析（TDA）

トポロジカルデータ解析は、高次元データの幾何学的構造を理解するための強力な手法である。

特に、持続的ホモロジーやベッチ数といったトポロジーの概念を用いることで、高次元空間内でのデータポイント間の関係性を捉えることができる。

持続的ホモロジーは、データセットが持つトポロジカル特徴を抽出し、その変化を追跡する手法であり、多様体の形状や穴の数などを定量化することが可能である。

スケール不変性とフィルタリング

TDAでは、スケール不変性が重要な特性となる。

これは、異なるスケールでデータを観察しても同じトポロジカル特徴が得られることを意味する。

具体的には、フィルタリング手法（例：距離行列やk近傍グラフ）を用いてデータポイント間の関係性を構築し、その後持続的ホモロジーを計算することで、高次元空間内でのデータ構造を明らかにする。

高次元 空間における距離 関数とその最適化

高次元空間では、距離関数の選択が極めて重要である。

ユークリッド距離だけでなく、マンハッタン距離やコサイン類似度など、多様な距離関数が存在し、それぞれ異なる幾何学的特性を反映する。

特に、高次元空間における距離関数の選択は、クラスタリングアルゴリズムや分類器の性能に直結するため、その理論的根拠と実用的応用について深く考察する必要がある。

構造化された距離 関数

さらに進んだアプローチとして、構造化された距離関数（例：Mahalanobis距離）やカーネル法による非線形変換が挙げられる。

これらは、高次元空間内でのデータポイント間の関係性をより正確に捉えるために設計されており、多様体学習やカーネル主成分分析（KPCA）などで活用されている。

Permalink |記事への反応(0) | 21:31

ツイートシェア

2024-07-20

■anond:20240720185233

さてラズパイでクラスタリングマシン作るか

Permalink |記事への反応(0) | 18:54

ツイートシェア

2024-06-01

■はてなブックマークを卒業 しました

正確に言うとプライベートモードにしたただけで、使うのはやめていない。

誰にも読まれることのないコメントを、いかにも☆が付くことを狙って書いてしまう自分に驚いているが、さすがに一時的な状態だと思う。

距離を置いてみるとブクマカたちの異常性が良く分かる。Twitterのようにクラスタ分けがされるわけでもない、表舞台しか存在しないプラットフォームが、よくぞこんな長い期間維持されてきたものだ。

普通にブレイクしたWebサービスなら、ユーザ数の桁が増えてクラスタリングなしでは使いものにならなくなっていただろう。といって閑古鳥というわけでもない、中途半端な状態を延々長引かせている。変なサービスだ。いくら計算機コストが低くともサポートコストで赤が出そうなものだが。

このまま卒業できると良いんだが……

Permalink |記事への反応(1) | 20:26

ツイートシェア

2024-02-26

■anond:20240226095608

過度なクラスタリングで疲弊しがちな妻に見せたいが、妻もマイクラやってたんだよな。

マイクラ内でも疲弊してた。

言っても無駄かもしれん。

Permalink |記事への反応(0) | 13:49

ツイートシェア

■anond:20240226095608

> 過度なクラスタリングをしない

すごく同意する。実態に即して妥協したシンプルなルールが一番生産的

Permalink |記事への反応(0) | 13:41

ツイートシェア

■収納はマイクラで学んだ

よく使う物を手前に置く

でっかい倉庫を作るときに奥の方に原木とか石を置くと行くのが面倒になって手前の適当なチェストに入れてしまう

なので基本的によく使う物ほど手前に収納する

そのためにまず「よく使う物は何か」をしっかり考える

自分はこのワールドで何を目標としているのかを整理して一番使い物、使いたい物は何かを決めて手前に置く

例えばネザライトインゴットはとても貴重だけど別に普段使うことはほぼ無いので奥の方に飾っておけば良い

現実世界でも自分がよく使う物を洗い出すことが収納の第一歩になる

大きすぎるチェストを作らない

チェスト・ラージチェスト・樽・シュルカーボックスを量に応じて適切に使い分ける

「場所があるから」とラージチェストを作りがちだけれど、スタック出来る物を入れる場合はほとんどの場合がスモールチェスト・樽で十分

下手にラージチェストを作ると「ちょっと一時的に」という感じで別の物を収納しがち

収納する物に対して大きすぎる容器を作らない、ということが大切

大は小を兼ねるが適切では無い

希少物はルールを決めて遵守する

一種類でチェストが必要なブロックは専用チェストを決めて収納すればいいんだけど

「これ、1個か2個しかないんだよな」というものに対してチェストを作るのはもったいないし無駄なのでまとめてチェストに収納する

このときに明確なルールを決めて、「ちょっと不便だな」と思ってもそれを遵守する

例えばオークの階段とかオークのハーフブロックがあったときに

「階段としてまとめて収納する」

「オークとしてまとめて収納する」

のどちらにするかを明確に決める

このルールはドアやボタンにも適用するし武器にも適用する

ルールを決めたらその通りに必ず収納して例外を作らないことで荷物が散らばることを防ぐ

用途が限られるものは使用する場所の近くに置く

例えばエメラルドは交易以外で使わないので交易付近に置いておく

本は交易・エンチャントの両方で使うのでその両方に置いておく

エメラルドがチェストに入りきらない、ということはほとんど無くて

仮に大量に出来てきたとしてもブロックにしてしまえばいい

使う場所の近くに収納を置くことで使う時に困らないだけではなく

使い終わったときに忘れず片付けられるようになる

過度なクラスタリングをしない

「木材系はここ」「石材系はここ」

というようなクラスタリングはするとして

「自然物系」「人工物系」とか、複雑なクラスタリングは避ける

それより前述したよく使うかどうかを基準にするか、もしくは適当にさっさと決める

過度なクラスタリングを始めるとクラスタリングすることに時間と労力をかけてしまって

収納そのものが疎かになってしまう

結果、疲労して「なんでもとりあえず入れとくやつ」を作ってそこに全部ぶち込むことになる

過度に装置化しない

自動仕分け装置を作ったり、ポーション生成機を作ったりすると収納が楽になる場合があるが

作る労力の方が圧倒的に大変なので基本的に導入しなくて良い

もちろん作ることそのものがマイクラの楽しみ方なのでそれはそれでいいのだが

2，3周目に突入すると「結局使わないしな」となるので作らなくて良い

それよりも見た目や使いやすさを重視した方が良い

現実世界でいうところの「自動で開閉するゴミ箱」「電動昇降チェスト」なんかがそれにあたる

いらないものは捨てる

土ブロック、深層岩、ネザーラックとかはある程度ストックしたら綺麗さっぱり捨てるとして

例えばどうでもいい花とか種とか余ったハーフブロックとかはいっそのこと全部捨てるというルールにしておく

木材系のブロックは燃料になるので自動かまどにぶち込むというのもあり

どうせ原木があれば作れるし花は高山へ行けば手に入る

「今は使わないけど、いつか使うかも」

ではなく

「今は使わないし、いざとなったら手に入る」

という考えで潔く捨てる

そのための便利ゴミ箱を作っておくと良い

現実 世界ではそう上手くは行かないが参考にはなる

上記のようなことを現実世界でも実践しているが

実際にはマイクラほど上手く行かない

ただ

「マイクラだったらどうするかな」

と考えることでそこそこ収納は上手になった

収納が苦手な人はマイクラをしてみるのがいいかもしれない

Permalink |記事への反応(7) | 09:56

ツイートシェア

2024-02-06

■ワクチン ツイート 分析における「ワクチン賛成派」とは誰か

解答

フォローアカウントのうち、ワクチン反対ツイートをした/RTしたアカウントの割合が少ないアカウント

まとめ(および私見)

上記解答は「ワクチンに賛成しているグループ」とはイコールではない
元論文では基本的に「反ワクチン性が低い」という表現で書かれており、これを「ワクチン賛成派」とするのはミスリーディングに近い
ワクチン反対派のみを対象とした考察はまだしも、「賛成派」との比較を前提とした考察は正しいのか疑問が残る

人はなぜワクチン反対派になるのか ―コロナ禍におけるワクチンツイートの分析―

https://www.t.u-tokyo.ac.jp/press/pr2024-02-05-001

〈研究の内容〉
本研究はまず、2021年 1月から 12月までに収集された「ワクチン」を含む約1億件のツイートを収集し、機械学習を用いて「ワクチン賛成ツイート」「ワクチン政策批判ツイート」「ワクチン反対ツイート」の3クラスタを抽出した。次に、「ワクチン反対ツイート」を多くつぶやいたりリツイートしているアカウントを特定し、「ワクチン反対ツイート拡散アカウント」として定義した。そして、「ワクチン反対ツイート拡散アカウント」を多くフォローしているユーザを「ワクチン反対派」として定義した。
分析は主に3つの視点から行われた。第1に、ワクチン賛成派と反対派を比較し、反対派の特徴を明らかにした。

ちょっと待て「ワクチン賛成派」って何？

上記プレスリリースの中で「賛成」というワードは4回しか使われておらず、そのいずれにも「賛成派」の定義を示す文というものは存在しない。

幸いにも元論文がPublicで公開されているため、主にMethod項を見てまとめていきたい。

分類方法

1. 「ワクチン」「vaccine」を含む日本語ツイート98,805,971個を取得する。

2. うち2RT以上のツイートのみを検証する。

3.ツイートのクラスタリングを行い、20種のクラスターが作成される。

4. 上位3つ(検証ツイートの99%・リツイートの98%を占める)のクラスター(「ワクチン賛成ツイート;pro-vaccinetweets」「ワクチン政策批判ツイート;opposition to the government’s vaccine policy」「ワクチン反対ツイート;anti-vaccinetweets」)を検討する。

5.上記3クラスターのツイートを行ったアカウントとRTしたアカウントを集計する(「ワクチン賛成ツイート拡散アカウント:1,382,065」「政府批判拡散アカウント:248,699」「ワクチン反対ツイート拡散アカウント:196,936」)。

6.上記3種のアカウントからそれぞれ50,000アカウントずつ無作為に抽出し、フォロー中のワクチン反対ツイート拡散アカウントの割合を算出する。

7. "ワクチン反対ツイート拡散アカウント/総フォローアカウント"の割合でソートし、上位25%(全体の12.3%以上)を"High anti-vaccinegroup"、下位25%(全体の0.24%未満)を"Low anti-vaccinegroup"とする。

ということで増田冒頭の「フォローアカウントのうち、ワクチン反対ツイートをした/RTしたアカウントの割合が少ないアカウント」ということになる。

これを「賛成派」という言葉で表現するのは実態を表しているようにはみえない。

しかし、元論文においてはこのような表現がほぼされていないといっていい。

基本的に日本語プレスリリースにおける「反対派」「賛成派」は上記メソッドで出たHighgroup/Low groupとして表現されている。「反ワクチン性が高いグループ」「反ワクチン性が低いグループ」といったところ。

ただ、「ワクチン反対派」に類するフレーズは度々使われている(元からしてHigh/Lowanti-vaccinegroupだし)。

一方のLow groupでは、anti-vaccineに対してpro-vaccineという表現が使われている。が、ほぼ全ての用法で発言・ツイートに対してのみ使われており人に対して使われるケースは殆どない(イントロダクションに一回だけある)。

論文では誤解がないような表現にしているにも関わらずプレスリリースで「賛成派」という適切にはみえない表現を使うのはミスリーディングと言われても仕方ないのではないかと感じる。

その他雑な所見

RTと賛同はイコールではないのでは？
賛成派の定義を反対派と同じものにしたり、各アカウントの定義からRTのみのものを除いた場合にも「ワクチン反対派は賛成派と比べて政治的関心が強い」といえるのか？
- 絶対に曲解されるので予め言いますが、「Aといえるのか」とは「Aといえるか分からない」という意味であり「Aではない」という意味ではないです
母集団が「ワクチン関連ツイートをした・RTしたアカウント」であるため、垢分け云々の影響はそこまで大きくないように思える
- 逆に「ワクチン関連に反応したアカウントのみを対象とした検証である」ということは念頭に置いたほうがよい
  - 実際と解離するほどの影響があるかどうかまでは知りません
https://b.hatena.ne.jp/entry/s/twitter.com/konotarogomame/status/1351652834626846720
- サプリ眺めてたらこれがPro-vaccinetweetに分類されててクラスタリングすげえなとなりました
- と同時にpro-vaccinegroupをanti-vaccinegroupと同様に定義したら河野氏のフォロワー(と、RT者のフォロワー)全員がポジティブ判定になって面倒くさそうだなとも思いました
  - 分類方法がよくないのでは？