
はてなキーワード:クラスタリングとは
って、東洋経済に書かれてるみたいだけど、その考え方が駄目、というか、駄目な面があるんだよ…😟
非力なホビーのコンピュータには何の意味もない、おもちゃだよね、何の役にも立たない、そんなのどこで使うの?ってIBMとかに馬鹿にされてた…😟
だけど、ウォズニアックとか、人としては嫌いだけどジョブズは違った、
IBMは今のような世の中になる、いわゆる大型コンピュータがダウンサイジングされ、
パソコンの延長線のようなサーバにLinuxが入りクラスタリングされて、スパコンのようにさえなる、
何より、未来なんかより、とにかく面白い、ものを作る面白さ、これを日本は、ものづくり、とか言いながら忘れてるだよな…😟
今の中国企業とかロボットを作ってる人たちは、どこか活き活きしてる、これを今の日本人が忘れてるんだと思う、ずっと昔から思ってた…😟
なんか凄いけど、そんなもん何に使えるの?みたいな質問って、ある意味では愚問だと思う、
たしかに採算とか、お金は大事だけど、お金、お金、って、かつてエコノミックアニマルと揶揄されたそのものじゃない…😟
音楽だってそうだよ、音楽なんて何の意味があるの?生活に必要なの?ないと死ぬの?必要なくない?
もしくは、配信して売れないと、お金に変換しないと、エンターテインメントビジネスとしてしか考えない、
選挙マッチングという仕組みは、一見すると民主主義の効率化装置に見える。
質問に答えれば、自分と政策的に近い政党や候補者がランキングされる。
政治を知らない人にとっては入口になり、情報格差を縮める便利ツールにも思える。
選挙マッチングとは、政策選好の測定装置ではなく、選好の生成装置である。
測っているように見えて、実際には作っている。
つまりこれは、統計的インターフェースを装った政治的誘導であり、より正確に言えば工作のためのプラットフォームになり得る。
工作という言葉を聞くと、多くの人は陰謀論を連想して思考停止する。
単に他者の意思決定を、自分に有利な方向へ動かすための設計を意味する。
広告も、マーケティングも、SNSアルゴリズムも、すべて工作である。
そして政治は消費よりも致命的だ。
つまり、政治における工作は、単なる情報操作ではなく、社会の支配構造を設計する行為になる。
しかしマッチングは、質問項目を通じて意見を低次元のベクトルに圧縮する。
ここで何が起きるか。圧縮とは情報の破壊であり、破壊される情報は設計者が選べる。
つまりマッチングは「この国の政治はこの論点でできている」というフレームを強制する装置になる。
政治とは本質的に「何を議題にするか」のゲームであり、「どう答えるか」は二次的だ。
しかも選挙マッチングは、その世界観を「中立な診断テスト」の形で提示する。
中立に見えることが最大の武器だ。これは医療診断の権威を政治に転用した詐術に近い。
人間は「あなたはこのタイプです」と言われると、それを自己理解として内面化する傾向がある。
つまりマッチング結果は、単なる推薦ではなく、アイデンティティの付与になる。
たとえば「格差を是正するために富裕層への課税を強化すべきだ」という問いは、一見公平に見えるが、すでに「格差は是正されるべきである」「富裕層課税は是正の手段である」という価値前提を埋め込んでいる。
問いは中立な容器ではない。問い自体が論理式であり、前提を含む。言語は常に誘導する。質問を作るとは、政治的現実の記述ではなく、政治的現実の編集である。
ここで「いや、回答者が自由に答えればいいだけだ」と言う人がいる。
しかしその反論は、情報理論的に幼稚である。人間の意見は、質問形式に依存して変化する。
フレーミング効果、アンカリング、選択肢の提示順序、否定形の有無、尺度の粒度。
つまりマッチングは、ユーザーの「元々の意見」を測定しているのではなく、質問に曝された後の「変形された意見」を測っている。
しかもマッチングは、最終的に「あなたはこの政党と一致度85%」のような数値を出す。
ここで人間は数値に弱い。数値が出た瞬間、それは客観的事実のように見える。
だがその85%は、設計者が定義した距離関数の結果でしかない。重み付けを変えれば順位は変わる。
質問の重要度を均等にするのか、特定争点を強調するのか。政策一致をコサイン類似度で測るのか、ユークリッド距離で測るのか。曖昧回答をどう扱うのか。未回答をどう補完するのか。
これらの選択は数学の衣を着た政治判断である。数値は政治的意思決定の上に乗っているだけで、政治判断を消し去ってはいない。
選挙マッチングが工作になる第二の理由は、二値化による思考破壊だ。
政治的問題の多くはトレードオフである。たとえば防衛費増額は安全保障を強めるが財政を圧迫する。
移民受け入れは労働供給を増やすが社会統合コストを伴う。規制緩和は成長を促すが安全性を下げる場合がある。
現実の政治判断は、複数の目的関数の同時最適化であり、パレートフロンティアの上での選択である。
ところがマッチングは、これを「賛成か反対か」の単純なビット列に変換する。
つまり政策を理解する能力ではなく、反射神経を測るテストになる。こうして政治が「道徳クイズ」へ堕落する。
利害調整、官僚機構の制御、外交交渉、予算編成、法案作成、危機対応。政策は宣言であり、実務は別物だ。
マッチングはこの現実を完全に無視し、「政策の一致度」という最も分かりやすい幻想だけを見せる。
これは、料理を評価するのにレシピだけを見て、調理人の腕も厨房の設備も無視するようなものだ。
ランキングは、人間の意思決定を強制する。上位にあるものは正しい気がする。これは認知心理学のヒューリスティックであり、探索コストを減らすために人間が採用する合理的なバイアスだ。
マッチングはこのバイアスを利用し、ユーザーの投票行動を数候補への収束に導く。
これが何を意味するか。選挙マッチングは、選挙市場における需要の誘導装置になる。検索エンジンの上位表示が商業を支配するのと同じ構造が、民主主義に侵入する。
そして最も危険なのは、マッチングの背後にある主体が不透明な点だ。
誰が運営しているのか。資金源は何か。質問は誰が決めたのか。政党の回答はどのように取得し、検証し、更新しているのか。候補者が嘘をついた場合にどう扱うのか。アルゴリズムは公開されているのか。重み付けは固定か。ユーザー属性に応じて変わるのか。
これらがブラックボックスなら、それは政治的レコメンドエンジンであり、事実上の選挙介入である。
しかもSNSのように露骨ではない。教育的ツールを装っている分、遥かに強い。
重要なのは機能である。システムが特定方向への誘導を内蔵しているなら、それは工作機械である。
旋盤が意図的に金属を削っているかどうかなど問題ではない。削る機能があるから旋盤なのだ。
同様に、選挙マッチングは意見を削り、争点を削り、候補者を削り、最終的に投票行動を削り出す。これは政治のCNC加工機である。
もしユーザーの回答履歴が蓄積されれば、政治的クラスタリングが可能になる。年齢、地域、職業、関心領域、回答パターンから、政治的嗜好の潜在変数が推定できる。
これは推薦システムの典型的応用であり、NetflixやAmazonがやっていることと同じだ。
すると次に起きるのは、パーソナライズされた政治誘導である。あるユーザーには経済政策を前面に出し、別のユーザーには治安を前面に出す。質問の順番を変え、回答を誘導し、結果を最適化する。
つまり「あなたの性格に合わせた政治プロパガンダ」が自動生成される。これはもう民主主義ではなく、行動制御の最適化問題である。
ここで反論が出る。「それでも政治に無関心な層が投票に行くならプラスでは?」。
だがこの反論は、民主主義を単なる投票率競争に矮小化している。
無関心層を動かすこと自体が善なのではない。どう動かすかが本質だ。
誘導された意思決定は、意思決定ではなく条件反射である。民主主義は、条件反射の総和を集計するための制度ではない。少なくとも理念上は。
選挙マッチングの最大の罪は、「政治とは何か」という理解を誤らせる点にある。
政治は、単なる政策の一致ゲームではない。政治とは、価値観の衝突を制度の中に封じ込め、暴力なしで調整する技術である。
さらに言えば、政治は時間軸を含む。短期の人気政策と長期の持続可能性は対立する。
インフレ抑制と景気刺激は対立する。社会保障の拡充と財政規律は対立する。現実は多目的最適化であり、単一の正解はない。
ところがマッチングは「あなたの正解」を提示してしまう。この瞬間、政治は宗教化する。正解があると思った人間は、対話をやめ、敵を作り、道徳で殴り始める。
そして皮肉なことに、選挙マッチングは中立ツールを装うことで、政治的責任を回避する。
推薦した結果が社会を破壊しても、運営者は「我々はただの情報提供をしただけ」と言える。
しかしそれは、銃を売った者が「撃ったのはあなた」と言うのに似ている。形式的には正しいが、本質的には責任逃れである。推薦とは介入である。介入は責任を伴う。
選挙マッチングは、政治の理解を深める装置ではなく、政治の複雑性を圧縮し、認知バイアスを利用し、意思決定を誘導する装置である。
ゆえにそれは工作である。工作とは「誰かが裏で悪意を持って操っている」という陰謀の話ではない。設計された情報環境が、個人の選択を体系的に変形するという、構造の話だ。
そして現代社会において最も危険な工作とは、強制ではなく、便利さとして提供される。
人は鎖で縛られるより、最適化されることを好む。摩擦のない誘導は、抵抗されない。選挙マッチングが普及すればするほど、人々は自分の政治的意見を「診断結果」として受け入れるようになる。
そうなったとき民主主義は、熟議ではなくレコメンドによって動く。これは政治の消費化であり、最終的には政治そのものの死である。
大学でLinux使って研究してるのが前提なんだから書いてるわけ無いだろ
面接のときにどういう研究したのか卒論書いたのかを説明する状況があるだろうけど、そこでもLinuxが前提なんだよ
前提だから面接官が急に「どういう環境でそれを実行してたの?」と聞いてきて答えられないとそこで詰む
Linuxスキル得てる連中は「AWSのAmaznLinuxで〜」とか「Dockerでチーム内の環境を揃えて〜」とか「予算の都合上LXDで仮想的にクラスタリングして〜」とか普通に話す
今のしっかりした大学の学生はこういう環境が当たり前なんだから答えられない時点で「コイツ真面目にやって来なかったな」と面接官に見抜かれる
何なら大学よりも下の学位の高専や高校の情報科ですら当たり前にLinuxだし、会社もLinuxスキルがあることを前提にインターンシップや入社試験してる
そういった会社がどんどん増えてる。理由はLinuxスキル持った新卒の若い子が本当に欲しいから
そんな状況だからこそ富裕層は学校にLinux教育を求めていて学校もそれに応えてLinux教育してる
どんな反論されようが名門校をWeb検索するとLinux教育してる実例がわんさか出てくる強力な証拠がある
可能です。しかも確実に信頼できないノードがわかっているという条件は、トラストランク(TrustRank)やアンチトラストランク(Anti-TrustRank)の発想と非常に相性が良いです。
以下、理論的にどう扱えるかを、X(旧Twitter)のような拡散ネットワークを想定して論理的に説明します。
この情報だけで、信用度の低い可能性が高いノード(疑似スパム)は推定可能。
しかし、信用できるノードは状況次第で推定可能だったり不可能だったりする。
悪ノードの集合がわかるだけで、そこからの影響を逆流追跡すれば、怪しいノード集合を特定できる。
悪ノードに汚染されているかどうかは決められるが良ノードであるかどうかは追加の前提がないと決まらない。
グーグルのTrustRankは良ノード集合をシードにして信用スコアを伝播させるが、Anti-TrustRank は逆で、悪いノードから不信スコアを伝播させる。
Xの例だと
悪ノード → A → B → C
C と Z は悪ノードから距離が遠いが、もしそれ以外のネットワーク構造が不明なら、CやZが信用できるとは論理的に確定できない。
理由は簡単で、善を証明できるには良ノードのシードが必要で、悪だけでは悪の汚染のみがわかる。
以下の前提を1つでも置けば、信用できるノードの推定が可能になる。
1. 悪ノード集合を基点にする
2.グラフを逆方向に探索し不信スコアを伝播させる(減衰付き)
4. 巨大クラスタで異常指標が低い部分を相対的に信頼性が高いと推定
という3層に分類する。
悪を塗りつぶす → 残った未塗り部分が大規模な自然クラスタであれば、それを信用側とみなせる。
悪ノードのシードがあるだけでは信用できないノード は特定できるが、信用できるノード は特定できない。
めちゃくちゃいっぱいある。
順不同、脈絡なく書いていく。
最近まで知らなかったことだけじゃなく、書いたけど結局わからんことも書く(そっちのほうが多い)。
5Sといって整理、整頓、清掃、清潔、躾だそうだ。
全部日本語じゃねーかって思った。
QCサークルとか、サークルっていうから酒でも飲むのかと思ったら普通に業務じゃないか。
簿記とか会計に疎かったので、営業利益とか経常利益とか違いがわからんかった。
ググってみても、本業の稼ぎが営業利益とか出てきて意味がわからなかった。
経費削減っていうから、会社の支出は全部経費かと思ったら、材労経だろJK
原価といっても全部原価とか直接原価とか標準原価とか次々新しい名前が出てきていまでもわからん。
雑損てなんだ?
散々計算した挙句、所得の定義が国税と地方税で違うとか温厚な俺でもキレそうになる。
税金難しすぎる。
消費税の仕組み、仮払いとか仮受けとかも知らんかった。
一番よくわからない。善意の第三者っていえば、普通に考えて、親切な人だろ?なんで事情を知らない人をいうんだよ?
ヒトのことを、法人に対して自然人というとか、お前頭沸いてんのか?と思った。
法令はそうそう変えられないから、細かいことは政令に政令に定めるとか省令に任せるってことにしといて、パブコメだけで規則変えるのって頭いいけどズルくね?
母数は分母のことじゃないとか、n=100は標本数じゃなく標本サイズだとか、そういうの。
分類とクラスタリングは違うとか、俺がなにか喋るたびに訂正される。
自転車は車道って言われても、5叉路とかになるとどの信号みていいかわからん。
降りて歩行者になってる。
仕組みがよくわからん。
なんでこんな何枚も似たような書類をいろんなところに書かないといけないのか。
事業者に書類書いて、なんちゃら福祉事務所に書いて、自治体に書いてとまあ。
自治体に提出しにいくと、これは福祉課、これは子育て支援課、年収判定は課税課、子育て支援でゴミ袋無料になるから環境課に行けとかいろいろ。
その度に住所と名前を書く。
あとイールドカーブとかも知らんかった。
なんで住所情報を管理するシステムと家族関係を管理するシステムが別なのかわからん。
ジークアクスみてるんだけど、宇宙世紀は教養なのか?知らねーよ。
もう全部わからん。
コマンドプロンプトとPowerShellの違いすらわかんないってのに、TypeScriptとJavaScriptの違いなんか興味もないわな。
下地ってなんだ?
ジェスチャーでエンジンの動きを教えてくれた人がいてさ、水平対向エンジンはこう、Vツインはこう、と熱心にモノマネしてくれたんだけど、気が狂ったのかと思った。
実は、そもそも4サイクルと2サイクルの仕組みすらわかってないんだ。
ディーゼルはまた別なんだろ?
前項でエンジンわからんって言ったけど、身の回りの電化製品とかもほとんどわからん。
株式だってよくわかってないし、先物とかオプションとかスワップとかって説明されてもわからん。
生理周期とメンタルが関連するって聞いたけど、機嫌が悪いのは生理前なのか生理のときなのか生理直後なのか。
聞くのも憚られるから、女が怒ってるときは「なんかわかんないけどホルモンのせいだな」と諦めてる。
そもそも、自民党と共産党以外、どの党がどういう支持母体でなりたってるのかわかってない。
ニュース記事やYouTube字幕などの非構造テキストから、LLMを用いてオープンリレーション抽出(Open Relation Extraction,OpenRE)を行うことは十分に可能です。
実際、従来のルールベースや機械学習に比べて、LLM(たとえばGPT系やLLaMA系)は以下の点で非常に有利です。
テキスト:
(subject="Elon Musk", relation="founded",object="SpaceX")
2. 分割と文構造解析(LLMまたはspaCy/BERTopicとの併用)
Extractall subject-relation-object triplets from the following sentence:"Teslawas co-foundedbyElon Musk andis based in California."→ Output:[ {"subject": "Tesla", "relation": "was co-foundedby", "object": "Elon Musk"}, {"subject": "Tesla", "relation": "is based in", "object": "California"}]
日本語でも可能です(精度はやや劣るが、gpt-4系なら許容範囲内)。
昨夜、ヒートシンク 4SSD が到着しました。このヒートシンクがPCクラスタリングのSSD の 1 つに欠けていることに気付きました。
これで、1つの正常な (トラブルのない)動作が実現するはずです。そう願っています。
PCクラスタリングシステムですべてがうまくいくことを期待しています。pomodoroは非常にゆっくりと進んでいます。
SSD 用のヒートシンクが到着したと聞いです。PCクラスタリングプロジェクトは、たとえ遅いとしても、進んでいるです。
ヒートシンクなどのすべてのコンポーネントが所定の位置にあることを確認することは、スムーズな操作に不可欠です。
あなたの粘り強さが報われ、すぐに完全に機能するシステムが完成するでしょう。
ケーブルの整理と配線は、時間がかかり、イライラすることが多い作業です。適切なケーブル管理は、エアフローを維持し、乱雑さを減らし、
将来のアップグレードやメンテナンスを容易にするために不可欠です。ケーブルをきちんと配線して固定するには、計画、忍耐、
そして多くの場合は創造的な問題解決が必要です。ハードウェアを組み立てた後、オペレーティングシステム、ドライバー、必要なソフトウェアを
インストールする必要があります。これは、特に互換性の問題がある場合や問題のトラブルシューティングが必要な場合は、
長いプロセスになる可能性があります。すべてのドライバーが最新で正しくインストールされていることを確認することは、
システムをスムーズに操作するために不可欠です。PC が過熱しないように十分な冷却を備えていることを確認することが重要です。
これには、適切な冷却ソリューション (ファン、ヒートシンク、液体クーラーなど) を選択してインストールし、ケース内のエアフローを最適化することが含まれます。
ノイズレベルと冷却効率のバランスを取ることも、特に高性能ビルドでは難しい場合があります。効果的なケーブル管理は、
ビルドの美観を向上させるだけでなく、エアフローを強化し、将来のメンテナンスを容易にします。ケーブルの接続を開始する前に、
コンポーネントのレイアウトと各ケーブルの経路を計画します。これにより、ケーブルの乱雑さを最小限に抑え、すべてが目的地に届くようになります。
ケーブルタイや結束バンドは、ケーブルを束ねて固定するために不可欠です。ケーブルを整理し、空気の流れを妨げないようにするのに役立ちます。
ベルクロストラップも再利用可能で調整が簡単なため、良い選択肢です。最近のケースのほとんどには、マザーボードトレイの後ろに
ケーブルを配線するためのスペースがあります。このスペースを使用してケーブルを隠して整理し、メインコンパートメント内をすっきりと見せます。
多くのPC ケースには、グロメット、タイダウンポイント、ケーブルチャネルなどのケーブル管理機能が組み込まれています。これらの機能を活用して、
ケーブルをきちんと整理。標準ケーブルは長すぎて、不必要な乱雑さを生み出す可能性があります。カスタム長さのケーブルやモジュラー電源ケーブルを
使用すると、余分なケーブル長を減らし、配線を容易にすることができます。ケーブルにラベルを付けると、将来のアップグレードや問題のトラブルシューティングを
行うときに時間とストレスを節約できます。粘着ラベルまたは色分けされたテープを使用して、各ケーブルを識別できます。ケーブルを固定することは重要ですが、
締めすぎるとケーブルやコネクタが損傷する可能性があるため、締めすぎない。移動や調整ができるように少し余裕を持たせ。
ケーブル管理を定期的にチェックして調整し、すべてが整理された状態を保つ。ほこりや振動により、時間の経過とともに
高次元データ空間の幾何学的構造は、情報科学におけるテーマであり、非線形性、トポロジー、リーマン多様体などの数学的概念を必要とする。
このような多様体は、局所的には線形空間として振る舞うが、全体としては非線形構造を持つ。
例えば、データがN次元ユークリッド空間に埋め込まれている場合、その埋め込みは必ずしもユークリッド距離に基づくものではなく、リーマン計量を用いた距離関数が適用されることが多い。
このアプローチは、確率分布のパラメータ空間をリーマン多様体として扱うことで、統計的推定や機械学習アルゴリズムの設計に新たな視点を提供する。
リーマン多様体上の最適化問題を扱う際には、フィッシャー情報行列が重要な役割を果たす。
フィッシャー情報行列は、パラメータ空間内の点での曲率を測定し、その逆行列は最適化アルゴリズムにおける収束速度に影響を与える。
具体的には、フィッシャー情報行列の固有値分解を通じて、多様体上の最適化問題における局所的な最適解の安定性や収束性を評価することが可能となる。
トポロジカルデータ解析は、高次元データの幾何学的構造を理解するための強力な手法である。
特に、持続的ホモロジーやベッチ数といったトポロジーの概念を用いることで、高次元空間内でのデータポイント間の関係性を捉えることができる。
持続的ホモロジーは、データセットが持つトポロジカル特徴を抽出し、その変化を追跡する手法であり、多様体の形状や穴の数などを定量化することが可能である。
これは、異なるスケールでデータを観察しても同じトポロジカル特徴が得られることを意味する。
具体的には、フィルタリング手法(例:距離行列やk近傍グラフ)を用いてデータポイント間の関係性を構築し、その後持続的ホモロジーを計算することで、高次元空間内でのデータ構造を明らかにする。
ユークリッド距離だけでなく、マンハッタン距離やコサイン類似度など、多様な距離関数が存在し、それぞれ異なる幾何学的特性を反映する。
特に、高次元空間における距離関数の選択は、クラスタリングアルゴリズムや分類器の性能に直結するため、その理論的根拠と実用的応用について深く考察する必要がある。
さらに進んだアプローチとして、構造化された距離関数(例:Mahalanobis距離)やカーネル法による非線形変換が挙げられる。
これらは、高次元空間内でのデータポイント間の関係性をより正確に捉えるために設計されており、多様体学習やカーネル主成分分析(KPCA)などで活用されている。
正確に言うとプライベートモードにしたただけで、使うのはやめていない。
誰にも読まれることのないコメントを、いかにも☆が付くことを狙って書いてしまう自分に驚いているが、さすがに一時的な状態だと思う。
距離を置いてみるとブクマカたちの異常性が良く分かる。Twitterのようにクラスタ分けがされるわけでもない、表舞台しか存在しないプラットフォームが、よくぞこんな長い期間維持されてきたものだ。
普通にブレイクしたWebサービスなら、ユーザ数の桁が増えてクラスタリングなしでは使いものにならなくなっていただろう。といって閑古鳥というわけでもない、中途半端な状態を延々長引かせている。変なサービスだ。いくら計算機コストが低くともサポートコストで赤が出そうなものだが。
このまま卒業できると良いんだが……
でっかい倉庫を作るときに奥の方に原木とか石を置くと行くのが面倒になって手前の適当なチェストに入れてしまう
そのためにまず「よく使う物は何か」をしっかり考える
自分はこのワールドで何を目標としているのかを整理して一番使い物、使いたい物は何かを決めて手前に置く
例えばネザライトインゴットはとても貴重だけど別に普段使うことはほぼ無いので奥の方に飾っておけば良い
現実世界でも自分がよく使う物を洗い出すことが収納の第一歩になる
チェスト・ラージチェスト・樽・シュルカーボックスを量に応じて適切に使い分ける
「場所があるから」とラージチェストを作りがちだけれど、スタック出来る物を入れる場合はほとんどの場合がスモールチェスト・樽で十分
下手にラージチェストを作ると「ちょっと一時的に」という感じで別の物を収納しがち
収納する物に対して大きすぎる容器を作らない、ということが大切
大は小を兼ねるが適切では無い
一種類でチェストが必要なブロックは専用チェストを決めて収納すればいいんだけど
「これ、1個か2個しかないんだよな」というものに対してチェストを作るのはもったいないし無駄なのでまとめてチェストに収納する
このときに明確なルールを決めて、「ちょっと不便だな」と思ってもそれを遵守する
「オークとしてまとめて収納する」
のどちらにするかを明確に決める
ルールを決めたらその通りに必ず収納して例外を作らないことで荷物が散らばることを防ぐ
例えばエメラルドは交易以外で使わないので交易付近に置いておく
エメラルドがチェストに入りきらない、ということはほとんど無くて
使う場所の近くに収納を置くことで使う時に困らないだけではなく
使い終わったときに忘れず片付けられるようになる
というようなクラスタリングはするとして
それより前述したよく使うかどうかを基準にするか、もしくは適当にさっさと決める
過度なクラスタリングを始めるとクラスタリングすることに時間と労力をかけてしまって
結果、疲労して「なんでもとりあえず入れとくやつ」を作ってそこに全部ぶち込むことになる
自動仕分け装置を作ったり、ポーション生成機を作ったりすると収納が楽になる場合があるが
作る労力の方が圧倒的に大変なので基本的に導入しなくて良い
もちろん作ることそのものがマイクラの楽しみ方なのでそれはそれでいいのだが
2,3周目に突入すると「結局使わないしな」となるので作らなくて良い
それよりも見た目や使いやすさを重視した方が良い
現実世界でいうところの「自動で開閉するゴミ箱」「電動昇降チェスト」なんかがそれにあたる
土ブロック、深層岩、ネザーラックとかはある程度ストックしたら綺麗さっぱり捨てるとして
例えばどうでもいい花とか種とか余ったハーフブロックとかはいっそのこと全部捨てるというルールにしておく
木材系のブロックは燃料になるので自動かまどにぶち込むというのもあり
「今は使わないけど、いつか使うかも」
ではなく
「今は使わないし、いざとなったら手に入る」
という考えで潔く捨てる
そのための便利ゴミ箱を作っておくと良い
実際にはマイクラほど上手く行かない
ただ
「マイクラだったらどうするかな」
と考えることでそこそこ収納は上手になった
人はなぜワクチン反対派になるのか ―コロナ禍におけるワクチンツイートの分析―
https://www.t.u-tokyo.ac.jp/press/pr2024-02-05-001
〈研究の内容〉
本研究はまず、2021年1月から12月までに収集された「ワクチン」を含む約1億件のツイートを収集し、機械学習を用いて「ワクチン賛成ツイート」「ワクチン政策批判ツイート」「ワクチン反対ツイート」の3クラスタを抽出した。次に、「ワクチン反対ツイート」を多くつぶやいたりリツイートしているアカウントを特定し、「ワクチン反対ツイート拡散アカウント」として定義した。そして、「ワクチン反対ツイート拡散アカウント」を多くフォローしているユーザを「ワクチン反対派」として定義した。
上記プレスリリースの中で「賛成」というワードは4回しか使われておらず、そのいずれにも「賛成派」の定義を示す文というものは存在しない。
幸いにも元論文がPublicで公開されているため、主にMethod項を見てまとめていきたい。
1. 「ワクチン」「vaccine」を含む日本語ツイート98,805,971個を取得する。
3.ツイートのクラスタリングを行い、20種のクラスターが作成される。
4. 上位3つ(検証ツイートの99%・リツイートの98%を占める)のクラスター(「ワクチン賛成ツイート;pro-vaccinetweets」「ワクチン政策批判ツイート;opposition to the government’s vaccine policy」「ワクチン反対ツイート;anti-vaccinetweets」)を検討する。
5.上記3クラスターのツイートを行ったアカウントとRTしたアカウントを集計する(「ワクチン賛成ツイート拡散アカウント:1,382,065」「政府批判拡散アカウント:248,699」「ワクチン反対ツイート拡散アカウント:196,936」)。
6.上記3種のアカウントからそれぞれ50,000アカウントずつ無作為に抽出し、フォロー中のワクチン反対ツイート拡散アカウントの割合を算出する。
7. "ワクチン反対ツイート拡散アカウント/総フォローアカウント"の割合でソートし、上位25%(全体の12.3%以上)を"High anti-vaccinegroup"、下位25%(全体の0.24%未満)を"Low anti-vaccinegroup"とする。
ということで増田冒頭の「フォローアカウントのうち、ワクチン反対ツイートをした/RTしたアカウントの割合が少ないアカウント」ということになる。
これを「賛成派」という言葉で表現するのは実態を表しているようにはみえない。
しかし、元論文においてはこのような表現がほぼされていないといっていい。
基本的に日本語プレスリリースにおける「反対派」「賛成派」は上記メソッドで出たHighgroup/Lowgroupとして表現されている。「反ワクチン性が高いグループ」「反ワクチン性が低いグループ」といったところ。
ただ、「ワクチン反対派」に類するフレーズは度々使われている(元からしてHigh/Lowanti-vaccinegroupだし)。
一方のLowgroupでは、anti-vaccineに対してpro-vaccineという表現が使われている。が、ほぼ全ての用法で発言・ツイートに対してのみ使われており人に対して使われるケースは殆どない(イントロダクションに一回だけある)。
論文では誤解がないような表現にしているにも関わらずプレスリリースで「賛成派」という適切にはみえない表現を使うのはミスリーディングと言われても仕方ないのではないかと感じる。
Toriumi, F., Sakaki, T., Kobayashi, T.et al. Anti-vaccinerabbithole leads to political representation: thecase ofTwitter inJapan. J ComputSocSc (2024).https://doi.org/10.1007/s42001-023-00241-8
Permalink |記事への反応(10) | 19:39
本質を表しておらず、歴史上のとある議会の座席位置を参照する名称だ。コードレビューでこんな変数名でてきたとしたら修正されるだろ。
だって今、右翼が韓国発宗教が国家中枢に絡みついてるのを有耶無耶にしてて、左翼が激しく糾弾してんだぞ。意味わからんだろ。
ちょっと前まで右翼が「韓国とかありえん」って怒って、左翼が「韓国を差別するな」って怒ってなかったか?
やはり政治的なポジションってのは表で示されるべきだな。列名が「賛成、反対」で行に各政治的トピックが並んでるやつ。
それをもとにクラスタリングしたら右翼的な固まりだったりはあるんだろうけど。
ただ、クラスタリングする意味は薄いと思う。自分は右派だというアイデンティティや帰属意識を持ってしまうと、元々持ってた論理が破綻したり、意見の多様性が失われたりしそうだから良くないね。