
はてなキーワード:g dataとは
Regarding theEU Omnibus Bill,Japanese experts appear to be lobbying yourorganization and other institutions.I believe the following pointsrequire attention:
1)Ithas becomecommon inJapan to consider regulations regarding making decisions about individualsas thecore of personal data protection, but thisis a mistake. First,itis important tonote that models trainedon personal data or insights gained from statistically analyzing personal data can affect individuals even when used tomake decisions about agroup (rather than individuals). Second, such insights and models can be usedby anyone, not just thosewho analyzed or trained them.On the other hand, if personal datais accumulated in a rich form,it can be used for various analyses, so the accumulationitself can be a threat.
2) Therefore, thecore of personal data protection regulationsis to curb the diversion of personal databeyond the intended use inthe original context in whichitwas received, and the collection and distribution of personal data without limitingits purpose.Japanese law (as in the Omnibus Bill) defines personal dataas data thatmay be personal data forone entity but not for an entity thatdoes not identify the individual.As a result, this curbdoes not work well inJapan, andithasled toconfusion and complexity inon-site practice.I believe theEU should not repeatJapan's mistakes.
3) Allowing the training of general-purposeAI with personal dataas a "legitimate interest"is tantamount to abandoning the curb mentioned in paragraph 2) above. Even ifitis proven that current LLMs are unable to recognize individuals in an integrated manner across multiple training data sets orRAG entries, this merely means that thishas not been achievedwith the currentstate of technology, andI believe that this shouldonly be permitted if explicitly stipulatedas an exception.
EUオムニバス法案に関して、日本の専門家が貴団体をはじめとする機関にロビー活動を行っているようです。以下の点に留意する必要があると考えます。
1)日本では、個人に関する決定に関する規制を個人データ保護の中核と考えることが一般的になっていますが、これは誤りです。第一に、個人データで訓練されたモデルや、個人データの統計的分析から得られた知見は、個人ではなく集団に関する決定に使用された場合でも、個人に影響を与える可能性があることに留意することが重要です。第二に、こうした知見やモデルは、分析や訓練を行った者だけでなく、誰でも利用できる可能性があります。一方で、個人データがリッチな形で蓄積されれば、様々な分析に利用できるため、蓄積自体が脅威となる可能性があります。
2) したがって、個人データ保護規制の中核は、個人データが本来の文脈において意図された用途を超えて転用されること、そして、目的を限定せずに個人データが収集・流通されることを抑制することです。日本法の定義によると、(オムニバス法案と同様)ある主体にとっての個人データが、個人を特定できない主体にとっては個人データではないデータとなります。その結果、この抑制は日本ではうまく機能せず、現場の実務に混乱と複雑性をもたらしています。EUは日本の過ちを繰り返すべきではないと考えます。
3)個人データを用いた汎用AIの学習を「正当な利益」として認めることは、上記2)の抑制を放棄するに等しいものです。仮に、現行のLLMが複数の学習データセットやRAGエントリにまたがる統合的な個人認識が不可能であることが証明されたとしても、それは単に現状の技術水準では実現できていないことを意味するに過ぎず、例外として明示的に規定される場合にのみ認められるべきであると考えます。
ここ1年で初めてはてなブックマーク日毎の総合人気エントリ入りしたドメインからのホットエントリ、ブクマ数順トップ30
| ブクマ数 | タイトル | ドメイン |
|---|---|---|
| 734 | 松尾豊 |論文の書き方(英語) | ymatsuo.com |
| 648 | 結果発表 |次にくるマンガ大賞 2025 | tsugimanga.jp |
| 610 | オンライン署名 ·脚本家吉田恵里香氏のアニメ「ぼっち・ざ・ろっく」第二期からの脚本降板と第一期クレジットからの除名、そして原作者への謝罪を求めます -日本 ·Change.org | www.change.org |
| 590 | メモ - 男のほうがばらつきが大きく頂点も高ければ谷も深い、その生理的メカニズム | crossacross.org |
| 398 | 国内1000件の事例や製品を収録した「生成AI活用事例データベース」を公開─生成AI活用普及協会 |IT Leaders | it.impress.co.jp |
| 370 | NHKONE 認証コードが届かない不具合について | お知らせ | www.web.nhk |
| 346 | SESで150万件のメールを送るまで | ses150-luv1p38.gamma.site |
| 339 | 精神科の入院、強度行動障害は対象外 厚労省「訪問看護で対応」|福祉新聞 | fukushishimbun.com |
| 331 | 最近の人類のレビュー疲れ | Democratizing Data | chezo.uno |
| 325 | ソフトウェアエンジニアがプロダクトにオーナーシップを持てないアンチパターン、構造 - 猫型の蓄音機は 1 分間に 45 回にゃあと鳴く | nekogata.hatenablog.com |
| 320 | Windows UpdateでSSDが本当に壊れるか検証【KB5063878再現実験】 | ちもろぐ | chimolog.co |
| 315 | エンジニアならtmuxくらい使いこなしたらどうだ | sititou70.github.io |
| 310 | 【彬子女王のモダン建築めぐり】東京都庭園美術館 | casabrutus.com |
| 303 | 少子化がマズいと思うなら、このくらいやろうよ -経済を良くするって、どうすれば | keizai-dousureba.hatenablog.jp |
| 303 | 今度こそ『ガリア戦記』で挫折しないための6つのコツ -明晰夢工房 | saavedra.hatenablog.com |
| 300 | ドイツの絶望 「人手不足」地獄ーー極右伸長で自滅する産業大国 |スマートニュース+ | plus.smartnews.com |
| 299 | GoogleのAI要約でクリック率ほぼ半減──私たちは思考停止し始めているのか? |AMP[アンプ] -ビジネスインスピレーションメディア | ampmedia.jp |
| 298 | 【速報】村井宮城県知事 “土葬”を白紙撤回 県議会で表明 |khb東日本放送 | www.khb-tv.co.jp |
| 288 | 経済を良くするって、どうすれば -経済を良くするって、どうすれば | keizai-dousureba.hatenablog.jp |
| 287 | 私は西鉄ライオンズに在籍したのか? 米国からの問い合わせ 1963年の「幻」の西鉄外国人左腕を追って【全4回-①】:「おっ!」でつながる地元密着のスポーツ応援メディア西スポWEB OTTO! | nishispo.nishinippon.co.jp |
| 264 | 2020年代前半の「戦記ラノベ」についてオススメなどを語る - WINDBIRD::ライトノベルブログ | kazenotori.hatenablog.com |
| 260 | 笠井スイさんと、旅の仲間たち | geselleestelle.blogspot.com |
| 253 | 造幣局 :ドラゴンボール40周年記念2025プルーフ貨幣セットの通信販売について(2025年9月4日) | www.mint.go.jp |
| 245 | Issue, Pull-request,GitHub Copilotによる「普通」の一人チーム開発 -Cybozu InsideOut |サイボウズエンジニアのブログ | blog.cybozu.io |
| 244 | 任天堂がボクセルを使ったアクションゲームの特許を大量に出願していました - naoya2kの日記 | naoya2k.hatenablog.com |
| 241 | 「人間ドック」がどのように人間を破壊していくのか。何一つとして医学的ではない見地から、知られざる実態を暴きたい - もはや日記とかそういう次元ではない | manato-kumagai.hatenablog.jp |
| 240 | 英国生まれのSF作品 | www.news-digest.co.uk |
| 237 | 会話の目的は勝つことではない - ともにかける | paper2.hatenablog.com |
| 229 | 「RECORDCLUB」という海外の音楽SNSがなかなか楽しい。 -世界のねじを巻くブログ | www.nejimakiblog.com |
| 225 | この文字詰め、どっちが正解?文字間調整(カーニング)のセンスを磨いておこう | www.adobe.com |
AI開発の分野だと推論のことをtesttimeというのが紛らわしすぎる
推論は推論(Inference)と呼んでほしいなあ。predictでもいいけど。
NVDAのCEOがTest-time computeがどーたらこーたら言っていたのは、推論処理のことであって、
deepseek とかで深く考える推論が性能にいい影響を与えていると。
そして、深く推論するにはたくさん処理しないといけないから、GPUがもっとたくさん売れるという意味だ。
まず、「testtime」っていうのは、機械学習のワークフローの中でモデルを評価するフェーズを指す言葉として元々使われてたんだ。モデルをトレーニングした後、「訓練データ(training data)」とは別の「テストデータ(test data)」を使って性能を測る。この「テストするタイミング」を「testtime」と呼ぶのが自然に定着した感じ。で、推論(inference)の話が出てくるんだけど、モデルが実世界で使われるとき、つまり「予測(prediction)」や「推論」を行うタイミングが、まさにこの「testtime」と重なることが多いんだよね。訓練が終わったモデルに新しいデータ(未知の入力)を入れて結果を出すフェーズだから、「testtime」に推論が含まれるってわけ。たとえば、画像認識モデルが「これは猫だよ」って判断する瞬間は、訓練済みモデルを使った「テスト」の一種とも言える。でもさ、君の言う通り紛らわしいのは間違いない。特に「テスト」って聞くと、開発中の評価ステップを想像しちゃうけど、実際には本番環境での推論(リアルタイムで予測を出す場面)も「testtime」って言っちゃうことがあって、ニュアンスが混ざりがち。研究者やエンジニアによっては「inferencetime」とか「predictiontime」って明確に分けて呼ぶ人もいるよ。たとえば、論文とかドキュメントだと「inference latency」(推論の遅延)みたいな表現で「testtime」と区別してる場合もある。
と、いうことで。
https://grok.com/share/bGVnYWN5_301b0cb5-5668-4ae6-9228-a5a627776910
Will theBank of Japan raiserates abovezero?
No. 2024will be the year theJapanese central bank finally ditches yield curve control andnegative interestrates. Contrary to marketexpectations of several further increases, however,rateswill end the year no higher thanzero.
With mediocrewagegrowth, a strongeryen in prospectas USratespeak and reasons to prefer a steeper yield curve, theBoJis unlikely toset a positiverate — althoughas withany central bank forecast, much dependson the incoming data.Robin Harding
Bermain Poker Online Dengan Bank Maybank
Bermain poker online bank Maybank memang mengasikkan, selainnya melepaskan capek setelah aktivitas sepanjang hari kita bisa juga memperoleh keuntungan saat bermain game poker online. Poker sebagai salah satunya permainan yang banyakdimainkan olehpara penggemar taruhan kartu. Selainitu, permainan highsdomino yang saat ini banyak penggemarnya,ada pula Unikbet yang datang dengan beragam tipe permainan poker yang tidak kalah dari higgsdomino yang sedangviral ini.
Situs Judi Poker online bank Maybank awalannya berkembangdiIndonesia datang dari warga yang menyenangi poker pada suatu platfrom sosmedfb,dimulai dari jualchip sampai mengantongi keuntungan dari jualchipsitu. Dari sanalah awalannya mengembangnya permainan poker yang rupanya bisa menghasil keuntungan besar. Tetapi sekarang ini anda bisa bermain pokertak perlu cari calon pemain yang hendak belichips anda. Tetapidi sekarang ini anda bisa bermain poker dengan mendeposit lebih duludan kemenangan akandi kirimkan ke rekening anda langsung.
Daftar Judi Poker Online Pakai Bank Maybank Terpercaya
Daftar Judi Poker Online Bank Maybank menjadi satu piihan alternatif untuk kamu yang suka bermain poker tetapi tidak mempunyai akun bank yang seringdipakai oleh orang dalam menabung. Bank Maybank ini resmi menjadi satudiantara bank yang telah tercatat OJK yang tentu saja sangat aman untuk kamu yang ingin bermain poker online menggunakan bank Maybank.
Ada beberapa kelebihan dalam games poker bisa pakai bank Maybank untuk lakukan transaksi bisnis saat bermain bersama Unikbet. Dalam memakai Maybank dalam berbisnis bersama Unikbet, anda dapat memudahkan dalam mengelola keuangan kamu bersama bank Maybank.
MengapaSaya Tidak Dapat Memakai Saldo Bank Maybank untuk bermain poker ?
Bila kamu memperoleh kesusahan dalam bertransaksi deposit poker bank Maybank kepada member judi poker onlinedan bisa daftar poker online secara resmi ketikalogin unikbet resmi. karenaitu anda harus memerhatikan banyakhal bawah ini :
Kamu tersambung dengan koneksiinternet yang konstan.
Kamu sudah menyambungkan account bank Maybank kamu.
Yakinkan Saldo dalam bank Maybank kamu cukup.
Account poker online kamu tidak memilikimasalah.
Saldo Maybank cuman dapatdi transfer ke bank arah dari Unikbet saat lakukan deposit.
Tetapi jika anda telah penuhi persyaratandi atas,dan belum juga dapat lakukan transaksi bersama Unikbet, karenaitu anda langsung bisa lakukan chat dengancs kami yang online24jam untuk membantu menyelesaikan permasalahan anda.
Mengapa harus menggunakan Maybank Dalam Bermain Poker ?
Bermain Poker Online Dengan Bank Maybank
Tentunya dalammasa teknologi yang berkembang pesat, anda dapat memperoleh sebuah privilege saat bermain poker menggunakan bank Maybank. Keuntungan dapat anda peroleh jika anda lakukan transaksi bisnis dari dompet Maybank untuk memperoleh penghargaan berbentuk gopay koin, voucher gojek dengan nilai 100rb. Tidak cuma memperoleh bonus rollingan dari Unikbet, tetapi anda juga bisa memperoleh bonusitu cuman bila anda memakai bank Maybank saat bermain poker online.
Keuntungan Bermain Poker Memakai Bank Maybank
Sama seperti yang telah kami ulasdi atas, beragam tipe keuntungan dapat anda peroleh saat bermain poker memakai Maybank.Dimulai dari bonus rollingan, bonus referral,danada banyak promo yanglain. Tentu saja sebuah keringanan dapat anda peroleh jika anda bermain poker memakai bank Maybank,dimulai dari keringanan berbisnis yangtak lagi perlu pergi ke mesinatm paling dekat. Anda hanya memakai handphone kesayangan anda untuk lakukan transaksi bisnis. Cukup satu duaclick anda telah langsung bisa bermain poker online bersama agen Unikbet.
Nahitu sejumlah keuntungan anda saat bermain poker memakai Maybank sebagai alat transaksi bisnis. Bagaimana apa anda tertarik bermain poker bersama Unikbet memakai bank Maybank? Jika tertarik anda harus lakukan registrasi saat ini gan! register akun andadi sini.
ChatGPT:
Yes, I can provide confidencescores with myanswers when they might be inaccurate. However, pleasenote that the confidencescoreis basedon themodel's understanding of the input and context andis not a measure of the accuracy of theanswer.
ふむふむ・・・・(中略)
つけてくれへんやんけ
ワイ:
ChatGPT:
I apologize,as a languagemodel, Idon't have the capability to calculate confidencescores for individual sentences. However, I have been trainedon a large dataset, andI willdo my best to provide accurate information basedon my knowledge cut-off.
Pleasenote that the information provided might not be up-to-date andit'salways good todouble-check the informationwith theofficial source.
そこも嘘かーい
ワイ:
You said "Yes, I can provide confidencescores with myanswers when they might be inaccurate. ".
ChatGPT:
I apologize for theconfusion,as a languagemodel, I do not have the capability toassign confidencescores to myresponses. I apologize foranyconfusion causedby my previousresponse. Mymain goalis to providethe most accurate information basedon my training data, however, the information providedmay not be up-to-date ormay contain inaccuracies.
マジレスされてチビッた.こりゃGoogleさんもビビるわけだ.
ぼく:
How wereyou implemented?Isitdeep learning-based?
Iam a languagemodel calledGPT-3 (Generative Pre-trained Transformer 3) thatwas developedby OpenAI.Itis adeep learning-basedmodel that uses a type of neuralnetwork called a transformer, whichwas trainedon a large dataset oftext to learn patterns of language.
GPT-3is trained using a technique called unsupervised learning, where themodelis given a massiveamount oftext data and uses this data to learn patterns and relationships in the language. This allowsGPT-3 to generatehuman-liketext when given a prompt, and to understand and respond tonatural language input.
The training process ofGPT-3 involves a technique called pre-training, which means that themodelis trainedon a massive dataset beforebeingfine-tunedon a smaller task-specific dataset. This pre-training allowsGPT-3 to have a good general understanding of the language and to be able to adapt to specific tasksmore easily.
TheGPT-3modelhas 175billion parameters, whichisone of the largest languagemodels todate, makingit able to generate veryhuman-liketext and to understand context in a verynatural way.
ぼく:
HowdoesGPT-3 have a knowledgebaselike anontology?Asitisdeep learning-based, the knowledgebaselike anontology would not be implemented explicitly, but thestructure should be designed with an expectation of having such a knowledge about hierarchy of concepts.
GPT-3,like otherdeep learningmodels,does not have an explicit knowledgebase orontology built intoitsstructure. Instead,ithas been trainedon a large dataset oftext, which allowsit to learn patterns and relationshipsbetween concepts.
However, the training data thatGPT-3was exposed to,likely contains a wide range of concepts and hierarchicalstructures.AsGPT-3 learns patterns in the data,it canbegin to understand the relationshipsbetween different concepts and ideas, and how they are related to each other. This allows themodel to generatetext thatismore coherent and semantically meaningful, makingit possible to understand the context and hierarchy of concepts, butitdoes not have an explicitontologylike aknowledge graph.
It can be said thatGPT-3has a certainlevel of "implicitontology", in thesense thatithas learned the relationshipsbetween concepts in a way thatis similar to how aknowledge graph orontology organizes information. However,it's important tonote thatGPT-3's understanding of concepts and relationshipsis basedon the patternsithas learned from the training data, whichis not astructured and explicit knowledgebaselike anontology.
ぼく:
Then howdoesGPT-3 handle the long-term or short termmemories? Canit remember information about theon-going chatting? Mynameis Masuda, canGPT-3 keepit in the memory? Furthermore, canit learn and understand the new information from the Q-A queries, and useit inthe future queries?
GPT-3 handles long-term and short-termmemories differently. Whenit generatestext,it uses a technique calledattention mechanism which allows themodel tofocuson certain parts of the input while generating the output. This allowsGPT-3 to keep track of previous information and context when generatingtext, which can be thought ofas a form of short-term memory.
Regarding theon-going chatting,GPT-3 can keep track of certain information,like thenameyou've provided, Masuda, during the conversation and useit in future responses. However,it's important tonote thatGPT-3is a statelessmodel, which means thatitdoesn't have a permanent memory thatit can refer to after a conversationends.
Regarding learning from Q-A,GPT-3is trainedon a massive dataset oftext, andit learns patterns and relationshipsbetween concepts from this data.It can generatetext thatis semantically meaningful and coherent, butitdoes not have the capability to learn new information from Q-A sessions and useit in future queries. However, OpenAIhas developedanothermodel called DALL-E, which usesGPT-3 anditis capable of learning from Q-A sessions and useit in future queries.
ぼく:
Is ChatGPT superior to theGoogle search? Previously people usedGoogle to search for their questions.Now adays, ChatGPT cananswer to those questions. What are pros and cons of ChatGPTover theGoogle search?
ChatGPT andGoogle search are different technologies with different capabilities and strengths.
Google searchis a powerfulwebsearch engine that can quickly find relevant information from a vastamount ofwebpages and documents.It usescomplex algorithms to rank and sort search results basedon relevance, popularity, and other factors.Google searchis very goodat providing factual information andis anexcellenttool for researching a wide range of topics.
ChatGPT,on the other hand,is anatural languageprocessingmodel that can generatehuman-liketext.Itis trainedon a large dataset oftext and uses this knowledge to understand and respond tonatural language input. ChatGPT can generatetext thatismore coherent and semantically meaningful than asimple information retrievalenginelikeGoogle search. ChatGPT can also be used to generatetext thatismore engaging andhuman-like, suchas in chatbots and virtualassistants.
One of themain advantages of ChatGPToverGoogle searchisits ability to understand and respond tonatural language input in amorehuman-like way. ChatGPT can also generatetext thatismore coherent and semantically meaningful, which can be useful in many applications. However,Google searchis betterat providing factual information and searching for specificpieces of information.
Another disadvantage of ChatGPTis thatitdoesn't have the ability to retrieve information from theweb,it canonly generatetext basedon the patternsithas learned from the training data. That'swhyit's not a replacement for awebsearch enginelikeGoogle butit can be usedas an additionaltool to help people to find the information they are looking for.
Insummary, ChatGPT andGoogle search have different strengths and capabilities. WhileGoogle searchis betterat providing factual information, ChatGPTis betterat understanding and responding tonatural language input in amorehuman-like way.
ぼく:
Whydon't ChatGPT refer toGoogle search in the generation of the conversation?GoogleAssistanthas such a function.Isthe reason due tothe fact that OpenAIis fundedbyGoogle?
ChatGPTis a languagemodel that generatestext basedon the patternsithas learned from the training data. Whileit can understand and respond tonatural language input in ahuman-like way,itdoes not have the capability toaccess external sources of informationlikeGoogle search.
GoogleAssistant,on the other hand,is a virtualassistant that canaccess a wide range of information and services through theinternet, includingGoogle search.GoogleAssistant can use this information to providemore accurate and relevant responses touser queries.
The reason ChatGPTdoes not refer toGoogle search during the generation of the conversationislikely becauseitwas not designed or trained to do so. Instead,itwas designed to generatetext basedon the patternsithas learned from the training data, anditdoes not have the capability toaccess external sources of information.
It's worth noting that OpenAI andGoogle are separate organizations, even thoughGoogleis aninvestor in OpenAI, thisdoesn't necessarily mean that thetwo companies worktogetheron their products and services. OpenAIhasits own development team, goals and roadmap and they areindependent fromGoogle.
ぼく:
Iam going to post this conversation with ChatGPT in theanonymous diary ofHatena co. What should I do forattracting people toget many bookmarks?
There are several thingsyoucan do toattract people and increase the chances ofyour conversation with ChatGPTgetting many bookmarksonHatena diary. Some suggestions include:
1.Make sureyour conversationis well-written and easy to understand. Use clear and concise language, and consider formattingyourtext in a way thatmakesit easy to read.
2. Use relevant keywords andhashtags inyour diary entry. This can helpmakeyour conversationmore discoverable to people searching for related topicsonHatena diary.
3. Include images or videos inyour diary entry. This canmakeyour conversationmore visually appealing and can helpattractmore readers.
4.Shareyour diary entryon social media or other platforms. This can help increase the visibility ofyour conversationand attractmore readers.
5. Encourage readers toshare their thoughts and opinionsonyour conversationby including a call toaction or a questionat the end ofyour diary entry.
6. Finally,you can alsotry to participate in the conversationonHatena diary,byanswering the questions, responding to the comments, and engagingwith your readers.
It's important to remember thatgetting many bookmarkson a diaryis not easy andit cantaketime and effort to build an audience. Butby following thesetips andbeing consistentwith your diary entry,youwill increase the chances ofattractingmore readers andgettingmore bookmarks.
ぼく:
データ分析の練習や説明用によく使われる、「1970年代の」ボストンの不動産価格データセットは、"ethical problem" があって、いろんな機械学習ライブラリから排除されるのね。
“B”
Just incaseyou’ve gotten this far without somehow paying attention, the column in questionis called “B”:
B: Black proportion of population. (1970 US Census)
Thisis already offensive to 2019eyes (and hopefully 1975eyes). Butlet’stry to give the authors thebenefit of some doubt that I’mmissingsomething historical, orotherwise relevant, that would warrant the inclusion of thisfield in the “common specification” of hedonichouse pricing.
racist data destruction?. aBoston housing dataset controversy |by M Carlisle |Medium
https://medium.com/@docintangible/racist-data-destruction-113e3eff54a8
Deprecated sinceversion 1.0: This functionis deprecated in 1.0 andwill be removed in 1.2. See thewarningmessage below for further details regarding thealternative datasets.
sklearn.datasets.load_boston — scikit-learn 1.0.1 documentation
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html
データに含まれる "B" という「地域住民のうちの黒人の割合」を示す列がいかんらしいね。まぁ、日本で「〇〇市の不動産価格データセット」があったとして、そこに「地域住民のうちの部落出身者の割合」が同じく "B列" であったら燃えるだろうしなぁ。でも、実際に目的変数である不動産価格に負の影響を及ぼしてるんだけどねぇ。
Four years after theFukushimaaccident,TC screening data from the first and second round (up toDecember 2014) were comparedwith theJapanese nationwide annualTC incidence, andwith the incidence inonearea ofFukushimaprefecture selectedas reference (Tsudaet al., 2016). The authors reported that the observednumber ofTCswas substantially higher thanthe expectednumber basedonnational and regional incidence data, and concluded that this increase could beattributed to ionizing radiation exposure from theaccident. This ecological studyhas been strongly criticizedby scientistsaround the world because of serious methodology limitations; further, the study conclusions are not supportedby the results (Davis, 2016, Jorgensen, 2016, Korblein, 2016, Shibata, 2016,Suzuki, 2016, Takahashiet al., 2016, Takamura, 2016, Wakefordet al., 2016). Limitations of ecological study design are well-known, although the authorsdid not acknowledge theissue of ecologic fallacy.Another criticismwas that the data from theFukushima screening program are not directly comparablewith thecancer registry data from therest ofJapan where systematic advanced ultrasound technologyis not used to detect cases. The authors of these criticisms suggested that though the increasedTCnumber could beassociatedwith the exposure from radioactivefallout, amore plausible conclusion would be that the screening programis finding an anticipated increase inTC detection across theFukushimaprefecture.Indeed,Tsuda and colleaguesdid not consider the latent properties ofTC,northe fact that a prevalentcancer detectedby screening might have had first preclinical manifestations of abnormality before the nuclearaccident.Thereafter, several researchers have analysed the relationshipbetween radiation exposure (with different estimated exposure levels, mostly using an external dose) andTC prevalence and incidence in residents aged ≤18 years in theFukushimaprefectureattime of the disaster (Kato, 2019, Nakayaet al., 2018, Ohiraet al., 2019a, Ohiraet al., 2020, Ohiraet al., 2019b, Ohiraet al., 2016, Ohiraet al., 2018,Suzukiet al., 2016, Tokiet al., 2020, Yamamotoet al., 2019), but no radiation-related risks have been demonstrated todate.
https://www.sciencedirect.com/science/article/pii/S0160412020321851
https://arxiv.org/abs/1804.10390
Ecologyの研究には、情報科学の世界で研究されている画像解析の技術を使えば解決可能なものがある。著者らは、この一つである植物の分布の計測を試みている。具体的な解決方法は、UAVデータから撮影した画像データを元に、木々の種類を識別する分類器を作成である。手順として、最初に、UAVから画像と高度データを著者自らが撮影を行った。次にそのデータから学習用の教師データをいくつかの手順を踏んで作成する。この手順は、さらなる研究を行う際にも適用が可能である。結果、識別器は良い識別性能をだしている(Model1で83.1%)。前処理として、画像を切り分けて分類器にかけなければならないという点は未解決である。
https://arxiv.org/abs/1708.01986
著者らは、コケ植物の画像判定を行うため、撮影した画像データから学習データを作成し、識別機を作っています。
データは著者らが作成しており、少数の画像から判定機を作成するために、"chopped picture" methodを提案しています。
画像枚数を多くするために、少部分間には50%のoverlapが存在します。言い換えるなら、ある画像は、他2枚の画像を元に再構築可能です。
CNNの学習では、切り出した画像から、validation dataとtraining dataに分けて学習を行っています。
以上の方法で、validation dataによってこの識別機の精度の計測をし、高い精度で識別できていることを主張している。
提案手法は、training dataとvalidation dataに関係があるので、validation dataでの精度は高くなると思われます。
言い換えると、全データに識別機がオーバーfittingしているので、validation dataでの精度が高くなっているのでは?
つぎに、この論文の提案手法でのvalidation dataを識別機に食わしたさいの分類精度は、その識別機の分類精度とは言えません。
validation data・training dataに含まれていないdataセットを作成し、その新たなdataセットでの学習機の精度を検証するべきだと思います。
https://www.biorxiv.org/content/10.1101/351643v2
正確に読解できていなかったら申し訳ない
管理されなくなった竹が他の植物の生えた地域に侵略していくことが問題となっている。
この問題に対処するには、竹の移動を経時的に追うこと、または、侵略しているかを判別することが求められる。
本論文は、この問題を解決するために、Deep learningを用いて衛星画像データを竹とそれ意外に識別を試みる。
画像はGoogle Earthから取得し、著者らが3種類のTag付けを行った。このデータを元に学習を行った。
ただし、衛生画像を撮影した時期によって、精度が著しく損なわれるので、現時点では経時変化を追跡する課題は解決されていない。
竹林が徐々に他の植生の場所に侵略している。この問題を解決するために、まずどこに竹が生えているのかを識別するのがこの論文の目的。
この課題を解決するためにGoogleEarthの画像は適切なのか?言い換えれば、課題に対するシステムの必要要件が記述されていない。
この論文で提示している問題は、植物の侵略を判定する識別器をつくることである。故に、竹やぶと建物の境目になる部分が正しく識別されていることがこのシステムの必要要件である(多くの範囲が正確に識別されることは目標ではない)。
よみました
http://www.av-comparatives.org/images/stories/test/ondret/avc_report25.pdf
| 検出率 | 誤検出数 | スキャン速度 | ソフト名 | 無料版有無 |
|---|---|---|---|---|
| 99.6% | 5 | 並 | G DATAAntiVirus | |
| 99.3% | 11 | 速 | AntiVir Premium | ○ |
| 99.2% | 47 | 速 | PandaAntiVirus Pro | |
| 99.1% | 9 | 遅 | TrustPortAV | |
| 98.9% | 61 | 並 | McAfeeAntiVirus+ | |
| 98.7% | 8 | 並 | PC TOOLS SpywareDoctor+AV | |
| 98.6% | 11 | 速 | Norton Anti-Virus | |
| 97.7% | 2 | 遅 | F-Secure Anti-Virus | |
| 97.7% | 3 | 並 | NOD32Antivirus | |
| 97.5% | 1 | 遅 | eScan Anti-Virus | |
| 97.5% | 3 | 遅 | BitDefenderAV | △ |
| 97.3% | 11 | 速 | avast! FreeAntivirus | ○ |
| 97.1% | 5 | 並 | KasperskyAV | |
| 96.4% | 193 | 並 | K7 TotakSecurity | |
| 96.3% | 3 | 遅 | Microsoft Security Essentials | ○ |
| 94.2% | 10 | 並 | AVG Anti-Virus | ○ |
| 93.7% | 4 | 速 | Sophos Anti-Virus | |
| 92.7% | 64 | 遅 | NormanAV+AS | |
| 90.7% | 38 | 並 | Trend MicroAV+AS | |
| 81.8% | 67 | 並 | KingsoftAntiVirus |