デジタル庁は、今般、「日本の法令に関する多肢選択式QAデータセット」を試験的に公開しました。AIを業務で安心して使うためには、そのAIがどれくらい賢く、正しい答えを出せるのかを事前に確認することが不可欠です。このデータセットは、特に企業の法務部門で実際に起こりうる課題を想定して作成しており、AIが法務部門の実務でどこまで通用するのかを測ることを目標としています。 このデータセットには問題文と回答のほか、実務で参照する可能性のある法令の抜粋も含まれています。この取組が、各行政機関でAI導入を検討する際の判断材料となり、具体的な議論のきっかけになることを目指しています。 なぜデジタル庁でこのデータセットを作ったかAIを業務で活用するためには、目的に応じて適切なデータを用意することが重要です。2024年度、私たちは「政府等が保有するデータをAIの学習に使いやすくする調査」を行いました。その結果、

デジタル庁は10月9日までに、AIが法務でどれほど使えるかを測る「日本の法令に関する多肢選択式QAデータセット」を公開した。同データセットは、法令分野に関する4択問題と回答、問題の背景となる法令の抜粋などを含む。行政機関や企業の法務部門でのAI導入に役立てたい考えだ。 同データセットは、複数の大規模言語モデル(LLM)により作成・検証したもの。含まれる問題が選択式のため、AIの回答を自動で採点・評価しやすいのが特徴だ。政府が持つデータのAI開発での活用を目指し、同庁が実施した「政府等保有データのAI学習データへの変換にかかる調査研究」で利用した。 同データセットの主な利用方法として、AIが法務でどれほど使えるかを測る評価データを想定する。また、同庁のテストによると、同データセットをPreferredNetworksのLLM「PLaMo-100B」の継続事前学習と指示学習に利用することで、

なお、同データセットは日本の公的な人口・労働関連の統計データに基づいている一方、全てのペルソナは合成によって作成しているため、個人を特定できる情報は含まれていない。また、個人情報保護法(PIPA)の要件も満たしているという。 同データセットは、ソブリンAIの開発での利用を想定している。例えば、日本の文化的な背景を踏まえた回答ができるAIアシスタント向けのトレーニングデータの作成や、AIシステムが日本の地方と都市、異なる年齢層、教育水準の人々に対し、どのように機能するか評価するためなどに利用できるという。 関連記事OpenAIのアルトマンCEO、AIを基本的人権にする壮大なビジョンを展開OpenAIのサム・アルトマンCEOが、NVIDIAによる1000億ドル投資発表の翌日、AIインフラを毎週1GW生産する工場建設の構想をブログで公開した。AIへのアクセスは将来の基本的人権になるとし、10

TL;DR – What are CC signals? CC signals are a proposed framework to help content stewards express how they want their works used inAI training—emphasizing reciprocity, recognition, and sustainability inmachine reuse. Theyaim to preserve open knowledge by encouraging responsibleAI behavior without limiting innovation. 💗Loveit! How can I show my support? Thank you! There are multiple ways that

著作物の流通を促進する非営利団体Creative Commons(クリエイティブ・コモンズ)は6月25日、AI時代のための新プロジェクト「CC Signals」の立ち上げを発表した。コンテンツ管理者が自分の作品をAIのトレーニングでどのように利用してほしいかの「preferences」(特定の選択肢を他の選択肢よりも好む傾向、選好)を表明するためのフレームワークだ。 クリエイティブ・コモンズは、AIがこれまでにない規模で急速に発展する中、コンテンツ作成者や管理者たちの関与なしに、コンテンツが公開された際の「合理的な期待」を超えてAIのトレーニングなどのために利用されてきたと見ている。機械によるWebコンテンツの利用自体は新しいことではないが、今日のAIはWebのあり方を変え、脅かすアルゴリズムを供給していると説明する。 かといって、コンテンツ管理者がアクセスをブロックするようになれば、知識

ハーバード大学ロースクール図書館が98万3000冊の書籍からテキストデータを抽出したデータセット「Institutional Books」を公開しました。データセットの作成にはGoogleブックスの成果が活用されています。 Institutional Books | Institutional Data Initiative https://www.institutionaldatainitiative.org/institutional-books Institutional Booksには98万3000冊の書籍のデータが含まれており、総ページ数は3億8600万ページに及びます。また、学習元の書籍に使われていた言語は254種でした。 言語の内訳は以下の通り。最も多いのは英語の43%で、その後にドイツ語(17%)、フランス語(14%)、イタリア語(4%)、ラテン語(3%)、スペイン語(2%

AIの著作権問題に終止符か? 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリースAIは創作物を無断で学習しても許されるのか──。この問いは、生成AIの進化と共に業界全体に重くのしかかる根源的な課題となっている。著作権侵害を主張する訴訟が相次ぎ、AI開発企業は防衛的にそのデータ利用の詳細を固く閉ざすようになった。この「透明性の冬」とも言える状況が、健全な研究の進展を妨げていると懸念する声は少なくない。 そんな中、AI業界の分水嶺となる可能性を秘めた画期的なプロジェクトが姿を現した。 非営利の研究団体EleutherAIと、トロント大学、Hugging Face、Allen Institute forAI (AI2)など多数の組織からなる共同研究チームは、「Common Pile v0.1」と名付けられた、8テラバイト(TB)にも及ぶ巨

Wikipedia、AI学習用プラットフォームでBotに対抗2025.04.21 12:30 Thomas Maxwell - Gizmodo US [原文] ( カタヤママコト ) 4月16日、ウィキメディア財団は、Google(グーグル)が所有するデータサイエンスコミュニティプラットフォーム「Kaggle」と提携し、AIモデルの学習に最適化されたWikipediaのバージョンを公開すると発表しました。 この施策は英語版とフランス語版から始まり、文献や参照、マークダウンコードを除いた簡易版のWikipediaが提供されるとのこと。AI学習用のBotが大量流入することが問題になっていた非営利でボランティア主導のプラットフォームであるWikipediaは、主に寄付金によって運営されており、誰でも内容を自由に編集することができるサービスです。Wikipediaとしては、その情報に誰がアクセス

自治体を苦しめてきた「オープンデータ公開」 負担軽減へ生成AIが秘める可能性とは?(1/4 ページ) こんにちは。全国の自治体でデジタル化をサポートしている川口弘行です。 生成AIは大手3社(OpenAI、Google、Anthropic)の他にも、魅力的なAIサービスを提供している事業者が数多くあります。AIモデル(LLM)の開発でこの大手3社に挑むというよりも、特定の目的や領域に特化した便利なサービスを目指す傾向が強く、私もいろいろと使い分けています。 その中で、ちょっとした概念図などを作ることに特化した「NapkinAI」というサービスを紹介しましょう。現在はベータ版で、無料で使うことができます。 このサービスは文章を読み込ませることにより、その文章にふさわしい概念図を生成してくれるもので、文章の説明を補足し理解を促すツールとして活用することができます。生成した図は後から修正もでき

日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。 https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。 詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。 LLM-jp: A Cross-organizational Project for



クラウドコンピューティングサービスを提供するSalesforceのAI研究部門・SalesforceAI Researchが、1兆ものテキストトークンを含むオープンソースのマルチモーダルデータセット「MINT-1T」を公開しました。GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset. https://github.com/mlfoundations/MINT-1T MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens https://blog.salesforceairesearch.com/mint-1t/ B


フリーBGMサイト紹介 当協会の情報提供にご賛同いただいた作曲家様、およびサイトを紹介しています。 下記の「利用条件」では、各サイトのライセンスページのリンクと、よく問い合わせがある利用条件の項目をまとめています。 楽曲の使途、利用条件はこれに限りませんので、 ご利用の前に必ず各サイトのライセンスをご確認ください。 なお、当協会への情報提供に賛同いただき本ページで紹介しているフリーBGM配布サイト、 およびフリーBGM作曲家の方は、将来的に利用者向けライセンスの内容が変更されても過去の利用者には影響ないことを表明いただいております。 ※ YouTube上で使用してもアラート(申し立て)が 発生しない管理がされています。 サイト名 利用条件 YouTube保護 ※ 放送・配信・広告・ゲーム・教材などでの利用 楽曲の 単純再配布 クレジット表記 商用利用 歌唱・演奏AI学習への利用 注意事
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く