Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い

AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを探してみてください。 データセット

※本記事は、LionbridgeAI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。本記事は、日本語のデータセットを紹介いたします。日本語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日本語のテキストデータセットを含みます。機械学習に使える日本語のデータセットポータル DATAGO JP: 日本政府のデータカタログサイト。日本政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ

Google、1,540万の手動ラベル付けバウンディングボックス含む190万画像600カテゴリのデータセット「Open Images V4」発表 2018-05-01Googleは、1,540万のバウンディングボックス含む190万画像600カテゴリのデータセット「Open Images V4」を発表しました。 Open Images Dataset V4 同社は、2016年に約900万画像6,000カテゴリほどのデータセット「Open Images」を発表しましたが、今回はオブジェクト位置のラベルが含んだデータセットです。ボックスのラベル付けは手動です。画像ごとに平均8.4枚 上記に加えて、約3,000万画像19,000カテゴリほどのデータセットも含まれています。

Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.Common Crawl is a 501(c)(3) non–profit founded in 2007. We make wholesale extraction, transformation and analysis of open web data accessible to researchers.Overview Over 300 billion pages spanning 15 years.Free and open corpus since 2007.Cited in over 10,000 research papers.3–5 billion new pages added ea
We are pleased to announce the release of a new dataset containing news articles from news sites all over the world. We are pleased to announce the release of a new dataset containing news articles from news sites all over the world. The data is available onAWS S3 in the commoncrawl bucket at crawl-data/CC-NEWS/. WARC files are released on a daily basis, identifiable by file name prefix which inc

ImageNet is an imagedatabase organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images. The project has been instrumental in advancing computer vision and deep learning research. The data is available for free to researchers for non-commercial use.
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く