JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo) The JSUT Collection isJapanese speech corpora connecting speech, song, and audio events. The JSUT corpus is a part of the JSUT Collection. JSUT コレクションは,声・歌・音声模倣をつなげるための音声コーパスです.このJSUT コーパスは,JSUT コレクションの一部です. This corpus consists ofJapanesetext (transcription) and reading-style audio. The audio data is sampled at 48kHz and rec
CCMatrix: A billion-scale bitext dataset for training translation models Whatit is:CCMatrix is the largest dataset of high-quality, web-based bitexts for training translation models. With more than 4.5 billion parallel sentences in 576 language pairs pulled from snapshots of the CommonCrawl public dataset, CCMatrix is more than 50 times larger than the WikiMatrix corpus that we shared last year.

ライセンス 『日本古典籍くずし字データセット』(国文学研究資料館ほか所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。 データセット全体をご利用の際には、例えば以下のような表示をお願いします。個別の古典籍のみをご利用の場合には、それぞれのページをご覧下さい。 『日本古典籍くずし字データセット』 (国文研ほか所蔵/CODH加工) doi:10.20676/00000340 可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。 提供:ROIS-DS人文学オープンデータ共同利用センター データ提供方法・注意事項 書籍ごとに字形をまとめたZIPファイル、および全部をまとめたZI

MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims Abstract We contribute the largest publicly available dataset of naturally occurring factual claims for the purpose of automatic claim verification.It is collected from 26 fact checking websites in English, paired withtextual sources and rich metadata, and labelled for veracity by human expert journalists. We p

The Groove MIDI Dataset (GMD) is composed of 13.6 hours of aligned MIDI and (synthesized) audio of human-performed,tempo-aligned expressive drumming. The dataset contains 1,150 MIDI files and over 22,000 measures of drumming. Contents License Dataset MIDI Data Format DrumMapping Control Changes Download TensorFlow Dataset How to Cite Acknowledgements License The dataset is made available byGoog

A multitask benchmarking framework comprising complementary data modalities at a city-scale size, registered across different representations, and enriched with human andmachine generated annotations. 27,745 high-resolution 360° images with human-curated annotations, 3D point clouds from: aerial and street-levelLIDAR, Structure-from-Motion and Multiview-Stereo reconstructions, geo-anchored based

KMNISTとは、機械学習研究で著名なMNISTデータセット互換のくずし字データセットとして、 日本古典籍くずし字データセットから派生したデータセットです。MNISTデータセットに対応した機械学習ソフトウェアであれば、設定を変更するだけで気軽にKMNISTを試すことができます。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。 KMNISTデータセットは、ROIS-DS人文学オープンデータ共同利用センター(CODH)が作成したものであり、国文学研究資料館が作成した日本古典籍くずし字データセットを元にしています。ご利用の際にはライセンスをご確認下さい。GitHub: Repository for Kuzushiji-MNIST, Kuzushiji-49, and Kuzushiji-Kanji Th

Prostate MRI: Data from 312 prostate MRI exams obtained on 3 Tesla magnets. Theraw dataset includes axial T2-weighted and axial diffusion-weighted images for each of the 312 exams. For more information about the prostate dataset, please refer to our article https://www.nature.com/articles/s41597-024-03252-w and code repository https://github.com/cai2r/fastMRI_prostate Breast MRI: Data from 300 cl
「ロボットは東大に入れるか」プロジェクトで開発した大学入試センター試験1990年度~2017年度の電子化問題データを公開します。 このデータは、本プロジェクトにおいて、川添愛氏を中心としてXMLによる構造化仕様を策定し、アノテーションを実施したものです。 元データの著作権者である独立行政法人大学入試センターのご厚意により、人工知能などに関する研究のための資源として一般に公開します。 試験問題データ 開発用データ(development data) [1993年以降4年ごとに2017年度までのセンター試験本試験および追試験] 開発テスト用データ(development test data) [1991年以降4年ごとに2015年度までのセンター試験本試験および追試験] 最終テスト用データ(final test data) [1990年度以降2年ごとに2016年度までのセンター試験本試験お
MultimodalEmotionLines Dataset (MELD) has beencreated by enhancing and extendingEmotionLines dataset. MELD contains the same dialogue instances available inEmotionLines, butit also encompasses audio and visual modality along withtext. MELD has more than 1400 dialogues and 13000 utterances from Friends TV series. Multiple speakers participated in the dialogues. Each utterance in a dialogue ha
It’s been one year since I released theFashion-MNIST dataset in Aug. 2017. As I wrote in the README.md,Fashion-MNIST is intended to serve as a drop-in replacement for the original MNIST dataset, helping people to benchmark and understandmachine learning algorithms. Over a year, I have seen a great deal oftrends and developments in themachine learning field towards this direction. The dataset

colissさんでとってもステキな素材集が紹介されていました。江戸時代の浮世絵に描かれた多種な動物たちがSVGのベクター素材になって無料ダウンロード公開されているんです。 これはいいですね!日本画や浮世絵の作品がベクター素材になって提供されていることはなかなかないので嬉しい。浮世絵のテイストがそのまま生きたデザイン素材。象や麒麟はまさに当時の流行のタッチ。 しかも素材は商用利用でも無料。改変して使用可能。ベクター素材なので色を変えたりパスを変更したりすることができます。 このデータの元の作品は歌川芳虎(うたがわよしとら)の「新板けだもの尽」で、タイトルの通りに様々な動物が描かれた、江戸時代のいわゆる「おもちゃ絵」と言われるものです。 国立国会図書館デジタルコレクションより 書誌ID 023907912 歌川芳虎というと十二支をミックスした「家内安全ヲ守十二支之図」が人気。

In today's world, scientists in many disciplines and a growing number of journalists live and breathe data. There are many thousands of data repositories on the web, providing access to millions of datasets; and local and nationalgovernments around the world publish their data as well. To enable easy access to this data, we launched Dataset Search, so that scientists, data journalists, data geeks

CoQA is a large-scale dataset forbuilding Conversational Question Answering systems. Thegoal of the CoQA challenge is to measure the ability ofmachines to understand atext passage and answer a series of interconnected questions that appear in a conversation. CoQA is pronounced as coca . CoQA paper CoQA contains 127,000+ questions with answers collected from 8000+ conversations. Each conversati
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く