イギリスのコーパス British National Corpus 略してBNC。1億語の徹底したサンプル・コーパス(バランスよく様々な領域からサンプリングして構築したコーパス)。かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD-ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを本格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので
最終更新: 2018-04-05 19:45 概要プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース
毎日新聞CD-ROM (1991年) TypeText Type.linguistics annotation/corpus Description 1991年の毎日新聞の記事を収録したCD-ROM。約10,000記事。 Annotation.document keywordCreator 毎日新聞社 Contact person 日外アソシエーツ (data-saleあっとnichigai.co.jp) Price 126,000円 Subject.language 日本語 Date 1991 Format 1 CD-ROM. Format.encoding Shift_JIS Relation IsPartOf 毎日新聞CD-ROM URI http://www.nichigai.co.jp/sales/mainichi/mai
Webとコーパス 第六回「日英対訳文対応付けデータ」 2007-10-29-1 [WebAndCorpus] ウェブ上で使えるコーパスツールを紹介している連載ブログ記事、 今回で6回目になります。今回のテーマは対訳データです。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますが、そちらでの連載(転載)は今回で最終回となります。 今後は不定期でこのブログ「たつをの ChangeLog」で更新していきます (たぶん年内の更新はないでしょう)。 - ウェブコーパス徹底活用 第六回「日英対訳文対応付けデータ」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第六回 「日英対訳文対応付けデータ」 「翻訳メモリ」と呼ばれる一連のソフトを
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう?グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いていて、今回で5回目になります。 今回はリーズ大学の多言語コーパス検索サイトの話。 こういう活動は頭が下がります。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第五回 「リーズ大学の多言語コーパス検索サイト」 この連載の第二回[2007-09-03-1]で紹介した拙作「
キットが販売されているのでチャレンジしやすい近頃では、ホームセンターに電気機器を製作するための道具がそろっています。そのため、DIY感覚で電気製品の自作を始めるのは難しくありません。「回路図や図面が読めなければ電気製品なんて作れない」と思う人もいるでしょう。たしかに、電気製品にはさまざまな部品が使わ…
Webから自動構築した大規模格フレーム βバージョン Webテキストから自動構築した大規模格フレームを公開いたします。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものです。この格フレームは、Web上の約5億文の日本語テキストから自動的に構築しており、約5万用言からなるものです。以下のアドレスから格フレームを検索することができます。 格フレーム検索 注意点:今回公開するのはβ版のため、検索条件によってはアクセス速度が非常に遅くなる場合があります。近日中にシステムを更新し正式公開する予定です。また、格フレームをダウンロードして利用したい方は別途ご連絡ください。 この格フレームに関するご意見、ご質問は nl-resource あっとnlp.kuee.kyoto-u.ac.jp 宛にお願いいたします。 参考文献 Daisuke Kawahara and Sadao Kur
リンクは自由! 『日本語学』第22巻(2003)4月臨時増刊号「コーパス言語学」, pp.6-15 掲載 言語理論と言語資料 ―コーパスとコーパス以外のデータ 後藤 斉 1. コーパスとは何か 言語の研究に関して「コーパス」ということを目にすることが増えているが、 その概念の理解は必ずしも十分に広まっているとはいえない。まずそれを 整理しておくことが必要であろう。 「コーパス」という語は英語のcorpusに由来し、これはさらにラテン語 corpus「体」(発音はコルプス)に発する。この語は文字通りの意味から転じて、 比較的早くから『ローマ法大全』Corpus Iuris Civilisのように「資料の総体」を 意味して使われ、この用法でヨーロッパ各国語に取り入れられた。特定のテキスト (音声言語を転写した資料を含む)のみに依拠して研究が行われるような場合には、 それをその研究におけるコーパ
IWSLT 2008 (International Workshop on Spoken Language Translation) (2008/10/20-21, Hawai'i,USA) AMTA 2008 (The 8th Biennial Conference of the Association forMachine Translation in the Americas) (2008/10/21-25, Hawai'i,USA) JEITA 知識情報処理技術に関するシンポジウム 「先端Web技術は企業を変えるか」 (2008/10/23, ベルサール神保町, 東京)EMNLP 2008 (Conference onEmpirical Methods in Natural Language Processing) (2008/10/25-27, Hawai'i,USA
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く