中国教育部はこのほど、「2006年中国言語生活状況レポート」を発表した。同部によれば、インターネット上で使われる言葉は口語化の特徴が顕著に見られるという。 同レポートは、中国国家言語文字委員会副主任で教育部言語文字情報管理司長の李宇明氏が調査したもの。対象分野は、(ネット上の)ニュース、BBS、ブログの3種類。 李氏によると、インターネットにおける言葉は、一般メディアのそれに似ている。例えば、ネット言語の常用文字の3,500字中3,131字が現代漢語常用字表と一致しており、同7,000字中6,141字が現代漢語通用字表と一致していた。こうしたことから、ネット言語も一般メディアの用字と基本的には同じだということになる。 だが、ネット言語においては、一部の文字・単語の出現率が特に高いのが特徴だ。例えば、「爾」を含む高頻度ベスト10に、高爾夫(ゴルフ)、英特爾(インテル)、戴爾(デル)、などがあ
The 4th season - Story of the one person library and "full stack" librarian. 前回のエントリ、図書館タグクラウドに特にはてな方面から多くのアクセスを頂き、ありがとうございました。このblogを始めて以来のアクセスの多さに驚いています。 タグクラウド、人気ありますね。他のデータベースでも応用したいところです。 さて、その後ですが、ひどいソースを見た後輩が大幅に手を入れて、 専門用語の抽出には,東京大学・中川裕志教授,横浜国立大学・森辰則助教授,東京大学・前田朗らによる「専門用語自動抽出システム」を利用。 書誌名を日本語と英語に簡易分離。 日本語については,形態素解析器 MeCab を用いて形態素解析を行った後,専門用語自動抽出用Perl モジュール TermExt::MeCab を用いて専門用語を抽出。英語につい
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く