■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary WrittenJapanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日本語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言と少納言が公開されていますが、NLBはコンコーダンサとは異なるレキ
持ち回りの社内セミナーが自分の番になったので、形態素解析についてまとめてみて、発表しました。係り受け解析入門に引き続き、自然言語処理チュートリアルシリーズ第2弾になります。結構ボリュームがあって、力作になってます。 今回の狙いは3つくらいありました。 ひとつは自分自身昔の文献などを読んだことがなかったので読んでみたこと。見ると、昔は多くの論文を企業の人が書いていて驚きます。初期の文献で引用したものはほとんどが企業系研究者の方の論文です。日本語入力の文脈で研究されていたからなのかな、という気がします。 もうひとつは現在の問題点と問題意識をまとめる。書いたとおり、アプリケーションに対して最適なことをすべき、という思いがあります。それは単にアプリケーションごとに形態素解析器を作るべき、ということではないです。そもそも形態素解析というソリューションは適切ですか?という問いかけです。実際に弊社では、
入力した漢字を含む名字や名前の一覧検索が行える無料オンライン漢和辞書です。本字典のエントリー更新は頻繁に行っているため、今日検索結果に現れなかったものが明日以降に出る場合もあります。 また、現在まだ登録されていない(検索結果に出てこない)漢字や読み方があれば、ご指摘(登録)いただけると非常に助かります。

しゃべるのが苦手な人って、別のとこで凄い能力を持ってる人が多いなぁって思っていて、そのことについてつぶやいたものをちょっとまとめてみました。 しゃべるのがあんま得意ではない人って、独自の思考回路を進化させまくっている人が多い。自分の思考に最適化された構造をしているから、物を憶えるのが凄い得意だったり、一人の作業が凄く早かったり質が高かったりする。つまり「自分語」で脳が動いてるので、それを公用語に翻訳するのに時間がかかる http://twitter.com/#!/fta7/status/15939525465341952 独自の思考回路を進化させてきた人にとって重要なのは「コミュニケーション能力」というよりも、その回路の独自性を更に磨き上げていきながら、そこから生産されるものをどう「言葉」に変換するか、あるいは言葉以外の何かに変換するか、ってところなんだとおもう。つまりプロトコルをどうする
無料で資料をダウンロードSEOコンサルティングサービスのご案内 専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。 無料ダウンロードする >> 新作のインフォグラフィックをご紹介。今回は、ITではないですがグローバルな話題を。地球上で話されている言語に着目し、色々比較統計してみました。毎月、世界で2つの言語が消滅しているって知っていましたか? —SEO Japan 日本程、日本語しか使われていない国も珍しいと思いますが、世界に目を向けると英語はもちろん、中国語、フランス語をはじめとして多数の言葉が使われています。そんな世界の言語事情を一枚のインフォグラフィックにまとめてみました。改めて世界の広さを(そして日本の小ささも?)感じます。Enjoy! (画像をクリックすると大き目のサイズの画像が表示されます) しかしこれを見

漢字テスト 漢字の読み方を「ひらがな」で、送りがな含めて入力してください。 例 「轟く」→「とどろく」 Copyright(C)2006 GAMEDESIGN
http://pc11.2ch.net/test/read.cgi/prog/1238112399/ 652 名前:仕様書無しさん[sage] 投稿日:2009/05/08(金) 03:37:19 こんちには みさなん おんげき ですか? わしたは げんき です。 この ぶんょしう は いりぎす の ケブンッリジ だがいく の けゅきんう の けっか にんんげは たごんを にしんき する ときに その さしいょ と さいご の もさじえ あいてっれば じばんゅん は めくちちゃゃ でも ちんゃと よめる という けゅきんう に もづいとて わざと もじの じんばゅん を いかれえて あまりす。 どでうす? ちんゃと よゃちめう でしょ?
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日本語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日本語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、
3月17日現在、一冊の本の入稿を終えて、この原稿を書いているところです。この編集作業をしていた時、Webサイトや社内文書でも、似たような間違いを犯しているのでは? と感じるポイントに気付いたのです。それは、単純なようで見落としがちなことでした。 「配慮」も最後までできていないならバツ 原稿執筆を依頼した著者さんから、シンクタンクや政府などの調査結果を掲載してほしいとデータを受け取りました。例えば、小売業の市場シェアに関するデータで、原稿に合わせる形で7種類あったのですが、そのうち2種類だけに調査した年月日が書かれていたのです。 そこで「あのー、残りの5種類も年月日をもらえないですかね?」とお願いしました。「パラレリズム」が最後まで守られていなかったからです。 パラレリズムというのは、「並列」という意味。テクニカルライティングなどでは、よく知られている手法で、内容的に並列するパラグラフや章で

数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier forJapanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も
各メニューの御案内 表記いろいろ 日本語に書き方の統一基準はない!? お手持ちの国語辞典の巻末あたりに載っていると思いますが、内閣告示・訓令の形で出されている「常用漢字表」は強制力のない目安的存在であり、「法令、公用文書、新聞、雑誌、放送など、一般の社会生活において」と適用範囲を示しているものの「科学、技術、芸術その他の専門分野や個々人」は対象外とされています。内閣告示「送り仮名の付け方」についても、適用範囲は常用漢字表と同じであり、常用漢字表にある訓読みのことしか書かれていません。常用漢字(1945文字)以外の「表外字」については、読み方や送り仮名のつけ方のよりどころ、目安さえもないのです。 そこで数種類の用字用例辞典を比較してみました。(ただし、平成22年11月30日内閣告示の新しい常用漢字表には未対応です。旧常用漢字表のままで相済みません) その他 当サイトは速記もできないのに日本速
Visited: 5294 アルゴリズムによる日本語形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日本語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。Yahoo!の形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab +ipadicと互換性があります。 デモ 日本語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
誤字ェネレータは、入力された文章に含まれている漢字を誤字に置換するアプリです。dreamhost上のRailsで動いてます。 glitchmonkeyとかその辺の技術が僕は結構好きで、glitchというかcorruptingと言うか、そう言ったノイズ系のフィルタを日本語の文章にかけるのはどうしたらいいのか考えてました。一つの解は多分カットアップなんですが、それはもうきょうじんでやっていて結構いい感じなので、別のアプローチを考えてたんです。で、誤字かな、と。誤字って大抵見た目の似てる漢字を書いてしまうものなので、そういった感じの事を裏側ではやっています。 ぶっちゃけこれ僕の初めての割とまともな趣味webアプリなので、嬉しくって動画とか撮っちゃってます。使い方結構シンプルですがとりあえずこれを見て頂くと言う事で。 見ると分かると思うのですが、日本語の文章なんてぱっと思いつかねえよって方の
アイデアとしては単純で、画像情報に落としたあとで全漢字pairに対して全pixelの一致数をカウントするだけ。 これの時にはリアルに全漢字でやろうとしてたんだけど、2万字=>4億ペアなので断念した。常用漢字1945文字を対象とする。 ActiveRecordやら何やら使いたかったけど、普通にやると結構面倒だったのでrailsでプロジェクト作ってscript/runnerした。 ファイル rakedb:migrateでcreate_table :chars do |t| t.column :char, :string t.column :byte, :integer end add_index :chars, :char add_index :chars, :byteこんなのとcreate_table :similarities do |t| t.column :c
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く