Movatterモバイル変換

dominion525 id:dominion525

自然言語処理に関するdominion525のブックマーク (18)

Deep Learningでスケジュール調整してみる、ための自然言語処理をしてみた | GREE Engineering
GREE Advent Calendar 2015の1日目担当のふじもとです、グリー株式会社でCTOをしてます、もう10年目です。今年もChristmasに向けてみんなで毎日更新していきますので、ぜひぜひよろしくおねがいします。わりとどうでもよい序去年、一昨年は25日担当だったんですが、今年は (なんでかは知らないけど) 1日目書くことになったので、ちょっと趣向を変えて技術的な内容にしてみたいと思います。なおタイトルに、Deep Learningだの自然言語処理 (以下NLP) だの書いてますが、ぼくは機械学習やNLP、はたまたDeep Learningの専門家でもなくって、たしなむ程度に勉強していたくらいです。ので、この記事はアルゴリズムについて詳しくなろうっていうよりは、いろいろ試してみたっていう方向になってます。 Summary わりと単純なCNN + 少ないコーパスでも、タ
dominion5252015/12/01
自然言語処理
機械学習
あとで読む
リンク
文法圧縮入門：超高速テキスト処理のためのデータ圧縮（NLP2014チュートリアル）
言語処理学会第２０回年次大会（2014/3）のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは，入力テキストをよりコンパクトな文脈自由文法（CFG）に変換する圧縮法の総称である．文法圧縮の強みは圧縮テキストを展開すること無く，検索等のテキスト処理を効率よく行える点にある．驚くべきことにその処理速度は，元テキスト上での同じ処理を理論的に，時には実際にも凌駕する．また近年，ウェブアーカイブやログ，ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている．しかしながら，文法圧縮についての初学者向けの解説資料はまだまだ少ない．そこで本チュートリアルでは，文法圧縮の歴史的背景から最新動向までを幅広く紹介する．具体的には文法変換アルゴリズム，圧縮テキスト上での文字列パターン検索，文法圧縮に基づく省メモリデータ構造等の解説を行う．
dominion5252014/03/19
圧縮パターン照合とかできるのかー。
あとで読む
アルゴリズム
自然言語処理
リンク
自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！
概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ
dominion5252014/03/10
おもしろそう。
自然言語処理
アルゴリズム
リンク
Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット
先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日本語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日本語形態素解析器Kuromojiが導入されました。これにより、日本語ドキュメントに対して形態素解析に基づく単語分割が可能になります。従来、Lucene/Solrで日本語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。本記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた
dominion5252012/11/22
Solrのkuromoji対応の件について。
自然言語処理
開発
リンク
kuromoji - japanese morphological analyzer
About Kuromoji Kuromoji is an open sourceJapanese morphological analyzer written inJava. Kuromoji has been donated to the Apache Software Foundation and provides theJapanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, butit can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so
dominion5252012/11/22
Pure Javaな日本語形態素解析エンジン。
自然言語処理
開発
リンク
http://mednlp.jp/influ/
dominion5252011/03/10
検索語などからインフルエンザの流行具合を推測する「Flu Trends」の国内Twitter版みたいな感じかな。
Webサービス
自然言語処理
リンク
未知語の読み推定のためのアライメントツールmpalignerを試してみた - nokunoの日記
「mpaligner」という名前の未知語の読み推定のためのアライメントツールが公開されていましたので、試してみました。mpaligner mpaligner とはある文字列とある文字列を最小単位でアライメントするオープンソースのプログラムです．例えば，表記と読みのアライメントや遺伝子のアライメントが挙げられます．図1のように表記と読みを最小単位でアライメントすることで，単漢字辞書といった小さい単位の辞書を容易を構築できます．これは，未知語に対する読み付与などに使用されます．ライセンスは GNU GPL です．使用方法は圧縮ファイル内のREADMEを参照してください．このライブラリに、例えばmozcの辞書を読み込ませてアライメントを推定するには、以下のようにする。cat dictionary0* | awk -F "\t" '{OFS="\t";print $5, $1}' |
dominion5252011/03/05
自然言語処理
リンク
自然言語処理
dominion5252011/03/01
電子版が公開されて1994年からのものが読める
自然言語処理
資料
リンク
国際化時代の40カ国語言語判定
言語判定とは、テキストが何語で書かれたものか推定することです。 99.8%の精度で49言語の判定可能なJavaライブラリを開発、オープンソースとして公開しました。
dominion5252011/01/16
自然言語処理
リンク
機械の代わりに人間が学習入門
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
dominion5252011/01/16
自然言語処理
アルゴリズム
機械学習
リンク
IBM製スパコン「Watson」、番組の練習ラウンドでクイズチャンピオンに勝利
IBMのスーパーコンピュータ「Watson」が米国のクイズ番組「Jeopardy!」の練習ラウンドに出場し、同番組のチャンピオンKen Jennings氏およびBrad Rutter氏と対戦した。Watsonは冷蔵庫10台分ほどの大きさのラックにIBMの「POWER7 Systems」を搭載したLinuxシステム。練習ラウンドの結果はWatsonの勝利で、終了時点の賞金は4400ドルだった。2位はJennings氏で3400ドル、3位はRutter氏で1200ドル。100万ドルを賭けて行われる本番の対決は米国時間2月14日、15日、16日に放送予定だ。 IBMは現在、Watsonを主にヘルスケアに利用することを検討している。Watson DeepQAテクノロジの研究責任者David Ferrucci氏によると、Watsonには自己評価や学習の能力があるという。
dominion5252011/01/14
かなり未来っぽい。Watsonは(略)「迅速かつ正確に自然言語での質問に正解する」という人間の能力に対抗することを目指して開発された、とのことhttp://bit.ly/ifTWOx
自然言語処理
リンク
古文翻訳装置の特長古文自動翻訳研究センター
古文翻訳装置とは現代文と古文の相互変換ができるソフトウェアです。たとえば古文から現代文への変換なら、「ゆかしかりしかど、神に参るこそ本意なれと思ひて、山までは見ず。」と入力すると、「興味を引かれたけれども、神に参拝することは本当の心であると思って、山までは見ない。」と、現代語訳が可能な業界初の翻訳ソフト(多分)です。
dominion5252010/07/27
地味に翻訳例にネタが仕込んである件
tool
自然言語処理
リンク
言語処理のための機械学習入門を読んだ - 射撃しつつ前転改
言語処理のための機械学習入門という本が出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。まだざっと眺めただけだが、ラベルを人手でつけるのに隠れマルコフモデルと言うのは本来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ対数線形モデルと最大エントロピーモデルは同じものだよ出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよといった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料
dominion5252010/07/12
自然言語処理
資料
リンク
ピジン言語 - Wikipedia
ピジン言語（ピジンげんご、pidgin language、または単にpidgin）とは2ヶ国語が混合することにより生み出された通用語を指す名称。現地語を話す現地人と、現地語の話せない外国語を話す貿易商人などとの間で異言語間の意思疎通のために互換性のある代替単語を用い自然に作られた接触言語で、共通言語が無い複数の集団が接触する際にコミュニケーション手段として形成される。英語と現地の言語が混合した言語を「ピジン英語」といい、英語の“business”が中国語的に発音されて“pidgin”の語源となったとされている。フランス語をベースにそれ以外の言語と混成したものは、「ピジンフランス語」と呼ばれる。例えば、“Long time no see.”（「お久しぶり」）は明らかに英語本来の構造とは異なっているが、それなりに意味が伝わる（中国語の很（very）久（long time）不（not）
dominion5252010/06/29
ピジン中国語って言えば、「コーテルイナーホー。イーガーコーテル、ソーハン、エンザーキー。」訳：餃子一人前持ち帰り。店内で餃子焼きめし唐揚げ一人前ずつ。
雑学
自然言語処理
リンク
はてなキーワードからMecCab辞書を生成する（Ruby版）
文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為（文字コードの問題かな）、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました（本当にこの方法で良いのか未確認）。辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は本来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使
dominion5252010/06/11
ruby
自然言語処理
リンク
テキスト解析:キーフレーズ抽出API - Yahoo!デベロッパーネットワーク
指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
dominion5252009/06/04
自然言語処理
リンク
川柳の自動生成アルゴリズムの紹介（どうしたら　機械で川柳　詠めるかな）
こんにちは。エイプリルフールに 1 日だけローンチしたGoogle 川柳、お楽しみいただけましたか？エイプリルフールが終わってしまったのでサービスはもうありませんが、せっかくなのでその裏側をすこしご紹介します。今回は、Google が人工知能 CADIE を開発し、その CADIE が世界中で面白いサービスを提供するという設定でGoogle 川柳を提供しました。人工知能 CADIE は架空のものですが、コンピューターによる川柳の自動生成を行ったのは、ウソではありません。ここでは、その川柳をコンピューターに生成させた手順を簡単にご紹介します。川柳とは何かを学習するまず、本物の川柳/俳句を Web 上から集めました。集めた作品を解析し、俳句/川柳にありがちな品詞の並びパターンを学習しました。「瞬間」を切り取る川柳/俳句には、「話題」が必要になります。これは、Web ページからラン
dominion5252009/04/03
アルゴリズム
google
自然言語処理
リンク
教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい
dominion5252009/03/27
自然言語処理
リンク
1