
リクルートテクノロジーズの大杉です。 広島市立大学修士2回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ(行数など)に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな

業務経歴: 2012年株式会社サイバーエージェント入社。現在、子会社WAVESTにてJCJK向けメイクと自撮りの研究サービス「メイクme」のシステム責任者を担当。主にサーバサイドを担当しています。 概要 膨大なツイートから好みの女の子を見つけたいです。 好きな女の子のタイプのキーワードを入力すると、該当するアカウントを出力するステキなシステムを作ります。 作成したコードやデータはこちら https://github.com/inkenkun/tech_twitter 目次 1. 女の子だけのアカウントを取得したいTwitterには性別という属性がないため、まずは女の子のアカウントを何とかして大量に取得してこなければなりません。 おっさんとマッチングされても困りますからね。 1-2. 女性単語辞書を作る。 確実にこれは女性だってわかるアカウントを30個ほど目視で取得します。 そして抽出した
(これまでのあらすじ)前回、パソコン工房から「統計処理用のPCのPR企画をやりたい」と依頼を受けて、はてなエンジニアと一緒にword2vecで遊んでみた編集部。読者の皆さまにも好評だったので、調子に乗って第2弾を実施することにしました。今回は「"word2vec"で艦これ加賀さんから乳を引いてみる」で一世を風靡した、あの統計屋さんが全面協力です! 記事の最後にはプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) 皆さまは前回の記事を、覚えておりますでしょうか? ▽Python -Perl +Java = ?はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた -はてなニュース パソコン工房の統計処理用PC ×はてなブログのデータ ×word2vec という記事でした。ブックマークコメントから感想をいくつかピックアップし

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非
「高速文字列解析の世界」という大変すばらしい本が発売された。わりと敷居が高い本ではあるので読む前に知っておくとよさそうなことを書いておく。 「高速文字列解析」とは本書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。 キーワードは3つ オビにも書いてあるけれど、本書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基本的な道具として本書の色々なところで出て
今回から2回に渡り、Ubuntuで利用可能ないくつかのソフトウェアを組み合わせて、入力テキストを喋る仕組みを作るレシピをお届けします。Mbrola、MeCabを使って音声を合成し、Linuxのサウンドサブシステムを通じて音声を出力します。 MBROLAプロジェクトとは MBROLAとは、汎用音声合成エンジン「mbrola」と、mbrolaで利用可能な音声データベースを開発するプロジェクトです[1]。1995年にベルギーのFaculte Polytechnique de Mons大学のTCTS研究室が開始しました。音声合成エンジンもデータベースもバイナリーの形で提供されているためオープンソースソフトウェアではありませんが、フリーなライセンス[2]のもとで利用できます。 DebianやUbuntuではmbrolaのパッケージが提供されています。Ubuntuソフトウェアセンターでmbrolaを
Natural Language Toolkit¶ NLTK is a leading platform forbuildingPython programs to work with human language data.It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite oftext processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strengthNLP libraries, and an ac
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日本語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日本語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

ここで,d_qとd_dは見出し語q,dが属する意味属性の深さである.また,c_qdは見出し語qが属する意味属性と見出し語dが属する意味属性の共通の上位属性の中で最も下の階層に位置するカテゴリの深さである. 3 実装本章では,関連度計算をシステムに実装する際に必要なライブラリ等について紹介する. 3.1 EPWING形式辞書 EPWINGとは,電子辞書の標準形式のことである.EPWINGのサブセットがJIS X 4081日本語電子出版検索データ構造として制定されており,様々な機種やOS用に検索ソフトが開発されている.EPWINGは拡張されており,現在では計6つの仕様とEPWING STがある. EPWING形式は,電子出版の共通フォーマットとなっており,広辞苑をはじめ,新英和・和英中辞典やジーニアス英和大辞典や三省堂スーパー大辞林など様々な辞書がEPWING形式となっている.本稿で扱う日本
LINEヤフーが提供するテキスト解析WebAPI 日本語形態素解析 日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。 かな漢字変換 ローマ字、ひらがなの文を文節に区切り、変換候補を提示します。短い文字列から変換候補を推測するモードも提供します。VJEと同じ方式のかな漢字変換です。 ルビ振り 漢字かな交じり文に、ひらがなとローマ字のふりがな(ルビ)を付けます。 校正支援 日本語文の校正作業を支援します。文字の入力ミスや言葉の誤用がないか、わかりにくい表記や不適切な表現が使われていないかなどをチェックします。 日本語係り受け解析 日本語文の係り受け関係を解析する機能を提供します。 キーフレーズ抽出 日本語文を解析し、特徴的な表現(キーフレーズ)を抽出します。 自然言語理解 日本語文を解析し、情報の抽出を行う機能を提供します。 固有表現抽出 日本語文を解析し

"文脈を理解する"独自のセマンティック自然言語処理エンジンを開発 〜次世代のテキストデータ解析の試験利用にご協力頂けるユーザーを募集〜 株式会社ブレインパッド(本社:東京都品川区、代表取締役社長:草野 隆史、東証マザーズ証券コード:3655、以下ブレインパッド)は、ソーシャルメディアの台頭により注目されている、"消費者の声"であるウェブ上での口コミ情報や発言、書き込みなどのテキストデータを解析し、有用な情報を抽出する「自然言語処理(注1)エンジン」を開発中です。この自然言語処理エンジンは「"文脈を理解する"テキストデータ解析」、すなわち「セマンティック技術(注2)」の実現をコンセプトに開発しており、従来の言語処理サービスにはない独自のものとなります。 ブレインパッドでは、本サービスの公開を2012年夏頃に予定しております。 このたび、ブレインパッドでは本サービスの品質向上を目的として、開発

少し昔に流行したマルコフ連鎖で文章を作る話、ちょっと気になってざっくり作ってみた。 どっかから文章をクロールしてくる MeCabとかで形態素解析 マルコフ連鎖を作る 組み合わせる 今回はDMM.R18のレビューから適当にコピーしてきた。形態素解析したものからマルコフ連鎖を作る。 位 から 連続 から 連続 舌 連続 舌 上 舌 上 発射ぐぐってみると、どうやら3階のマルコフ連鎖がよい、とのことらしい。3階と言われてもよく知らないが、まあ3つってことでしょう。Perlで実装する場合、先頭の文字をキーにして、残りを値、最後の要素を次のキーに・・・とすれば2以上の任意のN階のデータが使える。 ただ組み合わせただけでもそれなりになるが、字数の範囲(たとえば100〜200の範囲とか)を決めた方が文章っぽいものができる。とりあずパラグラフを作って、字数の範囲に収まってなかったら捨てる、を繰り返すだけで
覚え書きみたいな感じ。Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。 バラバラになってしまった「嵐にしやがれ」 これを、固有名詞と判断させるためにどうしたらいいのか。はてなキーワードとwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。 ということでがんばってみた。 【主な参考ページ様】 MeCabの辞書をはてなキーワードとWikipediaで鍛える mecab辞書にwikipediaのタイトル名を追加 【はてなキーワード編】 ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv) キーワードIDをついてない方を選んだ。 で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。 例えばこんな感じ。 嵐にしやがれ
12月にさくさくテキストマイニングで発表したpureRubyによる形態素解析エンジンをgem化しました。 まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが、いちおう動くレベル*1になったので公開します。 注意事項 バージョン0.0.xのうちは、インタフェースや辞書フォーマットは頻繁に変更される予定です。 ある程度安定したら0.1.0出します。 今のところ、Ruby1.9系専用です。 取得 gem install okuraでインストールできます。 ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します。 動作確認はMeCab用NAIST辞書で行いました。 最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6
テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう
英語版記事を日本語へ機械翻訳したバージョン(Google翻訳)。 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。 翻訳後、{{翻訳告知|en|Natural language processing|…}}をノートに追加することもできます。Wikipedia:翻訳のガイドラインに、より詳細な翻訳の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く