Movatterモバイル変換

sabro id:sabro

mecabに関するsabroのブックマーク (11)

記事のスクレイピングを機械学習で自動化 - Qiita
Help us understand the probl em. What isgoing on with this article?
sabro2018/10/22
スクレイピング
dom
mecab
リンク
顔文字をMeCabで形態素解析する - Haroperi.log
顔文字を形態素解析？テキストコミュニケーションにおける「身振り手振り言語」とも言われる顔文字は、目・鼻・口などの顔のパーツから構成されています。ところで顔文字をパーツごとに分割し、パーツの種類（品詞）を推定するというタスクは、形態素解析と同じ問題に帰着します。そこで今回私は、形態素解析器として使われているMeCabを用いて、顔文字を形態素解析してみました。デモまずはデモを試してみてください。 http://www.haroperi.info/cgi-bin/emoticon.cgi 実行結果未知語処理が苦手なようで、なかなか正確な形態素解析は行えませんが、教師データを解析してみると、以下のように綺麗に分割・品詞付与されます。詳細詳細はhttp://www.haroperi.info/emoticon/mecab.htmlに書きました。これ以上はどこにも書いていません。今後、M
sabro2012/06/23
形態素解析
顔文字
mecab
リンク
Pythonによる日本語自然言語処理 #pyconjp
Pythonによる日本語自然言語処理 #pyconjp - Presentation TranscriptPython @nokuno #pyconjp • Python 2.X •  •  •  •  •  @nokuno / id:nokuno •  #TokyoNLP •  Social IME / StaKK •  Web •  Python 2.X Python 2.X / read write UTF-‐8 “ ” decode encode Unicode u” ” # encoding: utf-‐8 u” “ decode encode MeCab•  MeCab• Python MeCab –  mecabipadic, mecab-
sabro2011/08/29
自然言語処理
mecab
python
リンク
livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク
突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語
sabro2011/05/16
自然言語処理
形態素解析
Wikipedia
mecab
リンク
テキスト解析を使ったシステム連携に。Webベースの形態素解析エンジン·Igo GAE MOONGIFT
Igo GAEはGoogle App Engine/Javaを使って形態素解析エンジンのIgoを動作させる。 [/s2If] Igo GAEはJava製/Google App Engine用のフリーウェア（ソースコードは公開されている）。日本語を解析するのに使われているのがいわゆる「形態素解析」だ。名詞や形容詞などに分割することによって、システムとの連携をしたり文書の意味を解析できるようになる。メイン画面方法は幾つか存在する。ローカルで行うならMeCabやKAKASI、ChaSenが有名だ。そしてWebサービスとして提供されているのがYahoo! Japanの日本語形態素解析 Webサービスになる。Yahoo!同様、Webベースで独自のシステムを使いたいならばIgo GAEを使ってみよう。 Igo GAEはJava製の形態素解析エンジンであるIgoをGoogle App Engine上に
sabro2011/01/24
mecab
形態素解析
リンク
窓の杜 - 【今日のお気に入り】読み上げ合成音声を簡単に編集・保存「ボイトレ先生」v1.0
sabro2009/11/26
mecab
net
windows
voice
リンク
MeCab: Yet Another Japanese Dependency Structure Analyzer
出力フォーマット $Id: format.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 MeCab は, ChaSen と同様, 出力のフォーマットを比較的自由に再定義することができます. また, 設定ファイルにフォーマットを複数記述しておき, 実行時にそれらを切り変えることが可能です. これは, MeCab 独自の機能です. 出力フォーマットの指定以下の 3つ出力フォーマットを変更することができます. node: 1つの形態素を出力, デフォルトは空文字 unk: 1つの未知語形態素を出力, デフォルトは node と同一フォーマット bos:形態素解析の結果に先だって出力 (header 的役割), デフォルトは空文字 eos:形態素解析の結果の後に出力 (footer 的役割), デフォルトは "EOS\n" 明示的に指定されない場合
sabro2009/10/24
mecab
リンク
日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft
今回はこの言葉の解析をMeCab＋NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。とりあえず実行してみるさっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,,テレビ東京名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 |テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京名詞,
sabro2009/10/24
mecab
algorithm
形態素解析
リンク
GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー！古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠
sabro2008/01/07
php
mecab
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう?グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
sabro2007/11/02
n-gram
mecab
google
search
リンク
MeCab REST Web Service — RIKIMA.com
日本語形態素解析器MeCabとは工藤拓氏作の日本語形態素解析器 MeCabは、日本語の文を単位(形態素)に分割、認定する自然言語処理ツールです。各スクリプト言語バインディングを備え、多くのツールで使われている優れたツールです。使用しているバージョンは次です。 MeCab 0.97 mecab-ipadic 2.7.0-20070610 mecab-python 0.97 素晴しいツールを作成、公開、保守されている工藤拓氏に感謝いたします。 MeCab REST Web Serviceとは MeCab REST Web Serviceとは、MeCabのpython bindingを利用して、Zope 上で実現した形態素解析のREST タイプのweb serviceです。日本語文を引数として受け付け、形態素解析結果をXML として表示、返します。利用法 MeCab
sabro2007/10/07
mecab
api
rest
リンク
1