Movatterモバイル変換

«Prev ||1 || Next»

2010/02/27

英語でない部分のスペースを削除する

下記のようなわざとスペースがところどころに挿入されている日本語を形態素解析したいと思って、前処理として余計なスペースを取り除く処理を書こうとしたのですが、思いのほか手こずってしまったので、後学のためにメモ。

str = <<EOSちょっとワケあって MS のナレッジベースを検索していたら最後に「The behavior is by design」と書いてあるのを見つけてしまいました。EOS

† はじめに書いたコード

単純にスペースを削除するようなコードなのですが、英語の部分があると単語が全部つながってしまうのでこれはNG。

puts str.gsub(/ +/,'')#=>ちょっとワケあってMSのナレッジベースを検索していたら最後に「Thebehaviorisbydesign」と書いてあるのを見つけてしまいました。

† 最終的に書いたコード

最終的に書いたコードは下記。
文字クラスの指定が16進になっていますが、これが半角の英数字記号を表しています^*1。

puts str.gsub(/([^\x21-\x7E]) +([^\x21-\x7E])/,'\1\2')#=>ちょっとワケあって MS のナレッジベースを検索していたら最後に「The behavior is by design」と書いてあるのを見つけてしまいました。

at 16:23 |

2010/02/27

すっかり忘れていましたが、このブログも6周年になりました。
公私ともに忙しいので、更新するのが辛くなってきましたが、これからもがんばりたいと思います。

at 13:21 |

«Prev ||1 || Next»

サイト内検索

検索ワードランキング

へぇが多いエントリ

閲覧数が多いエントリ