テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方 こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。 適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
Apache Commons ExecとはJavaプログラムから外部プロセスを実行する一般的な方法としては、標準ライブラリに用意されているjava.lang.ProcessBuilderクラスや、java.lang.Runtime.exec()メソッドがあります。しかしこれらのクラス/メソッドによるサポートは限定的であり、あまり使い勝手が良くないことでも知られています。「Apache Commons Exec」(以下、Commons Exec)は、そのような標準的な方法に変わる外部プロセスの起動手段を提供してくれるオープンソースのライブラリです。特にプロセスに対する適切な入出力処理が、比較的簡単に記述できるようになっている点が大きなメリットです。 Commons Execはこのページよりダウンロードできます。本稿執筆時点での最新版はバージョン1.1です。ダウンロードしたファイルを解凍
巷で話題のFluentdをいじってみてわかったことをいろいろ Fluentdって? 開発者の古橋さんのスライドによると “It’s like syslogd , but uses JSON forlog messages’’ syslogdのようなものだけど、ログメッセージにJSON使ってますよ ってことらしいです。 詳しくはこのエントリー http://d.hatena.ne.jp/viver/20110929/p1 もっとわかりやすく 例えば、apacheのこんなログが 192.168.0.1 - user1 [25/Dec/2012:21:49:06 +0900] "GET /home HTTP/1.1" 200 260 "-" "Mozilla/5.0 (Macintosh; IntelMac OS X 10_7_5)AppleWebKit/537.11 (KHTML,
こんにちは。いつの間にか、サーバー側のこむろです。 最近、クライアント側も高性能になってきたため、色々な大事な情報を格納したりすることも増えてきました。またサーバーとの通信によって最新の情報を取得することも多いです。そんな中、暗号化や符号化は重要な技術ですが、自分で実装するのはなかなか骨が折れます。 しかし、最近のプログラム言語では、1から自分で実装しなくても、便利なクラスやライブラリが含まれていることが多いと思います。今回は自分の備忘録も含めて、自分のよく使う暗号化やら符号化やらのプログラムの断片をまとめてみました 今回は、Javaを例にサンプルコードをざざっと記述してみました。Javaには元から色々な便利な暗号に関するクラスやライブラリが用意されているので、存分に利用していきたいと思います。 Base64 Encode/Decode バイナリ等のダメ文字を含むデータを、64種類の印字可
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く