はじめに ikawaha.hateblo.jp これの続編です.callback関数を使うようにして,返値でヒープを使わないようにしたらパフォーマンスもちょっと改善しました. 背景 common-prefix search(共通接頭辞検索)とは「電気」「電気通信」「電気通信大学」というキーワードがあったときに, 入力が「電気通信大学大学院」だったら,これらの「電気」「電気通信」「電気通信大学」という共通の prefix を持ったキーワードを抽出する操作のことです.形態素解析の辞書引きで,ある位置から始まる形態素の候補をすべて列挙するためにこの操作が実装されているんですが, 抽出されるキーワードごとにキーワードのidと長さを配列にして返していました. そうすると,この返値の配列のメモリ確保で結構な量が確保されてはGCされるということを繰り返してしまうわけで... というのが背景です.go
はじめに kagome はgoroutine セーフに作ってあるんですが,あんまり並列実行的なサンプルとか書いてないなと思って並列実行でテキストに出てくる名詞を引っこ抜いて数えるサンプルを作りました. あと,昨日 suzuken =san が形態素解析をした後の品詞が取り出しにくいよという Issue を上げてくださって,Token に Pos() という品詞を取り出すメソッド追加しました.今までは, if t := tok.Features(); len(t) > 0 && t[0] == "名詞" { // 名詞の時の処理 } と書いていたのを if tok.Pos() == "名詞" { // 名詞の時の処理 } と書けるようになりました.suzuken = san ありがとうございます. ( '-`).oO( 品詞以外も便利関数欲しいところですが,辞書によって辞書内容がかなり自
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く