Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

タグ

関連タグで絞り込む (5)

タグの絞り込みを解除

learningとcharacterに関するsometkのブックマーク (1)

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

    • 残りのブックマークを読み込んでいます1

    お知らせ

    公式Twitter

    • @HatenaBookmark

      リリース、障害情報などのサービスのお知らせ

    • @hatebu

      最新の人気エントリーの配信

    処理を実行中です

    キーボードショートカット一覧

    j次のブックマーク

    k前のブックマーク

    lあとで読む

    eコメント一覧を開く

    oページを開く

    はてなブックマーク

    公式Twitter

    はてなのサービス

    • App Storeからダウンロード
    • Google Playで手に入れよう
    Copyright © 2005-2025Hatena. All Rights Reserved.
    設定を変更しましたx

    [8]ページ先頭

    ©2009-2025 Movatter.jp