Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Pythonと形態素解析に関するmisshikiのブックマーク (1)

  • 続・MeCabの分かち書きを並列処理で高速化する

    まとめPythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日形態素解析器であるMeCabを用いると、日語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

    続・MeCabの分かち書きを並列処理で高速化する
    misshiki
    misshiki2022/11/18非公開
    “Pythonプログラムのみで巨大なテキストファイルに対してMeCabの分かち書きを並列で実行する方法を紹介し、それらの速度を実験的に比較。MeCab以外のツールを使う場合にも汎用的に利用可能なコードスニペットを提供”
    • 残りのブックマークを読み込んでいます1

    お知らせ

    公式Twitter

    • @HatenaBookmark

      リリース、障害情報などのサービスのお知らせ

    • @hatebu

      最新の人気エントリーの配信

    処理を実行中です

    キーボードショートカット一覧

    j次のブックマーク

    k前のブックマーク

    lあとで読む

    eコメント一覧を開く

    oページを開く

    はてなブックマーク

    公式Twitter

    はてなのサービス

    • App Storeからダウンロード
    • Google Playで手に入れよう
    Copyright © 2005-2025Hatena. All Rights Reserved.
    設定を変更しましたx

    [8]ページ先頭

    ©2009-2025 Movatter.jp