Movatterモバイル変換

misshiki id:misshiki

形態素解析に関するmisshikiのブックマーク (18)

オーストラリア市販AIを利用する場合のプライバシーのガイダンスと生成的AIを訓練する際に個人データを利用する開発者向けガイダンス (2024.10.21) - まるちゃんの情報セキュリティ気まぐれ日記
misshiki2024/11/25
“オーストラリア市販AIを利用する場合のプライバシーのガイダンスと生成的AIを訓練する際に個人データを利用する開発者向けガイダンス (2024.10.21)”
人工知能
形態素解析
リンク
Google DeepMind、AIが生成したテキストを見分ける電子透かし技術「SynthID Text」をオープンソースで公開
GoogleのAI（人工知能）研究部門Google DeepMindは2024年10月23日（米国時間）、AI生成テキストを識別できる電子透かし技術「SynthIDText」をオープンソースで公開した。 SynthIDは、さまざまなディープラーニングモデルとアルゴリズムを使用して、人間には知覚できない電子透かしをAI生成コンテンツに、元のコンテンツを損なうことなく直接埋め込む技術だ。任意のコンテンツをスキャンし、電子透かしが埋め込まれている可能性をスコア化して、コンテンツやその一部がGoogleのAIツールで生成されたかどうかをユーザーが判断できるという。Google DeepMindは「AIが生成したコンテンツを識別できるようにすることは、情報の信頼性を高める上で非常に重要であり、SynthIDは、このAIの安全性の問題に対する有望な技術ソリューションだ」と述べている。 SynthI
misshiki2024/10/28
“Google DeepMindは2024年10月23日（米国時間）、AI生成テキストを識別できる電子透かし技術「SynthID Text」をオープンソースで公開した。”
Google
DeepMind
人工知能
自然言語処理
形態素解析
リンク
日本語形態素解析 Web API のユーザ辞書機能で解析結果をカスタマイズ
こんにちは。LINEヤフー株式会社で自然言語処理の開発を担当している牧野です。今回は、Yahoo!デベロッパーネットワークから公開しているテキスト解析 WebAPI の「日本語形態素解析」で使えるよ...
misshiki2023/11/08
“ Web API の「日本語形態素解析」で使えるようになった追加機能のユーザ辞書を紹介します。このユーザ辞書を使うと、自分だけのオリジナルの辞書で独自の解析が可能です。”
形態素解析
リンク
続・MeCabの分かち書きを並列処理で高速化する
まとめPythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る処理: multiprocessingを用いた並列処理書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合はじめに日本語形態素解析器であるMeCabを用いると、日本語のテキストに対する解析や処理が簡単に実行できます。特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の
misshiki2022/11/18
“Pythonプログラムのみで巨大なテキストファイルに対してMeCabの分かち書きを並列で実行する方法を紹介し、それらの速度を実験的に比較。MeCab以外のツールを使う場合にも汎用的に利用可能なコードスニペットを提供”
Python
形態素解析
自然言語処理
リンク
[自然言語処理] NEologdを自前で改造して使っている話
NEologdは新語や固有名詞に強い形態素解析用辞書として有名ですが、2020年の9月を最後に更新がありません。実用上の問題は大きく分けて2つあります。新語・固有名詞が供給されない不具合が修正されない 1つ目も重要なのですが、今回フォーカスするのは2つ目の点です。私は個人開発でazooKeyという日本語入力アプリケーションを開発しています。かな漢字変換用辞書の生成の目的でNEologdを使っているのですが、この用途では品詞と読みの正確性がクリティカルになってきます。しかしNEologdの辞書では「ヤバい」が固有名詞になっていたり、「光GENJI」に「イチ」と読みがついていたりします。これは回り回ってかな漢字変換の性能に影響を与えるので、可能な限り修正したい不具合です。しかし、更新がない以上、自前でどうにかするしかありません。不具合への対処当初この手の問題は実行時に動的に適用する
misshiki2022/10/31
“NEologdは新語や固有名詞に強い形態素解析用辞書として有名ですが、2020年の9月を最後に更新がありません。実用上の問題で不具合が修正されないにフォーカス”
形態素解析
リンク
MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog
こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato（ヴィブラ〰ト）を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。github.com本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。自然言語処理の要素技術に興味のある方データ構造・アルゴリズムに興味のある方Rustでの自然言語処理に興味がある方 Vibratoについて最小コスト法による形態素解析単語ラティスの構築最小コスト経路の計算高速化の取り組み辞書引きのキャッシュ効率化実装での注意点連接コスト参照のキャ
misshiki2022/09/20
“MeCab互換の形態素解析器Vibrato（ヴィブラ〰ト）”
自然言語処理
形態素解析
リンク
GitHub - daac-tools/vibrato: 🎤 vibrato: Viterbi-based accelerated tokenizer
You signed in with another tab or window. Reload to refresh yoursession. You signed out in another tab or window. Reload to refresh yoursession. Youswitched accounts on another tab or window. Reload to refresh yoursession. Dismiss alert
misshiki2022/08/24
VibratoはMeCabのRust実装でより高速。
形態素解析
Rust
リンク
【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク
いつもテキスト解析WebAPIをご利用いただきありがとうございます。テキスト解析WebAPIにおける一部APIの後継バージョン（V2）リリースと仕様変更についてお知らせいたします。 ■ 対象API 日本語形態素解析自然言語理解 ■ 変更箇所リクエストURLが変わります GETリクエストは廃止となり、POSTリクエストのみになりますリクエストパラメータが変わります（一部パラメータが廃止されます）レスポンス形式・フィールドが共に変更になります V2の仕様の詳細につきましては以下のページをご覧ください。日本語形態素解析自然言語理解 V1終了予定時期につきましては2022年11月末を予定しております。ご迷惑をおかけしますが、なにとぞご了承ください。今後ともテキスト解析WebAPIをよろしくお願いいたします。
misshiki2022/07/19
APIの呼び出しなどが仕様変更されたらしい。使っていないけど。
自然言語処理
形態素解析
リンク
形態素解析とは｜意味・活用例と日本語の自然言語処理ツールを紹介！
医療や交通、防犯、農業など、近年はさまざまな業界でAI・人工知能が活用されるようになりました。それは私たちが日常的に使用する「言語」においても同様で、機械翻訳や、かな漢字変換といった「自然言語処理」にもAIが多く活用されています。今回は自然言語処理を行うツールの解説や、自然言語処理を行う過程で使用される形態素解析について、その意味や代表的なツールをご紹介します。形態素解析は、自然言語処理（NLP）の一部です。アルゴリズムを有する自然言語で書かれている文を、言語において意味を持つ最小の単位(＝形態素)に細分化し、一つひとつの品詞・変化などを判別していく作業のことを指します。「形態素」は言語学の用語であり、意味を持つ表現要素の最小単位のことなのです。この形態素解析を行うことで意味のある情報の取得ができるようになり、それぞれの形態素に「形容詞」「名詞」「助詞」といった品詞を適切に割り当てて
misshiki2022/07/13
形態素解析
リンク
形態素解析器の比較アプリを作ってみた【NEologd】 - Qiita
import os os.system('git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git && cd mecab-ipadic-neologd && ./bin/install-mecab-ipadic-neologd -n -y -u -p $PWD') os.system('git clone --depth 1 https://github.com/neologd/mecab-unidic-neologd.git && cd mecab-unidic-neologd && ./bin/install-mecab-unidic-neologd -n -y -u -p $PWD') importstreamlit as st import MeCab st.set_page_config(p
misshiki2022/04/19
形態素解析
リンク
Jumanpp1.04/KNPの環境構築方法
この記事はGMOアドマーケティング Advent Calendar 2021 8日目の記事です。こんにちは。GMOアドマーケティングのS.Rです。今回はJumanppと構文分析のツールKNPを連携する方法を皆さんへ紹介します。 KNPとは構文解析については京都大学黒橋・褚・村脇研究室の公式サイトで下記のように紹介されています。 KNPは同じく京都大学橋・褚・村脇研究室で開発されている日本語の構文解析を行うシステムです。形態素解析システムJUMANの解析結果(形態素列)を入力とし、文節および基本句間の係り受け関係，格関係，照応関係を出力することができます。引用元 | 京都大学大学院情報学研究科知能情報学専攻黒橋・褚・村　脇研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )ColabのInstanceを作る今回はGoogleのMachine
misshiki2021/12/08
“Jumanppと構文分析のツールKNPを連携する方法”
自然言語処理
形態素解析
リンク
WebAssemblyの形態素解析器GoyaをRustで作った
Goyaという形態素解析器をRust で作りました。本記事は利用者目線でGoya の紹介をします。技術的な詳細については別途記事を書きます。形態素解析とは？（このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください）形態素解析（けいたいそかいせき、Morphological Analysis）とは、文法的な情報の注記の無い自然言語のテキストデータ（文）から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの形態素の品詞等を判別する作業である。 —形態素解析 -Wikipedia 例えば早口言葉の”すもももももももものうち”（スモモも桃も桃のうち）という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ
misshiki2021/12/01
“Goyaという形態素解析器を Rust で”
形態素解析
Rust
リンク
オープンソースとしての形態素解析器Sudachi / WAP NLP Tech Talk #4
https://github.com/WorksApplications/Sudachi WAPNLP Tech Talk#4 Sudachi ユーザーLT大会 - co…
misshiki2021/11/29
34ページのスライド資料。概要紹介。
形態素解析
リンク
MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】
こんにちは！monachan_papaです。前回までで、形態素解析の基本的なことについてやりました。男は黙ってサッポロビールを形態素解析してみよう！【Pythonによる自然言語処理超入門】川端康成『雪国』の冒頭を形態素解析してみよう！【Pythonによる自然言語処理超入門】さて、このシリーズで使っている形態素解析器はMeCabを採用していますが、MeCabの辞書について今回ひとつ取り上げてみたいと思います。 MeCabの辞書とは？形態素解析は、辞書によって行われています。とてもたくさんの単語情報を網羅したデータベースみたいなものです。このデータベースがあるからこそ初めて形態素解析ができるといえるでしょう。 import MeCab t = MeCab.Tagger() print(t.parse('男は黙ってサッポロビール')) 男名詞,一般,*,*,*,*,男,オトコ,オトコ
misshiki2021/11/19
“MeCabの辞書について”
自然言語処理
形態素解析
リンク
形態素解析の可視化ツール「ViSudachi」を使ってみる
当記事は、ViSudachiの開発初期に書かれたものです。今はより簡単に利用することができます。以下の記事もご参照ください: 概要 WorksApplications/ViSudachi: A tool for visualizing the internal structures of morphological analyzer Sudachi形態素解析器Sudachiの解析結果を可視化するツール ViSudachi が開発中らしいGitHubで公開されていたので使ってみた（2021年11月3日。まだ公式発表はされていない） kagome や janome にもラティス可視化機能はあるよ形態素解析の可視化とは多くの形態素解析器では、全ての解析候補を表現する「ラティス」というデータ構造を構築し、その上での「最短経路」を探す問題として解析を定式化しています（最小コスト法）。単語の出
misshiki2021/11/05
“形態素解析器Sudachiの解析結果を可視化するツール ViSudachi が開発中らしい”
形態素解析
自然言語処理
リンク
GitHub - WorksApplications/ViSudachi: A tool for visualizing the internal structures of morphological analyzer Sudachi
You signed in with another tab or window. Reload to refresh yoursession. You signed out in another tab or window. Reload to refresh yoursession. Youswitched accounts on another tab or window. Reload to refresh yoursession. Dismiss alert
misshiki2021/11/05
形態素解析装置Sudachiの内部構造を可視化するツール。
形態素解析
自然言語処理
リンク
形態素解析を行うだけのバッチをつくる - クックパッド開発者ブログ
研究開発部の原島です。今日は表題の渋いバッチをつくった話をします。あっちでも形態素解析、こっちでも形態素解析みなさん、形態素解析してますか？してますよね？クックパッドでもさまざまなプロジェクトで形態素解析をしています。いや、むしろ、しすぎです。プロジェクト A でレシピを解析し、プロジェクト B でもレシピを解析し、プロジェクト C でもレシピを解析し、... といった具合です。ちなみに、形態素解析（の結果）が必要なプロジェクトとしてはレシピの分類やレコメンド、各種分散表現（e.g.,word2vec）や BERT の学習などがあります。もちろん、最終的に得たい解析結果が違うのであれば問題ありません。しかし、私が見たかぎり、ほとんどの場合は同じ（もしくは、同じにできそう）でした。であれば、解析器をインストール（→Dockerfile を試行錯誤）解析対象を取得（→SQL
misshiki2021/03/09
形態素解析器の共通化の事例。各開発者が個別にインストールしたりするのは非効率なので。
自然言語処理
形態素解析
リンク
Sudachi辞書のつくり方
単語分散表現と事前学習モデル - chiVe _ chiTra 利活用のための下準備 at WAPNLP Tech Talk #5
misshiki2020/12/16
27ページのスライド資料。mecabなど他の形態素解析との比較もある。
自然言語処理
形態素解析
リンク
1