GoogleのAI(人工知能)研究部門Google DeepMindは2024年10月23日(米国時間)、AI生成テキストを識別できる電子透かし技術「SynthIDText」をオープンソースで公開した。 SynthIDは、さまざまなディープラーニングモデルとアルゴリズムを使用して、人間には知覚できない電子透かしをAI生成コンテンツに、元のコンテンツを損なうことなく直接埋め込む技術だ。任意のコンテンツをスキャンし、電子透かしが埋め込まれている可能性をスコア化して、コンテンツやその一部がGoogleのAIツールで生成されたかどうかをユーザーが判断できるという。Google DeepMindは「AIが生成したコンテンツを識別できるようにすることは、情報の信頼性を高める上で非常に重要であり、SynthIDは、このAIの安全性の問題に対する有望な技術ソリューションだ」と述べている。 SynthI

まとめPythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日本語形態素解析器であるMeCabを用いると、日本語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

NEologdは新語や固有名詞に強い形態素解析用辞書として有名ですが、2020年の9月を最後に更新がありません。実用上の問題は大きく分けて2つあります。 新語・固有名詞が供給されない 不具合が修正されない 1つ目も重要なのですが、今回フォーカスするのは2つ目の点です。 私は個人開発でazooKeyという日本語入力アプリケーションを開発しています。かな漢字変換用辞書の生成の目的でNEologdを使っているのですが、この用途では品詞と読みの正確性がクリティカルになってきます。しかしNEologdの辞書では「ヤバい」が固有名詞になっていたり、「光GENJI」に「イチ」と読みがついていたりします。これは回り回ってかな漢字変換の性能に影響を与えるので、可能な限り修正したい不具合です。 しかし、更新がない以上、自前でどうにかするしかありません。 不具合への対処 当初この手の問題は実行時に動的に適用する
![[自然言語処理] NEologdを自前で改造して使っている話](/image.pl?url=https%3a%2f%2fcdn-ak-scissors.b.st-hatena.com%2fimage%2fsquare%2ff7001b7dfc7d22dcd61538c0130db50c22695e87%2fheight%3d288%3bversion%3d1%3bwidth%3d512%2fhttps%253A%252F%252Fres.cloudinary.com%252Fzenn%252Fimage%252Fupload%252Fs--gC6QxQwS--%252Fc_fit%25252Cg_north_west%25252Cl_text%253Anotosansjp-medium.otf_55%253A%2525255B%252525E8%25252587%252525AA%252525E7%25252584%252525B6%252525E8%252525A8%25252580%252525E8%252525AA%2525259E%252525E5%25252587%252525A6%252525E7%25252590%25252586%2525255D%25252520NEologd%252525E3%25252582%25252592%252525E8%25252587%252525AA%252525E5%25252589%2525258D%252525E3%25252581%252525A7%252525E6%25252594%252525B9%252525E9%25252580%252525A0%252525E3%25252581%25252597%252525E3%25252581%252525A6%252525E4%252525BD%252525BF%252525E3%25252581%252525A3%252525E3%25252581%252525A6%252525E3%25252581%25252584%252525E3%25252582%2525258B%252525E8%252525A9%252525B1%25252Cw_1010%25252Cx_90%25252Cy_100%252Fg_south_west%25252Cl_text%253Anotosansjp-medium.otf_34%253AMiwa%25252Cx_220%25252Cy_108%252Fbo_3px_solid_rgb%253Ad6e3ed%25252Cg_south_west%25252Ch_90%25252Cl_fetch%253AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzRmOTgwNWI4OGIuanBlZw%253D%253D%25252Cr_20%25252Cw_90%25252Cx_92%25252Cy_102%252Fco_rgb%253A6e7b85%25252Cg_south_west%25252Cl_text%253Anotosansjp-medium.otf_30%253AazooKey%25252520blogs%25252Cx_220%25252Cy_160%252Fbo_4px_solid_white%25252Cg_south_west%25252Ch_50%25252Cl_fetch%253AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzkyNDQ4NzBlMTUuanBlZw%253D%253D%25252Cr_max%25252Cw_50%25252Cx_139%25252Cy_84%252Fv1627283836%252Fdefault%252Fog-base-w1200-v2.png&f=jpg&w=240)
こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。github.com本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。 自然言語処理の要素技術に興味のある方 データ構造・アルゴリズムに興味のある方Rustでの自然言語処理に興味がある方 Vibratoについて 最小コスト法による形態素解析 単語ラティスの構築 最小コスト経路の計算 高速化の取り組み 辞書引きのキャッシュ効率化 実装での注意点 連接コスト参照のキャ
いつもテキスト解析WebAPIをご利用いただきありがとうございます。 テキスト解析WebAPIにおける一部APIの後継バージョン(V2)リリースと仕様変更についてお知らせいたします。 ■ 対象API 日本語形態素解析 自然言語理解 ■ 変更箇所 リクエストURLが変わります GETリクエストは廃止となり、POSTリクエストのみになります リクエストパラメータが変わります(一部パラメータが廃止されます) レスポンス形式・フィールドが共に変更になります V2の仕様の詳細につきましては以下のページをご覧ください。 日本語形態素解析 自然言語理解 V1終了予定時期につきましては2022年11月末を予定しております。 ご迷惑をおかけしますが、なにとぞご了承ください。 今後ともテキスト解析WebAPIをよろしくお願いいたします。

医療や交通、防犯、農業など、近年はさまざまな業界でAI・人工知能が活用されるようになりました。それは私たちが日常的に使用する「言語」においても同様で、機械翻訳や、かな漢字変換といった「自然言語処理」にもAIが多く活用されています。 今回は自然言語処理を行うツールの解説や、自然言語処理を行う過程で使用される形態素解析について、その意味や代表的なツールをご紹介します。形態素解析は、自然言語処理(NLP)の一部です。アルゴリズムを有する自然言語で書かれている文を、言語において意味を持つ最小の単位(=形態素)に細分化し、一つひとつの品詞・変化などを判別していく作業のことを指します。「形態素」は言語学の用語であり、意味を持つ表現要素の最小単位のことなのです。 この形態素解析を行うことで意味のある情報の取得ができるようになり、それぞれの形態素に「形容詞」「名詞」「助詞」といった品詞を適切に割り当てて

import os os.system('git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git && cd mecab-ipadic-neologd && ./bin/install-mecab-ipadic-neologd -n -y -u -p $PWD') os.system('git clone --depth 1 https://github.com/neologd/mecab-unidic-neologd.git && cd mecab-unidic-neologd && ./bin/install-mecab-unidic-neologd -n -y -u -p $PWD') importstreamlit as st import MeCab st.set_page_config(p

この記事はGMOアドマーケティング Advent Calendar 2021 8日目の記事です。 こんにちは。GMOアドマーケティングのS.Rです。 今回はJumanppと構文分析のツールKNPを連携する方法を皆さんへ紹介します。 KNPとは 構文解析については京都大学黒橋・ 褚・ 村脇 研究室の公式サイトで下記のように紹介されています。 KNPは同じく京都大学橋・ 褚・ 村脇研究室で開発されている日本語の構文解析を行うシステムです。形態素解析システムJUMANの解析結果(形態素列)を入力とし、文節および基本句間の係り受け関係,格関係,照応関係を出力することができます。 引用元 | 京都大学大学院情報学研究科知能情報学専攻黒橋・褚・村 脇研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )ColabのInstanceを作る 今回はGoogleのMachine

Goyaという形態素解析器をRust で作りました。本記事は利用者目線でGoya の紹介をします。技術的な詳細については別途記事を書きます。形態素解析とは? (このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください)形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 —形態素解析 -Wikipedia 例えば早口言葉の”すもももももももものうち”(スモモも桃も桃のうち)という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ

こんにちは!monachan_papaです。 前回までで、形態素解析の基本的なことについてやりました。 男は黙ってサッポロビールを形態素解析してみよう!【Pythonによる自然言語処理超入門】 川端康成『雪国』の冒頭を形態素解析してみよう!【Pythonによる自然言語処理超入門】 さて、このシリーズで使っている形態素解析器はMeCabを採用していますが、MeCabの辞書について今回ひとつ取り上げてみたいと思います。 MeCabの辞書とは?形態素解析は、辞書によって行われています。とてもたくさんの単語情報を網羅したデータベースみたいなものです。このデータベースがあるからこそ初めて形態素解析ができるといえるでしょう。 import MeCab t = MeCab.Tagger() print(t.parse('男は黙ってサッポロビール')) 男 名詞,一般,*,*,*,*,男,オトコ,オトコ

当記事は、ViSudachiの開発初期に書かれたものです。今はより簡単に利用することができます。以下の記事もご参照ください: 概要 WorksApplications/ViSudachi: A tool for visualizing the internal structures of morphological analyzer Sudachi形態素解析器Sudachiの解析結果を可視化するツール ViSudachi が開発中らしいGitHubで公開されていたので使ってみた(2021年11月3日。まだ公式発表はされていない) kagome や janome にもラティス可視化機能はあるよ形態素解析の可視化とは 多くの形態素解析器では、全ての解析候補を表現する「ラティス」というデータ構造を構築し、その上での「最短経路」を探す問題として解析を定式化しています(最小コスト法)。単語の出

研究開発部の原島です。今日は表題の渋いバッチをつくった話をします。 あっちでも形態素解析、こっちでも形態素解析 みなさん、形態素解析してますか?してますよね?クックパッドでもさまざまなプロジェクトで形態素解析をしています。 いや、むしろ、しすぎです。プロジェクト A でレシピを解析し、プロジェクト B でもレシピを解析し、プロジェクト C でもレシピを解析し、... といった具合です。ちなみに、形態素解析(の結果)が必要なプロジェクトとしてはレシピの分類やレコメンド、各種分散表現(e.g.,word2vec)や BERT の学習などがあります。 もちろん、最終的に得たい解析結果が違うのであれば問題ありません。しかし、私が見たかぎり、ほとんどの場合は同じ(もしくは、同じにできそう)でした。であれば、 解析器をインストール(→Dockerfile を試行錯誤) 解析対象を取得(→SQL

1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く