はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

ベビー用品の紙おむつのパッケージにデザインされた、可愛らしい赤ちゃんの写真。子どもが身近にいるとよく見かける光景ですが、その一つに違和感を覚えた人たちの投稿が、SNSで大きな注目を集めています。 話題になっているのは、世界的な有名ブランドであるパンパースの商品。大人に抱かれる、あどけない顔をした赤ちゃん……と思いきや、赤ちゃんを抱く腕と、赤ちゃんの肩がつながっています。 だとすると、これは赤ちゃんの腕ということに。赤ちゃんから立派な腕が生えているように見えてしまうこちらの商品パッケージの画像を、春ごろから複数の一般ユーザーが投稿。最近の投稿はX(旧ツイッター)で3万回以上引用されるなど、拡散されています。 この画像に「なんだか違和感」「怖い」「何かがおかしい」「どうしてこうなった」といった反響が巻き起こったほか、「フェイク画像」の可能性も取り沙汰されました。この中で、マンガ家の瀧波ユカリさ

macOS 12 Monterey では,OSビルトインでのOCR機能が搭載されました。Preview.app で,画像やスキャンPDF(中身がスキャン画像のPDF)に対して,ただマウスでドラッグするだけで,中身の文字を認識して選択し,コピーできるようになっています。さらに,macOS 13 Ventura では,それが日本語にも対応しました。 たとえば,(今や入手困難となってしまった)TheTeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと,何もしなくても,文字選択できます。 これをコピーして他のエディタにペーストすると,TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた

巷で話題になっているこの話題、画像をスクレイピングやダウンロードされたくないということで騒がれています。その話に関しては色々な意見があると思ってますがここでは置いておくとして・・・技術的にやるとしたら実際どれくらい対策できるの?ということが気になったので、自分の知識で出来る限り対策したものを作ってみることにしました。 最初に 賢い方はわかると思いますが、タイトルは釣りです。 絶対に画像をダウンロード&スクレイピングさせないページは存在しません。ソフトウェアにおいて絶対と言う言葉はまず存在しないのです。ブラウザで表示している以上、仕組みさえわかれば技術的には可能です。 そのため、 「元画像のダウンロードとスクレイピングを非常に困難にしたWebページを本気で作ってみた」 が実際のタイトルかなとなります。 とはいえ、この仕組みであれば大多数の人は機械的にスクレイピングすることを諦めるレベルの作

いつもご覧いただきありがとうございます。 画像記載のプロンプトはあくまでも一例です。 「ここ違うよ!」「ここはこうならないのかな?」「もしかしてあれ出来るのかな?」 こんな考えや疑問が湧いた場合には、是非一度プロンプトや手法の改良にチャレンジしてみてください。 プロンプトの詳しい使い方はブルペンさんのこちらの記事をご覧ください。 DLファイルは最下部にあります。 ※各セクションは単なる記号表記であり、意味はありません 1.MAmaid dress with lots of frills and ribbons, (closed collar long-sleevedblouse with frilled and ribbon:1.2), lace, apron, headdress, (a volumey pannier under a long petticoat:1.3), wris

「高品質なアニメ画像でNSFWコンテンツを生成したい」 「MeinaMixを画像生成のモデルとして利用している」 このような場合には、MeinaHentaiがオススメです。 この記事では、MeinaHentaiについて解説しています。本記事の内容 MeinaHentaiとは?MeinaHentaiの利用方法MeinaHentaiの動作確認 それでは、上記に沿って解説していきます。 MeinaHentaiとは? MeinaHentai – V3 | Stable Diffusion Checkpoint | Civitai https://civitai.com/models/12606/ 上記ページは、NSFWのコンテンツなので要注意です。 そして、ページにアクセスするにはログインが必要となっています。 MeinaHentaiとは、Meinaシリーズのモデルです。 Meinaシリーズと言

イラスト作成ソフト「CLIP STUDIO PAINT」を販売するセルシスは12月2日、同ソフトに試験的に導入するとしていたAI画像生成機能について、搭載を見送ると発表した。ユーザーからの批判を受け、方針転換したとしている。 セルシスは「今後、このような懸念がある画像生成AIを用いた機能をCLIP STUDIO PAINTに搭載しない」と宣言。ユーザーに対し「皆さまの気持ちに寄り添えなかった」と謝罪した。 同社は11月29日、CLIP STUDIO PAINTにオープンソースの画像生成AI「Stable Diffusion」を活用した「画像生成AIパレット」という機能を試験導入すると発表していた。同機能はソフト上で「sea,moutain,forest,autumn」といったテキストを入力するとそれに合った画像をAIが自動生成するというもの。 発表後、ユーザーなどから「誰かの著作物を利用す

画像生成AIのStable Diffusionは、ノイズを除去することで画像を生成する「潜在拡散モデル」で、オープンソースで開発されて2022年8月に一般公開されたため、学習用のデータセットを変えることで特定の画像を生成するのに特化したフォークモデルが多数存在します。そんなStable Diffusionから派生して生まれた特化型モデルとその特徴や生成例をまとめてみました。 Stable Diffusion Models https://rentry.org/sdmodels 実際に複数のモデルとシード値で、同一のプロンプト・ステップ数・CFGスケールで画像を生成した結果をまとめてみました。 モデルは左からStable Diffusion v1.4、Waifu-Diffusion v1.2、Trinart Stable Diffusion、Hentai Diffusion、Zack3D_K

概要DreamBoothとは追加学習することで、AI(StableDiffusion)で特定のキャラや物を描くためのモデル(データ)作るツールです。 例えば、ドラゴンクエスト10オンラインというゲームのアンルシアというキャラがいます。 ドラゴンクエスト10のアンルシア 公式サイトより引用 https://hiroba.dqx.jp/sc/election/queen2021/vote/confirm/1/nologinこのキャラの画像を18枚ほどAIに読み込ませ、追加学習し、AIに描かせた絵が以下の絵になります。 これ見ると、単なる髪型や顔が似ているレベルではなく、服の模様レベルまで再現できている事がわかります。 今までStableDiffusionの欠点として、同じキャラを安定して描くのが苦手というのがありましたが、DreamBoothを使うことで克服することが出来ます。 これにより、A

本記事では、インタビュアーを担当したTHEGUILD・深津貴之氏がStable Diffusionで生成した画像をいくつか紹介する。こちらは「サイバーパンクな東京」の画像(以下、AI生成した画像はすべて深津氏によるもの) 8月に突如登場し、瞬く間にネットユーザーの注目の的となった画像生成AIの「Stable Diffusion」。オープンソースで誰もが無料で利用できるだけでなく、個人のPCでも動作し、生成した画像の商用利用が可能ということもあり、大きな話題となった。 そんな話題沸騰中のStable Diffusionを開発する英国のスタートアップ・StabilityAI。そのCEOであるエマード・モスターク氏がインタビューに応じた。 なお本取材は編集部に加えてAI画像生成に造詣が深く、先日DIAMOND SIGNALでもインタビューを実施したTHEGUILDの深津貴之氏がインタビュア

ソニーグループ(ソニーG)がイメージセンサー事業で新たな戦略を打ち出した。画像データではなく目的に合わせた分析データを出力し、市場を社会インフラ全般に拡大する。分析アルゴリズムを継続的に進化させることで、リカーリング(継続課金)型モデルを確立する。 新戦略を担うのは、画像を取得するイメージセンサーと、データを処理するロジックチップを組み合わせた「IMX500」だ。画像データを得るだけの従来のイメージセンサーとは異なり、その場でデータを分析して対象物の有無や分類といった結果だけを出力する。いわゆる「AI(人工知能)カメラ」を実現できる。 アプリやサービスの開発環境「AITRIOS(アイトリオス)」をクラウド上に構築し、IMX500から収集したデータをサービスに応用することで、継続的に課金してもらうリカーリングビジネスを構築できる。この仕組みは、これまで売り切り型のビジネスモデルが中心だったイ

by Sincarnate 高精度な画像を生成できるAI「Stable Diffusion」などが登場し、人間と遜色ない絵が多数生み出される一方で、絵という芸術作品の著作権の概念が薄れつつあることも問題視されています。このほど、Stable Diffusionより一足先に登場していた画像生成AI「Midjourney」により生成された絵が、とある品評会で1位を獲得してしまったことが話題となっています。 AnAI-Generated Artwork Won First Place at a State Fair Fine Arts Competition, and Artists Are Pissed https://www.vice.com/en/article/bvmvqm/an-ai-generated-artwork-won-first-place-at-a-state-fair-

Today we’re introducing Outpainting, a new feature which helps users extend theircreativity by continuing an image beyondits original borders—adding visual elements in the same style, or taking a story in new directions—simply by using a natural language description. DALL·E’s Edit feature already enables changes within a generated or uploaded image, a capability known as Inpainting. Now, with Ou

はじめに Midjourney、Stable Diffusion、mimicなど、コンテンツ(画像)自動生成AIに関する話題で持ちきりですね。それぞれのサービスの内容については今更言うまでもないのですがMidjourney、Stable Diffusionは「文章(呪文)を入力するとAIが自動で画像を生成してくれる画像自動生成AI」、mimicは「特定の描き手のイラストを学習させることで、描き手の個性が反映されたイラストを自動生成できるAIを作成できるサービス」です(サービスリリース後すぐ盛大に炎上してサービス停止しちゃいましたが)。 で、この手の画像自動生成AIのようなコンテンツ自動生成AIですが、著作権法的に問題になる論点は大体決まっていまして、画像自動生成AIを例にとると以下の3つです1正確に言うと論点1はコンテンツ自動生成系AIだけではなく、AI一般に関して問題となる論点です。コン

巷で話題のStable Diffusion(以下SD)をファインチューニングする方法が公開されたので、早速やります。

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く