こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

こちらの記事は2023年3月9日に投稿された旧バージョンです。特段の理由がなければ、最新事情を盛り込んだ「AIイラストが理解る!StableDiffusion超入門」をご覧ください。 こんばんは、スタジオ真榊です。このところ、ツイッター経由で公式サイトやこちらのFANBOXへのアクセスが急増しており、これからAIイラストを始め...

皆さんこんにちは! 去年(2022年11月)に発表されたChatGPTの話題が尽きない今日この頃、ChatGPTで使われている重要な技術の1つであるTransformerについて、興味を持った方は沢山 ...本記事の説明動画も公開しています(以下)。ぜひご活用いただければと思います。 この内容に関して、解説スライドも公開しているので、有効活用していただければと思います。本記事の構成について説明します。 まず初めに、認知科学の研究と絡めてAttentionという考え方が知能の実現にどう関わっているのかを説明します。この内容を理解することで、Transformerで突如として知れ渡ったAttention機構が、天才たちによる100%の突発的な発想というわけではないことをご理解いただければと思います。 次に、Transformerが登場する以前のAttention機構について、再帰型ニューラ

初学者の分かりやすさを優先するため,多少正確でない表現が混在することがあります。もし致命的な間違いがあればご指摘いただけると助かります。 はじめに 近年の深層学習ブームにおいて,VAE(変分オートエンコーダ: variational autoencoder)の果たした貢献は非常に大きいです。GAN(敵対的生成ネットワーク: generative adversarialnetwork)やFlowと並んで,生成モデルの三大巨頭として主に教師なし学習や半教師あり学習で応用されています。 多くの書籍やWeb上の資料では「VAEはオートエンコーダの発展手法である」と説明されています。名前にもAE(オートエンコーダ)と入っているので,そう思ってしまうのは一見当然のことのように思えます。しかし,語弊を恐れずに言うと,この説明は深刻な誤解を読者に与えています。Kingmaらの原著論文を読めば,VAEがA

ジェイ・アラマールのブログより。AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさまは"The Causal Revolution" (因果革命)という言葉を聞いたことがあるでしょうか? 私は今月(2021年6月)に初めて知りました。GoogleTrendsでもデータ不足によりトレンドが表示されません。 つまりまだ全然マイナーな概念で、聞いたことがないほうが自然かと思われますが、これは「来る」と確信したため本記事を投稿しました。この確信の根拠の箇所を記事中で太字で書いた他、最後にもまとめたため、本記事を読む価値がありそうかの判断には先にそちらを読んでもらってもいいかもしれません。しかしながら、因果革命ないし統

Google、機械学習による画像認識分類システムを欺ける敵対的物理ステッカーを提案した論文を発表。ステッカーは印刷可能でシーンに依存しない 2018-01-04Googleの研究者らは、Deep learningによる画像認識分類システムを欺ける敵対的ステッカーを提案した論文を発表しました。 Adversarial Patch 著者:Tom B. Brown、Dandelion Mané、Aurko Roy、Martín Abadi、Justin Gilmer (上図では97%の信頼度でバナナと分類しているが、ステッカーを置いた下図では99%の信頼度でトースターと分類している様子) テーブル上のバナナは、VGG16ニューラルネットワークによってバナナとして正しく分類されますが、隣にサイケデリックなステッカーを置くと、バナナのことはすっかり忘れトースターとして分類されます。このように、ステ

Accessibility Viewtext version CategoriesTechnology Upload Details Uploaded via SlideShare as AdobePDFUsage Rights © All Rights Reserved Statistics Favorites 2 Downloads 0 Comments 0Embed Views 0 Views on SlideShare 0 Total Views 0 Deep learning — Presentation Transcript Deep Learning 株式会社ウサギィ 五木田 和也 2012/11/0912年11月9日金曜日 自己紹介 ✤ 株式会社ウサギィのエンジニア ✤機械学習、自然言語処理、組合せ最適化 ✤iPhone,Android,Rails ✤ な
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く