オックスフォード大学の研究チームとMetaのAI研究部門が、画像から3D情報を取り出す新しいAIモデル「VGGT」を発表しました。従来の技術では、3D情報を得るために複雑な計算処理が必要でしたが、VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。 VGGT: Visual Geometry Grounded Transformer https://vgg-t.github.io/ [2503.11651] VGGT: Visual Geometry Grounded Transformer https://arxiv.org/abs/2503.11651 VGGTは「Visual Geometry Grounded Transformer」の略で、従来の3Dコンピュータビジョン技術と異なり、単一のフィードフォワードニューラル

We’ll help you makeit like nobody’s business.Nocreative challenge too big, no timeline too tight. Get to production with StabilityAI, your enterprise-readycreative partner.It starts with realcreatives. Our multimodal media generation and editing tools are designed for the best in the business. MarketingCreate high-quality on-brand assets for every campaign using our image generation and edi

先日、革新的な画像の異常検知(SAA)が出てきました。 何やら革命的な臭いがする... SAMを使った異常検知手法https://t.co/wmwFcbULdq コードはこちらhttps://t.co/3npK3FhnEz pic.twitter.com/JDs30bEJyQ — shinmura0 (@shinmura0) May 22,2023本稿では、操作手順 & 触ってみた感想をご報告します。 特長本題に入る前に、どこら辺が革新的なのかざっくり説明します。 ※ SAAの詳細は論文をご参照ください。 学習データは不要 通常、学習(正常)データを数百枚用意しますが、この手法では正常データを必要としません。 ドメイン知識を導入できる 予め、異常の傾向をプロンプトに入れることにより、異常の特徴をモデルに教えることができます。 二点目が特に大きく、今までの異常検知では、積極的に異常の傾

目次 目次 はじめに ECCV2022概要 Workshop Instance-Level Recognition Workshop Keynote talk: Image Search and Matching KaggleGoogle Universal ImageEmbedding Challenge Keynote talk: Few-Shot Learning for Object Aware Visual Recognition Language Assisted Product Search Granularity aware Adaptation for Image Retrieval over Multiple Tasks Where in the World is this Image? Transformer-based Geo-localization in t

目次 目次 はじめに CVPR2022概要 Workshop on Image Matching: Local Features & Beyond SuperPoint and SuperGlue: Lessons Learned Large-scale 3D reconstruction Deployment - Successes, Challenges, Open Problems Unstructured Object Matching using Co-Salient Region Segmentation Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation Feature QueryNetworks: Neural Surface Description for Camera Pose Re

不良品検出のAIサービス「Amazon Lookout for Vision」が先週25日(木)に東京リージョンでの提供開始が発表されましたが、27日(土)には早くも「AWSの基礎を学ぼう」コミュニティのハンズオンが開催され、実際に体験してみることができました。AI、機械学習系のハンズオンということで待ち時間なんかもあるわけですが、そこにソラコムの @ma2shita さんの「Amazon Lookout for Vision 向いてるコト、使いどころと注意点」とかJAWS-UG名古屋の @nori2takanori さんの「画像ベース異常検知Amazon Lookout for Visionを使ってみよう」とかLTが入って、退屈する暇のない2時間でした。その中で出てきたスライドの一枚がこちら。 Lookout for Visionは不良品検知にしか使えないサービスじゃないぞ、と。アイデ

2020.11.14 畳み込みニューラルネットワークは物体認識(物体分類)の分野で大きな成功を納めているものの、各層のパラメーター同士の繋がりが複雑で、解釈性に欠けている。畳み込みニューラルネットワークが、写真のどこを見て、何をもって物体認識を行っているのを解明することで、畳み込みニューラルネットワークのさらなる改良に繋がるだけでなく、ユーザーが安心して使えるものになる。畳み込みニューラルネットワークの各層を可視化して解釈できるようにする研究が多く行われている。そのなかで、比較的による知られているのが Grad-CAM である。Grad-CAM を理解するには、global average pooling (GAP) および class activationmap (CAM) についても理解する必要がある。 global average pooling (GAP) 一般的な畳み込みニュー
1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式本論文では、畳み込みの中でもDW(=Depthwise)

その他層の数も探索空間に入れています。ここで拡張率とは、MBConvの最初のConvでチャネル数を何倍にするかの係数のことで、こちらでより詳しく解説しています。 探索は精度$A$、ステップごとの学習時間$S$、パラメータサイズ$P$を用いて、$A\cdot S^w\cdot P^v$を最大化するように行われます。ここで$w=-0.07, v=-0.05$であり、これらの値は実験的に決定されています。 1.3.2 EfficientNetV2のアーキテクチャ 下表がEfficientNetV2のSサイズのモデルになります。 画像: "EfficientNetV2: Smaller Models and Faster Training", Tan, M., Le, Q., (2021) 比較のためにEfficientNet-B0(i.e. V1)のアーキテクチャも下に載せます。 画像: "Ef

NTTコムウェアは、ディープラーニングを用いた画像認識AI「Deeptector」の新製品となる「産業用エッジAIパッケージ」を発表した。HPEのエッジコンピューティング向け製品「Edgeline EL1000 Converged IoT System」にNVIDIAの「Tesla P4」を2枚組み込み、Deeptectorをプリインストールしたパッケージ製品で、月額26万円からで利用できる。NTTコムウェアは2017年11月1日、東京内で会見を開き、ディープラーニングを用いた画像認識AI(人工知能)「Deeptector」の新製品となる「産業用エッジAIパッケージ」を発表した。日本ヒューレット・パッカード(HPE)のエッジコンピューティング向け製品「Edgeline EL1000 Converged IoT System」にNVIDIAのGPUアクセラレータボード「Tesla P4」を

リアルタイムに物体検出するのってどうやるんだろう?と思い調べてみたら、想像以上に高機能なモデルが公開されていたので試してみました。こんな感じです。 自動運転で良く見るようなリアルタイムの物体認識をしています。このモデルは「Single Shot MultiBox Detector(SSD)」という深層学習モデルで、Kerasで動いています。 環境さえ整えればレポジトリをクローンして簡単に実行できます。今回はデモの実行方法をまとめてみます。 環境 ちょっと古いiMacにUbuntu16.04を入れたものを使いました。詳しくはこのへんとかこのへんをご参照ください。SSD: Single Shot MultiBox Detector 深層学習を利用したリアルタイムの物体検出は次々と新しい技術が公開されているようです。ざっと調べたところ、R-CNN、Fast R-CNN、Faster R-CNN

By Joseph Morris 犯罪を犯した容疑者の捜査を行う上で、警察は容疑者の顔を目視で確認して捜索するわけですが、中国のような人口の多い国でたった1人の犯人を捜し当てるのは、途方もないかくれんぼのようなものです。そんな中国の捜査状況を科学の力で解決するべく、顔認識システム搭載パトカーが開発されました。パトロールするだけで半径60メートル内にいる犯罪容疑者の見つけ出すという、SF映画を現実化したようなパトカーになっています。 Chinese Researchers Invent New Police Car That Can Scan Criminals’ Faces - China Real TimeReport - WSJ http://blogs.wsj.com/chinarealtime/2016/03/26/chinese-researchers-invent-new-p

Try Gemini 2.5, our most intelligent model now available in VertexAI Access advanced vision models viaAPIs to automate vision tasks, streamline analysis, and unlock actionable insights. Orbuild custom apps with no-code model training and low cost in a managed environment. New customers get up to $300 in freecredits to try VisionAI and otherGoogle Cloud products.
(この記事はGoogle Cloud Platform Advent Calendar 2015の12月3日分の記事です) Cloud VisionAPIと私Googleに入ってからまもなく5年、Google Cloud Platformのデベロッパーアドボケイト(エバンジェリストみたいな役割)の仕事に就いてから1年が経ちました。仕事の半分はアジア地域向けの開発者コミュニティ支援で、残り半分はGCPの新製品ローンチの支援をグローバル向けに行っています。 特にここ半年は、TensorFlowをはじめ、GCPの機械学習系プロダクトのローンチ支援にフォーカスしています。TensorFlowはその序章で、公開前からAlphaカスタマー向けのスライドを作ったり説明やデモしたりしていました。 そうしたGCPの新しい機械学習系サービスのひとつが、Cloud VisionAPIです。これはGoogl

皆様、こんにちは。本日はAlpacaで開発している近日リリース予定のDeep Learningによる画像認識を可能にする最も簡単なWebプラットフォーム「Labellio」(ラベリオ)についてのリリース予告をさせて頂きたいと思います。 Labellioは、Alpacaが提案する人口知能とヒトの新しいワークフローを体感できる最初のプロダクトです。Webサービスとなっており、最近話題になっている人工知能技術の一つである画像認識において、エンジニアではない方でも簡単に画像認識モデルを作成可能です。また、作成した画像認識モデルはご自分のプロダクトですぐにご利用いただけます。 なんとなく画像認識というと、大きなサーバを複数台利用して大量の計算を行い、時間をかけて学習を行って、やっと完成するのが従来のイメージでしたが、近年の機械学習の技術的ブレイクスルーの一つであるDeep LearningのFi

Caption: The first layers (1 and 2) of a neuralnetwork trained to classify scenes seem to be tuned to geometric patterns of increasing complexity, but the higher layers (3 and 4) appear to be picking out particular classes of objects. *Terms of Use: Images for download on the MIT News office website are made available to non-commercial entities, press and the general public under aCreative Commo

リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く