Movatterモバイル変換


[0]ホーム

URL:


PDF, PPTX2,353 views

【メタサーベイ】Vision and Language のトップ研究室/研究者

cvpaper.challenge の メタサーベイ発表スライドです。cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。http://xpaperchallenge.org/cv/

Download as PDF, PPTX
Vision and Languageのトップ研究室/研究者のメタサーベイYue Qiu (AIST), 品川政太郎 (NAIST), 孫延君 (慶応大)2022.07.081
はじめに:2● cvpaper.challengeのVision and Languageグループにより作成● Vision and Languageのトップ研究グループ/者をサーベイ対象:○ トップの研究グループ/者がどのように研究を進めている○ Vision and Languageの網羅的なサーベイ● この資料の構成:○ 研究グループ/者ごとにまとめている:- 研究室の構成, 選定の理由- 研究テーマの変遷- 論文まとめ(1論文1ページ*)- 研究の方法、重要視している課題のまとめ*各論文の概要レベルしか触れていない
今回調査対象とする研究グループ/研究者:url 大学/研究機関 研究室 代表研究者 スライド番号1 Georgia Tech Visual Intelligence Lab Devi Parikh 4-222 Stanford vision and learning lab Fei fei Li, Juan Carlos Niebles, SilvioSavarese, Jiajun Wu23-543 UT-Austin Computer Vision Kristen Grauman 55-774 Stanford vision and learning lab Jiajun Wu 78-905 University of Michigan Justin Johnson 91-1006 University of Michigan Honglak Lee 101-1407 Google Peter Anderson 141-1498 University of Adelaide V3Alab Qi Wu 150-1543
Georgia Tech: Visual Intelligence Lab4
研究室の構成 扱っている研究分野:選定理由:● Vision and Languageの様々なタスク:○ Visual Question Answering○ Visual Dialog○ Embodied Question Answering○ Audio-Visual Scene-Aware Dialog○ Text VQA○ Image Captioning○ Vision Language Representation○ Text-to-Image Generation● Vision and Languageをリードする研究室● 数々の重要なタスク/データセットを提案してきた:○ Visual Question Answering○ Visual Dialog○ Embodied Question Answering○ Text VQA○ …写真URL:https://faculty.cc.gatech.edu/~parikh/vil.html5Georgia Tech: Visual Intelligence Lab
研究テーマの変遷2015 2017 2018 2019VQA, VQAv1 DatasetVQAv2 DatasetVisual DialogタスクNeural Baby TalkEmbodied QuestionAnsweringAudio-Visual DialogText VQANovel captioningOthers:● AI HabitatVandLRepresentation:● ViLBERT● 12-in-16● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介Georgia Tech: Visual Intelligence Lab
Topic 1: VQA7Georgia Tech: Visual Intelligence Lab
Title: VQA: Visual Question Answering (ICCV, 2015)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:1枚の画像と画像内容に関する質問から、回答するタスクVQAとデータセットを提案。VQAが、Vision and Languageの研究の始まりと代表的なタスクに位置付けている印象。新規性:● 新しい、Vision and Languageの系研究を打開したタスクとデータセットを提案した。VQAv1提案後、様々のVision andLanguageモデルやタスクの研究が続出するようになった。● VQAv1タスク・データセット(現在はbiasが比較的にコントロールされたVQAv2の方がメインで使われている)で様々なVisual Reasoning能力がカバーされており、現在でもChallenge的であり、VisionとLanguage認識以上のReasoning能力のモデル構築において今でも意味がある。VQAv1データセットの例当時提案されたVQAのモデル構造8Georgia Tech: Visual Intelligence Lab
Title: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering(CVPR, 2017)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-LabVQAv1(上段) vs. VQAv2データセット(下段):概要:● VQAv1データセットに含まれる強いデータセットバイアス(例:Yes or No問題の回答が70%Yesなど)を発見。● データセットの拡張・バランス調整を行い、比較的にデータセットバイアスが少ないデータセットVQAv2を提案。感想:● VQAデータセットは根本的にバイアスになってくるかもしれません。いかにバイアスなデータセットから、バイアスしない回答を学習できるかがデータセットのバイアスのコントロールより重要であるように思う。● 分布が異なるデータセット間で対応可能なモデルが良い。9Georgia Tech: Visual Intelligence Lab
Title: Embodied Question Answering (CVPR, 2018)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● VQAタスクをEmbodied環境に拡張した。● 具体的に、Embodied環境でAgentが環境中の物体に連する質問の入力から、その質問を回答するために、環境の中に自己ナビゲーションし、環境の観測を行う。新規性:● VQAタスクを3次元空間・しかもかなり挑戦的なEmbodied環境に導入。Embodied Question AnsweringタスクのIllustration:質問が与えられた時に、Embodied Agentが3次元環境で自己ナビゲーションしながら、質問を回答していく感想:● Vision-Language Navigationと比べ、EQAタスクがあまり関連論文が出ない。問題が難しいかつタスクがあまりGroundedではないところが原因と想定。● EQAタスク自体はかなり実用性高そう。もっとGroundedにした方が良いかも。10Georgia Tech: Visual Intelligence Lab
Title: Towards VQA Models That Can Read (CVPR, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 日常生活の中に、物体のラベルやパソコンの画面、時計、交通シーンのパネルなど色々テキスト情報が含まれる。● 上記の情報の理解のために、画像中のテキストに関する質問の理解のためのText VQAタスクとデータセットを提案。感想:● 画像中のText情報が他の視覚要素と比べて特殊でかなり重要な場合がある(例:時間;値段;ウェブページ)。● 技術な面では、Textも物体検出と類似したように、画像から様々な検出モデルを着装することによりReasoning能力が向上できる。TextVQAデータセットの例11Georgia Tech: Visual Intelligence Lab
Title: Habitat: A Platform for Embodied AI Research (ICCV, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● Embodied AI系のデータセット、シミュレーター、タスクを整合したAPIーAI Habitatを提案。Embodied AI系をより容易に扱うようにした。また、タスク間の連携も可能に。感想:● AI Habitatがハードルが高いEmbodied AI系の研究のバリアをだいぶ緩やかにしてくれた。Embodied AI系の研究の加速に大きく貢献。● AI HabitatによりEmbodied AI系のタスク間の遷移学習もよりしやすくなった。● 2022年現在では、2019で想像したほどEmbodied AI系がAI Habitatを活用できていない感がある。● 論文のroadmapに書いているところは今確実に進んで切る。AI Habitat Platform(右図):様々な3次元環境(Replica,Matterport3Dなど)、Simulators(AI2-THORなど)および複数のEmbodied AIタスクを行える(EQA, VLN, ...)12Georgia Tech: Visual Intelligence Lab
Topic 2: Visual Dialog13Georgia Tech: Visual Intelligence Lab
Title: Visual Dialog (CVPR, 2017)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:• 人間が会話して、見ている視覚情報のやり取りを行っている。• 上記を可能にするために、VQAタスクをDialogに拡張した、Visual Dialogタスクとデータセットを提案。感想:● Visual Dialogの設定は、過去の会話履歴と直近の質問から、回答をするになっている.このような設定によりAIとHumanの対話性が保たれるので、なかなか良い設定だったと思う。● 従来Language-onlyのDialogではGoal-drivenとGoal-freeの2つあり、今回のVisual Dialogの設定ではGoal-drivenでそのGoalが画像内容を理解することで、かなりBenchmarkとして賢い設定だった。Visual Dialogの例(左図)(画像、Caption、会話履歴、質問から回答をする) 14Georgia Tech: Visual Intelligence Lab
Title: Audio-Visual Scene-Aware Dialog (CVPR, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 1枚の画像から行うVisual Dialogタスクを更に、音声付きビデオ入力に拡張した。新規性:● タスクの提案(VQA+Video+Audio+Dialog)● データセットの提案感想:● こちらもVQA/Visual Dialogの拡張になる。ある程度複数のSensorsの観測からDialogできるかどうかをテスト可能だが、実環境ではタスクによりモダリティをどのように活用していくのかがかなり興味深い。AVSDだけではまだまだ実応用から遠い。提案のAVSDデータセットのイメージ図15Georgia Tech: Visual Intelligence Lab
Topic 3: Image Captioning16Georgia Tech: Visual Intelligence Lab
Title: Neural Baby Talk (CVPR, 2018)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 既存のImage Captioningタスクは画像から物体の説明文のみ生成。説明文に含まれる物体の位置を明示的に示さないため、解釈性が低い。● ここで、Captioningと物体検出を同時に行うタスクを提案。新規性:● 手法的にはencoder-decoderで直接画像とCaptionを結びつくではなく、Detectorを導入することで、もっとGroundedなImage Captioningを実現.● Detectorを用意することで、Unknown物体に対してのCaption生成もできる.提案のNeural Baby Talkと既存検出の比較:(a)baby talk(b) 提案のNeural Baby Talk(c) 一般的なImage Captioning手法感想:● 今でも同じようにCaptioning生成しながらBounding Boxなどの形式で解釈性を向上する検討があちこちのタスクである.17Georgia Tech: Visual Intelligence Lab
Title: nocaps: novel object captioning at scale (ICCV, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 人間がUnknown物体に対しても説明できる能力がある。● ここで、物体認識と物体説明文生成を分けられるような設計を持ち、データセットに含まれない物体の説明文生成も可能にした。感想:● Nocapsの設定がかなり興味深い。実環境での視覚概念は無限にあって、画像からCaptionを生成するのは比較的に限られたデータで学習すべきである。● 更に、Interativeで知らない視覚概念をImageCaptionに導入する仕組みが望ましい。提案のタスクnocapsの設定:学習(左)はCOCOのCaptionsと物体検出だけアノテーションされているOpen Images;テスト(右)では①COCOだけ;②COCO+Open ImageのCaptions;③Open ImageのCaptions18Georgia Tech: Visual Intelligence Lab
Topic 4: Vision-Language Representation19Georgia Tech: Visual Intelligence Lab
Title: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks(NeurIPS, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● Vision and Language系の研究で特にデータセットの作成のコストが高い問題がある。● Vision and anguage タスクにおいて大規模事前学習、タスク間の遷移学習を可能にするため、統一したモデルで複数のVision andLanguageタスクを学習可能なフレームワークを提案(ViLBERT)。感想:● BERTの成功をVandLに適応する試み。考えるだけではなく、他の人より早い段階でRoadmapを構想し、いち早く最新で使えそうな技術を導入することが重要。● ViLBERTで提案する時点ですでにPaperid11の12in1のマルチタスク同時学習を想定していたそう。ViLBERTで行っている2種類のMulti-modal learning:左(ラベル推定まで);右(一致性の評価のみ)20Georgia Tech: Visual Intelligence Lab
Title: 12-in-1: Multi-Task Vision and Language Representation Learning (NeurIPS, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● ViLBERTをベースに、更に複数のVision andLanguageタスク間の遷移学習の効果を検証。感想:● ViLBERTをベースに、マルチタスク・データセットにおいて分析を行た感じ。Communityに対して貢献度が高いが、新規性がすこし薄れる部分もある。● VandL研究の理由:”promise of language as auniversal and natural interface for visualreasoning”;なかなかうまくまとめている。提案のマルチVandLタスク共同で学習する仕組み21Georgia Tech: Visual Intelligence Lab
重要視されているところ● 様々なSensingの情報を融合しながら理解する能力:○ 視覚:1枚の画像(VQA)⇒ 実環境、複数センサー(EQA)、Unknown、Active環境、…○ 言語:物体ラベル⇒1センテンス(Image Captioning)⇒画像中のテキスト理解(Text VQA)● 更に、言語対話能力と上記の融合:○ Visual Dialog、Audio-Visual Dialog● 手法の解釈性○ VQAv2でデータセットのバイアス解消、Neural Baby Talkで物体説明文生成に物体検出も行う気付き● 問題を解決するより、新しい問題を設定する研究が多い;● 早い段階で研究の目標を決めて、それを実現するため最も重要なタスクとデータセットを構築;● 手法論文に関しては、最新の研究の組み合わせの物も多い:○ 例:ViLBERT/12-in-1ではBERT/Transformerを導入22Georgia Tech: Visual Intelligence Lab
Stanford: Vision and learning lab23
研究室の構成 扱っている研究分野:選定理由:● Computer Visionがメインで、NaturalLanguage ProcessingやRoboticsなど多様なテーマを扱っている(例を下記):○ Image Recognition○ Dense Captioning○ Video Recognition○ Visual Question Answering○ Sight and Sound○ 3D Vision○ …● Fei fei Li● ImageNet● Vision and Languageに関してもかなり数多く重要な論文、データセットを提案:○ Dense Captioning/ Captioning Event○ Visual Genome○ ...● 近年、特にEmbodied AIや関連したRoboticsも扱っている24写真URL:http://svl.stanford.edu/Stanford : Vision and learning lab
研究テーマの変遷 (Vision and Languageに関する研究のみ)2009252015 2017 2018 2019 2020 2021● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介ImageNetActivityNetVisualGenomeGibsonENV3D SceneGraphActionGenomeHomeActionGenomeiGibson 1.0iGibson 2.0Stanford : Vision and learning lab
Topic 1: Semantic Structure26Stanford : Vision and learning lab
Title: ImageNet: A Large-Scale Hierarchical Image Database (CVPR, 2009)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:※以下の数値等は本論文発表時(2009)のもの・階層構造語彙データベースWordNetがバックボーンの画像データセット・スタンフォード大学のFei-Fei Li氏を中心とした研究グループが管理・世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開中・WordNet:8万synset(同義語セット)・インターネット全体から画像をクロールして収集・12のサブツリー(最上位カテゴリ)哺乳類、鳥類、魚類、爬虫類、両生類、乗り物、家具、楽器、地層、道具、花、果物・5247のsynset(WordNetの一割以下)、全320万枚のフル解像度画像・synsetごとに平均500~1000枚の画像・Amazon Mechanical Turkを利用して人力でラベル付け(有償)。・目標:5000万枚。※2020年時点で2万synset/1400万枚と停滞中感想:・1つの画像に1つのラベルしか付与しない仕様となっているが、画像内に複数の対象が映り込んでいる場合のラベル付けの正当性に疑問・公平性、プライバシー保護、不適切/不快なラベル(※解消に努⼒している模様)・ラベル付けに莫⼤な費⽤がかかる(教師データのアノテーションコスト問題)27Stanford : Vision and learning lab概要:1画像1ラベルの物体認識用大規模データセットImageNetを提案。
Title: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations (IJCV,2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● ImageNetでは主に1画像1物体ラベルから構成。ここで、1画像とその画像の意味的構造(Scene Graph:物体、物体間の関係ラベル)をアノテーション付けたデータセットVisual Genomeを提案。感想:● Visual Genomeが大量な作成コストが必要となり、分野の成長に大きく貢献できている。● Visual Genomeデータセットがかなり大規模であり、現時点でもChallenge的で、様々なDownstreamタスクで活用できそう。VisualGenomeデータセット例28Stanford : Vision and learning lab
Title: Learning Physical Graph Representations from Visual Scenes (NeurIPS, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Sceneに含まれる物体の階層構造(物体と物体のパーツなど)および物理属性(SurfaceShape, Texture)も考慮したPhysical SceneGraph構造を提案。感想:● 室内環境データセットにまで適応できているところがすごい。物理に従っても大規模データセットに活用できるところなので、物理ベース手法のPromisingなところを示せた。提案のPhysical Scene Graph(PSG) representation(左図)29Stanford : Vision and learning lab
Title: ActivityNet: A Large-scale Video Benchmark For Human Activity Understanding (CVPR, 2015)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● これまでに動画像データセットでは1動画1動画ラベルのような設定が多い。● ここで、階層化された動作ラベルを付けた大規模データセットActivityNetを提案。感想:● 論文で”Semantic Ontology”という言葉を使っている。Classic AIのOntologyとDeepLearningをいかにうまく組み合わせられるかに関してかなり工夫していそう。ActivityNetに含まれる2つの例(右図):動作がTree状のSemanticLevelsに従ってアノテーションされている30Stanford : Vision and learning lab
Title: 3D Scene Graph: a Structure for Unified Semantics, 3D Space, and Camera (ICCV, 2019)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Scene Graph/Visual Genomeを3次元に拡張し、3D Scene Graphとデータセットを提案。● 具体的に、4-layers(左図)から構成される3DScene Graph構造を提案(Building, Rooms,Objects,Cameras)。感想:● 2D Scene Graphがあるから、3D Scene Graphを定義しようとする人は他にもあるはず。ここでかなりReasonableで詳細な3D Scene Graphを定義していて、大きな研究室ならではの感じがする。● 3D Scene GraphにCameraを考慮されているところが面白い。Cameraまで認識できるすることが今でもChallenging。3DSceneGraphのIllustation(4-layer構造)31Stanford : Vision and learning lab
Title: Action Genome: Actions as Composition of Spatio-temporal Scene Graphs (CVPR, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Scene Graph / Visual Genomeを動画に拡張し、Video Scene GraphとデータセットActionGenomeを提案。感想:● 論文を書く時にNeuroscience的な視点から論文のSupport Factsを出すのは強く見せられそう。● この論文でDynamic Scene GraphsがDownstreamタスクへの有用性を示した。新しいRepresentationやデータセットの提案する際に、他のタスクとの関連性や遷移学習する際の有用性を示すことが文章の質を大幅に向上できる。Spatio-temporal Scene Graph GenerationタスクのIllustration:ビデオからDynamic Scene Graphsを推定32Stanford : Vision and learning lab
Title: Home Action Genome: Contrastive Compositional Action Understanding (CVPR, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Action Genomeデータセット(3人称視点動画のみ)を更に、Multi-view、Multi-sensoryに拡張した。感想:● Video Scene Graphの密度がFrame-by-frameレベルではない方が良さそうな気がする。Frameレベルではアノテーションのambiguityが生じうる。● 設備さえあれば、HOMAGEデータセットの作成コストがそこまで高くない?HOMAGEでは2つの家環境しか使っていなさそう。HOMAGEデータセットのアノテーションパイプライン提案手法:マルチモーダルContrastive Learning33Stanford : Vision and learning lab
Topic 2: Simulation Environments forEmbodied AI34Stanford : Vision and learning lab
Title: Gibson ENV: Real-world Perception for Embodied Agents (CVPR, 2018)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Embodied AIのための大規模室内環境データセットとシミュレーターの提案。● 特徴1:実環境のBuildingsをベースに作成。● 特徴2:Embodimentの精度/レベルが高い。感想:● Introductionの部分で経済学・生物・脳科学の話しもふれていて広い範囲内で知識を積極的に得るべき?!● Physics、Robotics、実環境などと強く関連し、研究のUltimate Goalがわかりやすい。2つのAgentsがGibson環境の観測の例(右図)35Stanford : Vision and learning lab
Title: Learning to Navigate Using Mid-level Visual Priors (CoRL, 2019)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● GibsonEnVをベースに大規模な実験行った。● Embodied AIの強化学習で従来E2Eでpixel-to-torqueが提案されていた。この文章で強化学習のPolicyを学習する際に直接Pixelからではなく3次元情報が入っているタスクで得られるMid-level特徴を使うことを提案。● 実験により、Mid-level特徴が収束速い、汎化性能強い、精度高いなどの利点があった。感想:● 同じ研究室同時期のTaskonomyと概念的に類似する。● Mid-level特徴を使った方が良いと研究せずに何となく想像できる。この論文でそれを的確に示してくれたところが良いが、Whyに関しての説明があるとなおさら良い。● 特にこの研究では強化学習タスクをターゲットしているため、かなり膨大な計算量が必要。提案のMid-level特徴量を用いてEmbodied AI タスクを行う概念図(下図)36Stanford : Vision and learning lab
Title: IGIBSON 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes (IROS, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Robotic Simulation用の大規模Interaction可能な室内環境Simulatorの提案。15Rooms合計108部屋から構成され、物体の材質・Shape、RoboticManipulationなどが行える。また、実環境の部屋のReplicasになるため、Sim2Realも今後可能になる。感想:● IGIBSONがReal HousesのReplicas(Simulationの同じリアル家もある)になるので、Sim2Realの研究も色々活用できそう。今後はおそらくそのような研究が出てくるはず。● Fei Fei Liらの研究室は近年かなりRoboticsや、物理系に着手している。大規模の環境構築や、Robotic Manipulation、Replicasなどで今後実環境への応用が期待される。● IGIBSON 1.0はとくにRoboticsへ応用したい場合において有用である。IGIBSON 1.0: 物体とInteract可能な環境になり、環境中の物体の材質・Shapesがアノテーションされている。また、Real環境と対応づけている。37Stanford : Vision and learning lab
Title: IGIBSON 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks (CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● IGIBSON 1.0と比べて、更に物体に物理シミュレーションの粒度(物体の様々な状態変更がSimulationできる)やデータ収集の利便性(VRを用いてHuman Dataを学習できる)を向上。感想:● IGIBSON 1.0のExtenabilityのおかげで、IGIBSON 2.0では更に詳細的な物理Manipulationや物体状態のコントロールが追加可能。● 将来、Humanの行動をマネにしながら、上手に様々なタスクを更に人間を超えるレベルで実現してくるRobotが期待可能。● 今人がInternetから常に色々勉強をしているため、RobotもいかにInternet知識をデモで行えるところが重要?IGIBSON 2.0: ①物体に対してのManipulationやManipulationに沿ってSimulation環境での物体状態変更などが可能になった。②VR環境も同時に提案し、HumanがVR環境における行動がSimulation上のAgentの学習データにすることができる。38Stanford : Vision and learning lab
Title: BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and EcologicalENvironments (CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 前作のiGibson2.0を用いて、データセットを作成した。● Embodied AIのための100日常Activitiesから構成されるSimulationBenchmarkデータセットを提案。また、HumanのVR上により集められたDemostrationも同時に作成。感想:● やはりBEHAVIORがIGIBSON 2.0をベースに作成されている!● 事前から収集したデータの有用性が分かっていて、それをベースにデータを集めていくことがかなりわくわく。BEHAVIORのIllustration:IGIBSON 2.0をベースに100種類の日常活動を導入し、同時にVRによりHuman Demostrationも500個集めた。39Stanford : Vision and learning lab
Topic 3: Image Captioning40Stanford : Vision and learning lab
Title: Deep Visual-Semantic Alignments For Generating Image Descriptions (CVPR, 2015)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 1枚の画像から1画像Captioningではなく、1枚の画像から複数の領域とその領域の物体Captioningを生成する提案。● 同時期のDenseCaptioningとかなり類似し、DenseCaptioningの方が影響が大きい。感想:● かなり早い段階でImage Captioningタスク(左図)を構成し、かつ相当Reasonableなモデルを提案(右図)。Dense Captioningはこの研究の進化バージョンに見える。● 今の最新手法のそこまで下記のモデルから離れていない感。提案のImageCaptioningタスク(右図)提案手法41Stanford : Vision and learning lab
Title: Dense-Captioning Events In Videos (ICCV, 2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 画像ベースのDense Captioningタスクをビデオに拡張した。● 動画から、複数のEventsの開始・終わる時間、そして、各々のEventのCaptioningを推定するDense Captioning Eventsタスクを提案。感想:● 画像からVideoタスクへのかなりReasonableなDense-captioningの拡張。EventsごとのPeriodも予測するためタスクが難しいが応用性が高い。Dense-Captioning Eventsタスクの例提案手法:Stage-1ではProposalsを生成し、Stage-2ではProposalsからCaptioning42Stanford : Vision and learning lab
Topic 4: Visual Question Answering43Stanford : Vision and learning lab
Title: Visual7W: Grounded Question Answering in Images (CVPR, 2016)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 7Wの質問(what, where, when, who, why,how, which)から構成する新たなVQAデータセットの提案。● VQAv1およびVQAv2と異なり、画像全体ではなく、画像Regionと関連付ける質問も含まれている。● 同時期のVQAv2の方が流行っている。感想:● Paper13までにはデータセットない問題があったが、ここでデータセットの提案、スピード感!● VQAデータセットはほぼ同時期なので、VQAデータセットと比べて優位性が足りていない?(選択肢が必要な設定)データセットの規模もVQAの1/4程度(画像)。しかし、VQAデータセットよりも早くAttentionに手を出した。提案手法(左図)(Attentionを導入している)Visual7Wデータセット例44Stanford : Vision and learning lab
Title: AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning (CVPR, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Action Genome(Video Scene Graph)データセットをベースにVideo Question Answeringのためのデータセットを提案。● 他のVideo QAのデータセットと比較して、ここでよりデンスな意味構造がアノテーションされているため、データセットのバイアスがコントロール可能。感想:● Action Genomeデータセットの拡張になる。これによりVideo QAタスクがかなりGroundedにできる。● Neuro-symbolic的な手法がいつにAGQAの規模のデータセットに優位性を示せるか期待している。AGQA(Action Genome Question Answering)データセットの例。Scene GraphからGroundedなQA生成により作成されている。45Stanford : Vision and learning lab
Others46Stanford : Vision and learning lab
Title: Shape and Material from Sound (NeurIPS, 2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 音と物体の物理特徴を関連させる研究であり、音から物体のShapeを復元するタスク・Auto-encoderベースな手法を提案。感想:● この研究が相当賢い!音声からShapeを復元するところがかなりChallenging。● 物理+AIはまだまだいろんな面で検討する余地があり、大きな将来性があるように感じる。物体がテーブル面上に落とす時の音から、物体のShapeを復元する提案のIllustration(右図)47Stanford : Vision and learning lab
Title: Deep Affordance Foresight: Planning Through What Can be Done in The Future (ICRA, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 物体のAffordanceをShort-termではなく(例:この瞬間では持てる、押せるなど)、Long-termで物体のAffordanceを扱う提案(例:物体の周囲の物体を移動したら、この物体が押せるようになるなど)。感想:● 物体のAffordanceの定義がかなり難しく感じる。通常の使い方や、非常的な使い方、タスクごとの使いかたなど色々ある。提案のAffordance Foresightのモチベーション:同じ物体で異なるタスクでAffordanceが変化してくる(上段と下段のL型棒を参照)48Stanford : Vision and learning lab
Title: OBJECTFOLDER: A Dataset of Objects with Implicit Visual, Auditory, and Tacticle Representations(CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 100 Simulation物体(視覚・音声・触感)を含まれたデータセットOBJECTFOLDERを提案。● 3つのSubnetで(NeRFベース)で同時に上記の3つをRenderingできる手法も提案。感想:● Touch(触感)がようやく入ってきました!(今までは視覚・言語・音声だった)● NeRFですべてを統一できる?● Smellはまた入っていない。OBJECTFOLDER:物体のImplicit neuralrepresentatitions(視覚・音声・触感をRenderingできる)49Stanford : Vision and learning lab
Title: Taskonomy: Disentangling Task Transfer Learning (CVPR, 2018)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Visual Tasks(例:Depth推定、Segmentation,…)関の関連性を調べた。● 具体的に、異なるタスク間の転移学習を行い、それをベースにタスク間の関連性を計算している。感想:● TaskonomyはCNNの時代だったが、Transformerで行ってみるとどうなるのはかなり気になる。● 人間でもTransformer学習するときに近いタスクs遠いタスクsが存在するはず。その背後の原因分析もかなり興味深い。● Unified構造、複数のタスクは現在Transformer系の手法でかなり検討されている。Taskonomyの計算(左図)50Stanford : Vision and learning lab
Title: Which Tasks Should be Learned Together in Multi-task Learning (ICML, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Multi-task学習の際に、限られた計算リソースの場合でどのように同じネットワークで学習するタスクのSubsetと別々のネットワークで学習するSubsetを決めるためのComputational Frameworkを提案。● Multi-task学習に関してすこし詳細なところまで調べて、Multi-task学習の性能向上に貢献。感想:● 実際に人間も同様に学習するタスク関に相性が良いのと良くないのがありそうで、そのあたりの研究も興味深い。● Transformerが提案されて以来、類似した研究が多い感じ。そのため、こちらの研究もっと面白い知見が得られるかも。提案のComputational Frameworkを用いた結果例:Semantic Segmentation, DepthEstimation, Keypoint Detection, EdgeDetection, Surface Normal Predictionの5つ共同学習する際の性能が良い学習ネットワークの構成51Stanford : Vision and learning lab
Title: Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration (CVPR, 2019)Team / Researcher: Stanford_Vision-and-learning-lab概要:● Single Demonstration VideoからVideoに含まれるタスク(例:組み立て作業)を実行できる新たなOne-short Learning手法を提案。● 既存研究と異なり、提案手法ではCompositionalな構造ーTask graphを中間表現としている。感想:● 解決しようとする問題が重要だが、いまだにかなり難しいような気がする。● 論文中にUnseen complexタスクを解くために、Compositional Structureが重要と宣言していて、そこがどうなのかなり興味深い。● One-short Learning面白そう。提案手法のIllustation:Task graphを介してSingle VideoからTaskをExecuteする(左図)52Stanford : Vision and learning lab
Title: Neural Event Semantics for Grounded Language Understanding (TACL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 理屈を理解するVisual Reasoningの新たな手法の提案。● 既存のVisual Reasoningでは人工設計なModuleが必要となる場合が多い。ここでの提案手法は比較的その制限を緩やかにして、End-to-endで学習できる既存のNMNと比べて構造が簡単。感想:● Neuro-symbolic的な手法のhuman-designedなNeural moduleから解放され、まだまだ遠いかもしれないが、Self-supervisedなNeuro-symbolicに近づけている?!● 提案手法のコアな考え方はかなりClassicな手法ーEvent semantics (Davidson, 1967)、クラシックな研究の関しての理解もなかなか重要な場合がある。● Event semanticsに対して知識がないが、もっと複雑なCompositional(例:多層で否定や比較なども含まれる場合)で使えるかどうかは不明。NMNと提案のNESの比較:NESが視覚要素をEventとし、テキストをNeuralLogical Form Fにし、単語各々がClassifierになる。最後にClassfierがEventに操作し、結果の掛け算で最終出力を得る53Stanford : Vision and learning lab
重要視されているところ● 様々なSensingの情報を融合しながら理解する能力(複雑度、情報量が拡張つつある):○ ImageNet->Visual Genome->Action Genome, HomeAction Genome○ Dense Captioning -> Dense-Captioning Events○ Scene Graph->3D Scene Graph->Video Scene Graph->Physical Scene Graphs● 様々なモダリティのSemantic Structure表現:○ 画像グラフ(Visual Genome)○ 動画グラフ(Action Genome, HomeAction Genome)○ 3次元データグラフ(3D Scene Graph)○ Physical Scene Graphs● Semantic Structure的な表現とともに構造化された知能(例:Neuro-symbolic)● 膨大で、高質で、合理的で厳格的に設計されるデータセットを作成し続けている。● 分野において重要で長期的に貢献できそうテーマ設定が多い(Extensibleな研究が多い)。● Physics+AIや、Roboticsへの応用に近年かなり力をいれてやっている○ Jiajun Wu(Physics +AIの専門)も研究室に入ってきた○ 大規模の環境構築(Gibson ENV, iGibson 1.0, iGibson2.0)や、Robotic Manipulation、Replicasなどで今後実環境への応用が期待される。54Stanford : Vision and learning lab気付き
UT-Austin_Computer_Vision55
研究室の構成Kristen Grauman先生写真URL:https://www.cs.utexas.edu/~grauman/扱っている研究分野:選定理由:● こちらもComputer Visionや、Vision andLanguageにおいて様々なタスクを扱ってきた。下記例を示す:○ VizWiz (盲人のためのVQA)○ 2.5 D Sound (Sight and Sound)○ Ego-Topo○ VisualEchoes○ SoundSpaces○ Semantic Audio-Visual Navigation○ Ego4D● Ego4Dというかなり未来のVision and LanguageやComputer VisionやVideo Recognitionにおいて重要である研究をリード;● AudioとComputer Visionの組み合わせに強い;● 近年Embodied AIに関わる重要な研究成果を出している(特にAudioが入った場合)。56UT-Austin_Computer_Vision
研究テーマの変遷2019572020 2021 2022Look-aroundaffordance landscapeEgo-TopoEgo4D2.5D SoundVisualEchoSound SpaceAudio-Visual Nav.Move2Hear● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介UT-Austin_Computer_Vision
Topic 1: Sight and Sound58UT-Austin_Computer_Vision
Title: 2.5D Visual Sound (CVPR, 2019)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 従来3D音コンテンツ(Binaural Audio)を作成するための制作コストが高い。● ビデオの画像情報(楽器の3次元位置などがわかる)を利用して、Monoaudioから、Binaural的な2.5D Soundを出力するタスク・手法を提案。感想:● Soundに関してまだまだComputer VisionやVision and Languageと組み合わせるところありそう。● 人は両耳でSoundの三次元を感知していて、ここと視覚のSpatial reasoningとの組み合わせが賢い2.5D Sound:Mono audio (音から3次元を再現できない)とVideoの入力から、Videoから得られるScene3次元情報を抽出し、シーンの3次元的な情報感知できるBinaural Soundを出力59UT-Austin_Computer_Vision
Title: VisualEchoes: Spatial Image Representation Learning through Echolocation (ECCV, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● バットやDolphinsが使っているEcholocationをEmbodied AI Agentに導入した。感想:● センサーを増やしていくのは別にElegantではないことない。有用なのであれば、3次元環境の理解のためにどんどんセンサーを追加していっても良いじゃないかと思う提案のVisualEchoes:Eoches情報をFuseすることで、Embodied 環境でDepth推定、Naviagtionを行い、高い精度を示した。60UT-Austin_Computer_Vision
Title: SoundSpaces: Audio-Visual Navigation in 3D Environments (ECCV, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied 環境で音を発信する物体をLocalizationするために、AgentがEmbodied環境でナビゲーションするタスクSoundSpacesを提案。● 入力として、Audio Spectrogramも使う。感想:● Echospaceとかなり類似し、音信号が自分から出すか他の音源があるかの区別だけ。● どちらでも重要だが(Echo/Sound Space)、データセット、手法が同じになっている部分も多い。提案のSoundSpacesタスク:Embodied AIが環境中に音源にたどり着くために自己ナビを行う。61UT-Austin_Computer_Vision
Title: Semantic Audio-Visual Navigation (CVPR, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 前ページのSoundSpacesの進化版。● SoundSpacesでは物体が連続音を出す、かつ、音信号が人口で作成した信号(例:電話音)。● ここで、不連続で、物体の自然的な音(蛇口の水の流れの音など)をLocalizationするタスクとデータセットを提案。感想:● 同じ研究室の研究SoundSpacesと類似。しかし、SoundSpacesでは固定の音声をLocalizationするためで自己ナビし、ここでは物体の音と物体の形状・位置などを関連付けてNavigation。提案のAudio-Visual Navigationタスク:環境中の物体(例:蛇口)がその物体の特定な音(水が落ちる音とか)を自然的に(連続的ではなく、短く不連続な場合もある)発信し、Embodied Agentがその物体をLocalizationするため環境中に自己ナビをする。62UT-Austin_Computer_Vision
Title: Move2Hear: Active Audio-Visual Source Separation (ICCV, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied Agentが複数の音声があるEmbodied環境で音声ソースを分離・Localizationをするaudio-visual source separationタスクを提案。感想:● 2.5D Visual Soundのラインの研究で、2.5Dではビデオから音源分離を行い、ここではEmbodied環境で音源の分離になる。タスク的に更に設定がリアルで一歩前に進めた感がある。● 手法的には強化学習を使っていて、新規性が薄い気もする。提案のMove2Hearタスク:Embodied環境で複数の音源があり、特定な音源をLocalizationをするため、Embodied Agentが音源分離をしながら自己ナビを行う。63UT-Austin_Computer_Vision
Title: Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video (BMVC, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● VideoのMonoaudioからBiaural Audioを生成する新たな手法を提案。● 既存法(2.5D Sound)ではVideoから直接Spatialを予測したことと比較して、ここではVideoからDisentangledなSpatial Representationを使用し、2.5Dより高い精度を得られた。感想:● 2.5D Soundの手法的な延長で、Embodied AIとも少し関連する。● Vision and Audio(Sight and Sound)のモノポリ感がある。メインアイデア: VideoからImpulseや環境のSpatial情報の予測を利用し、Mono AudioからBinaural Audio生成64UT-Austin_Computer_Vision
Topic 2: Ego-centric/Embodied AI65UT-Austin_Computer_Vision
Title: Emergence of Exploratory Look-around Behaviors through Active Observation Completion (ScienceRobotics, 2019)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 従来、Computer Visionでは指定された入力から認識するようなタスクが多い。(例:画像認識、ビデオ認識など)● ここではAgentが新しい環境に入った場合に、どういった視点から環境を見ることでよりInformativeな情報を得られるかを学習する仕組みを提案。感想:● Science Roboticsも投稿先としてあるか(2021-2022-IF:23.748)!● 考え方は特に既存の少ない視点からSceneの3次元再構成の研究とあまり差がないが、どうしてScience Roboticsに採録されたかわからない。● 手法的には、Recurrent Model + Reinforcement。解釈性もそこまで高いない。提案のLook-around Agentのモデル構造:66UT-Austin_Computer_Vision
Title: Ego-Topo: Environment Affordances from Egocentric Video (CVPR, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Ego-centric動画から、動作のラベル(例:玉ねぎを切る)と動作発生の場所を表すTopologicalmapをベースに認識を行う手法を提案。● 既存のTotal画像認識、SLAMベースな手法の真ん中に位置付け、Ego-centric動画像認識に高い精度を実現とともに、SLAMベース手法より使いやすい。感想:● Ego-centricビデオからいかに3次元物理位置とリンクするかに関しての研究で、提案のTOPOマップが計算コストも小さくて、人間の感覚都も良く類似し、とてもReasonableな提案。● 提案のTOPOマップの使いやすさも強い。Affordanceとリンクさせることも可能。● TOPOマップと経由して、Sim2Realやロボットのデモにも使えそう。提案のEgo-Topo:Ego-centricビデオから、細かいClipの動作およびその動作発生する場所を表すtopological map。67UT-Austin_Computer_Vision
Title: Learning Affordance Landscapes for Interaction Exploration in 3D Environments (NeurIPS, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied環境の物体Affordanceをベースとした遷移学習の提案。● 3次元環境から環境中の物体とどういったInteractionができるかを強化学習的なフレームワークで学習し、このような学習や得られる特徴表現がNovel 環境に対しての汎化性能をしめした。感想:● Affordanceベースの転移学習やSim2Realが使えそうで効率も良さそう。● Ideaを強化学習的にその有用性を示せるところがかなりエンジニアリングや計算リソースのところが大変そう。研究のメインアイデア:Affordanceベースの学習でNovel環境に対しての表現を向上68UT-Austin_Computer_Vision
Title: An Exploration of Embodied Visual Exploration (IJCV, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Taskonomyと類似した研究で、Embodied AIタスクでどのような特徴表現がどういったタスクにおいて有用なのかを調べた。● 限られたBudgetで環境中の物体と位置に関する情報の学習は複数のEmbodied AIタスクにおいて有用であることを示した。感想:● こちらの論文はScience Robotics論文の拡張版(入力が多視点画像⇒Embodied AiのEgo-centricobservationsになった)。● Taskonomyからも一部考え方、やり方を借りている感。研究のメインアイデア:Embodied Agentが限定されたBudgetで環境を探索し、物体とその3次元情報を習得。そのような特徴表現をその他のDownstream EmbodiedAiタスクに活用69UT-Austin_Computer_Vision
Title: Shaping Embodied Agent Behavior with Activity-context Priors from Egocentric Video (NeurIPS, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 実環境のビデオデータとEmbodied AIのDomainGapを縮めるための研究。● 具体的に、Ego-centricビデオからActivitiesに関連する物体情報を学習し、Embodied AIでRewardを設定し、Activitiesに関連する物体を多く集めれば報酬が高い。実験で、このような学習が学習のスピードを加速できることを示した。感想:● Real世界のEgo-Centricビデオでの学習を、Embodied AiのDomainで活用する研究で、かなり分野への貢献度が高く、Embodied AIの実環境での利用を一歩前に進められた。● Ego4Dや、研究室で今までやってきた研究とかなりつながりが見やすい感じ。メインアイデア:実環境Ego-centricビデオからAcitivitiesに関連する複数の物体という情報を習得し、Embodied AIタスクで強化学習でActivitiesに関連する物体を集め、RealとSImのDomainをつなげる。 70UT-Austin_Computer_Vision
Title: Ego4D: Around the World in 3,000 Hours of Egocentric Video (arXiv, 2022)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 大規模で、DenseでアノテーションされたEgo-centricビデオデータセットの提案。感想:● このプロジェクトが様々なComputerVision分野においてかなり使えそう。また、このプロジェクトがあるから、関連する研究室は続々と良い研究ができそう。● 長いVideoの認識の時代がやってきそう。● 第一人称動画のみではなく、様々な視点があるとなおさらよい気がする。Ego4Dデータセットのイメージ図:3,670 hours;数百種類のActivities; 複数のSensors(カメラ、Stereo、Gaze、3D Scanners)71UT-Austin_Computer_Vision
Topic 3: Visual Question Answering72UT-Austin_Computer_Vision
Title: VizWiz Grand Challenge: Answering Visual Questions from Blind People (CVPR, 2018)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 目の見えないユーザにより集めた画像と質問文から構成されるVQAデータセットVizWizを提案。感想:● 盲人のためのVQAがVQA研究の一つかなり有力な応用方向。また、画像のみではなく、ビデオ入力の方向も検討すべき。● VQA系の研究の究極的な目標にもなるように思う。未だにかなりChallengingである。VizWizデータセットで扱っている盲人により撮影された画像及び記録した質問73UT-Austin_Computer_Vision
Title: Visual Question Answer Diversity (HCOMP, 2018)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 既存のVQAタスクでは1質問1回答を推定する。● ここで、1つの回答ではなく、複数の回答およびそれぞれのFrequencyを推定するVQA設定を提案。感想:● 一つの質問に対して、異なる回答およびそれぞれのFrequencyを予測する問題が、人に対してもかなり難しい。定義実体もすこしIll-posedな部分がありそう。● 無限なHuman Annotationが得られないため、Qから1つのみの回答を予測するのが確かにIll-posedになりそう。● 論文にheではなく(s)heが使われている(笑)Visual QuestionにおいてAnswerのDiversity分布の例74UT-Austin_Computer_Vision
Others75UT-Austin_Computer_Vision
Title: Learning Patterns of Tourist Movement and Photography from Geotagged Photos at ArchaeologicalHeritage Sites in Cuzco, Peru. (Journal of Tourism Management, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Social Mediaの旅行先の画像(Peruの都市を対象にした)から、Touristsがそれぞれの観光スポットのTravel patternsを分析。● Social MediaのデータがどうやってTouristsのTravel Preferencesに影響を与えているかも分析感想:● こちらの研究室で様々なタイプの研究を扱っている。● Change RecognitionとChange Captioningに関連が強そうに感じた。● 今後どうやって、大規模Internetデータから文字・画像・映像に含まれる情報を分析し、それをAIに活用するのが重要になってきそう旅行Patternの分析の例76UT-Austin_Computer_Vision
重要視されているところ● 特に「音声」とVisionの融合が多く研究してきた:○ 視覚+音声⇒音声信号の強化○ 視覚+音声⇒Visualナビゲーションの性能向上、音源定位● 実環境への汎化性能、Embodied AIと実環境ロボットアプリ関のGapの縮小● 特に早い段階から「音声」+視覚を研究していて、自ら根強い研究分野を創出している。● 手法の方よりも、「問題の提出」を重要視している。○ 逆に手法が少し弱い(Multi-modal+Reinforcement)も時々する。77気付きUT-Austin_Computer_Vision
Stanford UniversityJiaJun Wu78
研究者 扱っている研究分野:選定理由:● Physical Scene Understanding● Neuro-Symbolic Visual Reasoning● Multi-Modal Perception● Dynamic Models● Generative Visual Models● Neural-symbolic系においてたくさんの重要研究を行ってきた。● Physics +AIに関しても相当数の重要研究をしてきた。● Neural-SymbolicとPhysics +AIどちらも相当な未来性を持つ分野に感じた。● 現在Stanford Vision and Learning Lab(FeiFei Li研)に所属。79Jiajun Wu先生写真URL:https://jiajunwu.com/Stanford: Jiajun Wu
研究テーマの変遷201780CLEVRER2018 2019 2020Visual De-animation画像のDisentangledな物理/Semantic表現Neural Scene De-renderingNeural-Symbolic的な手法、タスクなどNeural-Symbolic VQANeuro-Symbolic Concept LearnerScene Programs● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介Stanford: Jiajun Wu
Title: Learning to See Physics via Visual De-animation (NeurIPS, 2017)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像からPhysical world特徴表現(Shape, Mass, Friction, 3DPose, Position)を復元するVisual de-animation(VDA)を提案(上図、左)。● 生成されたPhysical stateを用いてReasoningやFuture予測が可能。感想:● 画像からPhysical worldを復元するアイデアがかなりインパクトを感じる。全般的実現することはかなり難しいが、局所的な空間でのロボットアプリケーションで応用できそう。Visual de-animationの概念図Visual de-animation(VDA)モデル81Stanford: Jiajun Wu
Title: Neural Scene De-rendering (CVPR, 2017)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像から、明示的にDisentangledScene Representation(物体、物体属性、位置)を推定する手法を提案。● Auto-encodersなどと異なり、Decoderの部分でGraphics Enginesを用いる。感想:● 2017年当時では、NeRFなども提案されていなかった。現時点では、NeRF等を代表とした手法が提案され、この論文で提案されたDe-renderingの方向では比較的に論文が少ないように感じる.● De-renderingという提案も良いが、適応できる場面が限られるような気もする.De-renderingとRender提案手法の構造図 82Stanford: Jiajun Wu
Title: Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding (NeurIPS, 2018)Research Team / Researcher: Stanford_JiaJunWu概要:● De-renderingをVQAタスクに適応した。(VQAを算数を解くみたいな感じで行っている)● De-renderingとsymbolic program executionにより、VQAの回答のプロセスが明示的になる感想:● Neural Symbolic系は、識別とReasoning部分をわけて処理するイメージ。● 視覚と言語両方のWeak/Self-supervised学習との組み合わせが興味深い。● NeRF+Languageもかなり興味深い。NS-VQAのモデル構造(左図)83Stanford: Jiajun Wu
Title: The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences from NaturalSupervision (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 前ページのNeural Symbolic VQA(NS-VQA)手法をもっとEnd-to-end学習可能にした。● 質問と画像から、視覚概念・単語・センテンスのセマンティクスパーシングを自動的に学習するフレームワークNeural Symbolic ConceptLearner (NS-CL)を提案。● Latent Scene RepresentationをベースとしたNeuro-symbolic learningを行っている.感想:● 前作(NS-VQA)と比べ、確実に一歩Self-supervisedなNeural Symbolicモデルを実現できている。● Neurual Concept Learnerを様々なタスクに適応していきたい。提案のNS-CLの概要:カリキュラム学習を用いた学習・言語と視覚概念のParsing及びAlignment84Stanford: Jiajun Wu
Title: Learning to Describe Scenes with Programs (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像から、Scene Program(物体、物体の配置を表すプログラム)を生成するタスクを提案。感想:● Scene Programsという提案が新規で面白いが、適応できる場面が非常に限られている?(Simulationかつモノの分布にルール性がある)● 逆に生成を行えると面白そう。提案手法のプロセスおよびScene Programsの例 85Stanford: Jiajun Wu
Title: Reasoning About Physical Interactions with Object-Oriented Prediction and Planning (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 物体の属性のSupervisionを用いずに、物理シーンの理解のためのObject-centricrepresentationsモデルの提案。感想:● RoboticsのGraspingタスクなどに使えそう。● 実環境で適応する時にどのようなPhysicsEngineが使えるかが気になる。NeRFはそろそろ近くなる?3種類のParadigms:(c)提案のObject Factorization without ObjectProperty Supervision86Stanford: Jiajun Wu
Title: CLEVRER: Collision Events for Video Representation and Reasoning (ICLR, 2020)Research Team / Researcher: Stanford_JiaJunWu概要:● 因果推論のための、ビデオデータセットを提案。● また、De-renderingとNeuro-symbolicモデルを組み合わせた手法も提案(人工設計のModuleが必要)。感想:● Videoや3Dを考慮したReasoningに関しての研究がこれから重要になってきそう。● 論文の書き方はかなりよかった。問題を明示化し、既存研究の問題点もはっきりにした。提案のCLEVRERデータセット提案のOracle model: NS-DR87Stanford: Jiajun Wu
Title: Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning (ICLR, 2021)Research Team / Researcher: Stanford_JiaJunWu概要:● 前ページのCLEVRERデータセットのための新たな手法の提案。● 前ページでは、人工設計のModuleが必要である一方、ここでもっとEnd-to-endでできるようにした。感想:● 手法的にかなりNS-CLに近い、NS-CLのVideoへの拡張になっている。● 依然として局所的にVisual Reasoningを検討し、実験として簡単な実環境でも実験。● もっと一般的なVideoへの応用が期待される。提案のDCL(Dynamic ConceptLearner)の構造図88Stanford: Jiajun Wu
Title: Grammar-Based Grounded Lexicon Learning (NeurIPS, 2021)Research Team / Researcher: Stanford_JiaJunWu概要:● Groundedな視覚と言語のデータから、自動的にCompositionalかつGroundedな言語表現を学習する手法G2L2の提案(下図)。G2L2がNovelなワードのCompositionsに適応可能。感想:● この論文では言語側を切口に行われているNeuro-symbolic手法になる。● 言語側もまだまだ色々課題がある。最近のDALLE-2などをVision and Language系に導入できると良さそう。提案のG2L2(Grammar-Based Grounded LexiconLearning)の構造図89Stanford: Jiajun Wu
重要視されているところ● AIで物理法則を理解する● Neural-Symbolic 的な手法により、人間のように因果推論ができるAIの実現● 物理+AIの研究者として、物理、Robotics、AIどちらに関しても相当詳しい○ この3つの分野に対しての知識だけで壁がある○ AIに関しても、3D Vision、Video Recognition、Vision and Languageなど様々なサブ分野を研究してきた90気付きStanford: Jiajun Wu
University of MichiganJustinJohnson91
研究者 扱っている研究分野:選定理由:● Visual Reasoning● Vision and Language● Image generation● 3D Reasoning● Vision and Languageを含めて、複数の分野で重要な論文を残した○ Vision and Language■ CLEVR■ Scene Graph■ Dense Captioning○ その他■ Perceptual Loss92Justin Johnson先生写真URL:https://web.eecs.umich.edu/~justincj/Michigan: Justin Johnson
研究テーマの変遷2015932016 2017 2021Scene GraphDense CaptioningCLEVRCLEVRのためのNeural-Symbolic 手法● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介VirTexMichigan: Justin Johnson
Title: Image Retrieval using Scene Graphs (CVPR, 2015)Research Team / Researcher: Michigan_JustinJohnson概要:● 画像の意味的構造Scene Graph(Objects,Attributes, Object Relationships)を提案。新規性:新たなImage Representation、Scene Graphの提案。当初はSemantic Image Retrievalのためだったが、現在Scene GraphがあらゆるComputer Visionタスク、Video、3Dデータにも適応されるようになってきた。言語ー画像の間に位置付けるかなり効率的なGraph構造になる。Scene Graph(下)とGrounding(上)の例94Michigan: Justin Johnson
Title: DenseCap: Fully Convolutional Localization Networks for Dense Captioning (CVPR, 2016)Research Team / Researcher: Michigan_JustinJohnson概要:● 従来の画像説明文生成タスクでは1画像1センテンスで、説明できる内容が限られる。● 画像から、複数の物体を検出し、検出された物体のCaptioning生成を同時に行うDenseCaptioningタスクを提案。感想:● Dense Captioningタスクの提案はかなりその時点の流れ的な感じがあるが、タスクの設定はシンプルかつ重要だった。現在もVideoや3次元データのDense Captioningタスクと類似したタスクが続出。● 同じ研究室(Fei fei Li研)でDenseCaptioningタスクに必要なデータセットVisual Genomeも提案されたので、DenseCaptioningタスクの提案も計画下かなと感じた。Dense Captioningタスクと既存タスクの比較95Michigan: Justin Johnson
Title: CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning (CVPR,2017)Research Team / Researcher: Michigan_JustinJohnson概要:● 既存のVQAデータセットVQAv1とVQAv2では手動で作成しているため、Human-centered biasが含まれる。● VQAの手法をより分析する可能に、CGのVQAデータセットCLEVRを提案。感想:● データセットの設計は非常に合理的でコードが綺麗。● CLEVRがVisual Reasoningモデルの研究を開かれた感じがあり、但しCLEVRから5年立っていたが、シミュレーションとリアル環境で同時に解釈性が高いVisualReasoningできるモデルはいまだにOpen-question。言語のみの場合かなり進歩してきたが。CLEVRデータセットの例96Michigan: Justin Johnson
Title: Inferring and Executing Programs for Visual Reasoning (ICCV, 2017)Research Team / Researcher: Michigan_JustinJohnson概要:● 人間のように、Step-by-stepで推理を行うプロセスを持ったVQAの手法を提案。● 質問と画像両方のDisentangledな表現、推理プロセスのモジュール化などにより、Step-by-step的なVisual Reasoningを行っている。感想:● 実環境に対応できるモデルにはまだまだ遠いが、Neural Module NetworksのCompositional Reasoning能力を示せた。● Neural Module NetworksがWeakSupervisedもしくはSelf Supervisedで構築できるかが興味深くて、いまだにOpen-questionになっている。提案のIEPモデルの構造:Program Generator(質問から推理プロセスを推定)+Execution Engineから構成される(推理プロセスに対応した画像処理モジュールを組み合わせる)97Michigan: Justin Johnson
Title: Image Generation from Scene Graphs (CVPR, 2018)Research Team / Researcher: Michigan_JustinJohnson概要:Text-to-Imageの代わりに、Scene Graph-to-Imageを提案(上図)。感想:● テキストから直接画像生成と比べ、Scene Graphを経由した方が合理的で、解釈性が高く感じる。● JohnsonがScene Graphの提案から、画像の意味情報の理解をすこしずつ向上させている感じがある。また、Black boxよりは、解釈性を重視する傾向にある。提案手法(右図):● Scene Layoutを中間表現として、Scene Graphから画像生成を行う.● Scene Graph⇒Layout: Graph NN● Layout-> Image: Cascaded RN98Michigan: Justin Johnson
Title: VirTex: Learning Visual Representations from Textual Annotations (CVPR, 2021)Research Team / Researcher: Michigan_JustinJohnson概要:Semantic Denseなタスク(例:上図の右側のImage Captioning)での事前学習で高精度かつ高データサイズの効率性が得られることを検討。感想:Semantic Dense/Sparseなデータで事前学習でそれぞれProsとConsがある。ここでDenseの方だとデータの効率が高いことを示せた。両方を結合した方が良いかもしれません。様々なCVタスクのSemantic Densityの順番:(右)提案のVirTex(下):SemanticDenseなImage Captioningタスクで事前学習し、ObjectDetectionタスクへ遷移学習99Michigan: Justin Johnson
重要視されているところ● 画像/視覚情報に対して意味情報の理解を深まっている。● Jiajun Wuと類似したように、Computer Visionに関して様々なタスクを扱ってきた。● 画像の意味的構造に関しての理解が深い、根強く研究し続けている○ Scene Graph○ Dense Captioning● 実装力がとても強い○ CLEVRとその後のICCV2017で提案したNeural-Symbolic 手法がかなり短い期間でできた● アイデアがいつもシンプルで、Communityに対してのContributionがクリアで説明されている。● 提案手法がいつもTrickyではなく、合理的かつStraightforwardなものが多い印象。● 論文が読みやすい。100気付きStanford: Jiajun Wu
University of MichiganHonglak Lee101
Honglak Lee (ミシガン大学, LG AI Research)兼務:2016 Google Brain→2020 LG AI Researchスタンフォード大学:(指導教員はAndrew Ng)● Ph.D. (2010): Computer Science● M.S. (2006): Computer Science, Applied Physicsソウル国立大学:● B.S. (2003): Physics, Computer Science画像は[1]より引用[1] https://web.eecs.umich.edu/~honglak/主戦場の分野:強化学習、CV、V&L、NLP貢献が多いトピック:● 教師なし、弱教師ありの表現学習● (主に弱教師あり)領域分割● GANを用いた画像生成・画像変換● GANの正則化手法選定理由(品川):研究室の規模は10名弱とそれほど多くないものの、メンバー全体が機械学習トップ会議の常連であり、質の高い論文が多く、学べるものが多そうだと考えたため。 102
活躍している分野(採択先別、ジャーナル、workshop含む)個人サイトにある掲載論文[1] 124件 (2005-2021)の論文を集計した多い会議● 表現学習や強化学習(NeurIPS, ICML,ICLR)● CV系(CVPR,ECCV, ICCV)NeurIPS (5月投稿締切)→ICLR (9月) orCVPR (11月) → ICMLor IJCAI (1月)という研究サイクル?103
活躍している分野(研究テーマ別)個人サイトにある掲載論文[1] 124件 (2005-2021)の論文を集計した強化学習や表現学習が大部分だが、関連技術として画像(動画)生成・変換系の話や、その道具として主流であるGANの工夫の話も多い。強化学習表現学習深層生成モデル104
● 2012-2014頃は NIPSworkshop (12月初旬開催)からICML (1月投稿締切)という流れも(今はやってない?)● 2015-2018はAdobe Researchとも共同研究していた?(Jimei Yangがキーパーソン?)博士論文:Unsupervised Feature Learning Via Sparse Hierarchical Representations深層学習モデルによる教師なしの表現学習(スパースコーディングと、スパースなDeep Belief Network、畳み込みDeep Belief Network)2014年頃まで:RBM、DBN、Convolutional DBNによる表現学習2015年~:画像、テキストによる表現学習、画像生成・変換、強化学習、動画生成2019年~:GANの正則化手法も加わる● 表現学習を基礎にしながら、強化学習や画像を中心とした深層生成モデルを攻めている● 大まかには、表現学習や深層生成モデル(ミシガン大)強化学習のアルゴリズム改善(Google Brain)で分かれているという印象● 一見色々なことをしているように見えるが、大きな目で見ると、コアの技術は有機的につながっていて、かつテーマが研究室内で引き継がれている印象を受ける。指導方針に戦略がありそう?● 研究トピックがその時代の流行りを少し先取りしていたり、面白いと思われているところを絶妙についているという印象。研究対象を絞っているゆえに着眼点が良いのかも105
研究テーマの変遷2014 2022RBM、Deep BeliefNetworksによる表現学習画像生成・変換強化学習 (2016年以降は主にGoogle Brainでの仕事)動画生成画像と言語の共有空間の学習text-to-image+GAN2016博士論文, 2009CKAによるDNNの類似性解析GANによる正則化表現学習や表現の分析106
主要な貢献には主に優秀なPh.D.の学生やポスドクが関わっているLajanugen LogeswaranSungryull SohnSeunghoon HongScott ReedYuting Zhang現Ph.D. student。文の表現学習に関する仕事はだいたいこの人が筆頭著者現Ph.D. student。強化学習の改善に注力現Amazon。元Visiting Ph.D. student→ポスドク。深層生成モデルを使った画像タスク色々。画像や言語の表現学習も手掛ける現KAIST Assist. Prof.。元Visiting Ph.D. student→ポスドク。弱教師あり領域分割や条件付き画像生成・変換がメイン現DeepMind。元Ph.D. student。GANによるtext-to-imageの草分け的存在。画像とテキストによるゼロショット画像分類や表現学習、画像生成・変換など 107
対外でも強力な共著がいるGoogle Brain Sergey LevineJimmei Yang強化学習の大家現Adobe。元Visiting Ph.D. student。Adobeのインターンや共同研究はこの人が関係している?Geoffrey Hinton 深層学習の大家次のページからは論文まとめ108
画像の表現学習動画・画像の生成・変換109
Title: Convolutional deep belief networks for scalable unsupervised learning of hierarchicalrepresentations (ICML 2009, Best Paper Award: Best Application Paper)Research Team / Researcher: Michigan_Honglak_LeeDeep Learning初期に主流だったDeepBelief Networkに畳み込み構造を追加したConvolutional Deep Belief Networkを提案した論文。左図は2層目(上図)と3層目(下図)が反応する視覚的特徴を示している。階層性が複雑な特徴を捉えていることを示している図としてかなり有名な図StanfordAndrew Ng110
Title: Action-Conditional Video Prediction using Deep Networks in Atari Games (NIPS 2015, oral presentation)Research Team / Researcher: Michigan_Honglak_Leeactionに条件づけられた動画予測強化学習でよく用いられるAtariのゲームの動画で実験Atariの動画は自然画像ほどではないが、数十オブジェクトやオブジェクトの増減が起こるFeed-forwardとRecurrent層を含む2種類の提案モデルが良いことを示した。DNN時代の条件付き動画生成の比較的早期の研究と思われるMichigan111
Title: Deep Visual Analogy-Making (NIPS 2015, oral presentation)Research Team / Researcher: Michigan_Honglak_Lee潜在空間上である関係にある画像同士を引き算し、その関係を適用したい画像に{足す、掛ける、ニューラルネットワークに通す}と、その関係が適用された新しい画像が生成できることを示した論文。ニューラルネットワークに通した場合(deep)が一番良い結果になった当時、DNNによる画像変換の可能性に一石を投じた論文の一つMichiganScott Reed112
Title: Learning Hierarchical Semantic Image Manipulation through Structured Representations (NeuIPS2018)Research Team / Researcher: Michigan_Honglak_Lee前景と背景を考慮しながら領域マスク生成と画像生成の二段階で画像を編集する手法を提案筆頭のSeunghoon HongはCVPR2018でも似たようなことをtext-to-imageでやっている。text-to-imageの方が先なので、より対象を絞ったのだろうか?Seunghoon HongMichigan113
テキストの表現学習Lajanugen Logeswaranとの仕事114
Title: Sentence Ordering and Coherence Modeling using Recurrent Neural Networks (AAAI 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichiganDragomir Radev与えられた文の集合から文を順番に生成するタスクを解くことで、一貫したテキストの構造をモデル化し、良い文の表現を得る方法を提案。順序判別タスク、科学論文の概要を並べるタスクで有用性を示した。文の表現としても有用。115
Title: Content preserving text generation with attribute controls (NeurIPS 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichiganGoogle BrainSamy Benjioラベルに条件付けられたテキスト生成で、再構成損失、逆翻訳損失、敵対的損失を導入116
Title: An efficient framework for learning sentence representations (ICLR 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichigan入力テキストに対応する文脈を対照学習で予測する問題を解くことで、良いテキスト表現を学習する117
Title: Zero-Shot Entity Linking by Reading Entity Descriptions (ACL2019 Best paper award finalist)Research Team / Researcher: Michigan_Honglak_Leeラベルデータなしで与えられたテキスト(メンション)をエンティティに紐づけるタスクをzero-shotで行う。ラベル付けされていない大規模データに対して事前い学習させたモデルを用いて未知のエンティティに汎化できることを示した。Lajanugen LogeswaranMichiganGoogle Brain118
画像と文の表現学習text-to-imageYuting Zhang、Scott Reed、Seunghoon Hongとの仕事119
Title: Evaluation of Output Embeddings for Fine-Grained Image Classification (CVPR 2015)Research Team / Researcher: Michigan_Honglak_LeeMichiganScott ReedMax Planck画像とクラスの埋め込み(もしくはテキストの埋め込み)が一致するか否かをSVMで予測するタスクを解くことで、zero-shotの画像分類の性能を向上させたScott Reedの、後のvisualsemantic embeddingの研究につながっている模様120
Title: Learning Deep Representations of Fine-grained Visual Descriptions (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Lee画像と言語の共有空間であるvisual semantic embeddingを学習当時主流だったTriplet lossに、クラスラベルの一致をマージンとして加えたlossを提案した。結局流行ることはなかったが、筆頭著者のScott Reedが自身のGANによるtext-to-image論文で利用しているテキストエンコーダにCNN-RNNを使っていたのも当時珍しかった印象MichiganScott Reed121
Title: Generative Adversarial Text to Image Synthesis (ICML2016)Research Team / Researcher: Michigan_Honglak_LeeGANをtext-to-imageに応用した最初の論文。Discriminatorで入力画像が本物か判定するだけでなく、入力条件にも沿っているかを合わせて判定するmatchingaware lossは、条件付きGANの標準的な方法の一つとして普及したといえる。MichiganScott Reed122
Title: Learning What and Where to Draw (NIPS 2016, oral presentation)Research Team / Researcher: Michigan_Honglak_Lee概要:text-to-imageの入力に自然言語だけでなく矩形やkey-pointなど、空間的な情報を含めて生成する手法を提案した。テキスト+追加情報でtext-to-imageをすることの先駆けとなった論文Honglak Leeのラボでは、この手のネタがしばらく継承されてきているMichiganScott Reed123
Title: Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis (CVPR2018)Research Team / Researcher: Michigan_Honglak_Leeテキストからの画像生成にbounding boxの予測タスク、領域マスクの予測タスクを挟みこんで生成text-to-imageを段階的なタスクに分割し、End-to-endで学習。空間的なレイアウトもモデルから生成できるようにしたMichiganSeunghoon Hong124
Title: Text-to-Image Generation Grounded by Fine-Grained User Attention (WACV 2021)Research Team / Researcher: Michigan_Honglak_Lee実践的なテキストからの画像生成の方法として、ユーザが喋りながらマウスによる軌跡入力を行えるという問題設定の下で画像を生成Google Research125
Title: Discriminative Bimodal Networks for Visual Localization and Detection with Natural LanguageQueries (CVPR2017 spotlight)Research Team / Researcher: Michigan_Honglak_Lee概要:テキストのクエリが示す画像中の領域を検出するタスク。従来手法がimage-captioningなどに基づくのに対し、本手法は画像とテキストのマッチングを2値分類することで効率的に負例も使うことができる。現在のV&L BERTのtext-imagematchingにも通じるアイデアだと思われるMichiganYuting Zhang126
強化学習Sungryull Sohn、Google Brainでの仕事127
Title: Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies(NeurIPS 2018)Research Team / Researcher: Michigan_Honglak_Lee Sungryull SohnMichigan既存の階層的なマルチタスク強化学習ではエージェントが何をすべきか明示的に示していたが、本研究ではサブタスクの性質とサブタスク間の関係性のみの情報だけで、エージェントがどのサブタスクを実行するか推論させるより実践的な問題設定になっている128
Title: Data-Efficient Hierarchical Reinforcement Learning (NeurIPS2018)Research Team / Researcher: Michigan_Honglak_Lee上位方策と下位方策により複雑なタスクを解く階層型強化学習において、上位方策がon-policyで学習する必要があった従来手法に対し、上位方策もoff-policyで学習する方法を提案し、サンプル効率を改善したGoogle Brain Sergey Levine129
Title: Evolving Reinforcement Learning Algorithms (ICLR2021 oral)Research Team / Researcher: Michigan_Honglak_Lee概要:モデルフリーの価値ベースRLエージェントを最適化するのに、損失関数を計算する計算グラフ上をサーチするメタ学習強化学習を提案。ドメインにによらず新しい環境への汎化が可能で、スクラッチ学習でも既存のDQNなどと組み合わせることも可能。価値ベースの過大評価に対処するRLアルゴリズムと類似した傾向があるGoogle Brain Sergey Levine130
GANの正則化Michigan大、Google Researchでの仕事131
Title: Diversity-Sensitive Conditional Generative Adversarial Networks (ICLR 2019)Research Team / Researcher: Michigan_Honglak_Lee条件付きGANのモード崩壊を抑えつつ多様性を向上させる方法として、目的関数に正則化を加える手法を提案。生成条件xに潜在変数z_1, z_2を加える時、z_1, z_2の距離に対するGeneratorによる生成後の距離を上限τのもとで最大化する。Michigan132
Title: Consistency Regularization for Generative Adversarial Networks (ICLR 2020)Research Team / Researcher: Michigan_Honglak_LeeGANにデータ拡張を適用する際、データ拡張適用前後の特徴量は近くなることが望ましい。この正則化をDiscriminatorに適用したCR-GANを提案。画像は下記リンクより引用https://arxiv.org/abs/2002.04724Google Research133
Title: Improved Consistency Regularization for GANs (AAAI 2021)Research Team / Researcher: Michigan_Honglak_Leeデータ拡張を行った入力の予測をDiscriminatorの予測に近づけるconsistency costの導入(1)は性能を向上させる一方でartifactを引き起こすことを指摘。データ拡張の対象を変更することでよりFIDで高性能であることを示した(2)(3)● (2) bCR-GAN:Generatorによる生成画像にデータ拡張を加えてconistency costを計算● (3) zCR-GAN:zにノイズを加えて、生成画像にconsistencycostを計算Google Research134
CVタスク(弱教師あり領域分割など)Seunghoon Hong、Yuting Zhang、Jimei Yangとの仕事135
Title: Weakly Supervised Semantic Segmentation using Web-Crawled Videos (CVPR2017 spotlight)Research Team / Researcher: Michigan_Honglak_Lee概要: Web上の動画を領域分割できるモデルを学習する。1. 最初に既知のドメインで画像認識モデルとattention mapを学習2. Web動画を認識モデルでフィルタリング3. (既知のドメインで)attention map to segmentation maskを学習MichiganSeunghoon Hong136
Title: Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional NeuralNetwork (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Lee弱教師ありの領域分割の性能を上げる方法として、別のドメインの領域分割データセットからの転移学習を行う研究。クラスの予測と領域分割のマスクの予測を分けて予測するタスクを解くことで、転移先のデータセットに対しても領域分割を汎用的に機能させることができるMichiganSeunghoon Hong137
Title: Object Contour Detection with a Fully Convolutional Encoder-Decoder Network (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Leeシンプルなネットワークで輪郭検出ができることを示したAdobeとの共同研究?MichiganJimeiYang138
Title: Unsupervised Discovery of Object Landmarks as Structural Representations (CVPR 2018 oral)Research Team / Researcher: Michigan_Honglak_Lee教師なしで画像中のランドマークを発見する手法を提案。UNetのようなEncoder-decoderモデルでチャネルごとにisotropic gaussianを仮定してランドマークを抽出し、このランドマークを基に画像の再構成を学習することで画像中のオブジェクトに対する良いランドマークを発見するMichiganYuting Zhang139
Title: Similarity of Neural Network Representations Revisited (ICML2019 + Best Research Paper Award at theICLR 2019 Workshop on Debugging Machine Learning Models)Research Team / Researcher: Michigan_Honglak_Lee概要:centered kernel alignment (CKA)に基づいたニューラルネットワークの表現(activation)の類似性の比較を提案。線形のCKAは従来の正準相関分析を固有値で重みづけした方法に相当することを示し、CKAの優位性を示した。補足:線形CKAによる手法は現在の標準的な類似度比較手法になっており、昨今のResNetとVision Transformerの比較にも利用されており、大きな影響を与えたと言えるGoogle Brain Geoffrey Hinton140
Google:Peter Anderson141
研究室の構成写真:URL:https://panderson.me/扱っている研究分野:選定理由:● Embodied AI● Image caption● VQA● Vision-langauge Navigation● image captionタスクの評価:SPICE● Vision-language Naviagationを提案● REVERIEを提案142
Title: SPICE: Semantic Propositional Image Caption EvaluationResearch Team / Researcher: Google_Peter-Anderson概要:● image captionタスクにおいて,生成した文の意味内容によって,その文の質を評価する指標を提案した.● 生成文と参照文に出た物体,物体の属性,物体間の関係を基づいて,scene graphに変更する.2つのscene graphの類似度によって,生成文の評価を行う.新規性:● 従来の評価指標(BLEU,METEORなど)は文の意味を無視し,n_gramで生成文と正解を比較で評価する.SPICEでは文の意味を考慮する上で品質を評価する.SPICEによる評価の一例感想:● SPICEを提案した以来,image captionの分野で広めに利用される.従来の指標より,意味を重視しているけど,文の流暢性という基準がなくなる.143
Title: Chasing Ghosts: Instruction Following as Bayesian State TrackingResearch Team / Researcher: Google_Peter-Anderson概要:● 観察とモーションモデルを基づいてVLNタスクの解決策をBayesian State Tracking問題として提案● 言語指示から観察と動作関連の単語を取り出し,semantic spatial mapを作る新規性:● VLNタスクに向けてメモリ構造を提案した144
Title: Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environmentsResearch Team / Researcher: Google_Peter-Anderson概要:● vision langauge navigation(VLN):リアルな環境におけるエージェントは言語の指示に従って目的地に辿り着くというタスクを提案した.● ベンチマークRoom-to-Room(R2R)を構築した.新規性:● 新しくVision and Language系の研究のタスク(VLN)を提案した.このタスクは,CV,NLP,Robotics分野の結合で,非構造化かつ未知な実環境でのreasoning能力を求める.● 既存のVision and Language系の研究(VQA,visual dialog etc)より,画像と自然言語両モダリティ間の関係性をより深く理解する必要がある.感想:● 論文にはさまざまなベイスラインを提供され,Seq2seqの手法でR2Rベンチマークを試した結果,学習際に見なかったシーンに対する効果が低下であることより,VLNタスクでは汎用性のあるエージェントを学習させることが重要である.145
Title: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question AnsweringResearch Team / Researcher: Google_Peter-Anderson概要:● bottom-upで画像中での特徴を利用し,物体情報を認識した後に,top-downでattention構造で注意すべき領域を予測し,image captionとVQAのタスクを行う.新規性:● Faster-RCNNで物体検出することを活用し,visualとlanguageを連結したことにより,画像にのコンセプトへの理解を向上した.● 提案したbottom-upとtop-down形のattention構造はオブジェクトおよび他の顕著な画像領域のレベルでattentionを計算することができる. top-downでのVQAタスクためのモデルtop-downでのimage captionためのモデル146
Title: REVERIE: Remote Embodied Visual Referring Expression in Real Indoor EnvironmentsResearch Team / Researcher: Google_Peter-Anderson概要:高レベルの自然言語指示で指定された遠隔のターゲット物体(開始地点では観測できない)を正しくローカライズするタスク新規性:● 3D環境でのreasoning● high levelな指示論文に提案したモデルREVERIEデータセットの一例感想:● REVERIEタスクでは人間みたいに抽象性が高い指示を理解し,未観察の環境においても,ナビとreasoningの能力を求める.● 既存なSoTA手法でREVERIEを解けてみたけど,効果がよくないにより,挑戦的なタスクけど,VLNの発展および応用に意味ある.147
Title: Pathdreamer: A World Model for Indoor NavigationResearch Team / Researcher: Google_Peter-Anderson概要:● Pathdreamerは,屋内シーンの1つ以上のパノラマに基づいて,リアルで多様なパノラマ画像を合成することができる確率的階層的視覚世界モデルである.● PathdreamerをVLNタスクに応用する新規性:● 高解像度のaction-conditional video prediction148
Title: Less is More: Generating Grounded Navigation Instructions from LandmarksResearch Team / Researcher: Google_Peter-Anderson概要:2-stageのモデルを提案,視覚上に関連性あるのvisual inputのみを選んで,ナビの指示を生成する.● 1st-stage (landmark detector):パスで結ばれたpanoramicのシーケンスから,人がこのパスを説明するために選択する可能性のあるランドマークのシーケンスを推論する.● 2nd-stage (instruction generator):第1ステージに選んだランドマークとナビゲーションためのアクションを使って,ナビの指示生成を行う.感想:● image-text pairに似たような手法でパノラムから既存指示に出た名詞を抽出し,視覚とテキスト間の対応関係をうまく取ってきた.おかげで,モデルが生成した指示と人間が書いた指示の差をほとんどなくすことができる.149
University of Adelaide:V3ALab次のページからは論文まとめ 150
研究室の構成写真:URL:https://v3alab.github.io/扱っている研究分野:選定理由:● VQA● Image captioning● Referring Expression● Vision-language Navaigation151
Title: VLN BERT: A Recurrent Vision-and-Language BERT for NavigationResearch Team / Researcher: Adelaide_V3ALab概要:● V&L BERTモデルをVLNタスクに応用するため,recurrent BERTを提案し,エージェントの状態を依存できるようになった.● R2RとREVERIEのタスクでSoTAを達成感想:● V&L BERTモデルの特徴はマルチモーダル情報への理解力が高い,その特徴を利用し,VLNタスクにおいての環境理解が向上した.● BERTのself-attention構造を利用し,他のVLNモデルに提案したメモリ構造と同じように使える.モデルがシンプルになる同時に計算コストも低くなる.● recurrent機構を導入し,LSTMのセル状態のように状態を再利用することで,BERTの本来の構造を生かし,時間依存の入力を識別できるようにした.(VLN問題はMDPに見える,マルコフ連鎖における過去の状態への依存を解決することである.)部分的に観測入力を対応可能なrecurrent TransformerVLNリカレントBERの全体像 152
Title: Room-and-Object Aware Knowledge Reasoning for Remote Embodied Referring ExpressionResearch Team / Researcher: Adelaide_V3ALab概要:● REVERIEタスクに対して,room-entityのリズニングとobject-entityのリスニングするためのcommonsense knowledgeを学習するアプローチCross-modality Knwoledge Reasoning(CKR)を提案した● CKRの中,Knowledge-enabled Entity Relationship Reasoning (KERR)はグラフベースの知識推論を適用し,部屋や物体間の意味的・共起的な内部と外部の相関をとらえ,そこに常識を取り込む153
Title: Sub-Instruction Aware Vision-and-Language NavigationResearch Team / Researcher: Adelaide_V3ALab概要:● 既存の(Room-to-Room)R2Rデータセットでの指示文が抽象性があるため,指示文とシーンの間の対応関係がうまく学習していなかった.そして,本研究は元のアノテーションを基いて,sub-instructionを作成し,既存のR2Rデータセットを改善し,シーンと指示文を細かくマッチングできるようになった.● 4つのSoTAモデルを使い,改善したFineGrained R2Rの有効性を検証した.154Fine grained 指示文の例

Recommended

PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PDF
画像生成・生成モデル メタサーベイ
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
【メタサーベイ】Video Transformer
PDF
Vision and Language(メタサーベイ )
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Transformer メタサーベイ
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
動画認識サーベイv1(メタサーベイ )
PDF
ドメイン適応の原理と応用
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
[DL輪読会]ICLR2020の分布外検知速報
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PDF
最適輸送の解き方
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
自己教師学習(Self-Supervised Learning)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
メタスタディ (Vision and Language)
PDF
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
 

More Related Content

PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PDF
画像生成・生成モデル メタサーベイ
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
【メタサーベイ】Video Transformer
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
画像生成・生成モデル メタサーベイ
動画認識における代表的なモデル・データセット(メタサーベイ)
[DL輪読会]MetaFormer is Actually What You Need for Vision
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【メタサーベイ】Video Transformer

What's hot

PDF
Vision and Language(メタサーベイ )
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Transformer メタサーベイ
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
動画認識サーベイv1(メタサーベイ )
PDF
ドメイン適応の原理と応用
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
[DL輪読会]ICLR2020の分布外検知速報
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PDF
最適輸送の解き方
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
自己教師学習(Self-Supervised Learning)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Vision and Language(メタサーベイ )
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【メタサーベイ】数式ドリブン教師あり学習
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Transformer メタサーベイ
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
StyleGAN解説 CVPR2019読み会@DeNA
三次元点群を取り扱うニューラルネットワークのサーベイ
動画認識サーベイv1(メタサーベイ )
ドメイン適応の原理と応用
Transformerを雰囲気で理解する
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ICLR2020の分布外検知速報
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
最適輸送の解き方
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
自己教師学習(Self-Supervised Learning)
深層学習の不確実性 - Uncertainty in Deep Neural Networks -

Similar to 【メタサーベイ】Vision and Language のトップ研究室/研究者

PDF
メタスタディ (Vision and Language)
PDF
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
 
PDF
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
ICCV2019 report
PDF
【CVPR 2020 メタサーベイ】Vision Applications and Systems
PPTX
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
PDF
論文紹介:A Survey of Vision-Language Pre-Trained Models
PPTX
20190831 3 d_inaba_final
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PPTX
Visual Question Answering 2.0
PDF
【CVPR 2020 メタサーベイ】Vision & Other Modalities
PPTX
視覚と対話の融合研究
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
PPTX
[DL輪読会]Experience Grounds Language
PPTX
CVPR 2017 報告
PDF
【2017.03】cvpaper.challenge2017
PDF
【2016.09】cvpaper.challenge2016
PDF
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
PDF
【CVPR 2020 メタサーベイ】Visual Reasoning and Logical Representation
メタスタディ (Vision and Language)
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
 
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
【メタサーベイ】基盤モデル / Foundation Models
ICCV2019 report
【CVPR 2020 メタサーベイ】Vision Applications and Systems
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
論文紹介:A Survey of Vision-Language Pre-Trained Models
20190831 3 d_inaba_final
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
Visual Question Answering 2.0
【CVPR 2020 メタサーベイ】Vision & Other Modalities
視覚と対話の融合研究
【CVPR 2020 メタサーベイ】Neural Generative Models
[DL輪読会]Experience Grounds Language
CVPR 2017 報告
【2017.03】cvpaper.challenge2017
【2016.09】cvpaper.challenge2016
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
【CVPR 2020 メタサーベイ】Visual Reasoning and Logical Representation

【メタサーベイ】Vision and Language のトップ研究室/研究者

  • 1.
    Vision and Languageのトップ研究室/研究者のメタサーベイYueQiu (AIST), 品川政太郎 (NAIST), 孫延君 (慶応大)2022.07.081
  • 2.
    はじめに:2● cvpaper.challengeのVision andLanguageグループにより作成● Vision and Languageのトップ研究グループ/者をサーベイ対象:○ トップの研究グループ/者がどのように研究を進めている○ Vision and Languageの網羅的なサーベイ● この資料の構成:○ 研究グループ/者ごとにまとめている:- 研究室の構成, 選定の理由- 研究テーマの変遷- 論文まとめ(1論文1ページ*)- 研究の方法、重要視している課題のまとめ*各論文の概要レベルしか触れていない
  • 3.
    今回調査対象とする研究グループ/研究者:url 大学/研究機関 研究室代表研究者 スライド番号1 Georgia Tech Visual Intelligence Lab Devi Parikh 4-222 Stanford vision and learning lab Fei fei Li, Juan Carlos Niebles, SilvioSavarese, Jiajun Wu23-543 UT-Austin Computer Vision Kristen Grauman 55-774 Stanford vision and learning lab Jiajun Wu 78-905 University of Michigan Justin Johnson 91-1006 University of Michigan Honglak Lee 101-1407 Google Peter Anderson 141-1498 University of Adelaide V3Alab Qi Wu 150-1543
  • 4.
    Georgia Tech: VisualIntelligence Lab4
  • 5.
    研究室の構成 扱っている研究分野:選定理由:● Visionand Languageの様々なタスク:○ Visual Question Answering○ Visual Dialog○ Embodied Question Answering○ Audio-Visual Scene-Aware Dialog○ Text VQA○ Image Captioning○ Vision Language Representation○ Text-to-Image Generation● Vision and Languageをリードする研究室● 数々の重要なタスク/データセットを提案してきた:○ Visual Question Answering○ Visual Dialog○ Embodied Question Answering○ Text VQA○ …写真URL:https://faculty.cc.gatech.edu/~parikh/vil.html5Georgia Tech: Visual Intelligence Lab
  • 6.
    研究テーマの変遷2015 2017 20182019VQA, VQAv1 DatasetVQAv2 DatasetVisual DialogタスクNeural Baby TalkEmbodied QuestionAnsweringAudio-Visual DialogText VQANovel captioningOthers:● AI HabitatVandLRepresentation:● ViLBERT● 12-in-16● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介Georgia Tech: Visual Intelligence Lab
  • 7.
    Topic 1: VQA7GeorgiaTech: Visual Intelligence Lab
  • 8.
    Title: VQA: VisualQuestion Answering (ICCV, 2015)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:1枚の画像と画像内容に関する質問から、回答するタスクVQAとデータセットを提案。VQAが、Vision and Languageの研究の始まりと代表的なタスクに位置付けている印象。新規性:● 新しい、Vision and Languageの系研究を打開したタスクとデータセットを提案した。VQAv1提案後、様々のVision andLanguageモデルやタスクの研究が続出するようになった。● VQAv1タスク・データセット(現在はbiasが比較的にコントロールされたVQAv2の方がメインで使われている)で様々なVisual Reasoning能力がカバーされており、現在でもChallenge的であり、VisionとLanguage認識以上のReasoning能力のモデル構築において今でも意味がある。VQAv1データセットの例当時提案されたVQAのモデル構造8Georgia Tech: Visual Intelligence Lab
  • 9.
    Title: Making theV in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering(CVPR, 2017)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-LabVQAv1(上段) vs. VQAv2データセット(下段):概要:● VQAv1データセットに含まれる強いデータセットバイアス(例:Yes or No問題の回答が70%Yesなど)を発見。● データセットの拡張・バランス調整を行い、比較的にデータセットバイアスが少ないデータセットVQAv2を提案。感想:● VQAデータセットは根本的にバイアスになってくるかもしれません。いかにバイアスなデータセットから、バイアスしない回答を学習できるかがデータセットのバイアスのコントロールより重要であるように思う。● 分布が異なるデータセット間で対応可能なモデルが良い。9Georgia Tech: Visual Intelligence Lab
  • 10.
    Title: Embodied QuestionAnswering (CVPR, 2018)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● VQAタスクをEmbodied環境に拡張した。● 具体的に、Embodied環境でAgentが環境中の物体に連する質問の入力から、その質問を回答するために、環境の中に自己ナビゲーションし、環境の観測を行う。新規性:● VQAタスクを3次元空間・しかもかなり挑戦的なEmbodied環境に導入。Embodied Question AnsweringタスクのIllustration:質問が与えられた時に、Embodied Agentが3次元環境で自己ナビゲーションしながら、質問を回答していく感想:● Vision-Language Navigationと比べ、EQAタスクがあまり関連論文が出ない。問題が難しいかつタスクがあまりGroundedではないところが原因と想定。● EQAタスク自体はかなり実用性高そう。もっとGroundedにした方が良いかも。10Georgia Tech: Visual Intelligence Lab
  • 11.
    Title: Towards VQAModels That Can Read (CVPR, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 日常生活の中に、物体のラベルやパソコンの画面、時計、交通シーンのパネルなど色々テキスト情報が含まれる。● 上記の情報の理解のために、画像中のテキストに関する質問の理解のためのText VQAタスクとデータセットを提案。感想:● 画像中のText情報が他の視覚要素と比べて特殊でかなり重要な場合がある(例:時間;値段;ウェブページ)。● 技術な面では、Textも物体検出と類似したように、画像から様々な検出モデルを着装することによりReasoning能力が向上できる。TextVQAデータセットの例11Georgia Tech: Visual Intelligence Lab
  • 12.
    Title: Habitat: APlatform for Embodied AI Research (ICCV, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● Embodied AI系のデータセット、シミュレーター、タスクを整合したAPIーAI Habitatを提案。Embodied AI系をより容易に扱うようにした。また、タスク間の連携も可能に。感想:● AI Habitatがハードルが高いEmbodied AI系の研究のバリアをだいぶ緩やかにしてくれた。Embodied AI系の研究の加速に大きく貢献。● AI HabitatによりEmbodied AI系のタスク間の遷移学習もよりしやすくなった。● 2022年現在では、2019で想像したほどEmbodied AI系がAI Habitatを活用できていない感がある。● 論文のroadmapに書いているところは今確実に進んで切る。AI Habitat Platform(右図):様々な3次元環境(Replica,Matterport3Dなど)、Simulators(AI2-THORなど)および複数のEmbodied AIタスクを行える(EQA, VLN, ...)12Georgia Tech: Visual Intelligence Lab
  • 13.
    Topic 2: VisualDialog13Georgia Tech: Visual Intelligence Lab
  • 14.
    Title: Visual Dialog(CVPR, 2017)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:• 人間が会話して、見ている視覚情報のやり取りを行っている。• 上記を可能にするために、VQAタスクをDialogに拡張した、Visual Dialogタスクとデータセットを提案。感想:● Visual Dialogの設定は、過去の会話履歴と直近の質問から、回答をするになっている.このような設定によりAIとHumanの対話性が保たれるので、なかなか良い設定だったと思う。● 従来Language-onlyのDialogではGoal-drivenとGoal-freeの2つあり、今回のVisual Dialogの設定ではGoal-drivenでそのGoalが画像内容を理解することで、かなりBenchmarkとして賢い設定だった。Visual Dialogの例(左図)(画像、Caption、会話履歴、質問から回答をする) 14Georgia Tech: Visual Intelligence Lab
  • 15.
    Title: Audio-Visual Scene-AwareDialog (CVPR, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 1枚の画像から行うVisual Dialogタスクを更に、音声付きビデオ入力に拡張した。新規性:● タスクの提案(VQA+Video+Audio+Dialog)● データセットの提案感想:● こちらもVQA/Visual Dialogの拡張になる。ある程度複数のSensorsの観測からDialogできるかどうかをテスト可能だが、実環境ではタスクによりモダリティをどのように活用していくのかがかなり興味深い。AVSDだけではまだまだ実応用から遠い。提案のAVSDデータセットのイメージ図15Georgia Tech: Visual Intelligence Lab
  • 16.
    Topic 3: ImageCaptioning16Georgia Tech: Visual Intelligence Lab
  • 17.
    Title: Neural BabyTalk (CVPR, 2018)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 既存のImage Captioningタスクは画像から物体の説明文のみ生成。説明文に含まれる物体の位置を明示的に示さないため、解釈性が低い。● ここで、Captioningと物体検出を同時に行うタスクを提案。新規性:● 手法的にはencoder-decoderで直接画像とCaptionを結びつくではなく、Detectorを導入することで、もっとGroundedなImage Captioningを実現.● Detectorを用意することで、Unknown物体に対してのCaption生成もできる.提案のNeural Baby Talkと既存検出の比較:(a)baby talk(b) 提案のNeural Baby Talk(c) 一般的なImage Captioning手法感想:● 今でも同じようにCaptioning生成しながらBounding Boxなどの形式で解釈性を向上する検討があちこちのタスクである.17Georgia Tech: Visual Intelligence Lab
  • 18.
    Title: nocaps: novelobject captioning at scale (ICCV, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● 人間がUnknown物体に対しても説明できる能力がある。● ここで、物体認識と物体説明文生成を分けられるような設計を持ち、データセットに含まれない物体の説明文生成も可能にした。感想:● Nocapsの設定がかなり興味深い。実環境での視覚概念は無限にあって、画像からCaptionを生成するのは比較的に限られたデータで学習すべきである。● 更に、Interativeで知らない視覚概念をImageCaptionに導入する仕組みが望ましい。提案のタスクnocapsの設定:学習(左)はCOCOのCaptionsと物体検出だけアノテーションされているOpen Images;テスト(右)では①COCOだけ;②COCO+Open ImageのCaptions;③Open ImageのCaptions18Georgia Tech: Visual Intelligence Lab
  • 19.
    Topic 4: Vision-LanguageRepresentation19Georgia Tech: Visual Intelligence Lab
  • 20.
    Title: ViLBERT: PretrainingTask-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks(NeurIPS, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● Vision and Language系の研究で特にデータセットの作成のコストが高い問題がある。● Vision and anguage タスクにおいて大規模事前学習、タスク間の遷移学習を可能にするため、統一したモデルで複数のVision andLanguageタスクを学習可能なフレームワークを提案(ViLBERT)。感想:● BERTの成功をVandLに適応する試み。考えるだけではなく、他の人より早い段階でRoadmapを構想し、いち早く最新で使えそうな技術を導入することが重要。● ViLBERTで提案する時点ですでにPaperid11の12in1のマルチタスク同時学習を想定していたそう。ViLBERTで行っている2種類のMulti-modal learning:左(ラベル推定まで);右(一致性の評価のみ)20Georgia Tech: Visual Intelligence Lab
  • 21.
    Title: 12-in-1: Multi-TaskVision and Language Representation Learning (NeurIPS, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● ViLBERTをベースに、更に複数のVision andLanguageタスク間の遷移学習の効果を検証。感想:● ViLBERTをベースに、マルチタスク・データセットにおいて分析を行た感じ。Communityに対して貢献度が高いが、新規性がすこし薄れる部分もある。● VandL研究の理由:”promise of language as auniversal and natural interface for visualreasoning”;なかなかうまくまとめている。提案のマルチVandLタスク共同で学習する仕組み21Georgia Tech: Visual Intelligence Lab
  • 22.
    重要視されているところ● 様々なSensingの情報を融合しながら理解する能力:○ 視覚:1枚の画像(VQA)⇒実環境、複数センサー(EQA)、Unknown、Active環境、…○ 言語:物体ラベル⇒1センテンス(Image Captioning)⇒画像中のテキスト理解(Text VQA)● 更に、言語対話能力と上記の融合:○ Visual Dialog、Audio-Visual Dialog● 手法の解釈性○ VQAv2でデータセットのバイアス解消、Neural Baby Talkで物体説明文生成に物体検出も行う気付き● 問題を解決するより、新しい問題を設定する研究が多い;● 早い段階で研究の目標を決めて、それを実現するため最も重要なタスクとデータセットを構築;● 手法論文に関しては、最新の研究の組み合わせの物も多い:○ 例:ViLBERT/12-in-1ではBERT/Transformerを導入22Georgia Tech: Visual Intelligence Lab
  • 23.
    Stanford: Vision andlearning lab23
  • 24.
    研究室の構成 扱っている研究分野:選定理由:● ComputerVisionがメインで、NaturalLanguage ProcessingやRoboticsなど多様なテーマを扱っている(例を下記):○ Image Recognition○ Dense Captioning○ Video Recognition○ Visual Question Answering○ Sight and Sound○ 3D Vision○ …● Fei fei Li● ImageNet● Vision and Languageに関してもかなり数多く重要な論文、データセットを提案:○ Dense Captioning/ Captioning Event○ Visual Genome○ ...● 近年、特にEmbodied AIや関連したRoboticsも扱っている24写真URL:http://svl.stanford.edu/Stanford : Vision and learning lab
  • 25.
    研究テーマの変遷 (Vision andLanguageに関する研究のみ)2009252015 2017 2018 2019 2020 2021● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介ImageNetActivityNetVisualGenomeGibsonENV3D SceneGraphActionGenomeHomeActionGenomeiGibson 1.0iGibson 2.0Stanford : Vision and learning lab
  • 26.
    Topic 1: SemanticStructure26Stanford : Vision and learning lab
  • 27.
    Title: ImageNet: ALarge-Scale Hierarchical Image Database (CVPR, 2009)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:※以下の数値等は本論文発表時(2009)のもの・階層構造語彙データベースWordNetがバックボーンの画像データセット・スタンフォード大学のFei-Fei Li氏を中心とした研究グループが管理・世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開中・WordNet:8万synset(同義語セット)・インターネット全体から画像をクロールして収集・12のサブツリー(最上位カテゴリ)哺乳類、鳥類、魚類、爬虫類、両生類、乗り物、家具、楽器、地層、道具、花、果物・5247のsynset(WordNetの一割以下)、全320万枚のフル解像度画像・synsetごとに平均500~1000枚の画像・Amazon Mechanical Turkを利用して人力でラベル付け(有償)。・目標:5000万枚。※2020年時点で2万synset/1400万枚と停滞中感想:・1つの画像に1つのラベルしか付与しない仕様となっているが、画像内に複数の対象が映り込んでいる場合のラベル付けの正当性に疑問・公平性、プライバシー保護、不適切/不快なラベル(※解消に努⼒している模様)・ラベル付けに莫⼤な費⽤がかかる(教師データのアノテーションコスト問題)27Stanford : Vision and learning lab概要:1画像1ラベルの物体認識用大規模データセットImageNetを提案。
  • 28.
    Title: Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations (IJCV,2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● ImageNetでは主に1画像1物体ラベルから構成。ここで、1画像とその画像の意味的構造(Scene Graph:物体、物体間の関係ラベル)をアノテーション付けたデータセットVisual Genomeを提案。感想:● Visual Genomeが大量な作成コストが必要となり、分野の成長に大きく貢献できている。● Visual Genomeデータセットがかなり大規模であり、現時点でもChallenge的で、様々なDownstreamタスクで活用できそう。VisualGenomeデータセット例28Stanford : Vision and learning lab
  • 29.
    Title: Learning PhysicalGraph Representations from Visual Scenes (NeurIPS, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Sceneに含まれる物体の階層構造(物体と物体のパーツなど)および物理属性(SurfaceShape, Texture)も考慮したPhysical SceneGraph構造を提案。感想:● 室内環境データセットにまで適応できているところがすごい。物理に従っても大規模データセットに活用できるところなので、物理ベース手法のPromisingなところを示せた。提案のPhysical Scene Graph(PSG) representation(左図)29Stanford : Vision and learning lab
  • 30.
    Title: ActivityNet: ALarge-scale Video Benchmark For Human Activity Understanding (CVPR, 2015)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● これまでに動画像データセットでは1動画1動画ラベルのような設定が多い。● ここで、階層化された動作ラベルを付けた大規模データセットActivityNetを提案。感想:● 論文で”Semantic Ontology”という言葉を使っている。Classic AIのOntologyとDeepLearningをいかにうまく組み合わせられるかに関してかなり工夫していそう。ActivityNetに含まれる2つの例(右図):動作がTree状のSemanticLevelsに従ってアノテーションされている30Stanford : Vision and learning lab
  • 31.
    Title: 3D SceneGraph: a Structure for Unified Semantics, 3D Space, and Camera (ICCV, 2019)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Scene Graph/Visual Genomeを3次元に拡張し、3D Scene Graphとデータセットを提案。● 具体的に、4-layers(左図)から構成される3DScene Graph構造を提案(Building, Rooms,Objects,Cameras)。感想:● 2D Scene Graphがあるから、3D Scene Graphを定義しようとする人は他にもあるはず。ここでかなりReasonableで詳細な3D Scene Graphを定義していて、大きな研究室ならではの感じがする。● 3D Scene GraphにCameraを考慮されているところが面白い。Cameraまで認識できるすることが今でもChallenging。3DSceneGraphのIllustation(4-layer構造)31Stanford : Vision and learning lab
  • 32.
    Title: Action Genome:Actions as Composition of Spatio-temporal Scene Graphs (CVPR, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Scene Graph / Visual Genomeを動画に拡張し、Video Scene GraphとデータセットActionGenomeを提案。感想:● 論文を書く時にNeuroscience的な視点から論文のSupport Factsを出すのは強く見せられそう。● この論文でDynamic Scene GraphsがDownstreamタスクへの有用性を示した。新しいRepresentationやデータセットの提案する際に、他のタスクとの関連性や遷移学習する際の有用性を示すことが文章の質を大幅に向上できる。Spatio-temporal Scene Graph GenerationタスクのIllustration:ビデオからDynamic Scene Graphsを推定32Stanford : Vision and learning lab
  • 33.
    Title: Home ActionGenome: Contrastive Compositional Action Understanding (CVPR, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Action Genomeデータセット(3人称視点動画のみ)を更に、Multi-view、Multi-sensoryに拡張した。感想:● Video Scene Graphの密度がFrame-by-frameレベルではない方が良さそうな気がする。Frameレベルではアノテーションのambiguityが生じうる。● 設備さえあれば、HOMAGEデータセットの作成コストがそこまで高くない?HOMAGEでは2つの家環境しか使っていなさそう。HOMAGEデータセットのアノテーションパイプライン提案手法:マルチモーダルContrastive Learning33Stanford : Vision and learning lab
  • 34.
    Topic 2: SimulationEnvironments forEmbodied AI34Stanford : Vision and learning lab
  • 35.
    Title: Gibson ENV:Real-world Perception for Embodied Agents (CVPR, 2018)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Embodied AIのための大規模室内環境データセットとシミュレーターの提案。● 特徴1:実環境のBuildingsをベースに作成。● 特徴2:Embodimentの精度/レベルが高い。感想:● Introductionの部分で経済学・生物・脳科学の話しもふれていて広い範囲内で知識を積極的に得るべき?!● Physics、Robotics、実環境などと強く関連し、研究のUltimate Goalがわかりやすい。2つのAgentsがGibson環境の観測の例(右図)35Stanford : Vision and learning lab
  • 36.
    Title: Learning toNavigate Using Mid-level Visual Priors (CoRL, 2019)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● GibsonEnVをベースに大規模な実験行った。● Embodied AIの強化学習で従来E2Eでpixel-to-torqueが提案されていた。この文章で強化学習のPolicyを学習する際に直接Pixelからではなく3次元情報が入っているタスクで得られるMid-level特徴を使うことを提案。● 実験により、Mid-level特徴が収束速い、汎化性能強い、精度高いなどの利点があった。感想:● 同じ研究室同時期のTaskonomyと概念的に類似する。● Mid-level特徴を使った方が良いと研究せずに何となく想像できる。この論文でそれを的確に示してくれたところが良いが、Whyに関しての説明があるとなおさら良い。● 特にこの研究では強化学習タスクをターゲットしているため、かなり膨大な計算量が必要。提案のMid-level特徴量を用いてEmbodied AI タスクを行う概念図(下図)36Stanford : Vision and learning lab
  • 37.
    Title: IGIBSON 1.0:A Simulation Environment for Interactive Tasks in Large Realistic Scenes (IROS, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Robotic Simulation用の大規模Interaction可能な室内環境Simulatorの提案。15Rooms合計108部屋から構成され、物体の材質・Shape、RoboticManipulationなどが行える。また、実環境の部屋のReplicasになるため、Sim2Realも今後可能になる。感想:● IGIBSONがReal HousesのReplicas(Simulationの同じリアル家もある)になるので、Sim2Realの研究も色々活用できそう。今後はおそらくそのような研究が出てくるはず。● Fei Fei Liらの研究室は近年かなりRoboticsや、物理系に着手している。大規模の環境構築や、Robotic Manipulation、Replicasなどで今後実環境への応用が期待される。● IGIBSON 1.0はとくにRoboticsへ応用したい場合において有用である。IGIBSON 1.0: 物体とInteract可能な環境になり、環境中の物体の材質・Shapesがアノテーションされている。また、Real環境と対応づけている。37Stanford : Vision and learning lab
  • 38.
    Title: IGIBSON 2.0:Object-Centric Simulation for Robot Learning of Everyday Household Tasks (CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● IGIBSON 1.0と比べて、更に物体に物理シミュレーションの粒度(物体の様々な状態変更がSimulationできる)やデータ収集の利便性(VRを用いてHuman Dataを学習できる)を向上。感想:● IGIBSON 1.0のExtenabilityのおかげで、IGIBSON 2.0では更に詳細的な物理Manipulationや物体状態のコントロールが追加可能。● 将来、Humanの行動をマネにしながら、上手に様々なタスクを更に人間を超えるレベルで実現してくるRobotが期待可能。● 今人がInternetから常に色々勉強をしているため、RobotもいかにInternet知識をデモで行えるところが重要?IGIBSON 2.0: ①物体に対してのManipulationやManipulationに沿ってSimulation環境での物体状態変更などが可能になった。②VR環境も同時に提案し、HumanがVR環境における行動がSimulation上のAgentの学習データにすることができる。38Stanford : Vision and learning lab
  • 39.
    Title: BEHAVIOR: Benchmarkfor Everyday Household Activities in Virtual, Interactive, and EcologicalENvironments (CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 前作のiGibson2.0を用いて、データセットを作成した。● Embodied AIのための100日常Activitiesから構成されるSimulationBenchmarkデータセットを提案。また、HumanのVR上により集められたDemostrationも同時に作成。感想:● やはりBEHAVIORがIGIBSON 2.0をベースに作成されている!● 事前から収集したデータの有用性が分かっていて、それをベースにデータを集めていくことがかなりわくわく。BEHAVIORのIllustration:IGIBSON 2.0をベースに100種類の日常活動を導入し、同時にVRによりHuman Demostrationも500個集めた。39Stanford : Vision and learning lab
  • 40.
    Topic 3: ImageCaptioning40Stanford : Vision and learning lab
  • 41.
    Title: Deep Visual-SemanticAlignments For Generating Image Descriptions (CVPR, 2015)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 1枚の画像から1画像Captioningではなく、1枚の画像から複数の領域とその領域の物体Captioningを生成する提案。● 同時期のDenseCaptioningとかなり類似し、DenseCaptioningの方が影響が大きい。感想:● かなり早い段階でImage Captioningタスク(左図)を構成し、かつ相当Reasonableなモデルを提案(右図)。Dense Captioningはこの研究の進化バージョンに見える。● 今の最新手法のそこまで下記のモデルから離れていない感。提案のImageCaptioningタスク(右図)提案手法41Stanford : Vision and learning lab
  • 42.
    Title: Dense-Captioning EventsIn Videos (ICCV, 2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 画像ベースのDense Captioningタスクをビデオに拡張した。● 動画から、複数のEventsの開始・終わる時間、そして、各々のEventのCaptioningを推定するDense Captioning Eventsタスクを提案。感想:● 画像からVideoタスクへのかなりReasonableなDense-captioningの拡張。EventsごとのPeriodも予測するためタスクが難しいが応用性が高い。Dense-Captioning Eventsタスクの例提案手法:Stage-1ではProposalsを生成し、Stage-2ではProposalsからCaptioning42Stanford : Vision and learning lab
  • 43.
    Topic 4: VisualQuestion Answering43Stanford : Vision and learning lab
  • 44.
    Title: Visual7W: GroundedQuestion Answering in Images (CVPR, 2016)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 7Wの質問(what, where, when, who, why,how, which)から構成する新たなVQAデータセットの提案。● VQAv1およびVQAv2と異なり、画像全体ではなく、画像Regionと関連付ける質問も含まれている。● 同時期のVQAv2の方が流行っている。感想:● Paper13までにはデータセットない問題があったが、ここでデータセットの提案、スピード感!● VQAデータセットはほぼ同時期なので、VQAデータセットと比べて優位性が足りていない?(選択肢が必要な設定)データセットの規模もVQAの1/4程度(画像)。しかし、VQAデータセットよりも早くAttentionに手を出した。提案手法(左図)(Attentionを導入している)Visual7Wデータセット例44Stanford : Vision and learning lab
  • 45.
    Title: AGQA: ABenchmark for Compositional Spatio-Temporal Reasoning (CVPR, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Action Genome(Video Scene Graph)データセットをベースにVideo Question Answeringのためのデータセットを提案。● 他のVideo QAのデータセットと比較して、ここでよりデンスな意味構造がアノテーションされているため、データセットのバイアスがコントロール可能。感想:● Action Genomeデータセットの拡張になる。これによりVideo QAタスクがかなりGroundedにできる。● Neuro-symbolic的な手法がいつにAGQAの規模のデータセットに優位性を示せるか期待している。AGQA(Action Genome Question Answering)データセットの例。Scene GraphからGroundedなQA生成により作成されている。45Stanford : Vision and learning lab
  • 46.
  • 47.
    Title: Shape andMaterial from Sound (NeurIPS, 2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 音と物体の物理特徴を関連させる研究であり、音から物体のShapeを復元するタスク・Auto-encoderベースな手法を提案。感想:● この研究が相当賢い!音声からShapeを復元するところがかなりChallenging。● 物理+AIはまだまだいろんな面で検討する余地があり、大きな将来性があるように感じる。物体がテーブル面上に落とす時の音から、物体のShapeを復元する提案のIllustration(右図)47Stanford : Vision and learning lab
  • 48.
    Title: Deep AffordanceForesight: Planning Through What Can be Done in The Future (ICRA, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 物体のAffordanceをShort-termではなく(例:この瞬間では持てる、押せるなど)、Long-termで物体のAffordanceを扱う提案(例:物体の周囲の物体を移動したら、この物体が押せるようになるなど)。感想:● 物体のAffordanceの定義がかなり難しく感じる。通常の使い方や、非常的な使い方、タスクごとの使いかたなど色々ある。提案のAffordance Foresightのモチベーション:同じ物体で異なるタスクでAffordanceが変化してくる(上段と下段のL型棒を参照)48Stanford : Vision and learning lab
  • 49.
    Title: OBJECTFOLDER: ADataset of Objects with Implicit Visual, Auditory, and Tacticle Representations(CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 100 Simulation物体(視覚・音声・触感)を含まれたデータセットOBJECTFOLDERを提案。● 3つのSubnetで(NeRFベース)で同時に上記の3つをRenderingできる手法も提案。感想:● Touch(触感)がようやく入ってきました!(今までは視覚・言語・音声だった)● NeRFですべてを統一できる?● Smellはまた入っていない。OBJECTFOLDER:物体のImplicit neuralrepresentatitions(視覚・音声・触感をRenderingできる)49Stanford : Vision and learning lab
  • 50.
    Title: Taskonomy: DisentanglingTask Transfer Learning (CVPR, 2018)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Visual Tasks(例:Depth推定、Segmentation,…)関の関連性を調べた。● 具体的に、異なるタスク間の転移学習を行い、それをベースにタスク間の関連性を計算している。感想:● TaskonomyはCNNの時代だったが、Transformerで行ってみるとどうなるのはかなり気になる。● 人間でもTransformer学習するときに近いタスクs遠いタスクsが存在するはず。その背後の原因分析もかなり興味深い。● Unified構造、複数のタスクは現在Transformer系の手法でかなり検討されている。Taskonomyの計算(左図)50Stanford : Vision and learning lab
  • 51.
    Title: Which TasksShould be Learned Together in Multi-task Learning (ICML, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Multi-task学習の際に、限られた計算リソースの場合でどのように同じネットワークで学習するタスクのSubsetと別々のネットワークで学習するSubsetを決めるためのComputational Frameworkを提案。● Multi-task学習に関してすこし詳細なところまで調べて、Multi-task学習の性能向上に貢献。感想:● 実際に人間も同様に学習するタスク関に相性が良いのと良くないのがありそうで、そのあたりの研究も興味深い。● Transformerが提案されて以来、類似した研究が多い感じ。そのため、こちらの研究もっと面白い知見が得られるかも。提案のComputational Frameworkを用いた結果例:Semantic Segmentation, DepthEstimation, Keypoint Detection, EdgeDetection, Surface Normal Predictionの5つ共同学習する際の性能が良い学習ネットワークの構成51Stanford : Vision and learning lab
  • 52.
    Title: Neural TaskGraphs: Generalizing to Unseen Tasks from a Single Video Demonstration (CVPR, 2019)Team / Researcher: Stanford_Vision-and-learning-lab概要:● Single Demonstration VideoからVideoに含まれるタスク(例:組み立て作業)を実行できる新たなOne-short Learning手法を提案。● 既存研究と異なり、提案手法ではCompositionalな構造ーTask graphを中間表現としている。感想:● 解決しようとする問題が重要だが、いまだにかなり難しいような気がする。● 論文中にUnseen complexタスクを解くために、Compositional Structureが重要と宣言していて、そこがどうなのかなり興味深い。● One-short Learning面白そう。提案手法のIllustation:Task graphを介してSingle VideoからTaskをExecuteする(左図)52Stanford : Vision and learning lab
  • 53.
    Title: Neural EventSemantics for Grounded Language Understanding (TACL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 理屈を理解するVisual Reasoningの新たな手法の提案。● 既存のVisual Reasoningでは人工設計なModuleが必要となる場合が多い。ここでの提案手法は比較的その制限を緩やかにして、End-to-endで学習できる既存のNMNと比べて構造が簡単。感想:● Neuro-symbolic的な手法のhuman-designedなNeural moduleから解放され、まだまだ遠いかもしれないが、Self-supervisedなNeuro-symbolicに近づけている?!● 提案手法のコアな考え方はかなりClassicな手法ーEvent semantics (Davidson, 1967)、クラシックな研究の関しての理解もなかなか重要な場合がある。● Event semanticsに対して知識がないが、もっと複雑なCompositional(例:多層で否定や比較なども含まれる場合)で使えるかどうかは不明。NMNと提案のNESの比較:NESが視覚要素をEventとし、テキストをNeuralLogical Form Fにし、単語各々がClassifierになる。最後にClassfierがEventに操作し、結果の掛け算で最終出力を得る53Stanford : Vision and learning lab
  • 54.
    重要視されているところ● 様々なSensingの情報を融合しながら理解する能力(複雑度、情報量が拡張つつある):○ ImageNet->VisualGenome->Action Genome, HomeAction Genome○ Dense Captioning -> Dense-Captioning Events○ Scene Graph->3D Scene Graph->Video Scene Graph->Physical Scene Graphs● 様々なモダリティのSemantic Structure表現:○ 画像グラフ(Visual Genome)○ 動画グラフ(Action Genome, HomeAction Genome)○ 3次元データグラフ(3D Scene Graph)○ Physical Scene Graphs● Semantic Structure的な表現とともに構造化された知能(例:Neuro-symbolic)● 膨大で、高質で、合理的で厳格的に設計されるデータセットを作成し続けている。● 分野において重要で長期的に貢献できそうテーマ設定が多い(Extensibleな研究が多い)。● Physics+AIや、Roboticsへの応用に近年かなり力をいれてやっている○ Jiajun Wu(Physics +AIの専門)も研究室に入ってきた○ 大規模の環境構築(Gibson ENV, iGibson 1.0, iGibson2.0)や、Robotic Manipulation、Replicasなどで今後実環境への応用が期待される。54Stanford : Vision and learning lab気付き
  • 55.
  • 56.
    研究室の構成Kristen Grauman先生写真URL:https://www.cs.utexas.edu/~grauman/扱っている研究分野:選定理由:● こちらもComputerVisionや、Vision andLanguageにおいて様々なタスクを扱ってきた。下記例を示す:○ VizWiz (盲人のためのVQA)○ 2.5 D Sound (Sight and Sound)○ Ego-Topo○ VisualEchoes○ SoundSpaces○ Semantic Audio-Visual Navigation○ Ego4D● Ego4Dというかなり未来のVision and LanguageやComputer VisionやVideo Recognitionにおいて重要である研究をリード;● AudioとComputer Visionの組み合わせに強い;● 近年Embodied AIに関わる重要な研究成果を出している(特にAudioが入った場合)。56UT-Austin_Computer_Vision
  • 57.
    研究テーマの変遷2019572020 2021 2022Look-aroundaffordancelandscapeEgo-TopoEgo4D2.5D SoundVisualEchoSound SpaceAudio-Visual Nav.Move2Hear● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介UT-Austin_Computer_Vision
  • 58.
    Topic 1: Sightand Sound58UT-Austin_Computer_Vision
  • 59.
    Title: 2.5D VisualSound (CVPR, 2019)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 従来3D音コンテンツ(Binaural Audio)を作成するための制作コストが高い。● ビデオの画像情報(楽器の3次元位置などがわかる)を利用して、Monoaudioから、Binaural的な2.5D Soundを出力するタスク・手法を提案。感想:● Soundに関してまだまだComputer VisionやVision and Languageと組み合わせるところありそう。● 人は両耳でSoundの三次元を感知していて、ここと視覚のSpatial reasoningとの組み合わせが賢い2.5D Sound:Mono audio (音から3次元を再現できない)とVideoの入力から、Videoから得られるScene3次元情報を抽出し、シーンの3次元的な情報感知できるBinaural Soundを出力59UT-Austin_Computer_Vision
  • 60.
    Title: VisualEchoes: SpatialImage Representation Learning through Echolocation (ECCV, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● バットやDolphinsが使っているEcholocationをEmbodied AI Agentに導入した。感想:● センサーを増やしていくのは別にElegantではないことない。有用なのであれば、3次元環境の理解のためにどんどんセンサーを追加していっても良いじゃないかと思う提案のVisualEchoes:Eoches情報をFuseすることで、Embodied 環境でDepth推定、Naviagtionを行い、高い精度を示した。60UT-Austin_Computer_Vision
  • 61.
    Title: SoundSpaces: Audio-VisualNavigation in 3D Environments (ECCV, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied 環境で音を発信する物体をLocalizationするために、AgentがEmbodied環境でナビゲーションするタスクSoundSpacesを提案。● 入力として、Audio Spectrogramも使う。感想:● Echospaceとかなり類似し、音信号が自分から出すか他の音源があるかの区別だけ。● どちらでも重要だが(Echo/Sound Space)、データセット、手法が同じになっている部分も多い。提案のSoundSpacesタスク:Embodied AIが環境中に音源にたどり着くために自己ナビを行う。61UT-Austin_Computer_Vision
  • 62.
    Title: Semantic Audio-VisualNavigation (CVPR, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 前ページのSoundSpacesの進化版。● SoundSpacesでは物体が連続音を出す、かつ、音信号が人口で作成した信号(例:電話音)。● ここで、不連続で、物体の自然的な音(蛇口の水の流れの音など)をLocalizationするタスクとデータセットを提案。感想:● 同じ研究室の研究SoundSpacesと類似。しかし、SoundSpacesでは固定の音声をLocalizationするためで自己ナビし、ここでは物体の音と物体の形状・位置などを関連付けてNavigation。提案のAudio-Visual Navigationタスク:環境中の物体(例:蛇口)がその物体の特定な音(水が落ちる音とか)を自然的に(連続的ではなく、短く不連続な場合もある)発信し、Embodied Agentがその物体をLocalizationするため環境中に自己ナビをする。62UT-Austin_Computer_Vision
  • 63.
    Title: Move2Hear: ActiveAudio-Visual Source Separation (ICCV, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied Agentが複数の音声があるEmbodied環境で音声ソースを分離・Localizationをするaudio-visual source separationタスクを提案。感想:● 2.5D Visual Soundのラインの研究で、2.5Dではビデオから音源分離を行い、ここではEmbodied環境で音源の分離になる。タスク的に更に設定がリアルで一歩前に進めた感がある。● 手法的には強化学習を使っていて、新規性が薄い気もする。提案のMove2Hearタスク:Embodied環境で複数の音源があり、特定な音源をLocalizationをするため、Embodied Agentが音源分離をしながら自己ナビを行う。63UT-Austin_Computer_Vision
  • 64.
    Title: Geometry-Aware Multi-TaskLearning for Binaural Audio Generation from Video (BMVC, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● VideoのMonoaudioからBiaural Audioを生成する新たな手法を提案。● 既存法(2.5D Sound)ではVideoから直接Spatialを予測したことと比較して、ここではVideoからDisentangledなSpatial Representationを使用し、2.5Dより高い精度を得られた。感想:● 2.5D Soundの手法的な延長で、Embodied AIとも少し関連する。● Vision and Audio(Sight and Sound)のモノポリ感がある。メインアイデア: VideoからImpulseや環境のSpatial情報の予測を利用し、Mono AudioからBinaural Audio生成64UT-Austin_Computer_Vision
  • 65.
    Topic 2: Ego-centric/EmbodiedAI65UT-Austin_Computer_Vision
  • 66.
    Title: Emergence ofExploratory Look-around Behaviors through Active Observation Completion (ScienceRobotics, 2019)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 従来、Computer Visionでは指定された入力から認識するようなタスクが多い。(例:画像認識、ビデオ認識など)● ここではAgentが新しい環境に入った場合に、どういった視点から環境を見ることでよりInformativeな情報を得られるかを学習する仕組みを提案。感想:● Science Roboticsも投稿先としてあるか(2021-2022-IF:23.748)!● 考え方は特に既存の少ない視点からSceneの3次元再構成の研究とあまり差がないが、どうしてScience Roboticsに採録されたかわからない。● 手法的には、Recurrent Model + Reinforcement。解釈性もそこまで高いない。提案のLook-around Agentのモデル構造:66UT-Austin_Computer_Vision
  • 67.
    Title: Ego-Topo: EnvironmentAffordances from Egocentric Video (CVPR, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Ego-centric動画から、動作のラベル(例:玉ねぎを切る)と動作発生の場所を表すTopologicalmapをベースに認識を行う手法を提案。● 既存のTotal画像認識、SLAMベースな手法の真ん中に位置付け、Ego-centric動画像認識に高い精度を実現とともに、SLAMベース手法より使いやすい。感想:● Ego-centricビデオからいかに3次元物理位置とリンクするかに関しての研究で、提案のTOPOマップが計算コストも小さくて、人間の感覚都も良く類似し、とてもReasonableな提案。● 提案のTOPOマップの使いやすさも強い。Affordanceとリンクさせることも可能。● TOPOマップと経由して、Sim2Realやロボットのデモにも使えそう。提案のEgo-Topo:Ego-centricビデオから、細かいClipの動作およびその動作発生する場所を表すtopological map。67UT-Austin_Computer_Vision
  • 68.
    Title: Learning AffordanceLandscapes for Interaction Exploration in 3D Environments (NeurIPS, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied環境の物体Affordanceをベースとした遷移学習の提案。● 3次元環境から環境中の物体とどういったInteractionができるかを強化学習的なフレームワークで学習し、このような学習や得られる特徴表現がNovel 環境に対しての汎化性能をしめした。感想:● Affordanceベースの転移学習やSim2Realが使えそうで効率も良さそう。● Ideaを強化学習的にその有用性を示せるところがかなりエンジニアリングや計算リソースのところが大変そう。研究のメインアイデア:Affordanceベースの学習でNovel環境に対しての表現を向上68UT-Austin_Computer_Vision
  • 69.
    Title: An Explorationof Embodied Visual Exploration (IJCV, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Taskonomyと類似した研究で、Embodied AIタスクでどのような特徴表現がどういったタスクにおいて有用なのかを調べた。● 限られたBudgetで環境中の物体と位置に関する情報の学習は複数のEmbodied AIタスクにおいて有用であることを示した。感想:● こちらの論文はScience Robotics論文の拡張版(入力が多視点画像⇒Embodied AiのEgo-centricobservationsになった)。● Taskonomyからも一部考え方、やり方を借りている感。研究のメインアイデア:Embodied Agentが限定されたBudgetで環境を探索し、物体とその3次元情報を習得。そのような特徴表現をその他のDownstream EmbodiedAiタスクに活用69UT-Austin_Computer_Vision
  • 70.
    Title: Shaping EmbodiedAgent Behavior with Activity-context Priors from Egocentric Video (NeurIPS, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 実環境のビデオデータとEmbodied AIのDomainGapを縮めるための研究。● 具体的に、Ego-centricビデオからActivitiesに関連する物体情報を学習し、Embodied AIでRewardを設定し、Activitiesに関連する物体を多く集めれば報酬が高い。実験で、このような学習が学習のスピードを加速できることを示した。感想:● Real世界のEgo-Centricビデオでの学習を、Embodied AiのDomainで活用する研究で、かなり分野への貢献度が高く、Embodied AIの実環境での利用を一歩前に進められた。● Ego4Dや、研究室で今までやってきた研究とかなりつながりが見やすい感じ。メインアイデア:実環境Ego-centricビデオからAcitivitiesに関連する複数の物体という情報を習得し、Embodied AIタスクで強化学習でActivitiesに関連する物体を集め、RealとSImのDomainをつなげる。 70UT-Austin_Computer_Vision
  • 71.
    Title: Ego4D: Aroundthe World in 3,000 Hours of Egocentric Video (arXiv, 2022)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 大規模で、DenseでアノテーションされたEgo-centricビデオデータセットの提案。感想:● このプロジェクトが様々なComputerVision分野においてかなり使えそう。また、このプロジェクトがあるから、関連する研究室は続々と良い研究ができそう。● 長いVideoの認識の時代がやってきそう。● 第一人称動画のみではなく、様々な視点があるとなおさらよい気がする。Ego4Dデータセットのイメージ図:3,670 hours;数百種類のActivities; 複数のSensors(カメラ、Stereo、Gaze、3D Scanners)71UT-Austin_Computer_Vision
  • 72.
    Topic 3: VisualQuestion Answering72UT-Austin_Computer_Vision
  • 73.
    Title: VizWiz GrandChallenge: Answering Visual Questions from Blind People (CVPR, 2018)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 目の見えないユーザにより集めた画像と質問文から構成されるVQAデータセットVizWizを提案。感想:● 盲人のためのVQAがVQA研究の一つかなり有力な応用方向。また、画像のみではなく、ビデオ入力の方向も検討すべき。● VQA系の研究の究極的な目標にもなるように思う。未だにかなりChallengingである。VizWizデータセットで扱っている盲人により撮影された画像及び記録した質問73UT-Austin_Computer_Vision
  • 74.
    Title: Visual QuestionAnswer Diversity (HCOMP, 2018)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 既存のVQAタスクでは1質問1回答を推定する。● ここで、1つの回答ではなく、複数の回答およびそれぞれのFrequencyを推定するVQA設定を提案。感想:● 一つの質問に対して、異なる回答およびそれぞれのFrequencyを予測する問題が、人に対してもかなり難しい。定義実体もすこしIll-posedな部分がありそう。● 無限なHuman Annotationが得られないため、Qから1つのみの回答を予測するのが確かにIll-posedになりそう。● 論文にheではなく(s)heが使われている(笑)Visual QuestionにおいてAnswerのDiversity分布の例74UT-Austin_Computer_Vision
  • 75.
  • 76.
    Title: Learning Patternsof Tourist Movement and Photography from Geotagged Photos at ArchaeologicalHeritage Sites in Cuzco, Peru. (Journal of Tourism Management, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Social Mediaの旅行先の画像(Peruの都市を対象にした)から、Touristsがそれぞれの観光スポットのTravel patternsを分析。● Social MediaのデータがどうやってTouristsのTravel Preferencesに影響を与えているかも分析感想:● こちらの研究室で様々なタイプの研究を扱っている。● Change RecognitionとChange Captioningに関連が強そうに感じた。● 今後どうやって、大規模Internetデータから文字・画像・映像に含まれる情報を分析し、それをAIに活用するのが重要になってきそう旅行Patternの分析の例76UT-Austin_Computer_Vision
  • 77.
    重要視されているところ● 特に「音声」とVisionの融合が多く研究してきた:○ 視覚+音声⇒音声信号の強化○視覚+音声⇒Visualナビゲーションの性能向上、音源定位● 実環境への汎化性能、Embodied AIと実環境ロボットアプリ関のGapの縮小● 特に早い段階から「音声」+視覚を研究していて、自ら根強い研究分野を創出している。● 手法の方よりも、「問題の提出」を重要視している。○ 逆に手法が少し弱い(Multi-modal+Reinforcement)も時々する。77気付きUT-Austin_Computer_Vision
  • 78.
  • 79.
    研究者 扱っている研究分野:選定理由:● PhysicalScene Understanding● Neuro-Symbolic Visual Reasoning● Multi-Modal Perception● Dynamic Models● Generative Visual Models● Neural-symbolic系においてたくさんの重要研究を行ってきた。● Physics +AIに関しても相当数の重要研究をしてきた。● Neural-SymbolicとPhysics +AIどちらも相当な未来性を持つ分野に感じた。● 現在Stanford Vision and Learning Lab(FeiFei Li研)に所属。79Jiajun Wu先生写真URL:https://jiajunwu.com/Stanford: Jiajun Wu
  • 80.
    研究テーマの変遷201780CLEVRER2018 2019 2020VisualDe-animation画像のDisentangledな物理/Semantic表現Neural Scene De-renderingNeural-Symbolic的な手法、タスクなどNeural-Symbolic VQANeuro-Symbolic Concept LearnerScene Programs● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介Stanford: Jiajun Wu
  • 81.
    Title: Learning toSee Physics via Visual De-animation (NeurIPS, 2017)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像からPhysical world特徴表現(Shape, Mass, Friction, 3DPose, Position)を復元するVisual de-animation(VDA)を提案(上図、左)。● 生成されたPhysical stateを用いてReasoningやFuture予測が可能。感想:● 画像からPhysical worldを復元するアイデアがかなりインパクトを感じる。全般的実現することはかなり難しいが、局所的な空間でのロボットアプリケーションで応用できそう。Visual de-animationの概念図Visual de-animation(VDA)モデル81Stanford: Jiajun Wu
  • 82.
    Title: Neural SceneDe-rendering (CVPR, 2017)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像から、明示的にDisentangledScene Representation(物体、物体属性、位置)を推定する手法を提案。● Auto-encodersなどと異なり、Decoderの部分でGraphics Enginesを用いる。感想:● 2017年当時では、NeRFなども提案されていなかった。現時点では、NeRF等を代表とした手法が提案され、この論文で提案されたDe-renderingの方向では比較的に論文が少ないように感じる.● De-renderingという提案も良いが、適応できる場面が限られるような気もする.De-renderingとRender提案手法の構造図 82Stanford: Jiajun Wu
  • 83.
    Title: Neural-Symbolic VQA:Disentangling Reasoning from Vision and Language Understanding (NeurIPS, 2018)Research Team / Researcher: Stanford_JiaJunWu概要:● De-renderingをVQAタスクに適応した。(VQAを算数を解くみたいな感じで行っている)● De-renderingとsymbolic program executionにより、VQAの回答のプロセスが明示的になる感想:● Neural Symbolic系は、識別とReasoning部分をわけて処理するイメージ。● 視覚と言語両方のWeak/Self-supervised学習との組み合わせが興味深い。● NeRF+Languageもかなり興味深い。NS-VQAのモデル構造(左図)83Stanford: Jiajun Wu
  • 84.
    Title: The Neuro-SymbolicConcept Learner: Interpreting Scenes, Words, and Sentences from NaturalSupervision (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 前ページのNeural Symbolic VQA(NS-VQA)手法をもっとEnd-to-end学習可能にした。● 質問と画像から、視覚概念・単語・センテンスのセマンティクスパーシングを自動的に学習するフレームワークNeural Symbolic ConceptLearner (NS-CL)を提案。● Latent Scene RepresentationをベースとしたNeuro-symbolic learningを行っている.感想:● 前作(NS-VQA)と比べ、確実に一歩Self-supervisedなNeural Symbolicモデルを実現できている。● Neurual Concept Learnerを様々なタスクに適応していきたい。提案のNS-CLの概要:カリキュラム学習を用いた学習・言語と視覚概念のParsing及びAlignment84Stanford: Jiajun Wu
  • 85.
    Title: Learning toDescribe Scenes with Programs (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像から、Scene Program(物体、物体の配置を表すプログラム)を生成するタスクを提案。感想:● Scene Programsという提案が新規で面白いが、適応できる場面が非常に限られている?(Simulationかつモノの分布にルール性がある)● 逆に生成を行えると面白そう。提案手法のプロセスおよびScene Programsの例 85Stanford: Jiajun Wu
  • 86.
    Title: Reasoning AboutPhysical Interactions with Object-Oriented Prediction and Planning (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 物体の属性のSupervisionを用いずに、物理シーンの理解のためのObject-centricrepresentationsモデルの提案。感想:● RoboticsのGraspingタスクなどに使えそう。● 実環境で適応する時にどのようなPhysicsEngineが使えるかが気になる。NeRFはそろそろ近くなる?3種類のParadigms:(c)提案のObject Factorization without ObjectProperty Supervision86Stanford: Jiajun Wu
  • 87.
    Title: CLEVRER: CollisionEvents for Video Representation and Reasoning (ICLR, 2020)Research Team / Researcher: Stanford_JiaJunWu概要:● 因果推論のための、ビデオデータセットを提案。● また、De-renderingとNeuro-symbolicモデルを組み合わせた手法も提案(人工設計のModuleが必要)。感想:● Videoや3Dを考慮したReasoningに関しての研究がこれから重要になってきそう。● 論文の書き方はかなりよかった。問題を明示化し、既存研究の問題点もはっきりにした。提案のCLEVRERデータセット提案のOracle model: NS-DR87Stanford: Jiajun Wu
  • 88.
    Title: Grounding PhysicalConcepts of Objects and Events Through Dynamic Visual Reasoning (ICLR, 2021)Research Team / Researcher: Stanford_JiaJunWu概要:● 前ページのCLEVRERデータセットのための新たな手法の提案。● 前ページでは、人工設計のModuleが必要である一方、ここでもっとEnd-to-endでできるようにした。感想:● 手法的にかなりNS-CLに近い、NS-CLのVideoへの拡張になっている。● 依然として局所的にVisual Reasoningを検討し、実験として簡単な実環境でも実験。● もっと一般的なVideoへの応用が期待される。提案のDCL(Dynamic ConceptLearner)の構造図88Stanford: Jiajun Wu
  • 89.
    Title: Grammar-Based GroundedLexicon Learning (NeurIPS, 2021)Research Team / Researcher: Stanford_JiaJunWu概要:● Groundedな視覚と言語のデータから、自動的にCompositionalかつGroundedな言語表現を学習する手法G2L2の提案(下図)。G2L2がNovelなワードのCompositionsに適応可能。感想:● この論文では言語側を切口に行われているNeuro-symbolic手法になる。● 言語側もまだまだ色々課題がある。最近のDALLE-2などをVision and Language系に導入できると良さそう。提案のG2L2(Grammar-Based Grounded LexiconLearning)の構造図89Stanford: Jiajun Wu
  • 90.
    重要視されているところ● AIで物理法則を理解する● Neural-Symbolic的な手法により、人間のように因果推論ができるAIの実現● 物理+AIの研究者として、物理、Robotics、AIどちらに関しても相当詳しい○ この3つの分野に対しての知識だけで壁がある○ AIに関しても、3D Vision、Video Recognition、Vision and Languageなど様々なサブ分野を研究してきた90気付きStanford: Jiajun Wu
  • 91.
  • 92.
    研究者 扱っている研究分野:選定理由:● VisualReasoning● Vision and Language● Image generation● 3D Reasoning● Vision and Languageを含めて、複数の分野で重要な論文を残した○ Vision and Language■ CLEVR■ Scene Graph■ Dense Captioning○ その他■ Perceptual Loss92Justin Johnson先生写真URL:https://web.eecs.umich.edu/~justincj/Michigan: Justin Johnson
  • 93.
    研究テーマの変遷2015932016 2017 2021SceneGraphDense CaptioningCLEVRCLEVRのためのNeural-Symbolic 手法● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介VirTexMichigan: Justin Johnson
  • 94.
    Title: Image Retrievalusing Scene Graphs (CVPR, 2015)Research Team / Researcher: Michigan_JustinJohnson概要:● 画像の意味的構造Scene Graph(Objects,Attributes, Object Relationships)を提案。新規性:新たなImage Representation、Scene Graphの提案。当初はSemantic Image Retrievalのためだったが、現在Scene GraphがあらゆるComputer Visionタスク、Video、3Dデータにも適応されるようになってきた。言語ー画像の間に位置付けるかなり効率的なGraph構造になる。Scene Graph(下)とGrounding(上)の例94Michigan: Justin Johnson
  • 95.
    Title: DenseCap: FullyConvolutional Localization Networks for Dense Captioning (CVPR, 2016)Research Team / Researcher: Michigan_JustinJohnson概要:● 従来の画像説明文生成タスクでは1画像1センテンスで、説明できる内容が限られる。● 画像から、複数の物体を検出し、検出された物体のCaptioning生成を同時に行うDenseCaptioningタスクを提案。感想:● Dense Captioningタスクの提案はかなりその時点の流れ的な感じがあるが、タスクの設定はシンプルかつ重要だった。現在もVideoや3次元データのDense Captioningタスクと類似したタスクが続出。● 同じ研究室(Fei fei Li研)でDenseCaptioningタスクに必要なデータセットVisual Genomeも提案されたので、DenseCaptioningタスクの提案も計画下かなと感じた。Dense Captioningタスクと既存タスクの比較95Michigan: Justin Johnson
  • 96.
    Title: CLEVR: ADiagnostic Dataset for Compositional Language and Elementary Visual Reasoning (CVPR,2017)Research Team / Researcher: Michigan_JustinJohnson概要:● 既存のVQAデータセットVQAv1とVQAv2では手動で作成しているため、Human-centered biasが含まれる。● VQAの手法をより分析する可能に、CGのVQAデータセットCLEVRを提案。感想:● データセットの設計は非常に合理的でコードが綺麗。● CLEVRがVisual Reasoningモデルの研究を開かれた感じがあり、但しCLEVRから5年立っていたが、シミュレーションとリアル環境で同時に解釈性が高いVisualReasoningできるモデルはいまだにOpen-question。言語のみの場合かなり進歩してきたが。CLEVRデータセットの例96Michigan: Justin Johnson
  • 97.
    Title: Inferring andExecuting Programs for Visual Reasoning (ICCV, 2017)Research Team / Researcher: Michigan_JustinJohnson概要:● 人間のように、Step-by-stepで推理を行うプロセスを持ったVQAの手法を提案。● 質問と画像両方のDisentangledな表現、推理プロセスのモジュール化などにより、Step-by-step的なVisual Reasoningを行っている。感想:● 実環境に対応できるモデルにはまだまだ遠いが、Neural Module NetworksのCompositional Reasoning能力を示せた。● Neural Module NetworksがWeakSupervisedもしくはSelf Supervisedで構築できるかが興味深くて、いまだにOpen-questionになっている。提案のIEPモデルの構造:Program Generator(質問から推理プロセスを推定)+Execution Engineから構成される(推理プロセスに対応した画像処理モジュールを組み合わせる)97Michigan: Justin Johnson
  • 98.
    Title: Image Generationfrom Scene Graphs (CVPR, 2018)Research Team / Researcher: Michigan_JustinJohnson概要:Text-to-Imageの代わりに、Scene Graph-to-Imageを提案(上図)。感想:● テキストから直接画像生成と比べ、Scene Graphを経由した方が合理的で、解釈性が高く感じる。● JohnsonがScene Graphの提案から、画像の意味情報の理解をすこしずつ向上させている感じがある。また、Black boxよりは、解釈性を重視する傾向にある。提案手法(右図):● Scene Layoutを中間表現として、Scene Graphから画像生成を行う.● Scene Graph⇒Layout: Graph NN● Layout-> Image: Cascaded RN98Michigan: Justin Johnson
  • 99.
    Title: VirTex: LearningVisual Representations from Textual Annotations (CVPR, 2021)Research Team / Researcher: Michigan_JustinJohnson概要:Semantic Denseなタスク(例:上図の右側のImage Captioning)での事前学習で高精度かつ高データサイズの効率性が得られることを検討。感想:Semantic Dense/Sparseなデータで事前学習でそれぞれProsとConsがある。ここでDenseの方だとデータの効率が高いことを示せた。両方を結合した方が良いかもしれません。様々なCVタスクのSemantic Densityの順番:(右)提案のVirTex(下):SemanticDenseなImage Captioningタスクで事前学習し、ObjectDetectionタスクへ遷移学習99Michigan: Justin Johnson
  • 100.
    重要視されているところ● 画像/視覚情報に対して意味情報の理解を深まっている。● JiajunWuと類似したように、Computer Visionに関して様々なタスクを扱ってきた。● 画像の意味的構造に関しての理解が深い、根強く研究し続けている○ Scene Graph○ Dense Captioning● 実装力がとても強い○ CLEVRとその後のICCV2017で提案したNeural-Symbolic 手法がかなり短い期間でできた● アイデアがいつもシンプルで、Communityに対してのContributionがクリアで説明されている。● 提案手法がいつもTrickyではなく、合理的かつStraightforwardなものが多い印象。● 論文が読みやすい。100気付きStanford: Jiajun Wu
  • 101.
  • 102.
    Honglak Lee (ミシガン大学,LG AI Research)兼務:2016 Google Brain→2020 LG AI Researchスタンフォード大学:(指導教員はAndrew Ng)● Ph.D. (2010): Computer Science● M.S. (2006): Computer Science, Applied Physicsソウル国立大学:● B.S. (2003): Physics, Computer Science画像は[1]より引用[1] https://web.eecs.umich.edu/~honglak/主戦場の分野:強化学習、CV、V&L、NLP貢献が多いトピック:● 教師なし、弱教師ありの表現学習● (主に弱教師あり)領域分割● GANを用いた画像生成・画像変換● GANの正則化手法選定理由(品川):研究室の規模は10名弱とそれほど多くないものの、メンバー全体が機械学習トップ会議の常連であり、質の高い論文が多く、学べるものが多そうだと考えたため。 102
  • 103.
    活躍している分野(採択先別、ジャーナル、workshop含む)個人サイトにある掲載論文[1] 124件 (2005-2021)の論文を集計した多い会議●表現学習や強化学習(NeurIPS, ICML,ICLR)● CV系(CVPR,ECCV, ICCV)NeurIPS (5月投稿締切)→ICLR (9月) orCVPR (11月) → ICMLor IJCAI (1月)という研究サイクル?103
  • 104.
  • 105.
    ● 2012-2014頃は NIPSworkshop(12月初旬開催)からICML (1月投稿締切)という流れも(今はやってない?)● 2015-2018はAdobe Researchとも共同研究していた?(Jimei Yangがキーパーソン?)博士論文:Unsupervised Feature Learning Via Sparse Hierarchical Representations深層学習モデルによる教師なしの表現学習(スパースコーディングと、スパースなDeep Belief Network、畳み込みDeep Belief Network)2014年頃まで:RBM、DBN、Convolutional DBNによる表現学習2015年~:画像、テキストによる表現学習、画像生成・変換、強化学習、動画生成2019年~:GANの正則化手法も加わる● 表現学習を基礎にしながら、強化学習や画像を中心とした深層生成モデルを攻めている● 大まかには、表現学習や深層生成モデル(ミシガン大)強化学習のアルゴリズム改善(Google Brain)で分かれているという印象● 一見色々なことをしているように見えるが、大きな目で見ると、コアの技術は有機的につながっていて、かつテーマが研究室内で引き継がれている印象を受ける。指導方針に戦略がありそう?● 研究トピックがその時代の流行りを少し先取りしていたり、面白いと思われているところを絶妙についているという印象。研究対象を絞っているゆえに着眼点が良いのかも105
  • 106.
    研究テーマの変遷2014 2022RBM、Deep BeliefNetworksによる表現学習画像生成・変換強化学習(2016年以降は主にGoogle Brainでの仕事)動画生成画像と言語の共有空間の学習text-to-image+GAN2016博士論文, 2009CKAによるDNNの類似性解析GANによる正則化表現学習や表現の分析106
  • 107.
    主要な貢献には主に優秀なPh.D.の学生やポスドクが関わっているLajanugen LogeswaranSungryull SohnSeunghoonHongScott ReedYuting Zhang現Ph.D. student。文の表現学習に関する仕事はだいたいこの人が筆頭著者現Ph.D. student。強化学習の改善に注力現Amazon。元Visiting Ph.D. student→ポスドク。深層生成モデルを使った画像タスク色々。画像や言語の表現学習も手掛ける現KAIST Assist. Prof.。元Visiting Ph.D. student→ポスドク。弱教師あり領域分割や条件付き画像生成・変換がメイン現DeepMind。元Ph.D. student。GANによるtext-to-imageの草分け的存在。画像とテキストによるゼロショット画像分類や表現学習、画像生成・変換など 107
  • 108.
    対外でも強力な共著がいるGoogle Brain SergeyLevineJimmei Yang強化学習の大家現Adobe。元Visiting Ph.D. student。Adobeのインターンや共同研究はこの人が関係している?Geoffrey Hinton 深層学習の大家次のページからは論文まとめ108
  • 109.
  • 110.
    Title: Convolutional deepbelief networks for scalable unsupervised learning of hierarchicalrepresentations (ICML 2009, Best Paper Award: Best Application Paper)Research Team / Researcher: Michigan_Honglak_LeeDeep Learning初期に主流だったDeepBelief Networkに畳み込み構造を追加したConvolutional Deep Belief Networkを提案した論文。左図は2層目(上図)と3層目(下図)が反応する視覚的特徴を示している。階層性が複雑な特徴を捉えていることを示している図としてかなり有名な図StanfordAndrew Ng110
  • 111.
    Title: Action-Conditional VideoPrediction using Deep Networks in Atari Games (NIPS 2015, oral presentation)Research Team / Researcher: Michigan_Honglak_Leeactionに条件づけられた動画予測強化学習でよく用いられるAtariのゲームの動画で実験Atariの動画は自然画像ほどではないが、数十オブジェクトやオブジェクトの増減が起こるFeed-forwardとRecurrent層を含む2種類の提案モデルが良いことを示した。DNN時代の条件付き動画生成の比較的早期の研究と思われるMichigan111
  • 112.
    Title: Deep VisualAnalogy-Making (NIPS 2015, oral presentation)Research Team / Researcher: Michigan_Honglak_Lee潜在空間上である関係にある画像同士を引き算し、その関係を適用したい画像に{足す、掛ける、ニューラルネットワークに通す}と、その関係が適用された新しい画像が生成できることを示した論文。ニューラルネットワークに通した場合(deep)が一番良い結果になった当時、DNNによる画像変換の可能性に一石を投じた論文の一つMichiganScott Reed112
  • 113.
    Title: Learning HierarchicalSemantic Image Manipulation through Structured Representations (NeuIPS2018)Research Team / Researcher: Michigan_Honglak_Lee前景と背景を考慮しながら領域マスク生成と画像生成の二段階で画像を編集する手法を提案筆頭のSeunghoon HongはCVPR2018でも似たようなことをtext-to-imageでやっている。text-to-imageの方が先なので、より対象を絞ったのだろうか?Seunghoon HongMichigan113
  • 114.
  • 115.
    Title: Sentence Orderingand Coherence Modeling using Recurrent Neural Networks (AAAI 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichiganDragomir Radev与えられた文の集合から文を順番に生成するタスクを解くことで、一貫したテキストの構造をモデル化し、良い文の表現を得る方法を提案。順序判別タスク、科学論文の概要を並べるタスクで有用性を示した。文の表現としても有用。115
  • 116.
    Title: Content preservingtext generation with attribute controls (NeurIPS 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichiganGoogle BrainSamy Benjioラベルに条件付けられたテキスト生成で、再構成損失、逆翻訳損失、敵対的損失を導入116
  • 117.
    Title: An efficientframework for learning sentence representations (ICLR 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichigan入力テキストに対応する文脈を対照学習で予測する問題を解くことで、良いテキスト表現を学習する117
  • 118.
    Title: Zero-Shot EntityLinking by Reading Entity Descriptions (ACL2019 Best paper award finalist)Research Team / Researcher: Michigan_Honglak_Leeラベルデータなしで与えられたテキスト(メンション)をエンティティに紐づけるタスクをzero-shotで行う。ラベル付けされていない大規模データに対して事前い学習させたモデルを用いて未知のエンティティに汎化できることを示した。Lajanugen LogeswaranMichiganGoogle Brain118
  • 119.
  • 120.
    Title: Evaluation ofOutput Embeddings for Fine-Grained Image Classification (CVPR 2015)Research Team / Researcher: Michigan_Honglak_LeeMichiganScott ReedMax Planck画像とクラスの埋め込み(もしくはテキストの埋め込み)が一致するか否かをSVMで予測するタスクを解くことで、zero-shotの画像分類の性能を向上させたScott Reedの、後のvisualsemantic embeddingの研究につながっている模様120
  • 121.
    Title: Learning DeepRepresentations of Fine-grained Visual Descriptions (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Lee画像と言語の共有空間であるvisual semantic embeddingを学習当時主流だったTriplet lossに、クラスラベルの一致をマージンとして加えたlossを提案した。結局流行ることはなかったが、筆頭著者のScott Reedが自身のGANによるtext-to-image論文で利用しているテキストエンコーダにCNN-RNNを使っていたのも当時珍しかった印象MichiganScott Reed121
  • 122.
    Title: Generative AdversarialText to Image Synthesis (ICML2016)Research Team / Researcher: Michigan_Honglak_LeeGANをtext-to-imageに応用した最初の論文。Discriminatorで入力画像が本物か判定するだけでなく、入力条件にも沿っているかを合わせて判定するmatchingaware lossは、条件付きGANの標準的な方法の一つとして普及したといえる。MichiganScott Reed122
  • 123.
    Title: Learning Whatand Where to Draw (NIPS 2016, oral presentation)Research Team / Researcher: Michigan_Honglak_Lee概要:text-to-imageの入力に自然言語だけでなく矩形やkey-pointなど、空間的な情報を含めて生成する手法を提案した。テキスト+追加情報でtext-to-imageをすることの先駆けとなった論文Honglak Leeのラボでは、この手のネタがしばらく継承されてきているMichiganScott Reed123
  • 124.
    Title: Inferring SemanticLayout for Hierarchical Text-to-Image Synthesis (CVPR2018)Research Team / Researcher: Michigan_Honglak_Leeテキストからの画像生成にbounding boxの予測タスク、領域マスクの予測タスクを挟みこんで生成text-to-imageを段階的なタスクに分割し、End-to-endで学習。空間的なレイアウトもモデルから生成できるようにしたMichiganSeunghoon Hong124
  • 125.
    Title: Text-to-Image GenerationGrounded by Fine-Grained User Attention (WACV 2021)Research Team / Researcher: Michigan_Honglak_Lee実践的なテキストからの画像生成の方法として、ユーザが喋りながらマウスによる軌跡入力を行えるという問題設定の下で画像を生成Google Research125
  • 126.
    Title: Discriminative BimodalNetworks for Visual Localization and Detection with Natural LanguageQueries (CVPR2017 spotlight)Research Team / Researcher: Michigan_Honglak_Lee概要:テキストのクエリが示す画像中の領域を検出するタスク。従来手法がimage-captioningなどに基づくのに対し、本手法は画像とテキストのマッチングを2値分類することで効率的に負例も使うことができる。現在のV&L BERTのtext-imagematchingにも通じるアイデアだと思われるMichiganYuting Zhang126
  • 127.
  • 128.
    Title: Hierarchical ReinforcementLearning for Zero-shot Generalization with Subtask Dependencies(NeurIPS 2018)Research Team / Researcher: Michigan_Honglak_Lee Sungryull SohnMichigan既存の階層的なマルチタスク強化学習ではエージェントが何をすべきか明示的に示していたが、本研究ではサブタスクの性質とサブタスク間の関係性のみの情報だけで、エージェントがどのサブタスクを実行するか推論させるより実践的な問題設定になっている128
  • 129.
    Title: Data-Efficient HierarchicalReinforcement Learning (NeurIPS2018)Research Team / Researcher: Michigan_Honglak_Lee上位方策と下位方策により複雑なタスクを解く階層型強化学習において、上位方策がon-policyで学習する必要があった従来手法に対し、上位方策もoff-policyで学習する方法を提案し、サンプル効率を改善したGoogle Brain Sergey Levine129
  • 130.
    Title: Evolving ReinforcementLearning Algorithms (ICLR2021 oral)Research Team / Researcher: Michigan_Honglak_Lee概要:モデルフリーの価値ベースRLエージェントを最適化するのに、損失関数を計算する計算グラフ上をサーチするメタ学習強化学習を提案。ドメインにによらず新しい環境への汎化が可能で、スクラッチ学習でも既存のDQNなどと組み合わせることも可能。価値ベースの過大評価に対処するRLアルゴリズムと類似した傾向があるGoogle Brain Sergey Levine130
  • 131.
  • 132.
    Title: Diversity-Sensitive ConditionalGenerative Adversarial Networks (ICLR 2019)Research Team / Researcher: Michigan_Honglak_Lee条件付きGANのモード崩壊を抑えつつ多様性を向上させる方法として、目的関数に正則化を加える手法を提案。生成条件xに潜在変数z_1, z_2を加える時、z_1, z_2の距離に対するGeneratorによる生成後の距離を上限τのもとで最大化する。Michigan132
  • 133.
    Title: Consistency Regularizationfor Generative Adversarial Networks (ICLR 2020)Research Team / Researcher: Michigan_Honglak_LeeGANにデータ拡張を適用する際、データ拡張適用前後の特徴量は近くなることが望ましい。この正則化をDiscriminatorに適用したCR-GANを提案。画像は下記リンクより引用https://arxiv.org/abs/2002.04724Google Research133
  • 134.
    Title: Improved ConsistencyRegularization for GANs (AAAI 2021)Research Team / Researcher: Michigan_Honglak_Leeデータ拡張を行った入力の予測をDiscriminatorの予測に近づけるconsistency costの導入(1)は性能を向上させる一方でartifactを引き起こすことを指摘。データ拡張の対象を変更することでよりFIDで高性能であることを示した(2)(3)● (2) bCR-GAN:Generatorによる生成画像にデータ拡張を加えてconistency costを計算● (3) zCR-GAN:zにノイズを加えて、生成画像にconsistencycostを計算Google Research134
  • 135.
  • 136.
    Title: Weakly SupervisedSemantic Segmentation using Web-Crawled Videos (CVPR2017 spotlight)Research Team / Researcher: Michigan_Honglak_Lee概要: Web上の動画を領域分割できるモデルを学習する。1. 最初に既知のドメインで画像認識モデルとattention mapを学習2. Web動画を認識モデルでフィルタリング3. (既知のドメインで)attention map to segmentation maskを学習MichiganSeunghoon Hong136
  • 137.
    Title: Learning TransferrableKnowledge for Semantic Segmentation with Deep Convolutional NeuralNetwork (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Lee弱教師ありの領域分割の性能を上げる方法として、別のドメインの領域分割データセットからの転移学習を行う研究。クラスの予測と領域分割のマスクの予測を分けて予測するタスクを解くことで、転移先のデータセットに対しても領域分割を汎用的に機能させることができるMichiganSeunghoon Hong137
  • 138.
    Title: Object ContourDetection with a Fully Convolutional Encoder-Decoder Network (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Leeシンプルなネットワークで輪郭検出ができることを示したAdobeとの共同研究?MichiganJimeiYang138
  • 139.
    Title: Unsupervised Discoveryof Object Landmarks as Structural Representations (CVPR 2018 oral)Research Team / Researcher: Michigan_Honglak_Lee教師なしで画像中のランドマークを発見する手法を提案。UNetのようなEncoder-decoderモデルでチャネルごとにisotropic gaussianを仮定してランドマークを抽出し、このランドマークを基に画像の再構成を学習することで画像中のオブジェクトに対する良いランドマークを発見するMichiganYuting Zhang139
  • 140.
    Title: Similarity ofNeural Network Representations Revisited (ICML2019 + Best Research Paper Award at theICLR 2019 Workshop on Debugging Machine Learning Models)Research Team / Researcher: Michigan_Honglak_Lee概要:centered kernel alignment (CKA)に基づいたニューラルネットワークの表現(activation)の類似性の比較を提案。線形のCKAは従来の正準相関分析を固有値で重みづけした方法に相当することを示し、CKAの優位性を示した。補足:線形CKAによる手法は現在の標準的な類似度比較手法になっており、昨今のResNetとVision Transformerの比較にも利用されており、大きな影響を与えたと言えるGoogle Brain Geoffrey Hinton140
  • 141.
  • 142.
    研究室の構成写真:URL:https://panderson.me/扱っている研究分野:選定理由:● Embodied AI●Image caption● VQA● Vision-langauge Navigation● image captionタスクの評価:SPICE● Vision-language Naviagationを提案● REVERIEを提案142
  • 143.
    Title: SPICE: SemanticPropositional Image Caption EvaluationResearch Team / Researcher: Google_Peter-Anderson概要:● image captionタスクにおいて,生成した文の意味内容によって,その文の質を評価する指標を提案した.● 生成文と参照文に出た物体,物体の属性,物体間の関係を基づいて,scene graphに変更する.2つのscene graphの類似度によって,生成文の評価を行う.新規性:● 従来の評価指標(BLEU,METEORなど)は文の意味を無視し,n_gramで生成文と正解を比較で評価する.SPICEでは文の意味を考慮する上で品質を評価する.SPICEによる評価の一例感想:● SPICEを提案した以来,image captionの分野で広めに利用される.従来の指標より,意味を重視しているけど,文の流暢性という基準がなくなる.143
  • 144.
    Title: Chasing Ghosts:Instruction Following as Bayesian State TrackingResearch Team / Researcher: Google_Peter-Anderson概要:● 観察とモーションモデルを基づいてVLNタスクの解決策をBayesian State Tracking問題として提案● 言語指示から観察と動作関連の単語を取り出し,semantic spatial mapを作る新規性:● VLNタスクに向けてメモリ構造を提案した144
  • 145.
    Title: Vision-and-Language Navigation:Interpreting visually-grounded navigation instructions in real environmentsResearch Team / Researcher: Google_Peter-Anderson概要:● vision langauge navigation(VLN):リアルな環境におけるエージェントは言語の指示に従って目的地に辿り着くというタスクを提案した.● ベンチマークRoom-to-Room(R2R)を構築した.新規性:● 新しくVision and Language系の研究のタスク(VLN)を提案した.このタスクは,CV,NLP,Robotics分野の結合で,非構造化かつ未知な実環境でのreasoning能力を求める.● 既存のVision and Language系の研究(VQA,visual dialog etc)より,画像と自然言語両モダリティ間の関係性をより深く理解する必要がある.感想:● 論文にはさまざまなベイスラインを提供され,Seq2seqの手法でR2Rベンチマークを試した結果,学習際に見なかったシーンに対する効果が低下であることより,VLNタスクでは汎用性のあるエージェントを学習させることが重要である.145
  • 146.
    Title: Bottom-Up andTop-Down Attention for Image Captioning and Visual Question AnsweringResearch Team / Researcher: Google_Peter-Anderson概要:● bottom-upで画像中での特徴を利用し,物体情報を認識した後に,top-downでattention構造で注意すべき領域を予測し,image captionとVQAのタスクを行う.新規性:● Faster-RCNNで物体検出することを活用し,visualとlanguageを連結したことにより,画像にのコンセプトへの理解を向上した.● 提案したbottom-upとtop-down形のattention構造はオブジェクトおよび他の顕著な画像領域のレベルでattentionを計算することができる. top-downでのVQAタスクためのモデルtop-downでのimage captionためのモデル146
  • 147.
    Title: REVERIE: RemoteEmbodied Visual Referring Expression in Real Indoor EnvironmentsResearch Team / Researcher: Google_Peter-Anderson概要:高レベルの自然言語指示で指定された遠隔のターゲット物体(開始地点では観測できない)を正しくローカライズするタスク新規性:● 3D環境でのreasoning● high levelな指示論文に提案したモデルREVERIEデータセットの一例感想:● REVERIEタスクでは人間みたいに抽象性が高い指示を理解し,未観察の環境においても,ナビとreasoningの能力を求める.● 既存なSoTA手法でREVERIEを解けてみたけど,効果がよくないにより,挑戦的なタスクけど,VLNの発展および応用に意味ある.147
  • 148.
    Title: Pathdreamer: AWorld Model for Indoor NavigationResearch Team / Researcher: Google_Peter-Anderson概要:● Pathdreamerは,屋内シーンの1つ以上のパノラマに基づいて,リアルで多様なパノラマ画像を合成することができる確率的階層的視覚世界モデルである.● PathdreamerをVLNタスクに応用する新規性:● 高解像度のaction-conditional video prediction148
  • 149.
    Title: Less isMore: Generating Grounded Navigation Instructions from LandmarksResearch Team / Researcher: Google_Peter-Anderson概要:2-stageのモデルを提案,視覚上に関連性あるのvisual inputのみを選んで,ナビの指示を生成する.● 1st-stage (landmark detector):パスで結ばれたpanoramicのシーケンスから,人がこのパスを説明するために選択する可能性のあるランドマークのシーケンスを推論する.● 2nd-stage (instruction generator):第1ステージに選んだランドマークとナビゲーションためのアクションを使って,ナビの指示生成を行う.感想:● image-text pairに似たような手法でパノラムから既存指示に出た名詞を抽出し,視覚とテキスト間の対応関係をうまく取ってきた.おかげで,モデルが生成した指示と人間が書いた指示の差をほとんどなくすことができる.149
  • 150.
  • 151.
  • 152.
    Title: VLN BERT:A Recurrent Vision-and-Language BERT for NavigationResearch Team / Researcher: Adelaide_V3ALab概要:● V&L BERTモデルをVLNタスクに応用するため,recurrent BERTを提案し,エージェントの状態を依存できるようになった.● R2RとREVERIEのタスクでSoTAを達成感想:● V&L BERTモデルの特徴はマルチモーダル情報への理解力が高い,その特徴を利用し,VLNタスクにおいての環境理解が向上した.● BERTのself-attention構造を利用し,他のVLNモデルに提案したメモリ構造と同じように使える.モデルがシンプルになる同時に計算コストも低くなる.● recurrent機構を導入し,LSTMのセル状態のように状態を再利用することで,BERTの本来の構造を生かし,時間依存の入力を識別できるようにした.(VLN問題はMDPに見える,マルコフ連鎖における過去の状態への依存を解決することである.)部分的に観測入力を対応可能なrecurrent TransformerVLNリカレントBERの全体像 152
  • 153.
    Title: Room-and-Object AwareKnowledge Reasoning for Remote Embodied Referring ExpressionResearch Team / Researcher: Adelaide_V3ALab概要:● REVERIEタスクに対して,room-entityのリズニングとobject-entityのリスニングするためのcommonsense knowledgeを学習するアプローチCross-modality Knwoledge Reasoning(CKR)を提案した● CKRの中,Knowledge-enabled Entity Relationship Reasoning (KERR)はグラフベースの知識推論を適用し,部屋や物体間の意味的・共起的な内部と外部の相関をとらえ,そこに常識を取り込む153
  • 154.
    Title: Sub-Instruction AwareVision-and-Language NavigationResearch Team / Researcher: Adelaide_V3ALab概要:● 既存の(Room-to-Room)R2Rデータセットでの指示文が抽象性があるため,指示文とシーンの間の対応関係がうまく学習していなかった.そして,本研究は元のアノテーションを基いて,sub-instructionを作成し,既存のR2Rデータセットを改善し,シーンと指示文を細かくマッチングできるようになった.● 4つのSoTAモデルを使い,改善したFineGrained R2Rの有効性を検証した.154Fine grained 指示文の例

[8]ページ先頭

©2009-2025 Movatter.jp