はじめに:2● cvpaper.challengeのVision andLanguageグループにより作成● Vision and Languageのトップ研究グループ/者をサーベイ対象:○ トップの研究グループ/者がどのように研究を進めている○ Vision and Languageの網羅的なサーベイ● この資料の構成:○ 研究グループ/者ごとにまとめている:- 研究室の構成, 選定の理由- 研究テーマの変遷- 論文まとめ(1論文1ページ*)- 研究の方法、重要視している課題のまとめ*各論文の概要レベルしか触れていない
3.
今回調査対象とする研究グループ/研究者:url 大学/研究機関 研究室代表研究者 スライド番号1 Georgia Tech Visual Intelligence Lab Devi Parikh 4-222 Stanford vision and learning lab Fei fei Li, Juan Carlos Niebles, SilvioSavarese, Jiajun Wu23-543 UT-Austin Computer Vision Kristen Grauman 55-774 Stanford vision and learning lab Jiajun Wu 78-905 University of Michigan Justin Johnson 91-1006 University of Michigan Honglak Lee 101-1407 Google Peter Anderson 141-1498 University of Adelaide V3Alab Qi Wu 150-1543
Title: VQA: VisualQuestion Answering (ICCV, 2015)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:1枚の画像と画像内容に関する質問から、回答するタスクVQAとデータセットを提案。VQAが、Vision and Languageの研究の始まりと代表的なタスクに位置付けている印象。新規性:● 新しい、Vision and Languageの系研究を打開したタスクとデータセットを提案した。VQAv1提案後、様々のVision andLanguageモデルやタスクの研究が続出するようになった。● VQAv1タスク・データセット(現在はbiasが比較的にコントロールされたVQAv2の方がメインで使われている)で様々なVisual Reasoning能力がカバーされており、現在でもChallenge的であり、VisionとLanguage認識以上のReasoning能力のモデル構築において今でも意味がある。VQAv1データセットの例当時提案されたVQAのモデル構造8Georgia Tech: Visual Intelligence Lab
9.
Title: Making theV in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering(CVPR, 2017)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-LabVQAv1(上段) vs. VQAv2データセット(下段):概要:● VQAv1データセットに含まれる強いデータセットバイアス(例:Yes or No問題の回答が70%Yesなど)を発見。● データセットの拡張・バランス調整を行い、比較的にデータセットバイアスが少ないデータセットVQAv2を提案。感想:● VQAデータセットは根本的にバイアスになってくるかもしれません。いかにバイアスなデータセットから、バイアスしない回答を学習できるかがデータセットのバイアスのコントロールより重要であるように思う。● 分布が異なるデータセット間で対応可能なモデルが良い。9Georgia Tech: Visual Intelligence Lab
Title: ViLBERT: PretrainingTask-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks(NeurIPS, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● Vision and Language系の研究で特にデータセットの作成のコストが高い問題がある。● Vision and anguage タスクにおいて大規模事前学習、タスク間の遷移学習を可能にするため、統一したモデルで複数のVision andLanguageタスクを学習可能なフレームワークを提案(ViLBERT)。感想:● BERTの成功をVandLに適応する試み。考えるだけではなく、他の人より早い段階でRoadmapを構想し、いち早く最新で使えそうな技術を導入することが重要。● ViLBERTで提案する時点ですでにPaperid11の12in1のマルチタスク同時学習を想定していたそう。ViLBERTで行っている2種類のMulti-modal learning:左(ラベル推定まで);右(一致性の評価のみ)20Georgia Tech: Visual Intelligence Lab
21.
Title: 12-in-1: Multi-TaskVision and Language Representation Learning (NeurIPS, 2019)Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab概要:● ViLBERTをベースに、更に複数のVision andLanguageタスク間の遷移学習の効果を検証。感想:● ViLBERTをベースに、マルチタスク・データセットにおいて分析を行た感じ。Communityに対して貢献度が高いが、新規性がすこし薄れる部分もある。● VandL研究の理由:”promise of language as auniversal and natural interface for visualreasoning”;なかなかうまくまとめている。提案のマルチVandLタスク共同で学習する仕組み21Georgia Tech: Visual Intelligence Lab
Title: ImageNet: ALarge-Scale Hierarchical Image Database (CVPR, 2009)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:※以下の数値等は本論文発表時(2009)のもの・階層構造語彙データベースWordNetがバックボーンの画像データセット・スタンフォード大学のFei-Fei Li氏を中心とした研究グループが管理・世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開中・WordNet:8万synset(同義語セット)・インターネット全体から画像をクロールして収集・12のサブツリー(最上位カテゴリ)哺乳類、鳥類、魚類、爬虫類、両生類、乗り物、家具、楽器、地層、道具、花、果物・5247のsynset(WordNetの一割以下)、全320万枚のフル解像度画像・synsetごとに平均500~1000枚の画像・Amazon Mechanical Turkを利用して人力でラベル付け(有償)。・目標:5000万枚。※2020年時点で2万synset/1400万枚と停滞中感想:・1つの画像に1つのラベルしか付与しない仕様となっているが、画像内に複数の対象が映り込んでいる場合のラベル付けの正当性に疑問・公平性、プライバシー保護、不適切/不快なラベル(※解消に努⼒している模様)・ラベル付けに莫⼤な費⽤がかかる(教師データのアノテーションコスト問題)27Stanford : Vision and learning lab概要:1画像1ラベルの物体認識用大規模データセットImageNetを提案。
28.
Title: Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations (IJCV,2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● ImageNetでは主に1画像1物体ラベルから構成。ここで、1画像とその画像の意味的構造(Scene Graph:物体、物体間の関係ラベル)をアノテーション付けたデータセットVisual Genomeを提案。感想:● Visual Genomeが大量な作成コストが必要となり、分野の成長に大きく貢献できている。● Visual Genomeデータセットがかなり大規模であり、現時点でもChallenge的で、様々なDownstreamタスクで活用できそう。VisualGenomeデータセット例28Stanford : Vision and learning lab
29.
Title: Learning PhysicalGraph Representations from Visual Scenes (NeurIPS, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Sceneに含まれる物体の階層構造(物体と物体のパーツなど)および物理属性(SurfaceShape, Texture)も考慮したPhysical SceneGraph構造を提案。感想:● 室内環境データセットにまで適応できているところがすごい。物理に従っても大規模データセットに活用できるところなので、物理ベース手法のPromisingなところを示せた。提案のPhysical Scene Graph(PSG) representation(左図)29Stanford : Vision and learning lab
30.
Title: ActivityNet: ALarge-scale Video Benchmark For Human Activity Understanding (CVPR, 2015)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● これまでに動画像データセットでは1動画1動画ラベルのような設定が多い。● ここで、階層化された動作ラベルを付けた大規模データセットActivityNetを提案。感想:● 論文で”Semantic Ontology”という言葉を使っている。Classic AIのOntologyとDeepLearningをいかにうまく組み合わせられるかに関してかなり工夫していそう。ActivityNetに含まれる2つの例(右図):動作がTree状のSemanticLevelsに従ってアノテーションされている30Stanford : Vision and learning lab
31.
Title: 3D SceneGraph: a Structure for Unified Semantics, 3D Space, and Camera (ICCV, 2019)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Scene Graph/Visual Genomeを3次元に拡張し、3D Scene Graphとデータセットを提案。● 具体的に、4-layers(左図)から構成される3DScene Graph構造を提案(Building, Rooms,Objects,Cameras)。感想:● 2D Scene Graphがあるから、3D Scene Graphを定義しようとする人は他にもあるはず。ここでかなりReasonableで詳細な3D Scene Graphを定義していて、大きな研究室ならではの感じがする。● 3D Scene GraphにCameraを考慮されているところが面白い。Cameraまで認識できるすることが今でもChallenging。3DSceneGraphのIllustation(4-layer構造)31Stanford : Vision and learning lab
32.
Title: Action Genome:Actions as Composition of Spatio-temporal Scene Graphs (CVPR, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Scene Graph / Visual Genomeを動画に拡張し、Video Scene GraphとデータセットActionGenomeを提案。感想:● 論文を書く時にNeuroscience的な視点から論文のSupport Factsを出すのは強く見せられそう。● この論文でDynamic Scene GraphsがDownstreamタスクへの有用性を示した。新しいRepresentationやデータセットの提案する際に、他のタスクとの関連性や遷移学習する際の有用性を示すことが文章の質を大幅に向上できる。Spatio-temporal Scene Graph GenerationタスクのIllustration:ビデオからDynamic Scene Graphsを推定32Stanford : Vision and learning lab
33.
Title: Home ActionGenome: Contrastive Compositional Action Understanding (CVPR, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Action Genomeデータセット(3人称視点動画のみ)を更に、Multi-view、Multi-sensoryに拡張した。感想:● Video Scene Graphの密度がFrame-by-frameレベルではない方が良さそうな気がする。Frameレベルではアノテーションのambiguityが生じうる。● 設備さえあれば、HOMAGEデータセットの作成コストがそこまで高くない?HOMAGEでは2つの家環境しか使っていなさそう。HOMAGEデータセットのアノテーションパイプライン提案手法:マルチモーダルContrastive Learning33Stanford : Vision and learning lab
34.
Topic 2: SimulationEnvironments forEmbodied AI34Stanford : Vision and learning lab
35.
Title: Gibson ENV:Real-world Perception for Embodied Agents (CVPR, 2018)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Embodied AIのための大規模室内環境データセットとシミュレーターの提案。● 特徴1:実環境のBuildingsをベースに作成。● 特徴2:Embodimentの精度/レベルが高い。感想:● Introductionの部分で経済学・生物・脳科学の話しもふれていて広い範囲内で知識を積極的に得るべき?!● Physics、Robotics、実環境などと強く関連し、研究のUltimate Goalがわかりやすい。2つのAgentsがGibson環境の観測の例(右図)35Stanford : Vision and learning lab
36.
Title: Learning toNavigate Using Mid-level Visual Priors (CoRL, 2019)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● GibsonEnVをベースに大規模な実験行った。● Embodied AIの強化学習で従来E2Eでpixel-to-torqueが提案されていた。この文章で強化学習のPolicyを学習する際に直接Pixelからではなく3次元情報が入っているタスクで得られるMid-level特徴を使うことを提案。● 実験により、Mid-level特徴が収束速い、汎化性能強い、精度高いなどの利点があった。感想:● 同じ研究室同時期のTaskonomyと概念的に類似する。● Mid-level特徴を使った方が良いと研究せずに何となく想像できる。この論文でそれを的確に示してくれたところが良いが、Whyに関しての説明があるとなおさら良い。● 特にこの研究では強化学習タスクをターゲットしているため、かなり膨大な計算量が必要。提案のMid-level特徴量を用いてEmbodied AI タスクを行う概念図(下図)36Stanford : Vision and learning lab
37.
Title: IGIBSON 1.0:A Simulation Environment for Interactive Tasks in Large Realistic Scenes (IROS, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Robotic Simulation用の大規模Interaction可能な室内環境Simulatorの提案。15Rooms合計108部屋から構成され、物体の材質・Shape、RoboticManipulationなどが行える。また、実環境の部屋のReplicasになるため、Sim2Realも今後可能になる。感想:● IGIBSONがReal HousesのReplicas(Simulationの同じリアル家もある)になるので、Sim2Realの研究も色々活用できそう。今後はおそらくそのような研究が出てくるはず。● Fei Fei Liらの研究室は近年かなりRoboticsや、物理系に着手している。大規模の環境構築や、Robotic Manipulation、Replicasなどで今後実環境への応用が期待される。● IGIBSON 1.0はとくにRoboticsへ応用したい場合において有用である。IGIBSON 1.0: 物体とInteract可能な環境になり、環境中の物体の材質・Shapesがアノテーションされている。また、Real環境と対応づけている。37Stanford : Vision and learning lab
38.
Title: IGIBSON 2.0:Object-Centric Simulation for Robot Learning of Everyday Household Tasks (CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● IGIBSON 1.0と比べて、更に物体に物理シミュレーションの粒度(物体の様々な状態変更がSimulationできる)やデータ収集の利便性(VRを用いてHuman Dataを学習できる)を向上。感想:● IGIBSON 1.0のExtenabilityのおかげで、IGIBSON 2.0では更に詳細的な物理Manipulationや物体状態のコントロールが追加可能。● 将来、Humanの行動をマネにしながら、上手に様々なタスクを更に人間を超えるレベルで実現してくるRobotが期待可能。● 今人がInternetから常に色々勉強をしているため、RobotもいかにInternet知識をデモで行えるところが重要?IGIBSON 2.0: ①物体に対してのManipulationやManipulationに沿ってSimulation環境での物体状態変更などが可能になった。②VR環境も同時に提案し、HumanがVR環境における行動がSimulation上のAgentの学習データにすることができる。38Stanford : Vision and learning lab
39.
Title: BEHAVIOR: Benchmarkfor Everyday Household Activities in Virtual, Interactive, and EcologicalENvironments (CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 前作のiGibson2.0を用いて、データセットを作成した。● Embodied AIのための100日常Activitiesから構成されるSimulationBenchmarkデータセットを提案。また、HumanのVR上により集められたDemostrationも同時に作成。感想:● やはりBEHAVIORがIGIBSON 2.0をベースに作成されている!● 事前から収集したデータの有用性が分かっていて、それをベースにデータを集めていくことがかなりわくわく。BEHAVIORのIllustration:IGIBSON 2.0をベースに100種類の日常活動を導入し、同時にVRによりHuman Demostrationも500個集めた。39Stanford : Vision and learning lab
40.
Topic 3: ImageCaptioning40Stanford : Vision and learning lab
41.
Title: Deep Visual-SemanticAlignments For Generating Image Descriptions (CVPR, 2015)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 1枚の画像から1画像Captioningではなく、1枚の画像から複数の領域とその領域の物体Captioningを生成する提案。● 同時期のDenseCaptioningとかなり類似し、DenseCaptioningの方が影響が大きい。感想:● かなり早い段階でImage Captioningタスク(左図)を構成し、かつ相当Reasonableなモデルを提案(右図)。Dense Captioningはこの研究の進化バージョンに見える。● 今の最新手法のそこまで下記のモデルから離れていない感。提案のImageCaptioningタスク(右図)提案手法41Stanford : Vision and learning lab
Title: Shape andMaterial from Sound (NeurIPS, 2017)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 音と物体の物理特徴を関連させる研究であり、音から物体のShapeを復元するタスク・Auto-encoderベースな手法を提案。感想:● この研究が相当賢い!音声からShapeを復元するところがかなりChallenging。● 物理+AIはまだまだいろんな面で検討する余地があり、大きな将来性があるように感じる。物体がテーブル面上に落とす時の音から、物体のShapeを復元する提案のIllustration(右図)47Stanford : Vision and learning lab
48.
Title: Deep AffordanceForesight: Planning Through What Can be Done in The Future (ICRA, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 物体のAffordanceをShort-termではなく(例:この瞬間では持てる、押せるなど)、Long-termで物体のAffordanceを扱う提案(例:物体の周囲の物体を移動したら、この物体が押せるようになるなど)。感想:● 物体のAffordanceの定義がかなり難しく感じる。通常の使い方や、非常的な使い方、タスクごとの使いかたなど色々ある。提案のAffordance Foresightのモチベーション:同じ物体で異なるタスクでAffordanceが変化してくる(上段と下段のL型棒を参照)48Stanford : Vision and learning lab
49.
Title: OBJECTFOLDER: ADataset of Objects with Implicit Visual, Auditory, and Tacticle Representations(CoRL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 100 Simulation物体(視覚・音声・触感)を含まれたデータセットOBJECTFOLDERを提案。● 3つのSubnetで(NeRFベース)で同時に上記の3つをRenderingできる手法も提案。感想:● Touch(触感)がようやく入ってきました!(今までは視覚・言語・音声だった)● NeRFですべてを統一できる?● Smellはまた入っていない。OBJECTFOLDER:物体のImplicit neuralrepresentatitions(視覚・音声・触感をRenderingできる)49Stanford : Vision and learning lab
50.
Title: Taskonomy: DisentanglingTask Transfer Learning (CVPR, 2018)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Visual Tasks(例:Depth推定、Segmentation,…)関の関連性を調べた。● 具体的に、異なるタスク間の転移学習を行い、それをベースにタスク間の関連性を計算している。感想:● TaskonomyはCNNの時代だったが、Transformerで行ってみるとどうなるのはかなり気になる。● 人間でもTransformer学習するときに近いタスクs遠いタスクsが存在するはず。その背後の原因分析もかなり興味深い。● Unified構造、複数のタスクは現在Transformer系の手法でかなり検討されている。Taskonomyの計算(左図)50Stanford : Vision and learning lab
51.
Title: Which TasksShould be Learned Together in Multi-task Learning (ICML, 2020)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● Multi-task学習の際に、限られた計算リソースの場合でどのように同じネットワークで学習するタスクのSubsetと別々のネットワークで学習するSubsetを決めるためのComputational Frameworkを提案。● Multi-task学習に関してすこし詳細なところまで調べて、Multi-task学習の性能向上に貢献。感想:● 実際に人間も同様に学習するタスク関に相性が良いのと良くないのがありそうで、そのあたりの研究も興味深い。● Transformerが提案されて以来、類似した研究が多い感じ。そのため、こちらの研究もっと面白い知見が得られるかも。提案のComputational Frameworkを用いた結果例:Semantic Segmentation, DepthEstimation, Keypoint Detection, EdgeDetection, Surface Normal Predictionの5つ共同学習する際の性能が良い学習ネットワークの構成51Stanford : Vision and learning lab
52.
Title: Neural TaskGraphs: Generalizing to Unseen Tasks from a Single Video Demonstration (CVPR, 2019)Team / Researcher: Stanford_Vision-and-learning-lab概要:● Single Demonstration VideoからVideoに含まれるタスク(例:組み立て作業)を実行できる新たなOne-short Learning手法を提案。● 既存研究と異なり、提案手法ではCompositionalな構造ーTask graphを中間表現としている。感想:● 解決しようとする問題が重要だが、いまだにかなり難しいような気がする。● 論文中にUnseen complexタスクを解くために、Compositional Structureが重要と宣言していて、そこがどうなのかなり興味深い。● One-short Learning面白そう。提案手法のIllustation:Task graphを介してSingle VideoからTaskをExecuteする(左図)52Stanford : Vision and learning lab
53.
Title: Neural EventSemantics for Grounded Language Understanding (TACL, 2021)Research Team / Researcher: Stanford_Vision-and-learning-lab概要:● 理屈を理解するVisual Reasoningの新たな手法の提案。● 既存のVisual Reasoningでは人工設計なModuleが必要となる場合が多い。ここでの提案手法は比較的その制限を緩やかにして、End-to-endで学習できる既存のNMNと比べて構造が簡単。感想:● Neuro-symbolic的な手法のhuman-designedなNeural moduleから解放され、まだまだ遠いかもしれないが、Self-supervisedなNeuro-symbolicに近づけている?!● 提案手法のコアな考え方はかなりClassicな手法ーEvent semantics (Davidson, 1967)、クラシックな研究の関しての理解もなかなか重要な場合がある。● Event semanticsに対して知識がないが、もっと複雑なCompositional(例:多層で否定や比較なども含まれる場合)で使えるかどうかは不明。NMNと提案のNESの比較:NESが視覚要素をEventとし、テキストをNeuralLogical Form Fにし、単語各々がClassifierになる。最後にClassfierがEventに操作し、結果の掛け算で最終出力を得る53Stanford : Vision and learning lab
54.
重要視されているところ● 様々なSensingの情報を融合しながら理解する能力(複雑度、情報量が拡張つつある):○ ImageNet->VisualGenome->Action Genome, HomeAction Genome○ Dense Captioning -> Dense-Captioning Events○ Scene Graph->3D Scene Graph->Video Scene Graph->Physical Scene Graphs● 様々なモダリティのSemantic Structure表現:○ 画像グラフ(Visual Genome)○ 動画グラフ(Action Genome, HomeAction Genome)○ 3次元データグラフ(3D Scene Graph)○ Physical Scene Graphs● Semantic Structure的な表現とともに構造化された知能(例:Neuro-symbolic)● 膨大で、高質で、合理的で厳格的に設計されるデータセットを作成し続けている。● 分野において重要で長期的に貢献できそうテーマ設定が多い(Extensibleな研究が多い)。● Physics+AIや、Roboticsへの応用に近年かなり力をいれてやっている○ Jiajun Wu(Physics +AIの専門)も研究室に入ってきた○ 大規模の環境構築(Gibson ENV, iGibson 1.0, iGibson2.0)や、Robotic Manipulation、Replicasなどで今後実環境への応用が期待される。54Stanford : Vision and learning lab気付き
Title: Emergence ofExploratory Look-around Behaviors through Active Observation Completion (ScienceRobotics, 2019)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 従来、Computer Visionでは指定された入力から認識するようなタスクが多い。(例:画像認識、ビデオ認識など)● ここではAgentが新しい環境に入った場合に、どういった視点から環境を見ることでよりInformativeな情報を得られるかを学習する仕組みを提案。感想:● Science Roboticsも投稿先としてあるか(2021-2022-IF:23.748)!● 考え方は特に既存の少ない視点からSceneの3次元再構成の研究とあまり差がないが、どうしてScience Roboticsに採録されたかわからない。● 手法的には、Recurrent Model + Reinforcement。解釈性もそこまで高いない。提案のLook-around Agentのモデル構造:66UT-Austin_Computer_Vision
67.
Title: Ego-Topo: EnvironmentAffordances from Egocentric Video (CVPR, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Ego-centric動画から、動作のラベル(例:玉ねぎを切る)と動作発生の場所を表すTopologicalmapをベースに認識を行う手法を提案。● 既存のTotal画像認識、SLAMベースな手法の真ん中に位置付け、Ego-centric動画像認識に高い精度を実現とともに、SLAMベース手法より使いやすい。感想:● Ego-centricビデオからいかに3次元物理位置とリンクするかに関しての研究で、提案のTOPOマップが計算コストも小さくて、人間の感覚都も良く類似し、とてもReasonableな提案。● 提案のTOPOマップの使いやすさも強い。Affordanceとリンクさせることも可能。● TOPOマップと経由して、Sim2Realやロボットのデモにも使えそう。提案のEgo-Topo:Ego-centricビデオから、細かいClipの動作およびその動作発生する場所を表すtopological map。67UT-Austin_Computer_Vision
68.
Title: Learning AffordanceLandscapes for Interaction Exploration in 3D Environments (NeurIPS, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Embodied環境の物体Affordanceをベースとした遷移学習の提案。● 3次元環境から環境中の物体とどういったInteractionができるかを強化学習的なフレームワークで学習し、このような学習や得られる特徴表現がNovel 環境に対しての汎化性能をしめした。感想:● Affordanceベースの転移学習やSim2Realが使えそうで効率も良さそう。● Ideaを強化学習的にその有用性を示せるところがかなりエンジニアリングや計算リソースのところが大変そう。研究のメインアイデア:Affordanceベースの学習でNovel環境に対しての表現を向上68UT-Austin_Computer_Vision
Title: Shaping EmbodiedAgent Behavior with Activity-context Priors from Egocentric Video (NeurIPS, 2021)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 実環境のビデオデータとEmbodied AIのDomainGapを縮めるための研究。● 具体的に、Ego-centricビデオからActivitiesに関連する物体情報を学習し、Embodied AIでRewardを設定し、Activitiesに関連する物体を多く集めれば報酬が高い。実験で、このような学習が学習のスピードを加速できることを示した。感想:● Real世界のEgo-Centricビデオでの学習を、Embodied AiのDomainで活用する研究で、かなり分野への貢献度が高く、Embodied AIの実環境での利用を一歩前に進められた。● Ego4Dや、研究室で今までやってきた研究とかなりつながりが見やすい感じ。メインアイデア:実環境Ego-centricビデオからAcitivitiesに関連する複数の物体という情報を習得し、Embodied AIタスクで強化学習でActivitiesに関連する物体を集め、RealとSImのDomainをつなげる。 70UT-Austin_Computer_Vision
71.
Title: Ego4D: Aroundthe World in 3,000 Hours of Egocentric Video (arXiv, 2022)Research Team / Researcher: UT-Austin_Computer_Vision概要:● 大規模で、DenseでアノテーションされたEgo-centricビデオデータセットの提案。感想:● このプロジェクトが様々なComputerVision分野においてかなり使えそう。また、このプロジェクトがあるから、関連する研究室は続々と良い研究ができそう。● 長いVideoの認識の時代がやってきそう。● 第一人称動画のみではなく、様々な視点があるとなおさらよい気がする。Ego4Dデータセットのイメージ図:3,670 hours;数百種類のActivities; 複数のSensors(カメラ、Stereo、Gaze、3D Scanners)71UT-Austin_Computer_Vision
Title: Learning Patternsof Tourist Movement and Photography from Geotagged Photos at ArchaeologicalHeritage Sites in Cuzco, Peru. (Journal of Tourism Management, 2020)Research Team / Researcher: UT-Austin_Computer_Vision概要:● Social Mediaの旅行先の画像(Peruの都市を対象にした)から、Touristsがそれぞれの観光スポットのTravel patternsを分析。● Social MediaのデータがどうやってTouristsのTravel Preferencesに影響を与えているかも分析感想:● こちらの研究室で様々なタイプの研究を扱っている。● Change RecognitionとChange Captioningに関連が強そうに感じた。● 今後どうやって、大規模Internetデータから文字・画像・映像に含まれる情報を分析し、それをAIに活用するのが重要になってきそう旅行Patternの分析の例76UT-Austin_Computer_Vision
Title: Neural-Symbolic VQA:Disentangling Reasoning from Vision and Language Understanding (NeurIPS, 2018)Research Team / Researcher: Stanford_JiaJunWu概要:● De-renderingをVQAタスクに適応した。(VQAを算数を解くみたいな感じで行っている)● De-renderingとsymbolic program executionにより、VQAの回答のプロセスが明示的になる感想:● Neural Symbolic系は、識別とReasoning部分をわけて処理するイメージ。● 視覚と言語両方のWeak/Self-supervised学習との組み合わせが興味深い。● NeRF+Languageもかなり興味深い。NS-VQAのモデル構造(左図)83Stanford: Jiajun Wu
84.
Title: The Neuro-SymbolicConcept Learner: Interpreting Scenes, Words, and Sentences from NaturalSupervision (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 前ページのNeural Symbolic VQA(NS-VQA)手法をもっとEnd-to-end学習可能にした。● 質問と画像から、視覚概念・単語・センテンスのセマンティクスパーシングを自動的に学習するフレームワークNeural Symbolic ConceptLearner (NS-CL)を提案。● Latent Scene RepresentationをベースとしたNeuro-symbolic learningを行っている.感想:● 前作(NS-VQA)と比べ、確実に一歩Self-supervisedなNeural Symbolicモデルを実現できている。● Neurual Concept Learnerを様々なタスクに適応していきたい。提案のNS-CLの概要:カリキュラム学習を用いた学習・言語と視覚概念のParsing及びAlignment84Stanford: Jiajun Wu
85.
Title: Learning toDescribe Scenes with Programs (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 画像から、Scene Program(物体、物体の配置を表すプログラム)を生成するタスクを提案。感想:● Scene Programsという提案が新規で面白いが、適応できる場面が非常に限られている?(Simulationかつモノの分布にルール性がある)● 逆に生成を行えると面白そう。提案手法のプロセスおよびScene Programsの例 85Stanford: Jiajun Wu
86.
Title: Reasoning AboutPhysical Interactions with Object-Oriented Prediction and Planning (ICLR, 2019)Research Team / Researcher: Stanford_JiaJunWu概要:● 物体の属性のSupervisionを用いずに、物理シーンの理解のためのObject-centricrepresentationsモデルの提案。感想:● RoboticsのGraspingタスクなどに使えそう。● 実環境で適応する時にどのようなPhysicsEngineが使えるかが気になる。NeRFはそろそろ近くなる?3種類のParadigms:(c)提案のObject Factorization without ObjectProperty Supervision86Stanford: Jiajun Wu
87.
Title: CLEVRER: CollisionEvents for Video Representation and Reasoning (ICLR, 2020)Research Team / Researcher: Stanford_JiaJunWu概要:● 因果推論のための、ビデオデータセットを提案。● また、De-renderingとNeuro-symbolicモデルを組み合わせた手法も提案(人工設計のModuleが必要)。感想:● Videoや3Dを考慮したReasoningに関しての研究がこれから重要になってきそう。● 論文の書き方はかなりよかった。問題を明示化し、既存研究の問題点もはっきりにした。提案のCLEVRERデータセット提案のOracle model: NS-DR87Stanford: Jiajun Wu
88.
Title: Grounding PhysicalConcepts of Objects and Events Through Dynamic Visual Reasoning (ICLR, 2021)Research Team / Researcher: Stanford_JiaJunWu概要:● 前ページのCLEVRERデータセットのための新たな手法の提案。● 前ページでは、人工設計のModuleが必要である一方、ここでもっとEnd-to-endでできるようにした。感想:● 手法的にかなりNS-CLに近い、NS-CLのVideoへの拡張になっている。● 依然として局所的にVisual Reasoningを検討し、実験として簡単な実環境でも実験。● もっと一般的なVideoへの応用が期待される。提案のDCL(Dynamic ConceptLearner)の構造図88Stanford: Jiajun Wu
89.
Title: Grammar-Based GroundedLexicon Learning (NeurIPS, 2021)Research Team / Researcher: Stanford_JiaJunWu概要:● Groundedな視覚と言語のデータから、自動的にCompositionalかつGroundedな言語表現を学習する手法G2L2の提案(下図)。G2L2がNovelなワードのCompositionsに適応可能。感想:● この論文では言語側を切口に行われているNeuro-symbolic手法になる。● 言語側もまだまだ色々課題がある。最近のDALLE-2などをVision and Language系に導入できると良さそう。提案のG2L2(Grammar-Based Grounded LexiconLearning)の構造図89Stanford: Jiajun Wu
研究者 扱っている研究分野:選定理由:● VisualReasoning● Vision and Language● Image generation● 3D Reasoning● Vision and Languageを含めて、複数の分野で重要な論文を残した○ Vision and Language■ CLEVR■ Scene Graph■ Dense Captioning○ その他■ Perceptual Loss92Justin Johnson先生写真URL:https://web.eecs.umich.edu/~justincj/Michigan: Justin Johnson
93.
研究テーマの変遷2015932016 2017 2021SceneGraphDense CaptioningCLEVRCLEVRのためのNeural-Symbolic 手法● 同じ色で同じライン上の研究を示す● それぞれの詳細を後ろの論文まとめに紹介VirTexMichigan: Justin Johnson
94.
Title: Image Retrievalusing Scene Graphs (CVPR, 2015)Research Team / Researcher: Michigan_JustinJohnson概要:● 画像の意味的構造Scene Graph(Objects,Attributes, Object Relationships)を提案。新規性:新たなImage Representation、Scene Graphの提案。当初はSemantic Image Retrievalのためだったが、現在Scene GraphがあらゆるComputer Visionタスク、Video、3Dデータにも適応されるようになってきた。言語ー画像の間に位置付けるかなり効率的なGraph構造になる。Scene Graph(下)とGrounding(上)の例94Michigan: Justin Johnson
95.
Title: DenseCap: FullyConvolutional Localization Networks for Dense Captioning (CVPR, 2016)Research Team / Researcher: Michigan_JustinJohnson概要:● 従来の画像説明文生成タスクでは1画像1センテンスで、説明できる内容が限られる。● 画像から、複数の物体を検出し、検出された物体のCaptioning生成を同時に行うDenseCaptioningタスクを提案。感想:● Dense Captioningタスクの提案はかなりその時点の流れ的な感じがあるが、タスクの設定はシンプルかつ重要だった。現在もVideoや3次元データのDense Captioningタスクと類似したタスクが続出。● 同じ研究室(Fei fei Li研)でDenseCaptioningタスクに必要なデータセットVisual Genomeも提案されたので、DenseCaptioningタスクの提案も計画下かなと感じた。Dense Captioningタスクと既存タスクの比較95Michigan: Justin Johnson
96.
Title: CLEVR: ADiagnostic Dataset for Compositional Language and Elementary Visual Reasoning (CVPR,2017)Research Team / Researcher: Michigan_JustinJohnson概要:● 既存のVQAデータセットVQAv1とVQAv2では手動で作成しているため、Human-centered biasが含まれる。● VQAの手法をより分析する可能に、CGのVQAデータセットCLEVRを提案。感想:● データセットの設計は非常に合理的でコードが綺麗。● CLEVRがVisual Reasoningモデルの研究を開かれた感じがあり、但しCLEVRから5年立っていたが、シミュレーションとリアル環境で同時に解釈性が高いVisualReasoningできるモデルはいまだにOpen-question。言語のみの場合かなり進歩してきたが。CLEVRデータセットの例96Michigan: Justin Johnson
97.
Title: Inferring andExecuting Programs for Visual Reasoning (ICCV, 2017)Research Team / Researcher: Michigan_JustinJohnson概要:● 人間のように、Step-by-stepで推理を行うプロセスを持ったVQAの手法を提案。● 質問と画像両方のDisentangledな表現、推理プロセスのモジュール化などにより、Step-by-step的なVisual Reasoningを行っている。感想:● 実環境に対応できるモデルにはまだまだ遠いが、Neural Module NetworksのCompositional Reasoning能力を示せた。● Neural Module NetworksがWeakSupervisedもしくはSelf Supervisedで構築できるかが興味深くて、いまだにOpen-questionになっている。提案のIEPモデルの構造:Program Generator(質問から推理プロセスを推定)+Execution Engineから構成される(推理プロセスに対応した画像処理モジュールを組み合わせる)97Michigan: Justin Johnson
98.
Title: Image Generationfrom Scene Graphs (CVPR, 2018)Research Team / Researcher: Michigan_JustinJohnson概要:Text-to-Imageの代わりに、Scene Graph-to-Imageを提案(上図)。感想:● テキストから直接画像生成と比べ、Scene Graphを経由した方が合理的で、解釈性が高く感じる。● JohnsonがScene Graphの提案から、画像の意味情報の理解をすこしずつ向上させている感じがある。また、Black boxよりは、解釈性を重視する傾向にある。提案手法(右図):● Scene Layoutを中間表現として、Scene Graphから画像生成を行う.● Scene Graph⇒Layout: Graph NN● Layout-> Image: Cascaded RN98Michigan: Justin Johnson
99.
Title: VirTex: LearningVisual Representations from Textual Annotations (CVPR, 2021)Research Team / Researcher: Michigan_JustinJohnson概要:Semantic Denseなタスク(例:上図の右側のImage Captioning)での事前学習で高精度かつ高データサイズの効率性が得られることを検討。感想:Semantic Dense/Sparseなデータで事前学習でそれぞれProsとConsがある。ここでDenseの方だとデータの効率が高いことを示せた。両方を結合した方が良いかもしれません。様々なCVタスクのSemantic Densityの順番:(右)提案のVirTex(下):SemanticDenseなImage Captioningタスクで事前学習し、ObjectDetectionタスクへ遷移学習99Michigan: Justin Johnson
Title: Convolutional deepbelief networks for scalable unsupervised learning of hierarchicalrepresentations (ICML 2009, Best Paper Award: Best Application Paper)Research Team / Researcher: Michigan_Honglak_LeeDeep Learning初期に主流だったDeepBelief Networkに畳み込み構造を追加したConvolutional Deep Belief Networkを提案した論文。左図は2層目(上図)と3層目(下図)が反応する視覚的特徴を示している。階層性が複雑な特徴を捉えていることを示している図としてかなり有名な図StanfordAndrew Ng110
111.
Title: Action-Conditional VideoPrediction using Deep Networks in Atari Games (NIPS 2015, oral presentation)Research Team / Researcher: Michigan_Honglak_Leeactionに条件づけられた動画予測強化学習でよく用いられるAtariのゲームの動画で実験Atariの動画は自然画像ほどではないが、数十オブジェクトやオブジェクトの増減が起こるFeed-forwardとRecurrent層を含む2種類の提案モデルが良いことを示した。DNN時代の条件付き動画生成の比較的早期の研究と思われるMichigan111
112.
Title: Deep VisualAnalogy-Making (NIPS 2015, oral presentation)Research Team / Researcher: Michigan_Honglak_Lee潜在空間上である関係にある画像同士を引き算し、その関係を適用したい画像に{足す、掛ける、ニューラルネットワークに通す}と、その関係が適用された新しい画像が生成できることを示した論文。ニューラルネットワークに通した場合(deep)が一番良い結果になった当時、DNNによる画像変換の可能性に一石を投じた論文の一つMichiganScott Reed112
113.
Title: Learning HierarchicalSemantic Image Manipulation through Structured Representations (NeuIPS2018)Research Team / Researcher: Michigan_Honglak_Lee前景と背景を考慮しながら領域マスク生成と画像生成の二段階で画像を編集する手法を提案筆頭のSeunghoon HongはCVPR2018でも似たようなことをtext-to-imageでやっている。text-to-imageの方が先なので、より対象を絞ったのだろうか?Seunghoon HongMichigan113
Title: Sentence Orderingand Coherence Modeling using Recurrent Neural Networks (AAAI 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichiganDragomir Radev与えられた文の集合から文を順番に生成するタスクを解くことで、一貫したテキストの構造をモデル化し、良い文の表現を得る方法を提案。順序判別タスク、科学論文の概要を並べるタスクで有用性を示した。文の表現としても有用。115
116.
Title: Content preservingtext generation with attribute controls (NeurIPS 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichiganGoogle BrainSamy Benjioラベルに条件付けられたテキスト生成で、再構成損失、逆翻訳損失、敵対的損失を導入116
117.
Title: An efficientframework for learning sentence representations (ICLR 2018)Research Team / Researcher: Michigan_Honglak_LeeLajanugen LogeswaranMichigan入力テキストに対応する文脈を対照学習で予測する問題を解くことで、良いテキスト表現を学習する117
118.
Title: Zero-Shot EntityLinking by Reading Entity Descriptions (ACL2019 Best paper award finalist)Research Team / Researcher: Michigan_Honglak_Leeラベルデータなしで与えられたテキスト(メンション)をエンティティに紐づけるタスクをzero-shotで行う。ラベル付けされていない大規模データに対して事前い学習させたモデルを用いて未知のエンティティに汎化できることを示した。Lajanugen LogeswaranMichiganGoogle Brain118
Title: Evaluation ofOutput Embeddings for Fine-Grained Image Classification (CVPR 2015)Research Team / Researcher: Michigan_Honglak_LeeMichiganScott ReedMax Planck画像とクラスの埋め込み(もしくはテキストの埋め込み)が一致するか否かをSVMで予測するタスクを解くことで、zero-shotの画像分類の性能を向上させたScott Reedの、後のvisualsemantic embeddingの研究につながっている模様120
121.
Title: Learning DeepRepresentations of Fine-grained Visual Descriptions (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Lee画像と言語の共有空間であるvisual semantic embeddingを学習当時主流だったTriplet lossに、クラスラベルの一致をマージンとして加えたlossを提案した。結局流行ることはなかったが、筆頭著者のScott Reedが自身のGANによるtext-to-image論文で利用しているテキストエンコーダにCNN-RNNを使っていたのも当時珍しかった印象MichiganScott Reed121
122.
Title: Generative AdversarialText to Image Synthesis (ICML2016)Research Team / Researcher: Michigan_Honglak_LeeGANをtext-to-imageに応用した最初の論文。Discriminatorで入力画像が本物か判定するだけでなく、入力条件にも沿っているかを合わせて判定するmatchingaware lossは、条件付きGANの標準的な方法の一つとして普及したといえる。MichiganScott Reed122
123.
Title: Learning Whatand Where to Draw (NIPS 2016, oral presentation)Research Team / Researcher: Michigan_Honglak_Lee概要:text-to-imageの入力に自然言語だけでなく矩形やkey-pointなど、空間的な情報を含めて生成する手法を提案した。テキスト+追加情報でtext-to-imageをすることの先駆けとなった論文Honglak Leeのラボでは、この手のネタがしばらく継承されてきているMichiganScott Reed123
124.
Title: Inferring SemanticLayout for Hierarchical Text-to-Image Synthesis (CVPR2018)Research Team / Researcher: Michigan_Honglak_Leeテキストからの画像生成にbounding boxの予測タスク、領域マスクの予測タスクを挟みこんで生成text-to-imageを段階的なタスクに分割し、End-to-endで学習。空間的なレイアウトもモデルから生成できるようにしたMichiganSeunghoon Hong124
125.
Title: Text-to-Image GenerationGrounded by Fine-Grained User Attention (WACV 2021)Research Team / Researcher: Michigan_Honglak_Lee実践的なテキストからの画像生成の方法として、ユーザが喋りながらマウスによる軌跡入力を行えるという問題設定の下で画像を生成Google Research125
126.
Title: Discriminative BimodalNetworks for Visual Localization and Detection with Natural LanguageQueries (CVPR2017 spotlight)Research Team / Researcher: Michigan_Honglak_Lee概要:テキストのクエリが示す画像中の領域を検出するタスク。従来手法がimage-captioningなどに基づくのに対し、本手法は画像とテキストのマッチングを2値分類することで効率的に負例も使うことができる。現在のV&L BERTのtext-imagematchingにも通じるアイデアだと思われるMichiganYuting Zhang126
Title: Weakly SupervisedSemantic Segmentation using Web-Crawled Videos (CVPR2017 spotlight)Research Team / Researcher: Michigan_Honglak_Lee概要: Web上の動画を領域分割できるモデルを学習する。1. 最初に既知のドメインで画像認識モデルとattention mapを学習2. Web動画を認識モデルでフィルタリング3. (既知のドメインで)attention map to segmentation maskを学習MichiganSeunghoon Hong136
137.
Title: Learning TransferrableKnowledge for Semantic Segmentation with Deep Convolutional NeuralNetwork (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Lee弱教師ありの領域分割の性能を上げる方法として、別のドメインの領域分割データセットからの転移学習を行う研究。クラスの予測と領域分割のマスクの予測を分けて予測するタスクを解くことで、転移先のデータセットに対しても領域分割を汎用的に機能させることができるMichiganSeunghoon Hong137
138.
Title: Object ContourDetection with a Fully Convolutional Encoder-Decoder Network (CVPR 2016, spotlight)Research Team / Researcher: Michigan_Honglak_Leeシンプルなネットワークで輪郭検出ができることを示したAdobeとの共同研究?MichiganJimeiYang138
139.
Title: Unsupervised Discoveryof Object Landmarks as Structural Representations (CVPR 2018 oral)Research Team / Researcher: Michigan_Honglak_Lee教師なしで画像中のランドマークを発見する手法を提案。UNetのようなEncoder-decoderモデルでチャネルごとにisotropic gaussianを仮定してランドマークを抽出し、このランドマークを基に画像の再構成を学習することで画像中のオブジェクトに対する良いランドマークを発見するMichiganYuting Zhang139
140.
Title: Similarity ofNeural Network Representations Revisited (ICML2019 + Best Research Paper Award at theICLR 2019 Workshop on Debugging Machine Learning Models)Research Team / Researcher: Michigan_Honglak_Lee概要:centered kernel alignment (CKA)に基づいたニューラルネットワークの表現(activation)の類似性の比較を提案。線形のCKAは従来の正準相関分析を固有値で重みづけした方法に相当することを示し、CKAの優位性を示した。補足:線形CKAによる手法は現在の標準的な類似度比較手法になっており、昨今のResNetとVision Transformerの比較にも利用されており、大きな影響を与えたと言えるGoogle Brain Geoffrey Hinton140
Title: Chasing Ghosts:Instruction Following as Bayesian State TrackingResearch Team / Researcher: Google_Peter-Anderson概要:● 観察とモーションモデルを基づいてVLNタスクの解決策をBayesian State Tracking問題として提案● 言語指示から観察と動作関連の単語を取り出し,semantic spatial mapを作る新規性:● VLNタスクに向けてメモリ構造を提案した144
145.
Title: Vision-and-Language Navigation:Interpreting visually-grounded navigation instructions in real environmentsResearch Team / Researcher: Google_Peter-Anderson概要:● vision langauge navigation(VLN):リアルな環境におけるエージェントは言語の指示に従って目的地に辿り着くというタスクを提案した.● ベンチマークRoom-to-Room(R2R)を構築した.新規性:● 新しくVision and Language系の研究のタスク(VLN)を提案した.このタスクは,CV,NLP,Robotics分野の結合で,非構造化かつ未知な実環境でのreasoning能力を求める.● 既存のVision and Language系の研究(VQA,visual dialog etc)より,画像と自然言語両モダリティ間の関係性をより深く理解する必要がある.感想:● 論文にはさまざまなベイスラインを提供され,Seq2seqの手法でR2Rベンチマークを試した結果,学習際に見なかったシーンに対する効果が低下であることより,VLNタスクでは汎用性のあるエージェントを学習させることが重要である.145
146.
Title: Bottom-Up andTop-Down Attention for Image Captioning and Visual Question AnsweringResearch Team / Researcher: Google_Peter-Anderson概要:● bottom-upで画像中での特徴を利用し,物体情報を認識した後に,top-downでattention構造で注意すべき領域を予測し,image captionとVQAのタスクを行う.新規性:● Faster-RCNNで物体検出することを活用し,visualとlanguageを連結したことにより,画像にのコンセプトへの理解を向上した.● 提案したbottom-upとtop-down形のattention構造はオブジェクトおよび他の顕著な画像領域のレベルでattentionを計算することができる. top-downでのVQAタスクためのモデルtop-downでのimage captionためのモデル146
147.
Title: REVERIE: RemoteEmbodied Visual Referring Expression in Real Indoor EnvironmentsResearch Team / Researcher: Google_Peter-Anderson概要:高レベルの自然言語指示で指定された遠隔のターゲット物体(開始地点では観測できない)を正しくローカライズするタスク新規性:● 3D環境でのreasoning● high levelな指示論文に提案したモデルREVERIEデータセットの一例感想:● REVERIEタスクでは人間みたいに抽象性が高い指示を理解し,未観察の環境においても,ナビとreasoningの能力を求める.● 既存なSoTA手法でREVERIEを解けてみたけど,効果がよくないにより,挑戦的なタスクけど,VLNの発展および応用に意味ある.147
148.
Title: Pathdreamer: AWorld Model for Indoor NavigationResearch Team / Researcher: Google_Peter-Anderson概要:● Pathdreamerは,屋内シーンの1つ以上のパノラマに基づいて,リアルで多様なパノラマ画像を合成することができる確率的階層的視覚世界モデルである.● PathdreamerをVLNタスクに応用する新規性:● 高解像度のaction-conditional video prediction148
149.
Title: Less isMore: Generating Grounded Navigation Instructions from LandmarksResearch Team / Researcher: Google_Peter-Anderson概要:2-stageのモデルを提案,視覚上に関連性あるのvisual inputのみを選んで,ナビの指示を生成する.● 1st-stage (landmark detector):パスで結ばれたpanoramicのシーケンスから,人がこのパスを説明するために選択する可能性のあるランドマークのシーケンスを推論する.● 2nd-stage (instruction generator):第1ステージに選んだランドマークとナビゲーションためのアクションを使って,ナビの指示生成を行う.感想:● image-text pairに似たような手法でパノラムから既存指示に出た名詞を抽出し,視覚とテキスト間の対応関係をうまく取ってきた.おかげで,モデルが生成した指示と人間が書いた指示の差をほとんどなくすことができる.149