Movatterモバイル変換


[0]ホーム

URL:


$30 off During Our Annual Pro Sale. View Details »
Speaker DeckSpeaker Deck
Speaker Deck

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-an...

Avatar for Kyosuke Nishida Kyosuke Nishida
March 19, 2021

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語処理学会第27回年次大会(NLP2021)ワークショップ:AI王 〜クイズAI日本一決定戦〜 招待講演資料

Avatar for Kyosuke Nishida

Kyosuke Nishida

March 19, 2021
Tweet

More Decks by Kyosuke Nishida

See All by Kyosuke Nishida

Other Decks in Research

See All in Research

Featured

See All Featured

Transcript

  1. ⾔語と視覚に基づく 質問応答の最新動向 NTTメディアインテリジェンス研究所 ⻄⽥京介 2021年3⽉19⽇ @⾔語処理学会第27回年次⼤会(NLP2021)ワークショップ2 AI王 〜クイズAI⽇本⼀決定戦〜

  2. • 2008年 博⼠(情報科学),北海道⼤学 • 2009年 NTT⼊社 – 2009〜2015︓SNS・位置情報マイニング – 2016〜︓⾃然⾔語処理,特に機械読解(QA)

    – 2020〜︓Vision & Language の研究開発を開始 • 現在,NTT MD研 特別研究員 ⾃⼰紹介︓⻄⽥京介 GPSデータからの 滞在POI推定 [⻄⽥+, UbiComp14] 読解&検索 [⻄⽥+, CIKM18,ACL19] NLP18最優秀,NLP19優秀 MS MARCO QA/NLG Vision-and-language 機械読解 [Galvan(東北⼤), ⻄⽥+, LANTERN20] [⽥中, ⻄⽥+, AAAI21] NLP20優秀,NLP21最優秀 2
  3. • あらゆる環境でAIが⼈と共⽣するためには, ⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある 3 視覚情報に含まれる⾔語情報

  4. 検索 FAQ集 4 ビジネスシーンの例︓コンタクトセンタAI お客様 電話 チャット コンタクトセンタ 質問 契約書・マニュアルなど

    検索+読解 オペレータ 応答 質問 ⽀援 AI • QAの知識源として使いたい⽂書データは,殆どがプレーンテキ ストではなく,PDF⽂書やスライド形式になっている • より正確な理解のためには,表や図,イラストなど視覚情報を ⾔語と結びつけて理解しなければならない
  5. • 今のクイズゲームやクイズ番組はビジュアル要素が強い • テキストベースのQAでは太⼑打ちできない 5 クイズAIもVision-and-Languageへ︖ クイズマジックアカデミー 軌跡の交叉 -Xross Voyage-

    画像の4択 回転する⽂字を認識 画像中の位置を選択
  6. • 私のモチベーション︓検索も含めたオープンドメインQAを Vision-and-Languageへ発展させていきたい • 本⽇の講演︓Vision-and-Languageの検索と読解のそれぞれ について,どのような取り組みがあるかを紹介します 6 QAのVision-and-Languageへの発展 知識源 質問(テキスト)

    回答(テキスト) +エビデンス 検索 読解 Top-K (テキスト&⽂書画像集合)
  7. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 7 ⽬次
  8. Vision-and-Language 事前学習の概要

  9. 1. Webから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて,テキストの単語系列と併 せてTransformerエンコーダに⼊⼒ 3. 事前学習タスクはMasked LMとImage-Text Matchingが中⼼ 9

    V&L事前学習の概要 Web 店内でオレンジ ジュースをカップ に注いでいる⼥性 ⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内 で オレンジ … ⼥性 [CLS] … 系列化 ⼥性? [MASK] 各トークンの ⽳埋め問題 本当に存在する 画像とキャプションのペアか︖ True?
  10. • 画像とキャプションのペアのコーパスが最近⽴て続けに構 築・利⽤されている • Conceptual CaptionsベースでWebから⼤量に収集する⽅式が 主流.OpenAIは2.5億個のペアを収集. 10 1) 画像・テキストペアの⼤規模コーパス

    CC ベース 公開 画像数 テキ スト数 SBU Captions [Ordonez +,NIPS11] ◦ 1M 1M COCO Captions [Lin+, ECCV14] ◦ 106K 533K Visual Genome Dense Caption [Krishna+,IJCV17] ◦ 108K 5.4M Conceptual Captions [Sharma+, ACL18] ✔ ◦ 3.3M 3.3M OCR-CC [Yang+, arXiv’20/12] ✔ ×? 1.4M 1.4M Conceptual Captions 12M [Changpinyo+,arXiv’21/02] ✔ ◦ 12.4M 12.4M OpenAI’s internal dataset [Ramesh+, arXiv’21/02] ✔ × 250M 250M WIT [Srinivasan+,arXiv’21/03] ◦ 11.5M 37.6M
  11. • 300万件の(画像,キャプション)の組 • WebからAlt-textと画像のペアをクロール.Alt-textの固有名 詞について上位語に変換しConceptual Captionsを⾃動⽣成 Conceptual Captions [Sharma(Google)+, ACL18]

    https://www.aclweb.org/anthology/P18-1238/ 11
  12. Conceptual Captions [Sharma(Google)+, ACL18] https://www.aclweb.org/anthology/P18-1238/ 12 ⽐率が極端な 物は✗ 前置詞・名詞・ 冠詞が無い物

    は✗ Google APIで 付与した物体 ラベルとマッ チしない物は✗ 上位語に変換 して⼀般的な キャプションへ
  13. 13 CC12M [Changpinyo(Google)+,arXiv’21] • 事前学習⽤に量を優先し,フィルタリング条件を緩和して 1200万件の(画像,キャプション)の組を獲得 https://arxiv.org/abs/2102.08981 • ⼈名を除き,上位語 への変換を廃⽌

    • 画像の⽐率は2.5まで 緩和(短い⽅が400ピ クセル以上) • 前置詞のフィルタは 廃⽌ • その他,テキストの フィルタを幾つか廃 ⽌
  14. • 画像からFaster R-CNNなどによりオブジェクトを検出し,1 つの系列に並べる • VQAではオブジェクトの種類や個数が問われる事が多いため, このアプローチが⼀般的 14 2) 画像を系列データとして扱う

    画像 N個のオブジェクトの特徴ベクトル系列 … https://arxiv.org/abs/1908.03557 ℝ!×#
  15. • BERTと同様に単語をマスクして⽳埋め問題を解く • 画像側のトークンをマスクした⽳埋め問題(特徴量の再現や オブジェクトのクラス分類)を解く場合もあり 15 3) 事前学習タスク: Masked Language/Region

    Modeling Transformerエンコーダ ⼥性 [SEP] 店内 で オレンジ … ⼥性 [CLS] … [MASK] [MASK]
  16. • データセットの中にあるペア(正例)とランダムサンプリン グで作った負例のペアを⾒分けるタスク • このタスクも⼤量にデータを⽤意できる 16 3) 事前学習タスク: Image-Text Matching

    Transformerエンコーダ Matching / Not-matching ランダムに⼊れ替え [SEP] ⾺ に 跨って …… いる 少年 [CLS] …
  17. VQA / 画像検索への適⽤ 17

  18. • 画像に対する質問応答.頻出回答3129種を候補として分類 問題として扱われる場合が多い. 18 VQA(Visual Question Answering) VQA 2.0 [Goyal(Virginia

    Tech)+, CVPR17] に含まれるサンプル https://ieeexplore.ieee.org/document/8100153
  19. 19 ファインチューニング Transformerエンコーダ [SEP] How many children are in the

    bed ? 2 • 画像キャプションで事前学習したモデルを基に, QAデータを使って画像と質問⽂から回答を分類するタスク としてファインチューニング 質問⽂ 回答(クロスエント ロピー損失で学習) 画像(オブジェクト系列)
  20. • 2019/08頃からTransformerのV&L事前学習の応⽤が進む • RNN/CNNベース+V&L事前学習を使わないモデルも強い 20 VQA 2.0における性能の発展 Pythia V0.1 (30

    ensemble) 2018 Up-down model (30 ensemble) 2017 72.18 70.34 UNITER MCAN test-stdの精度 VinVL Oscar VilBERT LXMERT VILLA ERNIE-vil Pixel-BERT MCAN+MoVie
  21. 21 Image Retrieval • クエリをテキストとした画像検索(マッチング)タスク • MS-COCOやFlickr30k が評価に使われる モデル出⼒例 (緑が正解)

    Flickr30k [Young+, TACL14] に対する結果の例 https://openaccess.thecvf.com/content_ECCV_2018/html/ Kuang-Huei_Lee_Stacked_Cross_Attention_ECCV_2018_paper.html
  22. 22 ファインチューニング Transformerエンコーダ [SEP] A man riding a motorcycle is

    performing … 0.05 • VQAと同様に画像とクエリを1系列で⼊⼒ • 損失にはranking / binary classification lossが使われる クエリ 関連度 画像(オブジェクト系列)
  23. • ⼤規模な検索の場合,全データに対してクエリとの関連度を 計算する必要があるモデルは速度⾯で苦しい • そこで,クエリと⽂書を独⽴にベクトル化するデュアルエン コーダ形式の事前学習モデルが検討され始めた(テキスト検 索のDPR [Karpukhin+, EMNLP20]と同じ形式) 23

    デュアルエンコーダへの発展 Cross-encoder 質問⽂ 画像 スコア 質問⽂ 画像 スコア Image encoder Text encoder クロスエンコーダ デュアルエンコーダ ベクトル ベクトル
  24. 24 LightningDOT [Sun+ (Microsoft), NAACL’21] • デュアルエンコーダタイプの事前学習モデル • 内積のobjective(CMR)に加えて,クロスモーダル化した Masked

    Language/Region Modelingを実施 • 密ベクトル検索にはFAISS [Johnson+, 2017] を利⽤.画像約 12万枚からの検索時,クロスエンコーダタイプより23869倍 ⾼速に検索 https://arxiv.org/abs/2103.08784
  25. • 2019/08頃からクロスエンコーダタイプのV&L事前学習で ファインチューニング無しに⾼い性能を実現 • デュアルエンコーダタイプのCLIPがSOTAを達成 25 Flickr30k(zero-shot)における性能の発展 Visual N-grams [Li+,

    ICCV 2017] 29.9 UNITER Flickr30k R@10 (Zero-shot) VilBERT Unicoder-VL CLIP
  26. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 26 ⽬次
  27. • あらゆる環境でAIが⼈と共⽣するためには, ⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある 27 視覚情報に含まれる⾔語情報

  28. 28 現在の動向(タスク・データ) これまでのVQAや画像検索 ・キャプショニング 画像中のテキストを 考慮したタスクへ 単語レベルから⽂・⽂書へ グラフや表なども併せた 理解まで広がる •

    VQAやキャプショニングを発展させ,視覚情報に含まれる⾔ 語情報に着⽬したタスクやデータセットの整備が2019年頃か ら急速に進み始めた
  29. • ⽬の⾒えない⽅の撮影した写真および話し⾔葉によるVQA • 全体の20%程度にテキストが含まれている 29 VizWiz [Bigham+, UIST’10][Gurari+, CVPR’18] https://openaccess.thecvf.com/content_cvpr_2018/html/

    Gurari_VizWiz_Grand_Challenge_CVPR_2018_paper.html
  30. • 画像中のテキスト認識が必要なデータセット • 画像は⽇常光景,含まれる単語は少なめ(10単語程度) 30 TextVQA [Singh+(Facebook), CVPR’19] https://openaccess.thecvf.com/content_CVPR_2019/html/ Singh_Towards_VQA_Models_That_Can_Read_CVPR_2019_paper.html

  31. • ⽂書画像に対するVQAデータセット • 含まれる単語数は多い(平均150単語程度),⽂書は古い 31 DocVQA [Mathew+ (IIIT Hyderabad), WACV’21]

    https://arxiv.org/abs/2007.00398
  32. • Key-value, ⽐較, 表の3種類のデータに対する視覚的な読解. • 画像と元になったHTMLソースを両⽅提供している. 32 WebSRC [Chen(Shanghai Jiao

    Tong U)+, arXiv’21/01] https://arxiv.org/abs/2101.09465
  33. • インフォグラフィックに対するVQA • これまでの物に⽐べてグラフやアイコンに対する理解が重要 となる 33 Infographics VQA [Robust Reading

    Challenge, 2021] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can be prevented A. 60% Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17
  34. • Webページのスクリーンショットに基づく視覚的読解. • ⽂書レイアウト理解と⽣成型機械読解を統合した問題設定 34 VisualMRC [Tanaka & Nishida+ (NTT),

    AAAI’21, NLP’21] 全ての領域をアノテーション︓ 9つの意味クラスに分類 約30,000件のQAを作成 回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC
  35. 35 VisualMRCの構築フロー ドメイン選定 スクリーンショット 画像切り出し ROIアノテーション 要約型のQA作成/ 回答根拠ROI選択 94 workers

    45 workers 495 workers 10,197 画像,30,562QA クラウドワーカ作業 • 35のドメインからWebページのスクリーンショットを取得し, クラウドソーシング(北⽶英語のネイティブスピーカー)により 約10,000枚の画像と30,000件の質問応答データセットを作成
  36. 36 Region-of-Interestのアノテーション • ⽂書中のROIを以下の9クラスに分類してアノテーション • ⽂書レイアウト理解と機械読解を統合したデータは VisualMRCのみ クラス 説明 段落

    本⽂となるテキスト タイトル サブタイトル 著者名も含む 画像 写真やイラスト データ グラフやテーブル サブデータ データ内のテキスト キャプション データの説明⽂ リスト 箇条書き その他 ROIアノテーションツール
  37. • 画像中のテキストも含めたキャプショニングタスク • 既存のモデルは画像中のテキストを読めない 37 関連︓TextCaps [Sidorov+ (Facebook), ECCV’20] https://arxiv.org/abs/2003.12462

  38. • Android UIの要素に対するキャプション⽣成 38 関連︓Widget captioning [Li+, EMNLP’20] https://www.aclweb.org/anthology/2020.emnlp-main.443/

  39. • 論⽂PDFからスライドを⽣成(マルチモーダル要約) 39 関連︓DOC2PPT [Fu+ (UCSB, Microsoft), arXiv’21] https://arxiv.org/abs/2101.11796 https://doc2ppt.github.io/

  40. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCR結果の組み込みに関して – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 40 ⽬次
  41. 画像を系列としてどう扱うか 41

  42. • 現在はオブジェクトの系列とするのが主流 • すべての下流タスク・画像ドメインに対して効果的な⽅法は あるか︖ 42 画像をどう扱うか グリッドベース 分類など全体を理解する タスクではこちらが有効︖

    オブジェクトベース VQAなど,被写体の種類や 個数が重要な場合に有効︖ http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.htm
  43. • 画像パッチを単語とみなす632MのTransformerエンコーダ • 画像は最初にパッチに分割した後,線形変換で埋め込み • 3億枚以上の画像分類で事前学習し,ImageNet等でSOTA 43 Vision Transformer (ViT)

    [Dosovitskiy + (Google), ICLR’21] https://arxiv.org/abs/2010.11929 位置は1D 線形変換 ℝ("!#$)×' パッチ ℝ"!#$ 14x14あるいは16x16 分割
  44. • ViTの画像系列表現は単純なパッチ系列(hard split)ベース のため,CNNで捉えられていたようなエッジや線,テクス チャは⼗分に捉えられていない 44 単純なパッチ分割で良いのか︖ [Yuan+ (NU Singapore)+,

    arXiv’21] https://arxiv.org/abs/2101.11986 緑の特徴量はエッジ などの局所表現 ゼロや⼤きな値などが特 徴表現に⼊ってくる
  45. • 巨⼤な Transformerデコーダ によるText-to-imageモデル – パラメータ数は最⼤12B(ViTの約20倍) • ⼤量の画像・説明⽂ペアから学習,⽣成画像のレベルが⾼い • 画像は1024(32x32)のコード系列(8192種)として扱う

    45 DALL·E [Radford+ (OpenAI), blog 2021/01] https://openai.com/blog/dall-e/
  46. • 画像は1024(32x32)のコード系列(8192種)として扱う • 画像óコード系列の変換器(discrete VAE)を別途⽤意 – ⼊⼒画像は256x256,ダウンサンプリングを3回して32x32へ 46 DALL·E [Radford+

    (OpenAI), blog 2021/01] an armchair … an avocado … … armchair … an avocado </s> </s> テキストに続けて32x32のコード系列を⽣成 デコード </s> 画像説明⽂
  47. ⽅式 処理 (出⼒ベクトル) 私⾒ region Faster R-CNN等で𝑁個の物体検出 J VQA系で強い L

    物体検出器が必要 L 画像全体を捕えるの は弱い︖ ℝ(×) grid ResNet等で𝐻×𝑊個の特徴ベクトルに変換 J ⾼速に動作 J 物体検出器が不要 L VQA系でやや弱い︖ ℝ(*×+)×) patch 1) 𝐻×𝑊個のパッチに分割 2) それぞれ 線形変換 J 最もシンプル(線形 変換のみ) J 画像分類に強い L VQA系で弱い︖ ℝ(*×+)×("×"×$) ℝ(*×+)×) code 1) Discrete VAE等で 𝐻×𝑊個の離散値に変換 2) それぞれ 線形変換 J 物体検出器が不要 J Transformerで⾔語と ⼀緒に扱いやすい︖ L コード変換器が必要 𝑉*×+ ℝ(*×+)×) 47 画像の系列化のまとめ
  48. OCR結果の組み込みに関して 48

  49. • OCR(Scene Text Recognition)⾃体の研究も⾼度化が進んで おり,OCR結果をV&Lモデルに組み込む取り組みが進む 49 ⽂字認識(OCR/STR)の組み込み https://arxiv.org/abs/2005.03492

  50. • TextVQA⽤のベースラインモデル • 画像からOCR+物体検出して,マルチモーダルTransformer でエンコーディングし,Pointer-Generatorで説明⽂を⽣成 • OCRトークンは座標情報および画像表現も考慮 • 事前学習モデルは使っていない 50

    M4C [Hu+ (Facebook), CVPR’20] https://openaccess.thecvf.com/content_CVPR_2020/papers/Hu_Iterative_Answer_Prediction_With_Pointer- Augmented_Multimodal_Transformers_for_TextVQA_CVPR_2020_paper.pdf
  51. • TextVQA, TextCaps⽤の事前学習モデル • OCRトークンでテキストを拡張しつつ,オブジェクトとOCR トークンの相対位置についても学習 51 TAP [Yang+ (Microsoft),

    CVPR21]
  52. • ⼤量の⽂書画像を基に,OCRトークン+座標情報の系列で事 前学習(重みの初期値はBERTを利⽤) • ダウンストリームタスクではOCRトークンの画像表現も利⽤ 52 LayoutLM [Xu+ (MSRA), KDD’20]

    https://dl.acm.org/doi/10.1145/3394486.3403172
  53. • ⼤量の⽂書画像を⽤いて事前学習,DocVQA等でSOTA • 各OCR単語の2次元の位置と,⽂書画像表現(7x7)を考慮 53 LayoutLMv2 [Xu+ (MSRA), arXiv’20] https://arxiv.org/abs/2012.14740

    7x7のグリッドベース画像表現
  54. • 事前学習済T5モデルを⽂書レイアウト解析とOCR結果で拡張 • 領域の意味クラス,位置情報,画像情報を埋め込みに追加 54 LayoutT5 [Tanaka & Nishida+ (NTT),

    AAAI’21] https://arxiv.org/abs/2101.11272 デコーダ エンコーダ OCR 領域検出 質問⽂ 質問⽂ +⽂書画像 +領域トークン +OCRトークン 出⼒︓回答⽂ 領域クラス,領域座標,画像表現 領域クラス,領域座標,画像表現 1系列に 連結 ⼊⼒︓ T5(事前学習済)
  55. 55 LayoutT5 [Tanaka & Nishida+ (NTT), AAAI’21] https://arxiv.org/abs/2101.11272 提案モデル: 77.3%.

    従来モデル: less than 1 percent.
  56. DALL·EやCLIPに学ぶ 今後の⽅向性 56

  57. • OCRを使っていないにも関わらず,ある程度⽂字を含む画像 を⽣成できている • 8192種の「コード」の中で⽂字の表現を獲得できている︖ 57 DALL·Eの⽣成 https://openai.com/blog/dall-e/

  58. • 画像とテキストのマッチングを4億ペアから事前学習 – DALL·Eの⽣成画像のリランキングにも使われている • 正しい画像・テキストペアを分類できるようにContrastive pre-trainingを⾏う(Masked LMは学習しない) 58 CLIP

    [OpenAI, tech. report 2021/01] 画像とテキストをそ れぞれエンコーディ ングして内積を取る Vision Transformer やResNet (scratchから学習) Transformer(scratchから学習) https://cdn.openai.com/papers/Learning_Transferable_Visu al_Models_From_Natural_Language_Supervision.pdf
  59. • CLIPのvisual encoderとして使われたResNet50x4の最終層の 畳み込み層のニューロンを調査 • 各ニューロンが最も発⽕するような画像を最適化して獲得 59 CLIPのVisual neuronsの調査 https://openai.com/blog/multimodal-neurons/

    https://microscope.openai.com/models/contrastive_4x/image_block_4_5_Add_6_0/865
  60. 60 CLIPのVisual neuronsの調査 https://distill.pub/2021/multimodal-neurons/ • 画像中の⽂字を読みつつ,関連する特徴と結びつけてコー ディングされている

  61. 61 Typographic Attacks https://distill.pub/2021/multimodal-neurons/ • 画像中のテキストによって発⽕されるニューロンが制御でき る è 新しいAIへの攻撃に繋がる危険性がある •

    画像分類の結果が⽂字の挿⼊により変わってしまった
  62. CLIPで商品ページ検索を試してみた Lenobo Chromebook MacBook Air M1 USB-C Adapter for MacBook

    Air M1 What is the screen size of chromebook? What is the CPU chip of the latest macbook 13-inch? Is there a usb adapter that will work with MacBook Air M1? 0.32 0.29 0.27 0.26 0.31 0.28 0.25 0.32 0.32 モデルはCLIP ViT-B/32 を利⽤ https://github.com/o penai/CLIP 63
  63. おわりに 64

  64. • 我々は様々な視覚情報と結びつけて⾔語を理解している – 今後,視覚+⾔語のマルチモーダル事前学習モデルはますます重要視 されていくであろう – NLPタスクにおいても,⾔語のみで事前学習したモデルを,⾔語+視 覚で事前学習したモデルが超えていくかもしれない︖ • 課題として,視覚情報の中の⾔語をどう理解するかが重要

    – オープンドメインQA関連はもちろん,⼈間・AI/ロボットの実世界で の共⽣,⾃動運転,などたくさんの重要分野に関わる – すべてをend-to-endにできるか︖サブタスクのモジュール化や,ナ レッジベースの利⽤とどう向き合っていくか︖ – グラフや表の理解では数値演算も必要になるだろう • クイズAI王を作るために︓知識⼒の向上は今のV&L事前学習 の⽅向性で良いのかもしれない.パズルやひらめき問題は解 けるようになるか︖ 今後の展望 65
  65. 参考⽂献 66

  66. • Vicente Ordonez, Girish Kulkarni, Tamara L. Berg: Im2Text: Describing

    Images Using 1 Million Captioned Photographs. NIPS 2011: 1143-1151 • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) • Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li Fei-Fei: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. Int. J. Comput. Vis. 123(1): 32-73 (2017) • Piyush Sharma, Nan Ding, Sebastian Goodman, Radu Soricut: • Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning. ACL (1) 2018: 2556-2565 • Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei A. F. Florêncio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo: TAP: Text-Aware Pre-training for Text-VQA and Text- Caption. CoRR abs/2012.04638 (2020) • Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut: Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts. CoRR abs/2102.08981 (2021) • Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork: WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning. CoRR abs/2103.01913 (2021) ⼤規模画像キャプションデータ 67
  67. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi

    Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR 2017: 6325-6334 • Yash Goyal, Tejas Khot, Aishwarya Agrawal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. Int. J. Comput. Vis. 127(4): 398-414 (2019) • Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier: From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Trans. Assoc. Comput. Linguistics 2: 67-78 (2014) • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) 68 参考⽂献︓VQA, IR
  68. • Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee: ViLBERT:

    Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. NeurIPS 2019: 13-23 • Hao Tan, Mohit Bansal: LXMERT: Learning Cross-Modality Encoder Representations from Transformers. EMNLP/IJCNLP (1) 2019: 5099-5110 • Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu: UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) 2020: 104- 120 • Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao: Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. ECCV (30) 2020: 121-137 • Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, Jianlong Fu: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers. CoRR abs/2004.00849 (2020) • Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu: Large-Scale Adversarial Training for Vision-and-Language Representation Learning. NeurIPS 2020 • Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang: ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph. CoRR abs/2006.16934 (2020) • Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao: VinVL: Making Visual Representations Matter in Vision-Language Models. CoRR abs/2101.00529 (2021) 69 参考⽂献︓V&L Transformers
  69. • Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H.

    Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 • Jeff Johnson, Matthijs Douze, Hervé Jégou: Billion-scale similarity search with GPUs. CoRR abs/1702.08734 (2017) 70 参考⽂献: DPR & FAISS
  70. • Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark

    Johnson, Stephen Gould, Lei Zhang: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. CVPR 2018: 6077-6086 • Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh: Pythia v0.1: the Winning Entry to the VQA Challenge 2018. CoRR abs/1807.09956 (2018) • Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen: MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond. ILCR 2021 • Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten: Learning Visual N-Grams from Web Data. ICCV 2017: 4193-4202 71 参考⽂献︓⾮事前学習のVQA/IRモデル
  71. • Jeffrey P. Bigham, Chandrika Jayant, Hanjie Ji, Greg Little,

    Andrew Miller, Robert C. Miller, Robin Miller, Aubrey Tatarowicz, Brandyn White, Samuel White, Tom Yeh: VizWiz: nearly real-time answers to visual questions. UIST 2010: 333-342 • Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, Jeffrey P. Bigham: VizWiz Grand Challenge: Answering Visual Questions From Blind People. CVPR 2018: 3608-3617 • Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach: Towards VQA Models That Can Read. CVPR 2019: 8317-8326 • Minesh Mathew, Dimosthenis Karatzas, R. Manmatha, C. V. Jawahar: DocVQA: A Dataset for VQA on Document Images. WACV 2021 • Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, Kai Yu: WebSRC: A Dataset for Web-Based Structural Reading Comprehension. CoRR abs/2101.09465 (2021) • Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021 • Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh: TextCaps: A Dataset for Image Captioning with Reading Comprehension. ECCV (2) 2020: 742-758 • Tsu-Jui Fu, William Yang Wang, Daniel J. McDuff, Yale Song: DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents. CoRR abs/2101.11796 (2021) • Yang Li, Gang Li, Luheng He, Jingjie Zheng, Hong Li, Zhiwei Guan: Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements. EMNLP (1) 2020: 5495-5510 72 参考⽂献︓視覚情報に含まれる⾔語情報 (データセット)
  72. • Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, Tianwei

    Wang: Text Recognition in the Wild: A Survey. CoRR abs/2005.03492 (2020) • Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach: Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA. CVPR 2020: 9989-9999 • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou: LayoutLM: Pre- training of Text and Layout for Document Image Understanding. KDD 2020: 1192-1200 • Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei A. F. Florêncio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. CoRR abs/2012.14740 (2020) 73 参考⽂献︓視覚情報に含まれる⾔語情報 (OCR組込モデル)
  73. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua

    Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. • Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis E. H. Tay, Jiashi Feng, Shuicheng Yan: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. CoRR abs/2101.11986 (2021) • OpenAI Blog, DALL·E: Creating Images from Text. January 2021. https://openai.com/blog/dall-e/ • Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. CoRR abs/2102.12092 (2021) • OpenAI Blog, CLIP: Connecting Text and Images. January 2021. https://openai.com/blog/clip/ • Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever: Learning Transferable Visual Models From Natural Language Supervision. CoRR abs/2103.00020 (2021) • OpenAI Blog, Multimodal Neurons in Artificial Neural Networks. March 2021. https://openai.com/blog/multimodal-neurons/ https://distill.pub/2021/multimodal-neurons/ 74 参考⽂献︓ ViT / DALL·E / CLIP

[8]ページ先頭

©2009-2025 Movatter.jp