Movatterモバイル変換


[0]ホーム

URL:


PPTX, PDF48,609 views

MS COCO Dataset Introduction

Introduction of Microsoft COCO Dataset for image captioning

Embed presentation

Downloaded 80 times
MS COCO datasetsの紹介(主にCaptionについて)Presenter: Seitaro ShinagawaAugmented Human Communication-labGraduate School of Information ScienceNara Institute of Science and Technology
What is MS COCO dataset ?画像とキャプションのデータセット1画像あたり5以下のキャプション(6以上のもある)http://arxiv.org/abs/1405.0312
How to Usehttp://mscoco.orgより色々ダウンロード便利なAPIがGithubで提供されているhttps://github.com/pdollar/coco : セグメンテーションなど用https://github.com/tylin/coco-caption : キャプション用(※サイトより引用)
MS COCO APIフィルター条件を満たすアノテーションIDをゲットフィルター条件を満たすカテゴリIDをゲットフィルター条件を満たす画像IDをゲット[ID]のアノテーションをロード[ID]のカテゴリをロード[ID]の画像をロードアルゴリズムの結果をロードし、アクセスするAPIをつくるアノテーションを表示ポリゴンセグメンテーションをバイナリマスクにコンバートrun-length encoding (RLE)エンコード済みバイナリマスクMをデコードRLEによってバイナリマスクMをエンコード
Annotation formatStored with JSON format 2つのアノテーションタイプ“instance” と “caption”
Instance Annotationsobjectがひとつか(0)複数か(1)ひとつobjectはポリゴンのarrayとして格納複数objectはRun LengthEncoding (RLE)のバイナリマスクとして格納
Caption Annotationsキャプションは画像あたり基本的に5つ以下(いくつかは6つ以上あるので注意)
Results Format Requirements基本ダウンロードしたデータと合わせる(評価用API、サーバを使う場合必須)最終的に全ての結果は一つのJSONファイルに格納される(Matlabならgason, Pythonならjson.dumpを通して格納)Object detection(boundary box) Object detection(segmentation)Caption generation
Dataset Details学習時、キャプションはPTBTorknizer in Stanford CoreNLP によって前処理推奨(評価用サーバ、API(coco-caption)が評価時にそうしているため)Collected captions using Amazon Mechanical Turk訓練データ82,783画像413,915キャプションバリデーションデータ40,504画像202,520キャプションテストデータ(評価サーバ)40,775画像379,249キャプション(c5: 179,189キャプション)(c40:200,060キャプション)参考:https://github.com/tylin/coco-caption/blob/master/pycocoevalcap/tokenizer/ptbtokenizer.py
More Detail 記号の削除PTBTorknizer in Stanford CoreNLPの役割について(前ページ参考コードより)-LRB-, -RRB- == ( , )-LCB-, -RCB- == { , }-LSB-, -RSB- == [ , ]は最初からないっぽい?PUNCTUATIONS = ["''", "'", "``", "`", "-LRB-", "-RRB-", "-LCB-", "-RCB-",".", "?", "!", ",", ":", "-", "--", "...", ";"] 小文字への統一-lowerCase lineの削除の例外処理(cutting-edgeなどの横棒は例外的に削除しない)-preserveLinescmd = ['java', '-cp', STANFORD_CORENLP_3_4_1_JAR,'edu.stanford.nlp.process.PTBTokenizer','-preserveLines', '-lowerCase']
However…実際に使ってみると色々落ち度がある・・・??COCO_train2014_000000167126.jpgホットドック・・・らしい例外処理をしておかないと普通に死ぬ1. PILで読み込めない画像がある大部分の原因は読み込む環境依存かもしれないがたまにこんな画像が紛れている例外処理をしておかないと普通に学習が死ぬCOCO_val2014_000000200365.jpg2. 面積ほぼゼロのセグメントアノテーションがある
キャプションの実例(validationから)最初が大文字、ピリオド A woman standing in a kitchen preparing tea.全部小文字(理想的) a woman wearing a hat holding onto an umbrella全部大文字 A MAN OPENING A DOOR TO AN OVEN IN ARESTAURANT KITCHEN最初にスペース A man riding his bike with his dog in the side kick seatどうしようもないケース a corner of a bathroom shows part of a vanity and thecommode sits of the other side of the wa]]キャプションを前処理なく使うのは自殺行為最初が大文字、小文字、ピリオドがあるない、全て大文字、など表記ゆれが結構ひどい最後のは wall がwa]] となっていて笑う悪いことは言わない、前処理にcoco-caption API のPTBTorknizer in Stanford CoreNLPを使おうHowever…
Another Method自前でやると100枚以上の画像がだめになるので、CNN部分の再学習が必要なければ先人のおこぼれを頂戴するのがよいhttps://github.com/ryankiros/visual-semantic-embeddinghttp://cs.stanford.edu/people/karpathy/deepimagesent/などからcoco.zipというファイルをダウンロードできる→VGGによるvisual feature(4096次元)とキャプション(tokenize済み)が手に入るどーやって画像読み込んだかわからんけど使えるものは使わせてもらおう
Caption Evaluationcoco-caption APIにはBLEU, METEOR, ROUGE-L, CIDErによる自動評価尺度が用意されている必要なもの・・・生成したキャプションと対応する画像idの組(データセット内の任意の数)をdumpしたjsonファイル[{“image_id”: 404464, “caption”: “blackand white photo of a man standing infront of a building”}, {“image_id”:380932, “caption”: “group of people areon the side of a snowy field”},{“image_id”: 565778, “caption”: “traintraveling down a train station”}, … ](coco-caption/results/captions_val2014_fakecap_results.json)http://arxiv.org/abs/1504.00325
Storing Caption EvaluationevalImgs.json : 画像ごとの評価値 eval.json : テストセット全体の評価値APIを使うことで最終的な評価をjson形式で保存できる以下、各手法の説明です
BLEU仮説(生成した文)とリファレンスのN-gramの一致率による評価尺度N-gram : 局所的な単語の塊、Nは塊あたりの単語数例: I have a pen .N N-gram 語彙数1 I have a pen . 52 I have a pen . 43 I have a pen . 34 I have a pen . 2I, have, a, pen, .の5つI have, have a, a pen, pen .の4つI have a, have a pen, a pen .の3つI have a pen, have a pen .の2つN-gramの一致率が高いほど良い仮説を生成しているだろうという仮定がある(高いほど良い)
BLEU1. 仮説𝑐𝑖のある単語𝑤 𝑘(n-gramの語彙)に注目する。その出現回数をℎ 𝑘(𝑐𝑖)とする2. 仮説𝑐𝑖に対応する全てのリファレンス𝑠𝑖1, 𝑠𝑖2, ⋯ , 𝑠𝑖𝑚それぞれについて、単語𝑤 𝑘の出現回数ℎ 𝑘 𝑠𝑖1 , ℎ 𝑘 𝑠𝑖2 , ⋯ , ℎ 𝑘 𝑠𝑖𝑚 を算出、この中で最大のものを選んでℎ 𝑘(𝑐𝑖)と比べると、小さい方の値が単語𝑤 𝑘の一致数になる3. マッチ数を仮説𝑐𝑖中の全ての語彙についてマッチ数を加算4. すべての仮説について加算し、最後に仮説全体の単語数で除算n-gramの一致率の計算方法各n-gramの一致率(𝐶𝑃𝑛)の幾何平均を計算する𝑤 𝑛 =1𝑁
BLEUbrevity penalty一致率を高めるために生成される文章は往々にして極端に短くなる傾向がある(recallが低くなりがち)⇒不自然になりやすいのでペナルティをかける未確認 普通のBLEUスコアの計算では仮説ごとに一番良いリファレンスを選ぶが、MS COCOのAPIのBLEUは数式を見る限り単語ごとに良いリファレンスを選んでいるように見える brevity penaltyも普通のBLEUでは仮説より短くかつ一番近い長さのリファレンスが選ばれるが、MS COCO APIではどう算出しているかまだ確認していない(Arxiv論文を見る限りだと仮説𝑐𝑖ごとに近い長さのリファレンスを選択している模様)
ROUGE要約の評価尺度この数式はBLEUと違って仮説𝑐𝑖ごとの算出になっているので注意仮説𝑐𝑖と対応する全てのリファレンスにおける単語の出現回数の最小の共通部分を数える。𝑅𝑂𝑈𝐺𝐸 𝑁が高いほどrecallが高いといえる(亜種)𝑅𝑂𝑈𝐺𝐸𝐿 : based on the Longest Common Subsequence(LCS)𝑙 𝑐𝑖, 𝑠𝑖𝑗 :𝑐𝑖, 𝑠𝑖𝑗間で一致している部分で最長の部分の単語列の長さ𝑅𝑙, 𝑃𝑙はrecallとprecision𝑅𝑙, 𝑃𝑙の重み付きF値(調和平均)で評価デフォルトで𝛽 = 1.2N-gramを用いる方法(高いほど良い)
ROUGE(亜種)𝑅𝑂𝑈𝐺𝐸𝑠 : based on the skip bi-gramsskip bi-gram : 飛び越しありのbi-gram例: I have a pen . bi-gramI havehave aa penpen .skip bi-gramで追加される語彙I a, I pen, I .have pen, have .a .Iとの組み合わせ語彙数(文中の単語数をWとする)bi-gram : W-1skip bi-gram : 𝑊∁2あとは𝑅𝑂𝑈𝐺𝐸 𝑁と似た方法でrecallとprecisionから算出(ただし、計算量が増えるのでAPIでは飛び越しは3つまでに制限されている)
METEOR仮説(生成した文)とリファレンスの単語の一致率による評価尺度BLEUの問題点 recallが低い 文法的に問題があっても検出できない 高いnのn-gramが0だと1文全体のスコアが幾何平均で0になってしまうこれらの問題を単語レベルの一致率で解決しようという評価尺度mは単語の一致数(アラインメントの数)precision, recallを計算(高いほど良い)
METEORprecisionとrecallから求められる調和平均によって算出(論文ではF値と呼称)𝑃𝑒𝑛はペナルティ(チャンク𝑐ℎの数が多い)=(アライメントの塊がばらばら)ほど高いペナルティAPIのハイパーパラメータ𝛼, 𝛾, 𝜃の値は未確認
CIDEr𝑔 𝑘 𝑠𝑖𝑗 =ℎ 𝑘 𝑠𝑖𝑗𝑤 𝑙∈Ω ℎ𝑙(𝑠𝑖𝑗)log𝐼𝐼 𝑝∈𝐼 min(1, 𝑞 ℎ 𝑘(𝑠 𝑝𝑞))image-captioningの評価尺度として提案された。n-gram 𝑤 𝑘の出現回数ℎ 𝑘(𝑠𝑖𝑗)のTF-IDF重み付き評価尺度 ( j : リファレンス番号 i : 画像番号)Term Frequency Inverse Document FrequencyFirst Termリファレンス𝑠𝑖𝑗の中で出現回数の多いn-gramに大きい重みを付けるSecond Term全画像を通して全てのセンテンスの中で出現回数の多いn-gramに小さな重みを付ける(高いほど良い)
CIDEr𝑗仮説𝑐𝑖 と対応する全てのリファレンス𝑠1, 𝑠2, ⋯ , 𝑠 𝑚 についてコサイン類似度とり、対応する全リファレンスの平均をとるnはn-gramのnに対応している。𝑤 𝑛はuni-gramからn-gramまでを正規化する項で、APIではBLEUと同様𝑤 𝑛 = 1/𝑁を使っているNの値も、APIではBLEU同様N=4を用いている
CIDEr-DCIDErの亜種n-gramごと

Recommended

PDF
【メタサーベイ】Video Transformer
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PPTX
近年のHierarchical Vision Transformer
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PDF
[DL輪読会]ICLR2020の分布外検知速報
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PPTX
Curriculum Learning (関東CV勉強会)
PDF
敵対的生成ネットワーク(GAN)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
自己教師学習(Self-Supervised Learning)
PDF
動画認識サーベイv1(メタサーベイ )
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
PDF
全力解説!Transformer
PDF
画像生成・生成モデル メタサーベイ
PDF
Teslaにおけるコンピュータビジョン技術の調査
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
深層生成モデルと世界モデル
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Triplet Loss 徹底解説
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
PPTX
Windows+VirtualBoxで作るTensorFlow環境
PDF
第1回NIPS読み会・関西発表資料 篠崎

More Related Content

PDF
【メタサーベイ】Video Transformer
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PPTX
近年のHierarchical Vision Transformer
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PDF
[DL輪読会]ICLR2020の分布外検知速報
【メタサーベイ】Video Transformer
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Scaling Laws for Neural Language Models
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
近年のHierarchical Vision Transformer
[DL輪読会]MetaFormer is Actually What You Need for Vision
これからの Vision & Language ~ Acadexit した4つの理由
[DL輪読会]ICLR2020の分布外検知速報

What's hot

PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PPTX
Curriculum Learning (関東CV勉強会)
PDF
敵対的生成ネットワーク(GAN)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
自己教師学習(Self-Supervised Learning)
PDF
動画認識サーベイv1(メタサーベイ )
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
PDF
全力解説!Transformer
PDF
画像生成・生成モデル メタサーベイ
PDF
Teslaにおけるコンピュータビジョン技術の調査
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
深層生成モデルと世界モデル
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Triplet Loss 徹底解説
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Curriculum Learning (関東CV勉強会)
敵対的生成ネットワーク(GAN)
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Transformerを多層にする際の勾配消失問題と解決法について
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
自己教師学習(Self-Supervised Learning)
動画認識サーベイv1(メタサーベイ )
【メタサーベイ】Vision and Language のトップ研究室/研究者
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
全力解説!Transformer
画像生成・生成モデル メタサーベイ
Teslaにおけるコンピュータビジョン技術の調査
最近のDeep Learning (NLP) 界隈におけるAttention事情
深層生成モデルと世界モデル
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Triplet Loss 徹底解説
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 

Viewers also liked

PPTX
Windows+VirtualBoxで作るTensorFlow環境
PDF
第1回NIPS読み会・関西発表資料 篠崎
PDF
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
PDF
「ChainerCVとOpenCVではじめる物体検出」のための事前準備
PDF
Deflate
 
PPTX
画像キャプションの自動生成
PDF
OpenCVをAndroidで動かしてみた
KEY
OpenCVの基礎
PDF
機械学習モデルの列挙
PDF
OpenCV 3.0 on iOS
PDF
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
PDF
これから始める人の為のディープラーニング基礎講座
Windows+VirtualBoxで作るTensorFlow環境
第1回NIPS読み会・関西発表資料 篠崎
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
「ChainerCVとOpenCVではじめる物体検出」のための事前準備
Deflate
 
画像キャプションの自動生成
OpenCVをAndroidで動かしてみた
OpenCVの基礎
機械学習モデルの列挙
OpenCV 3.0 on iOS
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
これから始める人の為のディープラーニング基礎講座

Similar to MS COCO Dataset Introduction

PPTX
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
PPTX
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
PDF
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
PDF
文献紹介:Text-to-Image Generation Grounded by Fine-Grained User Attention
PDF
文献紹介:Length-Controllable Image Captioning
PDF
言語と画像の表現学習
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
視覚と対話の融合研究
PDF
KDD2018 paper reading
PPTX
Deep Learning による視覚×言語融合の最前線
PDF
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
PPTX
自然言語処理.pptx
PDF
拡がるディープラーニングの活用
PPTX
fastTextの実装を見てみた
PDF
不完全な文の構文解析に基づく同時音声翻訳
PDF
CRF を使った Web 本文抽出 for WebDB Forum 2011
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
文献紹介:Text-to-Image Generation Grounded by Fine-Grained User Attention
文献紹介:Length-Controllable Image Captioning
言語と画像の表現学習
[DL輪読会]Dense Captioning分野のまとめ
視覚と対話の融合研究
KDD2018 paper reading
Deep Learning による視覚×言語融合の最前線
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
自然言語処理.pptx
拡がるディープラーニングの活用
fastTextの実装を見てみた
不完全な文の構文解析に基づく同時音声翻訳
CRF を使った Web 本文抽出 for WebDB Forum 2011

More from Shinagawa Seitaro

PDF
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
PDF
DTLC-GAN
PDF
AHC-Lab M1勉強会 論文の読み方・書き方
PDF
2018.01.12 AHClab SD-study paper reading
PPTX
One-sided unsupervised domain mapping
PPTX
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
PPTX
20160716 ICML paper reading, Learning to Generate with Memory
PDF
Paper reading best of both world
PDF
情報幾何勉強会 EMアルゴリズム
PPTX
How to calculate back propagation
PDF
150829 kdd2015読み会
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
DTLC-GAN
AHC-Lab M1勉強会 論文の読み方・書き方
2018.01.12 AHClab SD-study paper reading
One-sided unsupervised domain mapping
170318 第3回関西NIPS+読み会: Learning What and Where to Draw
20160716 ICML paper reading, Learning to Generate with Memory
Paper reading best of both world
情報幾何勉強会 EMアルゴリズム
How to calculate back propagation
150829 kdd2015読み会

MS COCO Dataset Introduction

Editor's Notes

  • #24 Term Frequency Inverse Document Frequency (TF-IDF) weighting for each n-gram

[8]ページ先頭

©2009-2026 Movatter.jp