キャプションの実例(validationから)最初が大文字、ピリオド A womanstanding in a kitchen preparing tea.全部小文字(理想的) a woman wearing a hat holding onto an umbrella全部大文字 A MAN OPENING A DOOR TO AN OVEN IN ARESTAURANT KITCHEN最初にスペース A man riding his bike with his dog in the side kick seatどうしようもないケース a corner of a bathroom shows part of a vanity and thecommode sits of the other side of the wa]]キャプションを前処理なく使うのは自殺行為最初が大文字、小文字、ピリオドがあるない、全て大文字、など表記ゆれが結構ひどい最後のは wall がwa]] となっていて笑う悪いことは言わない、前処理にcoco-caption API のPTBTorknizer in Stanford CoreNLPを使おうHowever…
Caption Evaluationcoco-caption APIにはBLEU,METEOR, ROUGE-L, CIDErによる自動評価尺度が用意されている必要なもの・・・生成したキャプションと対応する画像idの組(データセット内の任意の数)をdumpしたjsonファイル[{“image_id”: 404464, “caption”: “blackand white photo of a man standing infront of a building”}, {“image_id”:380932, “caption”: “group of people areon the side of a snowy field”},{“image_id”: 565778, “caption”: “traintraveling down a train station”}, … ](coco-caption/results/captions_val2014_fakecap_results.json)http://arxiv.org/abs/1504.00325
BLEU仮説(生成した文)とリファレンスのN-gramの一致率による評価尺度N-gram : 局所的な単語の塊、Nは塊あたりの単語数例:I have a pen .N N-gram 語彙数1 I have a pen . 52 I have a pen . 43 I have a pen . 34 I have a pen . 2I, have, a, pen, .の5つI have, have a, a pen, pen .の4つI have a, have a pen, a pen .の3つI have a pen, have a pen .の2つN-gramの一致率が高いほど良い仮説を生成しているだろうという仮定がある(高いほど良い)
ROUGE(亜種)𝑅𝑂𝑈𝐺𝐸𝑠 : basedon the skip bi-gramsskip bi-gram : 飛び越しありのbi-gram例: I have a pen . bi-gramI havehave aa penpen .skip bi-gramで追加される語彙I a, I pen, I .have pen, have .a .Iとの組み合わせ語彙数(文中の単語数をWとする)bi-gram : W-1skip bi-gram : 𝑊∁2あとは𝑅𝑂𝑈𝐺𝐸 𝑁と似た方法でrecallとprecisionから算出(ただし、計算量が増えるのでAPIでは飛び越しは3つまでに制限されている)