■ 画像から音声を予測➤ 画像からの音声予測がオブジェクトとシーンに関する情報を学習していることに着目して、学習した特徴量を画像認識に適用させる。➤(a)画像から(c)音声特徴量を予測➤ Fast R-CNNの事前学習に適用したけど、ImageNetとは差がある。➤ 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV…マルチモーダル系➁⑤Andrew Owens et al, “Ambient Sound Provides Supervision for Visual Learning”, ECCV 2016.https://arxiv.org/pdf/1608.07017.pdf27
28.
28■ グレースケール画像を自動的にカラー化➤ 各ピクセルを取り、その周囲を見て、もっともらしい色の分布(ヒストグラム)を予測➤CNNを用いて意味解析とローカリゼーションをカラー化システムに組み込む。➤ 基本ネットワークにはVGG16を用いている。- 事前学習はImageNetなど。再構成系Larsson, Gustav et al, “Learning Representations for Automatic Colorization”, ECCV 2016.https://arxiv.org/pdf/1603.06668.pdfFig. 2: System overview. We process a grayscale image through a deep convolutionalarchitecture (VGG) [37] and take spatially localized multilayer slices (hypercolumns) [15, 26, 28],as per-pixel descriptors. We train our system end-to-end for the task of predicting hue andchroma distributions for each pixel p given its hypercolumn descriptor. These predicteddistributions determine color assignment at test time.
29.
29■ 大規模な画像データに対してグラフベースの分析を活用➤ グラフ分析により画像間の根本的な意味の類似性を発見できるはず➤各画像をノードとして、各最近傍マッチングペアをエッジとして表すことにより、k-最近傍(k -NN)グラフを作成➤ 教師なし特徴学習と半教師あり学習の設定で、提案する教師なし制約マイニング手法の有効性を示している。その他D. Li et al., “Unsupervised Visual Representation Learning by Graph-Based Consistent Constraints.” ECCV 2016.https://faculty.ucmerced.edu/mhyang/papers/eccv16_feature_learning.pdfPascal Voc 2007での比較
32■ TextTopicNet➤ マルチモーダル(テキスト&イメージ)ドキュメントの大規模コーパスをマイニングすることにより、視覚的特徴の自己教師学習を実行することを提案➤テキストコーパスに対して、よく知られたトピックモデリング手法(LDA) によって発見された非表示の意味構造を活用- (1)相関するテキストと画像のペアで構成されるデータセットのテキストコーパスに関するトピックモデルを学習- (2)深いCNNモデルをトレーニングして、画像のピクセルから直接テキスト表現(トピック確率)を予測マルチモーダル系L.Gomez et al., “Self-supervised learning of visual features through embedding images into text topic spaces”, CVPR2017.https://arxiv.org/pdf/1705.08631.pdfFigure 1: Our CNN learns to predict the semantic context in which images appear as illustration. Given an illustrated article we project itstextual information into the topic-probability space provided by a topic modeling framework. Then we use this semantic levelrepresentation as the supervisory signal for CNN trainingTable 3 compares our results for image classification and object detectionon PASCAL with different self-supervised learning algorithms.
34■ Split-Brain Autoencoders➤ネットワークをチャネル方向に半分に分割して、2つの互いに素なサブネットワークを作成。各サブネットワークは、別のサブセットからのデータの1つのサブセットに対して予測を実行するようにトレーニングされる。 ➤ Fast R-CNNを使用し、セグメンテーションは、20の対象オブジェクトの1つまたは背景のいずれかであるオブジェクトクラスのピクセル単位のラベリングされているものでの評価もしている。➤ Lab画像だけでなく、RGB-Dデータに対してもSplit-Brain Autoencodersが有効だと示す。再構成系R. Zhang et al., "Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction", CVPR2017.https://arxiv.org/abs/1611.09842(Left) Images Half of the network predicts color channels from grayscale, and the other half predicts grayscale from color.(Right) RGB-D Images Half of the network predicts depth from images
35.
■ モーションベースのセグメンテーションを使用してオブジェクト検出に応用している。➤ Pretexttask : 動画のモーションを利用して付られたセグメントラベルを使用したセグメンテーション➤ 計算やデータの制約による分析をして、約27Mの相関フレームを使用するとImageNetで訓練したのと同等の結果を示す。https://people.eecs.berkeley.edu/~pathak/unsupervised_video/再構成系➁⑤D. Pathak et al., "Learning Features by Watching Objects Move," CVPR2017.https://people.eecs.berkeley.edu/~pathak/papers/cvpr17.pdf 35
36.
36■ Pretext taskとして自動カラー化の可能性➤打倒 ImageNet pretrainを目指し,自動カラー化の可能性を模索➤ 損失、ネットワークアーキテクチャ、およびトレーニングの詳細の重要性を調査している。➤ カラーとグレースケールの差や、アーキテクチャ別にランダムな初期値を設けた場合と、カラー画像のpre-trainの比較をしている。再構成系➁⑤Larsson Gustav et al., “Colorization as a Proxy Task for Visual Understanding”, CVPR 2017.https://arxiv.org/pdf/1703.04044.pdf
54再構成系Terrell Mundhenk, DanielHo and Barry Chen, “Improvements to context based self-supervised learning”, CVPR 2018.https://arxiv.org/pdf/1711.06379.pdf■ Improvements to context based self-supervisedlearning➤ 各チャンネルの色収差を低減することでよりパッチの相対位置の推定が困難- Lab空間に変換後、aとbに対してブラー処理を施す- パッチ数やスケール比が異なる3種類の組み合わせを作成- 各パッチに回転や拡大・縮小などの処理を施す➤ PASCAL VOC以外にもCUB birdsやCompCarsにもfinetuneすることで提案手法が一般的に使用できることを明言
58 相互情報量系Devon Hajelm etal., “Learning deep representations by mutual information estimation and maximization”, arXivpre-print:1808.06670, 2018. https://arxiv.org/abs/1808.06670Tiny ImageNetにおいて教師ありに近い精度
59.
59識別系Ali Diba, VivekSharma, Luc Van Gool, Rainer Stiefelhagen, “DynamoNet: Dynamic Action and Motion Network”, ICCV 2019.https://arxiv.org/pdf/1904.11407.pdf■ DynamoNet: Dynamic Action and Motion Network➤ 現在までのフレームにおける人物の行動から次のフレームにおける行動を予測することで特定の行動特有の学習し、高次な特徴表現を獲得➤ 動画識別と次フレーム予測をマルチタスク学習
65生成モデル系L.Zhang et al.,“AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data”, CVPR2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_AET_vs._AED_Unsupervised_Representation_Learning_by_Auto-Encoding_Transformations_Rather_CVPR_2019_paper.pdf■ 画像変換を学習することによる特徴表現学習➤Encoder-Decoderによる表現学習で,Decoderが画像変換t(x)を推定する- ある変換t(・)を考え,Encoderに元画像xと変換画像t(x)を与え,それぞれの画像特徴のペアから画像変換t(・)が推定できるなら,Encoderは有意な表現学習ができているはず- 正解の変換t(・)と推定された変換t ̂(・)の損失関数を最小化するよう学習➤ 画像(data)ではなく,変換(transformation)をdecodeするという発想- data × transformationの様々な組み合わせによる表現学習が可能に- 「変換の損失関数」の定義がやや強引?(変換関数のパラメータの差分を取るなど)
77その他Yuki M. Asanoet al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020.https://openreview.net/forum?id=B1esx6EYvr■ Single Image Self-supervision➤ {BiGAN, RotNet, DeepCluster} + データ拡張による一枚絵からの表現学習- Pretext taskには{1, 10, 100}枚の画像を使用,他はデータ拡張用- データ拡張は{Cropping, Scaling, Rotation, Cont. Changes, Noise}➤ 結論- CNNの初期層(Conv 1, 2)は1枚の自然画像から十分学習可能- 枚数を増やして優位に学習できるのはConv 3以降 (e.g. 33.4 vs. 39.4)- 教師あり学習と同等のLow-levelな特徴は自己教師学習でも学習可能
95再構成系■ Geometry GuidedCNN➤ 2ステップで学習- 1st Pretext task: sythetic imageでoptical flowを学習- 使いやすDBでflowを学習できる- 2nd Pretext task: 3D moviesでdisparity map(depth)を学習- real domainに寄せる- 2ndを学習するときに1stを忘れないように蒸留とLwFを活用➤ SceneRecogで従来手法よりも高い性能を発揮- 1stと2ndをどちらもやることで精度が向上- ImageNetとのensembleで精度向上(異なる部分を見てる)C Gan et. al, “Geometry Guided Convolutional Neural Networks for Self-Supervised Video RepresentationLearning”, CVPR 2018. http://ai.ucsd.edu/~haosu/papers/cvpr18_geometry_predictive_learning.pdf
96.
96識別系■ 訓練用データのシャッフルを強化学習で最適化➤ JigsawやShuffle&Learnではシャッフルしたパッチやフレームを入力し、正しい順序を識別-これまではシャッフルの仕方は固定- 本研究ではRLで訓練中のCNNの状態に合ったシャッフルを行う➤ 空間・時間領域ごとにDRLを学習- DRLはシャッフルした後の順序を出力- 報酬はval error、状態はsoftmaxをgather staticsticsしたもの➤ DRL: 2 FC layers, CNN: CaffeNetB Brattoli et. al., “Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning”, ECCV 2018.https://arxiv.org/abs/1807.11293
97.
97再構成系■ Facial Attributes-Net(FAb-Net)➤ Pretext task: sourceフレームとtargetフレームを入力してtargetフレームを生成する- encoderは顔のアトリビュートをembeddingする- decoderはsourceとtargetのembeddingのcaoncatからsourceからtargetへの変化を推定し、bilinear samplingでtargetを生成する- Curriculum Leaningを使用(バッチの損失でランクを設定)➤ ランドマーク・ポーズ推定等で教師ありに近い性能を発揮Wiles O. et. al., “Self-supervised learning of a facial attribute embedding from video”, BMVC 2018.http://www.robots.ox.ac.uk/~vgg/publications/2018/Wiles18a/wiles18a.pdf
98.
98識別系■ Space-Time CubicPuzzles➤ Pretext task: 時間方向と空間方向のタスクを同時学習(左図参照)- 時間方向(フレーム並べ替え): 59.3@UCF101- 空間方向(Jigsaw Puzzle): 58.5@UCF101➤ 3D CNNを高度に学習(右表参照)- C3Dにて60.6@UCF101, 28.3@HMDB51- 3D ResNet-18にて65.8@UCF101, 33.7@HMDB51D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.https://arxiv.org/pdf/1811.09795.pdfPretext taskのイメージ図.空間(Jigsaw Puzzle)と時間(フレーム並べ替え)を同時に実行する.動画像の特性をうまく利用した学習体系となっている. Pretext taskにSpace-Time Cubic Puzzles(3D ST-puzzle)を用いた結果を表示.従来ではUCF101にて50%代であったが,精度を大幅に向上することに成功した.
99.
99識別系■ 人間の認知システムに倣った動き推定タスク➤ pretexttask : 動画の1フレームをパッチに分割し,動きが最大のパッチ・動きの多様性が最大のパッチ・動きが最小のパッチを推定- 人間は動きが最も大きい部分(物体)と動きが最も小さい部分(背景)を分けて近くすることに着目- 様々なパッチ分割(格子状・放射状など)で検証- 行動認識,シーン理解などのタスクにおいてSSLのSOTAを更新J.Wang et al, “Self-supervised Spatio-temporal Representation Learning for VIdeos by predicting motion and appearancestatistics”, CVPR2019. https://arxiv.org/pdf/1904.03597.pdf
100.
100再構成系X Wang etal., “Learning Correspondence from the Cycle-consistency of Time”, CVPR 2019.https://arxiv.org/pdf/1904.11407.pdf■ Cycle-consistency of Time➤ 動画内のパッチを逆再生である時点までトラッキングし,開始時点まで再びトラッキング→ 開始時と終了時のパッチの空間座標のユークリッド距離を最小化するcycle-consistency loss(左図)➤ mask, pose等複数のpropagationタスクで自己教師の中でSOTADAVIS-2017でのmask propagationの評価
101.
101推定系■ 関連性の高い2つのタスクを1つ類似度行列で同時に学習➤ task1とtask2を交互に学習し相乗効果を得る-Pretext task1: Object-level matching (物体追跡)- フレームとクロップされたパッチの類似度行列を計算- Pretext task2: Fine-grained matching (ピクセルカラーマッチング)- パッチとtask1から得られるクロップの類似度行列を計算- カラーパッチを参考にtask1のクロップをカラー化- 2つのタスクの類似度行列を1つの行列で表現する➤ 物体、部位、キーポイント検出でImageNet-ResNet-18に近い性能を発揮Xueting L. et al., “Joint-task Self-supervised Learning for Temporal Correspondence”, NIPS 2019.https://arxiv.org/abs/1903.07593
114マルチモーダル系(Audio-visual)■ ドメイン間のデータの変換に注目➤ データ拡張・モダリティに不変な特徴量の学習-データ拡張に不変な特徴量の学習は自己教師あり学習で高性能(例: MoCo)- 異なるドメインのデータに関しても同様にとらえ,対応したデータを近づけるようにContrastiveロスで学習➤ 行動認識での評価- 理論的に大きな改善は見られないが性能的にはSOTAを達成- IG65Mを使えば更なる性能改善の可能性もありM. Patrick et al., “Multi-modal Self-Supervision from Generalized Data Transformations”, arXiv pre-print:2003.04298, 2020.http://openaccess.thecvf.com/content_CVPR_2019/papers/Oh_Speech2Face_Learning_the_Face_Behind_a_Voice_CVPR_2019_paper.pdf
135■ Shuffle &Learn- フレーム並べ替え- 58.5% @ UCF-101■ Shuffle & Learn + Jigsaw Puzzle- 上記に +Jigsaw Puzzle(空間情報把握)- 65.8% @ UCF-101Pretext taskの分析(3/5)フレームの時系列順列(時間)+空間的順列(空間)を同時学習動画認識では時間 + 空間の3次元的な表現の同時学習が重要D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.https://arxiv.org/pdf/1811.09795.pdf
136.
136■ タスクのちょうど良い難易度が精度に関係?➤ 簡単/曖昧すぎる情報を推定しても表現が足りない-e.g. Context Prediction➤ 難しすぎても表現できない- e.g. VAE/GAN (少ない補助情報で画像を完全に再現)■ 大域的特徴 vs. 局所的特徴 vs. 動き特徴➤ 大域的- e.g. Rotation➤ 局所的- e.g. Jigsaw Puzzle➤ 動き- e.g. Object Segmentation, Shuffle & LearnPretext taskの分析(4/5)
157■ VGGの代表研究➤ MultipleView Geometry in Computer Vision- 研究ではないが,不朽の名作にしてMulti-view Geometryの入門書- CVのカメラ幾何について詳細に解説- R. Hartley, A. Zisserman, “Multiple View Geometry in Computer Vision”, Cambridge University Press.➤ VGGNet- GoogLeNetと並びDeeper Networkの走り(その後ResNetへ継承)- StyleTransferやAdversarial Examplesでは現在も使用され研究が進められている- K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-scale Image Recognition”, in NIPS 2014.➤ Pascal VOC- 物体検出において最初のデファクトスタンダード- 物体検出の研究が劇的に進捗する礎となった- M. Everingham, L. V. Gool, C. Williams, J. Winn, A. Zisserman, “The Pascal Visual Object Classes (VOC) Challenge”, in IJCV 2010.VGG(2/5)
158.
158■ 最近の自己教師学習や関連研究➤ SingleImage Self-supervision(論文サマリ参照)- 1枚,もしくは少量(10〜100枚)の画像から自己教師学習- 初期層(Conv1, 2)は1枚の画像から十分学習可能と判断➤ Deep Image Prior- 画像の事前情報からノイズ等を除去して再構成- 画像の自然さと再構成誤差を計算して学習➤ Learnable PINS: Cross-Modal Embeddings for Person Identity- 音声と顔の動画のペアデータを用いて個人を識別できる埋め込み空間を人手のラベリングなしで獲得➤ その他多数!VGG(3/5)Yuki M. Asano et al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020/05.https://openreview.net/forum?id=B1esx6EYvrD. Ulyanov et al., “Deep Image Prior”, CVPR 2018.https://sites.skoltech.ru/app/data/uploads/sites/25/2018/04/deep_image_prior.pdfA. Nagrani et al., “Learnable PINS: Cross-Modal Embeddings for Person Identity”, ECCV 2018.https://arxiv.org/pdf/1805.00833.pdf