Movatterモバイル変換


[0]ホーム

URL:


14,373 views

自己教師学習(Self-Supervised Learning)

cvpaper.challenge の メタサーベイ発表スライドです。cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。2020の目標は「トップ会議30+本投稿」することです。http://xpaperchallenge.org/cv/

Downloaded 294 times
自己教師学習片岡裕雄,松本晨人,山縣英介,山田亮佑,高橋遼,升山義紀,鏡川悠介,伊藤千紘,神林優太,河﨑凌,笠井誠斗,鈴木智之1Self-Supervised Learninghttp://xpaperchallenge.org/
2■ cvpaper.challenge メタサーベイの一環➤ 2020/02/28〜2020/04/30に実施した自己教師学習の調査➤ 論文調査はもちろん,分野の背景知識も含めピックアップ➤ 研究を始めるためには?強い研究機関がなぜ強いか?■ 参考資料➤ “鈴木智之, Self-supervised Learningによる特徴表現学習,2018/09.” をベースに,2018〜2020年の研究を追加➤ Link: http://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf本資料について
3■ 教師なし特徴表現学習とは?➤ 定義➤ 評価方法➤ アプローチの大別■ 論文紹介➤ 画像認識➤ 動画認識➤ マルチモーダル(画像+音声)■ メタサーベイ➤ トレンドについて➤ 注目研究者・研究機関とその体制➤ など■ まとめ目次1論文1ページでリストします
4■ 今回の特徴表現の良さ=discriminative- あらゆる解きたいタスク (target task) に有効なデータの特徴表現- (擬似的なタスク (pretext task) を事前に解くことで獲得)- disentangleなど,他の良さについては問わない■ Self-Supervised Learning (SSL; 自己教師学習)- 自動で生成できる教師信号を用いてpretext taskを定義- 画像,動画,音声,マルチモーダル(本資料のメインフォーカス)■ SSL以外 (Unsupervised)- データ分布を表現するモデルを学習する (教師はない)自己教師学習とは?教師がないデータに対し自ら教師を作成,その問題において良好な特徴表現を獲得するCNNと画像・動画・音声やそれらの統合を自己教師として用いる
5■ 主に2ステップ:特徴表現獲得 / 転移学習■ 評価方法① : 特徴表現獲得(教師作成・識別)➤ Pretext taskで学習したモデルを重み固定の特徴抽出器として用い,特徴量のTarget task での性能を測る➤ 同じデータセット内で評価することが多い- Pretext : ラベルなしImageNet => Target : ラベルありImageNet➤ AlexNetで評価するのがスタンダード (になってしまっている)どうやって学習・評価する?モデルPretext taskex. ImageNetw/o labelsex. AlexNetモデルTarget task識別器固定学習 学習(ex. ImageNet classification)+画像データ ラベル画像データ
6■ 主に2ステップ:特徴表現獲得 / 転移学習■ 評価方法② : 転移学習(Fine-tuning)➤ Pretext taskで学習したパラメータを初期値として用い,Target taskでFine-tuningした時の性能を測る➤ 異なるデータセット間で評価を行うことが多い- Pretext : ラベルなしImageNet => Target : ラベルありPascal VOC➤ AlexNetで評価するのがスタンダードなのは評価方法①と同様どうやって学習・評価する?モデルPretext taskex. ImageNetw/o labelsex. AlexNetTarget task学習+画像データ ラベルモデル学習 画像データラベルなしImageNet => Pascal VOC*を基準にするが,より広範に調査を実施(ex. Pascal VOC segmentation)* classification : %mAP, detection : %mAP, segmentation : %mIoU
■ 分野の深化・多様化により評価方法も多少見直す動き➤ AlexNetで評価するのがスタンダート- より大規模なモデル(e.g. ResNet-50)を使用する動きもある➤ 頻出のPretext task: ImageNet => Fine-tuning: Pascal VOC- Pretext taskはより大規模なデータ(e.g. YFCC100M)を使用- Fine-tuningはより多様なタスク(e.g. Navigation)に適用最近のアップデート手法の深化・多様化によりSSLの設定を見直そう!!!@ICCV2019AlexNet -> ResNet-50も使用Fine-tuningに識別・検出・領域分割 -> ナビ・法線推定・少量教師学習も考慮PretextにImageNet-1k -> ImageNet-22k・YFCC100も使用7
8Pretext task@2018の分類Context pred.識別系 再構成系 生成モデル系 その他Spot ArtifactColorizationSplit-brainVAE系GAN系InstanceDiscriminationJigsawJigsaw++RotationCounting■ 2018前半までの研究を分類 ([Noroozi+, ICCV17]参照)■ 便宜上の分類であることに注意➤ アイデアベースの手法が多いこともあり,分類が非常に困難Autoencoder系Context EncoderNoise as targetExemplar CNNhttp://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf より引用
9Pretext task@2020の分類識別系 再構成系 生成モデル系その他相互情報量系 マルチモーダル系対比系(contrastive)推定系 メトリック系 評価系■ 2020年時点での研究分類■ 識別によりカテゴリ番号を出力■ e.g. Jigsaw,Rotation■ 入力画像から別の画像チャンネルを復元■ e.g.Colorization,RGB2Depth■ GAN/VAE/AEなどを使用した画像生成/変換タスクを実施■ e.g. (Big)BiGAN■ 相互情報量の最大化によりタスクを実施■ e.g. CPC■ 画像+αのモダリティを使用(本資料では主に画像+音声)■ e.g. Objectsthat Sound■ ContrastiveLossを使用・拡張■ e.g. MOCO,SimCLR■ 回帰により数値を出力■ e.g.Transformation,■ 特徴空間をベースにして直接推定・距離評価■ e.g. track &space■ 自己教師学習の取り組み自体を見直し・包括的に実験■ e.g. Scaling &Benchmark■ 他の分類に属さない特殊な手法を利用■ 今後分岐する可能性あり
10■ Jigsaw Puzzle代表的なPretext task■ Colorization■ Rotation ■ Shuffle & Learn■ 3行3列の画像パッチ整列を解く■ パッチ間境界など局所特徴を捉える■ Jigsaw++など改良版多数提案■ 回転を当てる4カテゴリ識別問題■ 入力画像を0°, 90°, 180°, 270°に回転■ 画像の大域的特徴を獲得■ グレースケール画像をカラー画像化■ 文脈を把握して色情報を推定■ 教師を作りやすい■ 入れ替えた時系列画像の順序を揃える■ 時間の生合成を把握する■ 動画認識向けの自己教師
112020年現在の自己教師学習■ 人間の教師に近接する精度を実現!➤ ImageNet教師あり学習に「自己教師+数%の教師」で到達!➤ SimCLR: Simple Framework for Contrastive Learning of Visual Representations- 下図は論文中より引用- https://arxiv.org/abs/2002.05709SimCLRはパラメータ数が多い(Supervised 約25M vs. SimCLR 約400M)が,自己教師学習により教師あり学習と同等の精度まで到達
論文紹介
以下,画像認識・動画認識・マルチモーダル
について論文サマリを紹介

13■ 1ページ1論文で紹介,ほぼ年代順に並んでいます■ 誤りを含む可能性がございます,予めご了承ください■ Pretext taskの大別の系列をタイトルに表示■ Pretext/Fine-tuning taskに応じて3セクションに分類➤ 画像認識(Fine-tuning先がVOC/ImageNetなど画像認識)➤ 動画認識(Fine-tuning先がUCF/HMDBなど動画認識)➤ Audio-Visual(Pretextがマルチモーダル)論文サマリについて# 論文選定にはGitHubの”Awesome Self-supervised Learning”を参考にさせて頂きました!# 特に、メンバーの得意分野である “Computer Vision - Image/Video Representation Learning, Audio” を参照https://github.com/jason718/awesome-self-supervised-learning
画像認識

15Pretext task@画像認識Context pred.識別系 再構成系 生成モデル系その他Spot ArtifactColorization系Cross-DomainVAE系GAN系InstanceDiscriminationJigsaw系Rotation系Counting系Autoencoder系Context Enc.Noise as targetExemplar CNN相互情報量系 マルチモーダル系対比系(contrastive)推定系 メトリック系評価系Track & SpaceCluster系Steady FeatureAmbient SoundGraph系TextTopicNetOptical Flow系Local Pix. Stats.L^3-NetSequence系ShapeCodesCPC系Deep InformaxAET vs AEDNeighboringDiscoveryContrastiveMultiviewCodingAugmentedMultiscale DIMWPC系Scaling & BenchmarkingMIMaximizationMomentumContrastSimCLRPIRLDownstream tasksSSL + NASTransformationSelfieAuto. ShortcutRemovalFew-Shot系MAXLClusterFit
16■ Exemplar CNN➤ Pretext task : (幾何学・色)変換に頑健なインスタンスレベルの画像識別➤ (クラス数=学習画像インスタンス数)であり,普通にSoftmaxで識別していくので使用できるデータセットの規模がスケールしにくい➤ 実はInstance Discrimination(後述)と近いこと(2014年時点で)をしている➤ Geometric matchingなどのtaskでSIFTよりも良い結果その他Dosovitskiy et al., “Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks”, NIPS 2014.https://arxiv.org/abs/1406.6909様々な変換後の,ある画像インスタンス.これを一つのクラスと定義.クラス数(= 画像インスタンス数)が8000あたりで限界となる
17■ Context Prediction (CP)➤ Pretext task : 画像を3×3に分割し,二つのパッチの相対位置の8クラス分類- 重みを共有した枝構造を持つSiameseNetに2つのパッチを入力- 枝のCNNを学習済みモデルとして使用➤ Fine-tuningの結果はランダム初期化より少し良い程度SiameseNetCls. Det. Seg.random 53.3 43.4 19.8CP 55.3 46.6 —Fine-tuning on Pascal VOC識別系Doersch et al., “Unsupervised visual representation learning by context prediction”, ICCV 2015.https://arxiv.org/abs/1505.05192
18メトリック系Wang, Xiaolong et al., “Unsupervised Learning of Visual Representations using Videos.”, ICCV, 2015.http://www.cs.cmu.edu/~xiaolonw/papers/unsupervised_video.pdf■ 動画使った学習➤ 数フレームにわたってtrackしたpatchは同じ物体を映しているはず→特徴空間上の距離も近いはず- Pretext task:近いはずの2patch間の距離を小さく,randomなpatchとの距離を大きくするランク学習➤ 評価の結果(finetune)- scratchに対し+4.7%- ImageNet-pretrainedと2.5%差
19推定系Agrawal, Pulkit et al., “Learning to See by Moving.”, ICCV, 2015.https://arxiv.org/pdf/1505.01596.pdf■ 2画像間のTransformationを推定➤ Pretext task : 画像間の視点の移動を推定(自己位置認識)- Mnistに関してはdigitを移動・回転させて画像のペアを作成- 自然画像に関してはKITTIとSFデータセットを使用➤ 評価の結果(finetune)- Mnistにおいて多くの従来手法を上回る精度- ILSVRC-12 validation setでfinetuneした場合,少ないinstance数でより大きい上昇幅- Scene recognitionやvisual odometryタスクでも良い結果
20識別系Jayaraman, Dinesh et al., “Learning image representations tied to ego-motion.”, ICCV, 2015.http://vision.cs.utexas.edu/projects/egoequiv/ijcv_bestpaper_specialissue_egoequiv.pdf■ 特徴表現と自己運動を紐付ける➤ 観測者の移動と観測する景色の関係を学習- 従来法:視点を変えて同一の物体の画像撮ったとき,視点変更の前後の画像は特徴空間上近い- 提案手法:視点移動の情報から特徴空間上の位置も予測できる➤ 評価した結果(finetune)- KITTI, SUN, NORBで学習- 複数のデータセットで従来法を上回る結果
21識別系Jianwei Yang et al., “Joint Unsupervised Learning of Deep Representations and Image Clusters.”, CVPR, 2016.https://arxiv.org/pdf/1604.03628.pdf■ Joint Unsupervised LEarning (JULE)➤ Contribution- ラベル無しデータセットから特徴表現とクラスタを同時に学習するend-to-endな新手法の提案- 凝集型クラスタリングとCNNの特徴表現獲得に関して一つの損失関数で計算- 従来法を上回る性能➤ 複数のタスクに転用可能- (LFW)顔識別,CIFAR-10
22■ DCGAN➤ Pretext task : 画像生成モデルの学習- 質の高い生成を可能とするテクニックを主にアーキテクチャの観点から提案- データ分布を高い性能でモデル化 => 良い特徴を捉えている➤ Discriminatorの中間出力を表現に利用➤ ImageNet => Pascal VOCでの実験はなし➤ CIFAR-10においてExemplar CNNと比較生成モデル系on CIFAR-10acc. (%) Num of featureEx CNN 84.3 1024DCGAN 82.8 512Radford et al., “UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVEADVERSARIAL NETWORKS”, ICLR 2016.https://arxiv.org/abs/1511.06434アーキテクチャや表現学習に使用しているデータセットが異なるため対等な評価とは言えない
23識別系Junyuan Xie et al., “Unsupervised Deep Embedding for Clustering Analysis.”, ICML 2016.http://www.cs.cmu.edu/~xiaolonw/papers/unsupervised_video.pdf■ Deep Embedding Clustering(DEC)➤ Contribution- 特徴表現とクラスタ割り当てを同時に学習する新手法- ソフトクラスタリングによる反復的なrefinement- クラスタリング速度と精度でSOTA(2016)➤ 評価の結果- 通常データでSOTA意外に,imbalanceなデータでも高い精度クラスタリングの結果:各行一つのクラスタ
24メトリック系Jayaraman, Dinesh et al., “Slow and steady feature analysis: higher order temporal coherence in video”, CVPR 2016.http://vision.cs.utexas.edu/projects/slowsteady/cvpr16.pdf■ Steady Feature Analysis➤ フレーム間の変化の仕方も学習したい- 従来は「隣接するフレーム間では微小な変化しか起こらない=特徴空間上でも隣接してる」という考え- ただ隣接させるだけでなく,特徴空間上で滑らかな予測可能な軌道を描くように学習する手法を提案➤ 評価の結果(finetune)- 複数のタスクでSOTA(2016)
25■ Context Encoder (CE)➤ Pretext task : 欠損画像の補完- Adversarial Loss + L2 Lossを提案しているが,表現学習の実験はL2 Lossのみ- つまりただの回帰➤ ネットワークは表現学習の段階で欠損画像しか見ていない- しかしTarget taskでは欠損していない画像を入力する再構成系Cls. Det. Seg.random 53.3 43.4 19.8CE 56.5 44.5 29.7JP 67.7 53.2 —Pathak et al., “Context encoders: Feature learning by inpainting”, CVPR 2016.https://arxiv.org/abs/1604.07379
26■ Jigsaw Puzzle (JP)➤ Pretext task : パッチをランダムな順に入力し,正しい順列をクラス識別- SiameseNetに9つのパッチを同時に入力- 順列は膨大な数になるのでハミング距離が大きくなるように選んだ1000クラスで学習➤ CPはパッチによってはかなりあいまい性がある(下図)➤ ネットワークが見れるパッチが多い方があいまい性が減る➤ CPと比較するとかなり精度が改善している識別系Cls. Det. Seg.random 53.3 43.4 19.8CP 55.3 46.6 —JP 67.7 53.2 —①や②の⑤を基準とした相対位置を推定するのはかなり難しい① ➁⑤Noroozi et al., “Unsupervised learning of visual representations by solving jigsaw puzzles”, ECCV 2016.https://arxiv.org/abs/1603.09246
■ 画像から音声を予測➤ 画像からの音声予測がオブジェクトとシーンに関する情報を学習していることに着目して、学習した特徴量を画像認識に適用させる。➤ (a)画像から(c)音声特徴量を予測➤ Fast R-CNNの事前学習に適用したけど、ImageNetとは差がある。➤ 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV…マルチモーダル系➁⑤Andrew Owens et al, “Ambient Sound Provides Supervision for Visual Learning”, ECCV 2016.https://arxiv.org/pdf/1608.07017.pdf27
28■ グレースケール画像を自動的にカラー化➤ 各ピクセルを取り、その周囲を見て、もっともらしい色の分布(ヒストグラム)を予測➤ CNNを用いて意味解析とローカリゼーションをカラー化システムに組み込む。➤ 基本ネットワークにはVGG16を用いている。- 事前学習はImageNetなど。再構成系Larsson, Gustav et al, “Learning Representations for Automatic Colorization”, ECCV 2016.https://arxiv.org/pdf/1603.06668.pdfFig. 2: System overview. We process a grayscale image through a deep convolutionalarchitecture (VGG) [37] and take spatially localized multilayer slices (hypercolumns) [15, 26, 28],as per-pixel descriptors. We train our system end-to-end for the task of predicting hue andchroma distributions for each pixel p given its hypercolumn descriptor. These predicteddistributions determine color assignment at test time.
29■ 大規模な画像データに対してグラフベースの分析を活用➤ グラフ分析により画像間の根本的な意味の類似性を発見できるはず➤ 各画像をノードとして、各最近傍マッチングペアをエッジとして表すことにより、k-最近傍(k -NN)グラフを作成➤ 教師なし特徴学習と半教師あり学習の設定で、提案する教師なし制約マイニング手法の有効性を示している。その他D. Li et al., “Unsupervised Visual Representation Learning by Graph-Based Consistent Constraints.” ECCV 2016.https://faculty.ucmerced.edu/mhyang/papers/eccv16_feature_learning.pdfPascal Voc 2007での比較
■ Bidirectional Generative Adversarial Networks (BiGANs)➤ 標準のGANアーキテクチャにエンコーダーを追加➤ 逆マッピングを学習する手段として提案➤ BiGANで使用されているDCGANアーキテクチャが高品質の画像をモデリングできない?➤ BigBiGANに繋がっていくみたい。➤ 参考スライド生成モデル系➁⑤Li Dong et al, “Adversarial Feature Learning”, ICLR 2017. https://arxiv.org/pdf/1605.09782.pdf30
31■  生成モデル系Cls. Det. Seg.random 53.3 43.4 19.8BiGAN 60.3 46.9 35.2JP 67.7 53.2 —Donahue et al., “ADVERSARIAL FEATURE LEARNING”, ICLR 2017.https://arxiv.org/abs/1605.09782
32■ TextTopicNet➤ マルチモーダル(テキスト&イメージ)ドキュメントの大規模コーパスをマイニングすることにより、視覚的特徴の自己教師学習を実行することを提案➤ テキストコーパスに対して、よく知られたトピックモデリング手法(LDA) によって発見された非表示の意味構造を活用- (1)相関するテキストと画像のペアで構成されるデータセットのテキストコーパスに関するトピックモデルを学習- (2)深いCNNモデルをトレーニングして、画像のピクセルから直接テキスト表現(トピック確率)を予測マルチモーダル系L.Gomez et al., “Self-supervised learning of visual features through embedding images into text topic spaces”, CVPR2017.https://arxiv.org/pdf/1705.08631.pdfFigure 1: Our CNN learns to predict the semantic context in which images appear as illustration. Given an illustrated article we project itstextual information into the topic-probability space provided by a topic modeling framework. Then we use this semantic levelrepresentation as the supervisory signal for CNN trainingTable 3 compares our results for image classification and object detectionon PASCAL with different self-supervised learning algorithms.
33■ Colorful Image Colorization (CC)➤ Pretext task : グレースケール画像の色付け {L => ab}➤ 単純な回帰ではなく,量子化したab空間の識別問題を解く➤ グレースケール画像入力を前提として表現学習するため,カラー画像を扱う場合は,Lab入力とし,abチャネルはランダムに初期化■ Split-Brain (SB)➤ ネットワークをチャネル方向に2分割し,{L => ab, ab => L} のアンサンブル➤ 回帰ではなく量子化して識別問題にする方が良い特徴表現が得られた再構成系Cls. Det. Seg.random 53.3 43.4 19.8CC 65.9 46.9 35.6SB 67.1 46.7 36.0JP 67.7 53.2 —Zhang et al., “Colorful Image Colorization”, ECCV 2016.R. Zhang et al., “Split-brain autoencoders: Unsupervised learning by cross-channel prediction”, CVPR 2017.https://arxiv.org/abs/1611.09842
34■ Split-Brain Autoencoders➤ ネットワークをチャネル方向に半分に分割して、2つの互いに素なサブネットワークを作成。各サブネットワークは、別のサブセットからのデータの1つのサブセットに対して予測を実行するようにトレーニングされる。
➤ Fast R-CNNを使用し、セグメンテーションは、20の対象オブジェクトの1つまたは背景のいずれかであるオブジェクトクラスのピクセル単位のラベリングされているものでの評価もしている。➤ Lab画像だけでなく、RGB-Dデータに対してもSplit-Brain Autoencodersが有効だと示す。再構成系R. Zhang et al., "Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction", CVPR2017.https://arxiv.org/abs/1611.09842(Left) Images Half of the network predicts color channels from grayscale, and the other half predicts grayscale from color.(Right) RGB-D Images Half of the network predicts depth from images
■ モーションベースのセグメンテーションを使用してオブジェクト検出に応用している。➤ Pretext task : 動画のモーションを利用して付られたセグメントラベルを使用したセグメンテーション➤ 計算やデータの制約による分析をして、約27Mの相関フレームを使用するとImageNetで訓練したのと同等の結果を示す。https://people.eecs.berkeley.edu/~pathak/unsupervised_video/再構成系➁⑤D. Pathak et al., "Learning Features by Watching Objects Move," CVPR2017.https://people.eecs.berkeley.edu/~pathak/papers/cvpr17.pdf 35
36■ Pretext taskとして自動カラー化の可能性➤ 打倒 ImageNet pretrainを目指し,自動カラー化の可能性を模索➤ 損失、ネットワークアーキテクチャ、およびトレーニングの詳細の重要性を調査している。➤ カラーとグレースケールの差や、アーキテクチャ別にランダムな初期値を設けた場合と、カラー画像のpre-trainの比較をしている。再構成系➁⑤Larsson Gustav et al., “Colorization as a Proxy Task for Visual Understanding”, CVPR 2017.https://arxiv.org/pdf/1703.04044.pdf
37識別系Cruz et al., “DeepPermNet: Visual Permutation Learning”, CVPR 2017. https://arxiv.org/pdf/1704.02729.pdf■ DeepPermNet➤ 自然画像や順序づけられた画像列に内在する構造概念を学習するための一般的な定式化として、視覚順序づけ学習というPretext taskを提案➤ 畳み込みニューラルネットワークを用いて視覚順列問題を解くためのEnd-to-End学習であるDeepPermNetモデル➤ 標準的なCNNの予測値をシンクホーン反復を用いて二重ストキャスティック行列に変換するシンクホーン層を導入
38その他Bojanowski et al., “Unsupervised Learning by Predicting Noise”, ICML 2017.https://arxiv.org/pdf/1704.05310.pdf■ Noise As Targets (NAT)➤ ターゲット表現のセットを固定し、それに整列するように特徴量を制約- これにより,ImageNetやPASCAL VOCの最新の教師なし学習法と同等の性能を持つ表現が生成可能ImageNetVOC 2007
39■ Noise as target (NAT)➤ Pretext task : 一様にサンプリングされたtarget vectorsに各画像からの出力を1対1に対応させ,近づける- Targetは全体サンプルの誤差の和が最小になるように割り当てたい- 全走査は厳しいのでバッチごとにハンガリアン法で近似的に割り当て➤ 一見意味不明だが,画像の特徴ベクトルを特徴空間上に一様に分散させることに意味があるらしい (Appendix参照)その他Cls. Det. Seg.random 53.3 43.4 19.8NAT 65.3 49.4 36.6JP 67.7 53.2 —Bojanowski et al., “Unsupervised Learning by Predicting Noise”, ICML 2017.https://arxiv.org/abs/1704.05310データ数分,一様分布からサンプリング(固定)Nearest Neighbor
40その他(複数のタスク統合)Doersch et al., “Multi-task Self-Supervised Visual Learning”, ICCV2017.https://arxiv.org/abs/1708.07860■ ResNet-101で4つの異なる自己教師付きタスクの比較➤ 明らかになったこと- 深いネットワークでは浅いネットワークよりも自己教師性能が向上- Pretext taskを組み合わせることでタスク単体よりも性能が向上- Context Pred., Colorization, Motion Segment, Exemplar CNN➤ 評価- ImageNetの分類、PASCALのVOC検出、NYUの深さ予測- より深いネットワークの方がうまく機能
41その他Noroozi et al., “Representation Learning by Learning to Count”, ICCV 2017. https://arxiv.org/pdf/1708.06734.pdf■ 新たなpretext taskとして視覚的情報のカウントを提案➤ 分類に有用な識別特徴を必要とし、検出を介して定式化➤ 写真を四分割したときに,各パッチの特徴量と写真全体の特徴量が一致するように距離学習を実施➤ 異なる写真に対しては離れるようにtriplet lossを追加全体 4パッチの和
42識別系Wang et al., “Transitive Invariance for Self-supervised Visual Representation Learning”, ICCV 2017.https://arxiv.org/pdf/1708.02901.pdf■ 複数のバリエーションを持つデータを整理して推論➤ pretext task: 以下二つに注目したクラスタリング1. インスタンス間変動(同じクラスに属する2つの物体が似たような特徴を持つこと)2. インスタンス内変動(視点、ポーズ、変形、照明など)➤ 物体検知で高い精度の事前学習ができた
43マルチモーダル系Reija et al., “Look, Listen and Learn”, ICCV 2017. https://arxiv.org/pdf/1705.08168.pdf■ L^3-Net(Look, Listen and Learn)➤ 大量のビデオデータから視覚情報と聴覚情報を同時に学習- pretext task : 動画と音が一致しているかの判定➤ 評価- 視覚・聴覚ともに識別性能が高い
44■ Learning to Count (LC)➤ Pretext task : 以下の制約を満たす特徴量を学習➤ 制約:各分割画像と元画像をそれぞれ同じCNNに入力し,元画像の出力   特徴が全分割画像の出力特徴の和と一致する=> 出力特徴の各次元が画像内の「ある高次なprimitive」の量を表す場合に上記の制約を満たすことができる➤ 個人的にかなり面白いアイデアその他Cls. Det. Seg.random 53.3 43.4 19.8LC 67.7 51.4 36.6JP 67.7 53.2 —特徴量がprimitiveのヒストグラムのようなものになるNoroozi et al., “Representation Learning by Learning to Count”, ICCV 2017.https://arxiv.org/abs/1708.06734同じ人
45識別系Hsin-Ying et al., “Unsupervised Representation Learning by Sorting Sequences”,ICCV 2017.https://arxiv.org/pdf/1708.01246.pdf■ セマンティックラベルのない動画を用いた教師なし学習➤ pretext task: シャッフルされた動画を正しい時系列に並び替える➤ 評価: UCF-101とHMDB-51において最先端の手法と比較して性能が向上➤ Jigsaw Puzzle(空間位置の並べ替え) の時系列版
46■ Instance Discrimination (ID)➤ Pretext task : 各画像インスタンスを1つのクラスとした識別問題- 実際はクラス数が膨大のため,NCEを用いる- Logitを前iterationの各画像特徴と入力画像特徴の内積とした時のcross entropyを最小化➤ 最適な状態としては各画像の特徴ベクトルが超球上にまばらに散るような埋め込みになるはず (Appendix参照)=> NATとかなり近いことをしていることになるはず (引用はなし)識別系Cls. Det. Seg.random 53.3 43.4 19.8ID — 48.1 —JP 67.7 53.2 —Wu et al., “Unsupervised Feature Learning via Non-Parametric Instance Discrimination”, CVPR 2018.https://arxiv.org/abs/1805.01978前iterの各画像特徴
47識別系Zhirong et al., “Unsupervised Feature Learning via Non-Parametric Instance Discrimination”, CVPR 2018. https://arxiv.org/pdf/1805.01978.pdf■ インスタンス間の区別を最大化による特徴表現の獲得➤ 新しいノンパラメトリックソフトマックス定式化を用いてインスタンス間の区別を最大化することで、教師なし特徴学習➤ 軽量: 画像ごとに128個の特徴量を持つ我々の手法は、100万枚の画像に対して600MBのストレージしか必要としない
48■ Jigsaw Puzzle++➤ Pretext task : 1~3パッチを他の画像のパッチに置き換えたJigsaw Puzzle- 見れるパッチが少ない・他画像からのパッチを識別する必要がある- 上記からpretext taskの難度が上がる- 複数のクラスに属することがないようハミング距離を考慮して順列を選択識別系Cls. Det. Seg.random 53.3 43.4 19.8LC 67.7 51.4 36.6JP++ 69.8 55.5 38.1JP 67.7 53.2 —Noroozi et al., “Boosting Self-Supervised Learning via KnowledgeTransfer”, CVPR 2018.https://arxiv.org/abs/1805.00385同じ人
49■ Spot Artifact (SA)➤ Pretext task : 特徴マップ上で欠損させた画像の補完- 欠損を補完するrepair layersとdiscriminator間で敵対的学習- 事前にAuto encoderとして学習したモデルの特徴マップを用いる- discriminatorが良い特徴表現を得ることを期待➤ 特徴マップを欠損はより高次な情報を欠損させることを期待 (実際の欠損画像を見てもあまりわからない )再構成系Cls. Det. Seg.random 53.3 43.4 19.8SA 69.8 52.5 38.1JP 67.7 53.2 —Wu et al., “Self-Supervised Feature Learning by Learning to Spot Artifacts”, CVPR 2018.http://openaccess.thecvf.com/content_cvpr_2018/papers/Jenni_Self-Supervised_Feature_Learning_CVPR_2018_paper.pdf赤:corrupt,緑:real
50識別系Terrell Mundhenk et al., “Improvements to context based self-supervised learning”, CVPR 2018.https://arxiv.org/pdf/1802.01880.pdf■ Completing Damaged Jigsaw Puzzles(CDJP)➤ 従来のPretxt Task (Jigsaw)をより困難なタスクに設定- 入力画像を3×3のパッチに分割し、正しい順列を予測- RGBをLabに変換し、正しいRGB情報を予測- 9つのパッチのうち1ピースを除去し、復元させる➤ 色情報や欠落部分の予測を加えて、タスクの難易度をあげることで、従来の手法よりもdiscrimitiveな特徴表現を獲得
51■ Classify Rotation (CR)➤ Pretext task : 画像の回転推定- 0°,90°,180°,270°の4クラス分類- それ以上の細かい分類は回転後に補間が必要=> artifactが生まれ,trivial solutionの原因となる➤ objectの回転角を推定するためにはobjectの高次な情報が必要➤ ここまでの最高精度(Cls., Det. ) & 実装が最も簡単識別系Cls. Det. Seg.random 53.3 43.4 19.8CR 73.0 54.4 39.1JP++ 69.8 55.5 38.1Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.https://arxiv.org/abs/1803.07728
52■ Classify Rotation (CR)➤ データ構造への依存➤ 画像ドメインによっては低次な特徴で回転の推定が可能では?- 実際にPlacesのシーン識別タスクでは奮わない➤ 回転が定義できないような画像もあるはず- 航空写真など識別系Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.https://arxiv.org/abs/1803.07728Places例えば,空の位置のみで回転推定できる
53識別系O. Kilinc et al., “Learning Latent Representations in Neural Networks for Clustering Through Pseudo Supervision andGraph-based Activity Regularization”, ICLR 2018. https://openreview.net/pdf?id=HkMvEOlAb■ Graph-based Activity Regularization(GAR)➤ 教師なしクラスタリングにより擬似ラベルを設定- クラスタリングの手法はAuto-clustering Output Layer(ACOL)使用- 潜在情報を自己教師として学習➤ データ拡張・回転有無の教示・クラスタリング- データ拡張を施し、回転の有無を推定- その後,クラスタリングにより数字を回答
54再構成系Terrell Mundhenk, Daniel Ho and Barry Chen, “Improvements to context based self-supervised learning”, CVPR 2018.https://arxiv.org/pdf/1711.06379.pdf■ Improvements to context based self-supervisedlearning➤ 各チャンネルの色収差を低減することでよりパッチの相対位置の推定が困難- Lab空間に変換後、aとbに対してブラー処理を施す- パッチ数やスケール比が異なる3種類の組み合わせを作成- 各パッチに回転や拡大・縮小などの処理を施す➤ PASCAL VOC以外にもCUB birdsやCompCarsにもfinetuneすることで提案手法が一般的に使用できることを明言
55■ Deep Cluster (DC)➤ 以下の操作を繰り返し行う1. CNNの中間特徴を元にk-meansクラスタリング2. 割り当てられたクラスタをPseudo labelとして識別問題を学習➤ 最初のiterationではランダム初期化されたCNNの出力を元にクラスタリング- その出力を用いてMLPを学習しても12%出る=> 入力情報はある程度保持されてる➤ ImageNetでの実験ではk = 10000 (> 1000)が最も良い➤ 単純かつ非常に強力な手法識別系Caron et al., “Deep Clustering for Unsupervised Learning of Visual Features”, ECCV 2018. https://arxiv.org/abs/1807.05520Cls. Det. Seg.random 53.3 43.4 19.8CR 73.0 54.4 39.1JP++ 69.8 55.5 38.1DC 73.7 55.4 45.1ImageNet labelとクラスタの相互情報量が増加していくepoch間の相互情報量が増加=> クラスタ割り当てが安定
56生成モデル系Dinesh Jayaraman, Ruohan Gao, Kristen Grauman, “ShapeCodes: Self-Supervised Feature Learning by Lifting Views toViewgrids”, ECCV 2018. https://arxiv.org/pdf/1709.00505.pdf■ ShapeCodes: Self-Supervised Feature Learning byLifting Views to Viewgrids➤ 三次元物体を特定の方向から投影した画像を用いて、未知の方向からの三次元物体の形状を予測するタスク➤ このPretext Taskを解くことにより、三次元物体認識に必要な三次元形状の視覚的特徴を獲得
57再構成系Zhongzheng Ren and Yong Jae Lee, “Cross-domain Self-supervised Multi-task Feature Learning Using Synthetic Imagery”, CVPR2018. https://arxiv.org/pdf/1711.09082.pdf■ Cross-Domain Self-supervised Multi-task FeatureLearning using Synthetic Imagery➤ 合成画像からエッジ・法線・深度を推定するマルチタスク- 合成画像では実画像を収集するよりもコストが安価- 2018年時点では、マルチタスクのSSLは少数➤ 実画像に対して適応可能にするため、実画像の特徴に合成画像の特徴をマッピング
58 相互情報量系Devon Hajelm et al., “Learning deep representations by mutual information estimation and maximization”, arXivpre-print:1808.06670, 2018. https://arxiv.org/abs/1808.06670Tiny ImageNetにおいて教師ありに近い精度
59識別系Ali Diba, Vivek Sharma, Luc Van Gool, Rainer Stiefelhagen, “DynamoNet: Dynamic Action and Motion Network”, ICCV 2019.https://arxiv.org/pdf/1904.11407.pdf■ DynamoNet: Dynamic Action and Motion Network➤ 現在までのフレームにおける人物の行動から次のフレームにおける行動を予測することで特定の行動特有の学習し、高次な特徴表現を獲得➤ 動画識別と次フレーム予測をマルチタスク学習
■ オプティカルフロー推定による特徴表現学習➤ 画像からピクセル毎のオプティカルフローを推定- pretext task : 動画の一フレームからオプティカルフローを推定するタスク- 課題 :動きを画像から推定しなければならないという曖昧性➤ ポイント- ピクセル群を確率的に推定- ×の部分と同じ物体に属している確率をヒートマップで表示60再構成系A. Mahendran et al., “Cross Pixel Optical Flow Similarity for Self-Supervised Learning” , ACCV2018.http://www.robots.ox.ac.uk/~vgg/publications/2018/Mahendran18/mahendran18.pdfVOC2007での比較
61相互情報量系A. Oord et al., “Representation learning with contrastive predictive coding”, arXiv pre-print:1807.03748v2, 2018.https://arxiv.org/pdf/1807.03748.pdf■ コンテキストと先の系列情報の相互情報量最大化➤ 系列情報をエンコードして潜在表現 を獲得し更に自己回帰モデルを適用しコンテキスト情報 を獲得➤ Contrastive Predictive Coding (CPC)- 系列情報の 個のサンプル  の中からコンテキスト の ステップ先のサンプルを識別できるように学習(相互情報量の下限の最大化に対応)➤ 評価の結果わかったこと- 他のSSLタスク(e.g., Jigsaw, Colorization)と比べ画像認識性能が改善- 複数のドメイン(speech・NLP・RL)で有効性を確認-
■ ヒントつきのオプティカルフロー推定による特徴表現学習➤ オプティカルフロー推定において,部分的に動きの情報を与えて学習させるようにした- 従来のオプティカルフローによるSSL:曖昧性が高いという問題- 学習の際に,ピクセル単位で動きの情報を追加してオプティカルフロー推定をさせた➤ セグメンテーションにおいて自己教師ありのSOTAを達成62再構成系X.Zhan et al., “Self-supervised learning via conditional motion propagation”, CVPR2019, https://arxiv.org/pdf/1903.11412.pdf
■ 回転量推定による特徴表現学習における回転普遍性の考慮➤回転普遍な画像とそうでない画像に対し同様に 回転量推定を行うのは妥当なのか?という疑問- 右図のように回転しても見た目が変わらない画像もある➤ 回転推定タスク・クラス分類タスクに加えて,回転普遍性項を追加- 特徴量が回転に依存しないように,回転した時の特徴量の分散を最小化するロスを追加➤ VOCにおいてDC, BiGAN等を上回る精度を実現63識別系Z Feng et al., “Self-Supervised Representation Learning by Rotation Feature Decoupling”, CVPR 2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Feng_Self-Supervised_Representation_Learning_by_Rotation_Feature_Decoupling_CVPR_2019_paper.pdf
■ 自己教師学習におけるCNN構造の見直し➤自己教師学習における最適なモデル構造に関するablation study- アーキテクチャ毎に最適なPretext taskが違う- モデルを変えるだけで元論文よりいい精度が得られる場合もあり➤ 自己教師学習とCNN構造に関する様々な知見- 特徴量の評価には重み固定の線形モデルを使った方が良い- pretext taskで最良だったモデルが実際のタスクでも有効とは限らない- skip connectionにより,より後ろの方の層の特徴表現学習が改善できる- モデルを深く・大きくするほど精度が高くなる...などなど64調査系A Kolesnikov et al., “Revisiting Self-Supervised Visual Representation Learning”, CVPR 2019.https://arxiv.org/pdf/1901.09005.pdf
65生成モデル系L.Zhang et al., “AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data”, CVPR2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_AET_vs._AED_Unsupervised_Representation_Learning_by_Auto-Encoding_Transformations_Rather_CVPR_2019_paper.pdf■ 画像変換を学習することによる特徴表現学習➤Encoder-Decoderによる表現学習で,Decoderが画像変換t(x)を推定する- ある変換t(・)を考え,Encoderに元画像xと変換画像t(x)を与え,それぞれの画像特徴のペアから画像変換t(・)が推定できるなら,Encoderは有意な表現学習ができているはず- 正解の変換t(・)と推定された変換t ̂(・)の損失関数を最小化するよう学習➤ 画像(data)ではなく,変換(transformation)をdecodeするという発想- data × transformationの様々な組み合わせによる表現学習が可能に- 「変換の損失関数」の定義がやや強引?(変換関数のパラメータの差分を取るなど)
■ 特徴量クラスタリングにおいて近傍点に注目➤近傍点同士を少しづつ近づけていくことによる 適切な距離学習- 従来の距離学習:イテレーションごとに複数の点を動かすため,不適切なクラスタに- 提案手法:基準点とその近傍点に着目し,ラウンドごとにその2点のみを近づける- 1ラウンド毎に近傍点ペアを選定し,両者を近づけるように更新を行う➤ クラス分類タスクの転移学習において,deepclusterを上回る精度を実現66メトリック系J Huang et al., “Unsupervised deep learning by neighborhood discovery”, ICML 2019.http://proceedings.mlr.press/v97/huang19b/huang19b.pdf❌     ❌    ⭕
67対比系Y Tian et al., “Contrastive Multiview Coding”, arXiv pre-print:1906.05849, 2019.https://arxiv.org/pdf/1906.05849.pdf■ SSLにおいて,multi-viewを活用➤ 特徴表現学習におけるmulti-viewの重要性- 人間は複数のモダリティから物体を認識する- 特徴表現学習においても,複数の情報チャネル(RGB, Depth, 未来のフレーム情報等)を使いたい➤ 複数の情報チャネルからの特徴量のロスをとり,contrastive learning- 3つ以上の情報を掛け合わせるcontrastive learningの枠組みを提案- 視点の情報が増えるほど特徴表現学習の精度が上がることが確認できた
68生成モデル系J Donahue et al., “Large Scale Adversarial Representation Learning”, NIPS 2019. https://arxiv.org/pdf/1907.02544.pdf■ BiGAN x BigGAN = BigBiGAN➤ BiGANの基本構造をDCGANからBigGANに変更- Discriminatorはx, zだけでなくxとzを組み合わせた特徴量もみている- モデル構造を含めた詳細なablation studyを実施➤ ImageNetの分類タスクにおいて,BiGANを上回る高い精度を実現
69相互情報量系P. Bachman et al., “Learning Representations by Maximizing Mutual Information Across Views”, arXiv pre-print:1906.00910v2,2019. https://arxiv.org/pdf/1906.00910■ Augmented Multiscale DIM(AMDIM)➤ Deep InfoMax(DIM)を拡張- 独立して拡張されたコピーから抽出した特徴間の相互情報最大化- 複数の特徴スケール間の相互情報を同時に最大化➤ 評価の結果- ほかのタスクと比べ画像認識性能の向上- 複数のドメイン(e.g., video, audio, text)への拡張
70識別系Trieu H. Trinh et al., “Selfie:Self-supervised Pretraining for Image Embedding”, arXiv pre-print:1906.02940v3, 2019.https://arxiv.org/pdf/1906.02940.pdf■ Selfie Self-supervised Image Embedding➤ Selfieの詳細- Contrastive Predictive Coding lossを利用して連続データへ一般化- Selfieの事前学習構造にはパッチの処理や、マスク化されていないパッチの内容を要約するネットワークを含む➤ 評価の結果- 3つの基準でSelfieを評価(CIFAR-10,ImageNet 32 x 32,ImageNet 224 x 224)- ResNet-50に対し全ての基準で精度が向上
71相互情報量系O. J. Hénaff et al., “Data-Efficient Image Recognition with Contrastive Predictive Coding”, arXiv pre-print:1905.09272v2,2019. https://arxiv.org/abs/1905.09272■ CPCを改良し教師あり学習を上回る性能を実現➤ Model capacity (MC) の増加に伴う改良点- Layer norm. (LN) を利用- 垂直(BU)水平(HP)の四方から推定するようにタスクを増加- 画像のパッチごとにrandom color-dropping (RC) を適用➤ 評価の結果わかったこと- ImageNetで10%のラベリングのみでtop5精度91.2%を達成- 100%ラベリングした場合でも事前学習で性能改善
72識別系D. Hendrycks et al., “Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty”, NeurIPS 2019.https://arxiv.org/pdf/1905.09272.pdf■ SSLを用いた際の頑健性、不確実性➤ intro- Cifar-10とImageNetを併用することで、クリーンな精度が得られずとも頑健性と不確実性推定の性能を向上させる正則化を提供➤ 評価の結果- 自己教師付き学習をauxiliary rotation lossで補完することで全てのタイプの頑健性が向上- SSLは分布外検出の性能を劇的に改善し、CIFAR-10とImageNetを併用した実験では自己教師あり学習の方が完全教師あり学習よりも改善
73その他Gidaris et al., “Boosting Few-Shot Visual Learning with Self-Supervision”, ICCV 2019.http://openaccess.thecvf.com/content_ICCV_2019/papers/Gidaris_Boosting_Few-Shot_Visual_Learning_With_Self-Supervision_ICCV_2019_paper.pdf■ Few-shot learningと自己教師あり学習➤ Few-shot Learningと自己教師あり学習で相補させることで、僅かな訓練データを用いて認識能力を高める- 自己教師性を追加することで、Few-shotの分類性能が格段に向上- さらにself-supervised lossのannotation-freeの性質により、ラベル付けされていない多様なデータを利用することができ、性能を向上させた➤ Few-shot recognitionフレームワーク- 上記のフレームワークを半教師ありと教師無しのセットアップに拡張し、Few-shotの物体認識に基づいた自己教師あり又は教師なしの手法を評価するためにも利用できる
74その他Shikun Liu et al., “Self-Supervised Generalisation with Meta Auxiliary Learning”, arXiv pre-print:1901.08933, 2019.https://arxiv.org/pdf/1901.08933.pdf■ Meta AuXiliary Learning (MAXL)➤ 2つのニューラル・ネットワークにより疑似ラベルを自動的に設定- 補助ラベルを予測するネットワークと、教師ラベルと補助ラベルを予測するネットワークを相互に関係を持たせ学習- 補助ラベルが教師ラベルの一般化(犬→ラブラドール)➤ 画像6タスク(右下表)において性能向上の評価- 全てのタスクで識別性能が向上➤ 補助ラベルの予測タスクの評価(右上)- 複数のベースラインを上回る- 人間が定義したラベルと同等
75相互情報量系S. Ozair et al., “Wasserstein Dependency Measure for Representation Learning”, NeurIPS 2019.https://arxiv.org/pdf/1903.11780.pdf■ 新しい表現学習目標の提案➤ Wasserstein Dependency Measure(WDM)- KL情報量の代わりにWasserstein距離を使用➤ Wasserstein Predictive Coding(WPC)- WDMの下界として提案- 相互情報量の増加により精度は低下するが、CPCより常に優れている
76評価系P. Goyal et al., “Scaling and Benchmarking Self-supervised Visual Representation Learning”, ICCV 2019.https://arxiv.org/pdf/1905.01235.pdf■ 自己教師学習の統合的な評価を実施➤ Pretext task/dataset1. Pretext task: Colorization/Jigsaw2. Dataset: ImageNet-1k/22k, YFCC-1M/10M/50M/100M➤ Target task- 画像識別, Low-shot画像識別, ナビゲーション, 物体検出, 法線推定, ファインチューニング, ImageNet線形識別➤ 評価の結果- データ数/モデルサイズのスケールにより自己教師学習は強化される- ナビゲーション,法線推定においてはImageNet事前学習を超えた
77その他Yuki M. Asano et al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020.https://openreview.net/forum?id=B1esx6EYvr■ Single Image Self-supervision➤ {BiGAN, RotNet, DeepCluster} + データ拡張による一枚絵からの表現学習- Pretext taskには{1, 10, 100}枚の画像を使用,他はデータ拡張用- データ拡張は{Cropping, Scaling, Rotation, Cont. Changes, Noise}➤ 結論- CNNの初期層(Conv 1, 2)は1枚の自然画像から十分学習可能- 枚数を増やして優位に学習できるのはConv 3以降 (e.g. 33.4 vs. 39.4)- 教師あり学習と同等のLow-levelな特徴は自己教師学習でも学習可能
78相互情報量系M. Tschannen et al., “On Mutual Information Maximization for Representation Learning”, ICLR 2020.https://arxiv.org/pdf/1907.13625.pdf■ 相互情報量最大化は本当によいのか?➤ 異なる2視点(different views)の相互情報量(MI)を一致- 上記のタスクを通して,相互情報量の最大化を評価- オリジナルの入力xよりも低次元な空間を推定可能- モデルの柔軟性を取れる; DeepInfoMax/CMC/CPCよりも利点がある➤ 下記を明らかにした- 必ずしもMI最大化がよくなるわけではない- エンコーディングの構造は重要なことを明らかにした
79相互情報量系J. Song et al., “Understanding the Limitations of Variational Mutual Infromation Estimators”, ICLR 2020.https://arxiv.org/pdf/1910.06222.pdf■ Self-consistencyによりトレードオフを解消➤ 相互情報量のトレードオフ(bias-variance)の改善を行う➤ Self-consistency(自己一貫性)により条件付けしてMI推定を改良➤ 従来のMI最大化の問題点(bias-variance tradeoffs)を、Self-consistencyにより改善
80再構成系J. Song et al., “Understanding the Limitations of Variational Mutual Infromation Estimators”, ICLR 2020.https://arxiv.org/pdf/2002.08822.pdf■ Automatic Shortcut Removal➤ 色収差の埋め込みと除去により特徴表現を学習- “Lens”の収差を埋め込むネットワークを学習・適用- 入力 / 埋め込み画像の誤差を推定➤ ASRを補助タスクとして適用- ImageNet / YouTube-8Mにより学習,ImageNet / Places 205により評価- 各Pretext task(e.g. Rot., Exemplar)に追加したら精度向上(表より)
81対比系K. He et al., “Momentum Contrast for Unsupervised Visual Representation Learning”, CVPR 2020.https://arxiv.org/pdf/2002.08822.pdf■ Momentum Contrast(MoCo)➤ Contrastive Learningを自己教師学習に適用- サンプリング画像/パッチ x^keyのエンコード特徴 k0, k1,...とクエリx^queryのエンコード特徴 q を比較,Contrastive Loss計算(左図)➤ 2種のPretext task,7種類のTargetタスク- Pretext: ImageNet-1M, Instagram-1B- Target: Pascal VOC, ImageNet, COCO-keypoint/pose, LVIS,CityScapes-instance seg./semantic seg.- いずれも良好な精度(右図はImageNet)
82対比系T. Chen et al., “A Simple Framework for Contrastive Learning of Visual Representations”, arXiv pre-print:2002.05709 2020.https://arxiv.org/pdf/1911.05722.pdf■ SimCLR: Simple Framework for Contrastive Learning of Visual Representations➤ Contrastive Learningについての各種検討- データ拡張:Crop, Cutout, Jitter, Sobel, Gaussian noise/blur, Rotation- バッチ数:256, 512, 1024, 2048, 4096, 8192- 学習時間:100, 200, 300, 400, … 1000 epochs- ほか:誤差関数,Linear eval.,
83その他X. Yan et al., “ClusterFit: Improving Generalization of VisualRepresentations”, CVPR 2020. https://arxiv.org/abs/1912.03330■ ClusterFit➤ 事前学習タスクで過学習しがちな特徴表現の汎化性向上- Pre-trainとFine-tuningの間にClusterFitステップを挿入(左図)- 位置付け的には弱教師事前学習(IG-3.5B的) + 自己教師学習(DeepCluster)➤ 画像/動画の11タスク(右下表)において評価- 例えばImageNet-1k@Jigsawでは約10%向上!- 大規模画像/動画タスクにおいて汎用的に使用可能
84対比系Misra et al., “Self-Supervised Learning of Pretext-Invariant Representations”, CVPR 2020.https://arxiv.org/abs/1912.01991■ Pretext-Invariant Representation(PIRL)➤ 画像変換に頑健な特徴表現学習- 元画像Iと変換画像I^tを異なるネットワークでエンコード- 両者の特徴が同様になるように誤差を計算して学習➤ 実験ではPretext taskと比較
85評価系Xiaohua Zhai et al., “A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark”, arXivpre-print:1910.04867v2, 2020. https://arxiv.org/pdf/1910.04867.pdf■ 多様なDownstream tasksによる評価ベンチマークを構築➤ The Visual Task Adaptation Benchmark- ImageNetで表現学習済みのモデルを19の多様なドメインの分類問題にFine-tuningした時のTop1 acc.の平均を評価値とする- 学習データとして全データ/1kサンプル使用する2つの設定を定義➤ 評価の結果わかったこと- 構造理解が必要な分類問題では特にSelf-sup.が強い- Discriminatorの中間特徴を用いる生成モデル系はスコアが総じて低い- Encoderも同時に学習する生成モデル系(BigBiGANなど)は強い- Human sup.にさらにSelf-sup.を加えて学習しても精度向上可能
86評価系C Liu et al., “Are Labels Necessary for Neural Architecture Search?”, arXiv pre-print:2003.12056, 2020.https://arxiv.org/pdf/2003.12056.pdf■ NASにおける教師あり/自己教師ありの検討➤ ラベルの有無で探索したアーキテクチャのランキングに高い相関あり(左上図)➤ 教師と自己教師により探索したモデルは類似する場合もある(左下図)➤ 教師と自己教師でほぼ同等,自己教師は一部精度の面で超える(右表)NASの文脈において教師は自己教師に置き換えられるかもしれない?ImageNetの探索, 人間教師(a)と回転(b)自己教師が類似
教師/自己教師による精度は相関が高い

87識別/再構成系Simon Jenniet et al., “Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics”, CVPR 2020.https://arxiv.org/pdf/2004.02331.pdf■ 大域的な特徴表現獲得のための変換識別タスクの提案➤ ImageNet学習済みモデルは局所的な特徴しか捉えていない(左上図)➤ “大域的情報を考慮しない画像補完”の識別による大域的特徴の学習(下図)➤ Rotation、Warpingなども含めた変換の多クラス識別によって各後段タスクでSoTA、ImageNet -> Placesのlinear evaluationでは教師あり学習を超える(右上表)上:オリジナル画像下:大域的な整合性を排除した画像ImageNet教師あり学習済みモデルは上下の識別が苦手
動画認識

89Pretext task@動画認識識別系 再構成系 生成モデル系その他Jigsaw相互情報量系 マルチモーダル系対比系(contrastive)推定系 メトリック系 評価系AutoEncodewith LSTMCVShuffle and LearnFCN + LSTMOdd-One-OutLearning Long-TermMotion DynamicsGeometryGuided CNNSSL by DRLFAb-NetSpace-TimeCubic PuzzlesSpatio-temporalRepresentaion Cycle-consistencyof TimeJoint-task TemporalCycle-ConsistencyLearningDense PredictiveCoding
90再構成 | 生成モデル系S Nitish et. al., “Unsupervised Learning of Video Representations using LSTMs”, ICML 2015.https://arxiv.org/pdf/1502.04681.pdf■ Autoencode with LSTM➤ Pretext task: 動画シーケンスの再構成・未来予測- autoencoder(L2), future predictor(ce loss), compositeを比較- 入力はAlexNetから得られる各フレーム特徴量- Sports-1M -> UCF-101, HMDB-51➤ 結果- compositeが教師ありに近い精度(約5ポイント減)- 長いシーケンス・異なるドメインの学習でも高い精度
91識別系I. Misra et. al., “Shuffle and Learn: Unsupervised Learning using Temporal Order Verification”, ECCV 2016.https://arxiv.org/pdf/1603.08561.pdf■ Shuffle and Learn➤ Pretext task: 入力シーケンスが時間的に正しく並んでいるか判定- optical flowの変化が大きい区間のフレームを3つサンプリング- フレームごとにAlexNetに入力 & concat- cross entropy loss➤ 行動認識の事前学習として実験- モーション差が大きい・負例が多いほど精度が高い- ImageNetはsemantic情報に注目しているのに対し提案手法は人間のポーズに注目している
92再構成系■ FCN+LSTMによる齧歯動物の姿勢・行動推定➤ ラットの前足の姿勢・行動の特徴表現を獲得したい➤ Pretext task: 前足detection+フレーム並べ替え- FCNが検出したbboxのフレーム順をシャッフルして、LSTMで正しい順番を予測- optical flowで前足bboxを作成➤ 結果(ラットと人間のポーズデータセットで検証)- queryに近いフレームの検出・Expertに近い性能を達成- detectionでoptical flowより高い高い性能を発揮(+18p)- bootstrap的に学習するとさらに精度向上(+18p+23p)B Brattol et al., “LSTM Self-Supervision for Detailed Behavior Analysis”, CVPR 2017.,http://openaccess.thecvf.com/content_cvpr_2017/papers/Brattoli_LSTM_Self-Supervision_for_CVPR_2017_paper.pdf
93■ Odd-One-Out Learning➤ Pretext task: 複数の入力シーケンスのうちフレーム順がおかしいものがどれかを推定- シーケンスをencodeしてからAlexNetに流す- 出力をconcatしてFCでOddを推定➤ 行動認識の事前学習で実験- 以下の設定で転移学習の精度が向上- sampling法: random、frame数: 6-10、encode:stack-of-diff- 当時のsslのSOTA手法を超えた- UCF101で+10p- HMDB51で+12.7p識別系B Fernando et. al, “Self-Supervised Video Representation Learning With Odd-One-Out Networks”, CVPR 2017.https://arxiv.org/pdf/1611.06646.pdf
94再構成系■ Long-Term Motion Dynamics➤ Pretext task: 入力フレームに対して未来の3Dフローを予測- RGB-Dモダリティで3Dフローを作成- flow spaceの分布でcross entropy lossを計算➤ 面白い点:flowのみを学習にもかかわらずDepthの再構成がきれい➤ Depth、RGBによるどちらの行動認識でも高精度- 3Dフロー予測で空間・時間の関係を見られるようになった?L Zelun et. al., “Unsupervised Learning of Long-Term Motion Dynamics for Videos”, CVPR 2017.https://arxiv.org/pdf/1701.01821.pdf
95再構成系■ Geometry Guided CNN➤ 2ステップで学習- 1st Pretext task: sythetic imageでoptical flowを学習- 使いやすDBでflowを学習できる- 2nd Pretext task: 3D moviesでdisparity map(depth)を学習- real domainに寄せる- 2ndを学習するときに1stを忘れないように蒸留とLwFを活用➤ SceneRecogで従来手法よりも高い性能を発揮- 1stと2ndをどちらもやることで精度が向上- ImageNetとのensembleで精度向上(異なる部分を見てる)C Gan et. al, “Geometry Guided Convolutional Neural Networks for Self-Supervised Video RepresentationLearning”, CVPR 2018. http://ai.ucsd.edu/~haosu/papers/cvpr18_geometry_predictive_learning.pdf
96識別系■ 訓練用データのシャッフルを強化学習で最適化➤ JigsawやShuffle&Learnではシャッフルしたパッチやフレームを入力し、正しい順序を識別- これまではシャッフルの仕方は固定- 本研究ではRLで訓練中のCNNの状態に合ったシャッフルを行う➤ 空間・時間領域ごとにDRLを学習- DRLはシャッフルした後の順序を出力- 報酬はval error、状態はsoftmaxをgather staticsticsしたもの➤ DRL: 2 FC layers, CNN: CaffeNetB Brattoli et. al., “Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning”, ECCV 2018.https://arxiv.org/abs/1807.11293
97再構成系■ Facial Attributes-Net (FAb-Net)➤ Pretext task: sourceフレームとtargetフレームを入力してtargetフレームを生成する- encoderは顔のアトリビュートをembeddingする- decoderはsourceとtargetのembeddingのcaoncatからsourceからtargetへの変化を推定し、bilinear samplingでtargetを生成する- Curriculum Leaningを使用(バッチの損失でランクを設定)➤ ランドマーク・ポーズ推定等で教師ありに近い性能を発揮Wiles O. et. al., “Self-supervised learning of a facial attribute embedding from video”, BMVC 2018.http://www.robots.ox.ac.uk/~vgg/publications/2018/Wiles18a/wiles18a.pdf
98識別系■ Space-Time Cubic Puzzles➤ Pretext task: 時間方向と空間方向のタスクを同時学習(左図参照)- 時間方向(フレーム並べ替え): 59.3@UCF101- 空間方向(Jigsaw Puzzle): 58.5@UCF101➤ 3D CNNを高度に学習(右表参照)- C3Dにて60.6@UCF101, 28.3@HMDB51- 3D ResNet-18にて65.8@UCF101, 33.7@HMDB51D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.https://arxiv.org/pdf/1811.09795.pdfPretext taskのイメージ図.空間(Jigsaw Puzzle)と時間(フレーム並べ替え)を同時に実行する.動画像の特性をうまく利用した学習体系となっている.
Pretext taskにSpace-Time Cubic Puzzles(3D ST-puzzle)を用いた結果を表示.従来ではUCF101にて50%代であったが,精度を大幅に向上することに成功した.

99識別系■ 人間の認知システムに倣った動き推定タスク➤ pretext task : 動画の1フレームをパッチに分割し,動きが最大のパッチ・動きの多様性が最大のパッチ・動きが最小のパッチを推定- 人間は動きが最も大きい部分(物体)と動きが最も小さい部分(背景)を分けて近くすることに着目- 様々なパッチ分割(格子状・放射状など)で検証- 行動認識,シーン理解などのタスクにおいてSSLのSOTAを更新J.Wang et al, “Self-supervised Spatio-temporal Representation Learning for VIdeos by predicting motion and appearancestatistics”, CVPR2019. https://arxiv.org/pdf/1904.03597.pdf
100再構成系X Wang et al., “Learning Correspondence from the Cycle-consistency of Time”, CVPR 2019.https://arxiv.org/pdf/1904.11407.pdf■ Cycle-consistency of Time➤ 動画内のパッチを逆再生である時点までトラッキングし,開始時点まで再びトラッキング→ 開始時と終了時のパッチの空間座標のユークリッド距離を最小化するcycle-consistency loss(左図)➤ mask, pose等複数のpropagationタスクで自己教師の中でSOTADAVIS-2017でのmask propagationの評価
101推定系■ 関連性の高い2つのタスクを1つ類似度行列で同時に学習➤ task1とtask2を交互に学習し相乗効果を得る- Pretext task1: Object-level matching (物体追跡)- フレームとクロップされたパッチの類似度行列を計算- Pretext task2: Fine-grained matching (ピクセルカラーマッチング)- パッチとtask1から得られるクロップの類似度行列を計算- カラーパッチを参考にtask1のクロップをカラー化- 2つのタスクの類似度行列を1つの行列で表現する➤ 物体、部位、キーポイント検出でImageNet-ResNet-18に近い性能を発揮Xueting L. et al., “Joint-task Self-supervised Learning for Temporal Correspondence”, NIPS 2019.https://arxiv.org/abs/1903.07593
102メトリック系■ 二動画間で起きているアクションの埋め込みを時間的に整列する表現学習➤ 同一アクションの起きている動画からアクションの中のシーケンスをCycle-consistency を使用して時間的に整列する- Cycle-back Classification- Embedding 空間で微分可能な最近傍点を取得、行って戻ってきた点が一致するかどうかの損失- Cycle-back Regression- 戻ってきた最近傍点がずれているオフセットと分散を小さくする損失➤ フレーム単位の類似度検索・異常検知に有効D. Dwibedi et al., “Temporal Cycle-Consistency Learning”, CVPR 2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Dwibedi_Temporal_Cycle-Consistency_Learning_CVPR_2019_paper.pdf
103推定系■ 数秒先までの動画特徴量を予測し、空間特徴を保持した DensePredictive Coding による表現学習➤ 特徴量の予測誤差には Noise Contrastive Estimation を特徴マップに対して Dense に行う- 予測した特徴マップに対して時間・空間的負例よりも正解に近いかどうかを判定- 実験では約2.5秒クリップからその先約1.5秒を予測➤ 遠い未来予測を行えば事前学習精度は下がるが、Downstream task において性能は向上T. Han et al., “Video Representation Learning by Dense Predictive Coding”, ICCV 2019 Workshop,http://openaccess.thecvf.com/content_ICCVW_2019/papers/HVU/Han_Video_Representation_Learning_by_Dense_Predictive_Coding_ICCVW_2019_paper.pdf
マルチモーダル
(Audio-Visual)

105マルチモーダル系(Audio-visual)■ ラベルのない動画から音と画像の特徴を学習➤ Audio-visual correspondence (AVC)- 動画では視覚情報と聴覚情報のアラインメントが取れていることを利用- 同じ動画の同時刻のペア (正例) と違うビデオから取ってきたペア (負例)を識別できるように各モダリティの特徴抽出器を学習➤ Audio-visual embedding network- 各モダリティの特徴量のユークリッド距離を利用➤ Audio-visual object localization network- 画像特徴量のどこが音響特徴量に反応しているかを特定し音源定位R. Arandjelović et al., “Objects that Sound”, ECCV 2018. https://arxiv.org/pdf/1804.03641.pdf
106マルチモーダル系(Audio-visual)■ 動画内の時系列のアライメントに着目➤ Early fusion- 音と関係する動きをモデリングするために視覚情報と聴覚情報それぞれが時系列の情報を持つ比較的浅い層の段階で情報を統合し3D conv.➤ Action recognitionの事前学習として有効性を確認- 別の動画のデータを負例として使うより,同動画内の別時刻のデータを負例として使うことで性能改善(動きに関する特徴量を獲得)A. Owens et al, “Audio-Visual Scene Analysis with Self-Supervised Multisensory Features”, ECCV 2018.https://arxiv.org/pdf/1712.06651.pdf
107マルチモーダル系(Audio-visual)■ 顔と声の埋め込みによるクロスモーダルの検索➤ 埋め込みの学習- 同じ動画のペア (正例) と違うビデオから取ってきたペア (負例)を用いてContrastive lossで学習➤ カリキュラムラーニング- Contrastive lossによる学習では識別困難な負例を活用すると性能が改善- 学習途中の埋め込み同士の距離を利用して識別困難か判断A. Nagran et al., “Learnable PINs: Cross-Modal Embeddings for Person Identity”, ECCV 2018.https://arxiv.org/abs/1804.01665
108マルチモーダル系(Audio-visual)■ アライメントに着目したカリキュラム学習の解析➤ Audio-Visual Temporal Synchronization- 同じ系列の同じ時刻のペアかどうかにもとづいてContrastive lossで学習➤ 様々な負例を利用したカリキュラムラーニング- Easy negative: 別の動画の音- Hard negative: 同じ動画の離れた区間の音➤ 評価の結果- カリキュラムラーニングで正例/負例の識別性能改善(評価はEasyのみ)- ダウンストリームタスクの性能も同様の傾向B. Korbar et al., “Cooperative learning of audio and video models from self-supervised synchronization”, NeurIPS 2018.https://arxiv.org/pdf/1804.03160.pdf
109マルチモーダル系(Audio-visual)■ 360°動画とモノラル音源からの音場合成➤ 4段階の音場合成(a) モノラル音源と360°動画からの特徴抽出(b) 音源分離を行う時間周波数マスクの推定(動画の特徴量も利用)(c) 分離した音源ごとの位置に関する重みを動画からDNNで計算(d) 観測音場の基底にかかる係数を分離音の重み付き和で推定➤ 自己教師あり学習としてのメリット- 音源位置に関する教師情報を用いずに画像内の音源位置を推定可能➤ Youtubeから音場のデータを持った動画を集めたデータセットを構築P. Morgado et al., “Self-Supervised Generation of Spatial Audio for 360° Video”, NeurIPS 2018.https://arxiv.org/abs/1805.00833
110マルチモーダル系(Audio-visual)■ クラスタリングに基づく自己教師あり学習➤ Audio-visual correspondenceにもとづいた学習の課題- 単一の音源物体が画像の中で支配的であることを暗に仮定- 楽器のソロ演奏動画においては妥当な仮定だが一般の画像には非現実的➤ クラスタリングによる学習- 各モダリティで得られらた特徴量をクラスタリング- 同じ音源物体に関する音と画像の特徴量が集まることを期待- K-means法の目的関数を微分可能に近似し最適化する手法を提案D. Hu et al., “Deep Multimodal Clustering for Unsupervised Audiovisual Learning”, CVPR 2019.http://papers.nips.cc/paper/8002-cooperative-learning-of-audio-and-video-models-from-self-supervised-synchronization.pdf
111マルチモーダル系(Audio-visual)■ 音声から話者の顔画像の埋め込みベクトルを推定➤ 目的: 音声から話者の顔を推定- Face Recognition: ラベル付きの顔画像を用いた顔認識で事前学習- Decoder: 顔認識で事前学習したDNNの中間特徴量から顔画像を推定- Encoder: 動画内の顔画像の特徴量(話者idは未知)を音から推定 (Encoderの学習が人手のラベリングを用いない自己教師ありの知識蒸留)➤ 評価の結果- 顔画像の推定では概形をとらえられたが,男性の子供→女性等も- 話している言語も顔画像の推定結果に影響することを確認TH. Oh et al., “Speech2Face: Learning the Face Behind a Voice”, CVPR 2019.http://papers.nips.cc/paper/7319-self-supervised-generation-of-spatial-audio-for-360-video.pdf
112マルチモーダル系(Audio-visual)■ 音による画像内の音源物体検出➤ 目的: 音からの移動している車両の定位- 2chの音源から物体検出するDNNを学習済みのYOLOv2の中間特徴量と出力をまねるように学習➤ Auditory Vehicle Tracking dataset- 2chの録音と動画のデータセットを構築(評価用の正解ラベルもあり)➤ 評価の結果- 音による定位は照明条件に頑健なので物体追跡の性能改善が期待できるC. Gan et al., “Self-supervised Moving Vehicle Tracking with Stereo Sound”, ICCV 2019.http://www.justinsalamon.com/uploads/4/3/9/4/4394963/cartwright_tricycle_waspaa2019.pdf
113マルチモーダル系(Audio-visual)■ Cross-Modal Deep Clustering (XDC)➤ 教師なしの表現学習手法Deep clusteringのマルチモーダル拡張- 音/動画から得られた特徴量をクラスタリングしたものを動画/音の教師 ラベルに使用(相補的に教師ラベルを作成)➤ 行動認識での評価- 自己教師あり学習のデータセットの規模を上げることで性能改善- 小規模データセットにおいて教師あり学習を上回ることを確認- MDC/CDCと比べてXDCのほうが複数のタスクで有効なことを確認H. Alwassel et al., “Self-Supervised Learning by Cross-Modal Audio-Video Clustering”, arXiv pre-print:1911.12667, 2019.https://arxiv.org/abs/1911.12667
114マルチモーダル系(Audio-visual)■ ドメイン間のデータの変換に注目➤ データ拡張・モダリティに不変な特徴量の学習- データ拡張に不変な特徴量の学習は自己教師あり学習で高性能(例: MoCo)- 異なるドメインのデータに関しても同様にとらえ,対応したデータを近づけるようにContrastiveロスで学習➤ 行動認識での評価- 理論的に大きな改善は見られないが性能的にはSOTAを達成- IG65Mを使えば更なる性能改善の可能性もありM. Patrick et al., “Multi-modal Self-Supervision from Generalized Data Transformations”, arXiv pre-print:2003.04298, 2020.http://openaccess.thecvf.com/content_CVPR_2019/papers/Oh_Speech2Face_Learning_the_Face_Behind_a_Voice_CVPR_2019_paper.pdf
メタサーベイ

メタサーベイ??● 論文の背景にある知識等に着目● 代表的な評価法と精度の変遷● SSLのトレンド● 注目研究者● いかに研究体制(メンバーや環境)を整えるか?という部分にフォーカス116

検証用データベースの変遷■ Pretext task➤ ImageNet-1k→ImageNet-22K, YFCC100M- 多くの大規模データベースが提案され,大量のデータでPretext taskを解くことで精度が上がるかを調査■ Fine-tuning task➤ Pascal VOC→ImageNet (1%/10% label)- 従来手法との比較でPascal VOCも使われるが,Classificationでの評価が主流!?- より汎用的な特徴量獲得を評価するためにVideoにも適用する流れ- 実用的なシステムを考えた際にFine-tuning先で少数のラベルであっても適用可能かを調査今回は,ImageNet-{1k,22K}→PASCAL VOC07ImageNet→ImageNet(ALL, 10% Label)においての精度比較を調査117
Method Conference Network Parameters(Millon)ClassificationTop-1(%mAP)Rotatioinc CVPR16 ResNet50(w4×) 86 55.4Colorize ECCV16 ResNet101 28 39.6Jigsaw ECCV16 ResNet50(w2×) 94 44.6DeepCluster ECCV18 VGG 15 48.4AMDIM arXiv Custom-ResNet 626 68.1LA ICCV19 ResNet50 24 60.2BigBiGAN NeurlPS19 ResNet50(w4×) 86 61.3CPCv2 arXiv ResNet50 24 63.8CMC ICLR20 ResNet50(w2×) 188 68.4PILR CVPR20 ResNet50 25.6 63.6MoCo CVPR20 ResNet50(w4×) 375 68.6SimCLR arXiv ResNet50(w4×) 375 76.5Supervised — ResNet50 24 76.3Supervised — ResNet50(w4×) 375 76.8比較{Self, Un}-supervised learning on ImageNet => linear classifiers on ImageNet118
Method Conference Network ClassificationTop-5(%mAP)Random init — ResNet50 59.0Rotatioin CVPR16 ResNet50(w2×) 86.4Colorize ECCV16 ResNet152 62.0Jigsaw ECCV16 ResNet50 79.3NPID++ CVPR18 ResNet50 81.5AMDIM arXiv Custom-103 85.8BigBiGAN NeurlPS19 ResNet50(w4×) 78.8CPCv2 arXiv ResNet161 91.2PILR CVPR20 ResNet50 83.8SimCLR arXiv ResNet50(w4×) 92.6Supervised — ResNet50 93.2比較{Self, Un}-supervised learning on ImageNet => Fine-tuing on ImageNet (Label 10%)119
Method Conference Classification(%mAP)Detection(%mAP)Segmentation(%mIoU)Random init. — 53.3 43.4 19.8Colorize ECCV16 65.9 46.9 35.6Jigsaw ECCV16 67.7 53.2 ーBiGAN ICLR17 60.1 46.9 34.9Rotation ICLR18 73.0 54.4 39.1Jigsaw++ CVPR18 69.8 55.5 38.1DeepCluster ECCV18 73.7 55.4 45.1Supervised — 79.9 59.1 48.0比較{Self, Un}-supervised learning on ImageNet-1K => Fine-tuing on Pascal VOC2007{Self, Un}-supervised learning on ImageNet-22K => Fine-tuing on Pascal VOC2007Method Conference Classification(%mAP)Detection(%AP50)Segmentation(%mIoU)PILR CVPR20 81.1 73.4 —MoCo CVPR20 — 74.9 —Supervised — 87.5 74.5 — 120
121 相互情報量の最大化(1/7)
122 相互情報量の最大化(2/7)(結果として)この目的関数を最適化している手法がいくつかある
123 相互情報量の最大化(3/7)
124 相互情報量の最大化(4/7)
125 相互情報量の最大化(5/7)論文中ではInfoMax principleとの詳細な関係はほとんど触れられていないが発想のベースにはあったのではと考えられる
126■ Deep INFORMAX (DIM)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 実験では画像の部分パッチと画像全体の特徴量について最大化すると最も良かった■ Contrastive Predictive Coding (CPC)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 現在までの系列情報と先の系列情報の相互情報量を最大化相互情報量の最大化(6/7)
127■ Deep INFORMAX (DIM)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 実験では画像の部分パッチと画像全体の特徴量について最大化すると最も良かった■ Contrastive Predictive Coding (CPC)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 現在までの系列情報と先の系列情報の相互情報量を最大化相互情報量の最大化(7/7)・従来のNATやIDと異なり,いずれも欠損情報と全体(もしくは欠損してる部分)の情報間で相互情報量の最大化を行うことが効果を発揮している・DIM、CPCの損失関数はConrastive Lossに繋がっており、MoCoやsimCLRも相互情報量最大化の要素を含んでいると考えられる
128■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的■ 実際は(cls., det., seg.)のみの評価がほとんど➤ 最初に決めたから?現状,あまり問題意識はない分野全体が過学習?(1/5)モデルPretext taskex. ImageNetw/o labelsex. AlexNetTarget task学習+画像データ ラベルモデル学習 画像データ(ex. Pascal VOC segmentation)
129■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的■ 実際は(cls., det., seg.)のみの評価がほとんど➤ 最初に決めたから?現状,あまり問題意識はない■ Pretext taskの定義の仕方が上記のTarget taskに過学習していないか?分野全体が過学習?(2/5)モデルPretext taskex. ImageNetw/o labelsex. AlexNetTarget task学習+画像データ ラベルモデル学習 画像データ(ex. Pascal VOC segmentation)
130■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的■ 実際は(cls., det., seg.)のみの評価がほとんど➤ 最初に決めたから?現状,あまり問題意識はない■ Pretext taskの定義の仕方が上記のTarget taskに過学習していないか?➤ 実は他のtask・domainでは異なる結果になるのでは?(ex. Rotation)➤ 高次なtarget taskでの評価ため,情報量保存的アプローチは不利分野全体が過学習?(3/5)A. R. Zamir +, “Taskonomy: Disentangling Task Transfer Learning”, CVPR 2018
131■ 案1: あらゆるtarget taskで評価⭕ 数によってはある程度の納得感❌ 大変■ 案2: 入力と特徴量間の相互情報量で評価❌ 厳密な計算が不可(NNを用いた推定ベースならDIMなどでは採用)■ 案3: Target taskを(ある程度)限定(task or domain specificな表現学習)⭕ 問題は解消される❌ (汎用性という意味での)ありがたみが薄れる,ほぼ半教師あり学習分野全体が過学習?(4/5)
132■ 案1: あらゆるtarget taskで評価⭕ 数によってはある程度の納得感❌ 大変■ 案2: 入力と特徴量間の相互情報量で評価❌ 厳密な計算が不可(NNを用いた推定ベースならDIMなどでは採用)■ 案3: Target taskを(ある程度)限定(task or domain specificな表現学習)⭕ 問題は解消される❌ (汎用性という意味での)ありがたみが薄れる,ほぼ半教師あり学習分野全体が過学習?(5/5)表現の良さの評価は非常に難しい…
133■ Context Pred. (CP) vs. Jigsaw Puzzle (JP)➤ CP: 高次な情報を必要としない- しかし,実際に捉えてほしいのは高次(semantic)な情報- パッチ境界の低レベルな情報のみで相対位置の推定が可能?- パッチ間にgapをつける- パッチ位置をjittering➤ JP: 局所特徴を捉えて順列- CPの曖昧性を解消したことが精度向上?- JP 67.7 vs. CP 55.3 @VOC’07 Cls.- 境界など詳細な特徴も捉えて識別Pretext taskの分析(1/5)例えば…境界やその外挿で判断できなくする① ➁⑤Context Pred.①②⑤を基準とした相対位置推定は 困難Jigsaw Puzzle高次な情報を捉えることに成功か?
134■ 回転によるPretext task- 4方向を推定するタスク- 論文中では2方向,8方向など実施- シンプルながら非常に効果が大きい- 91.16@CIFAR-10 (vs. 92.80 w/ Supervised)- 72.97@VOC’07 (vs. 79.9 w/ Supervised)Pretext taskの分析(2/5)回転による自己教師画像の大域的な特徴を(ある程度)捉えやすい?Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.https://arxiv.org/abs/1803.07728
135■ Shuffle & Learn- フレーム並べ替え- 58.5% @ UCF-101■ Shuffle & Learn + Jigsaw Puzzle- 上記に +Jigsaw Puzzle(空間情報把握)- 65.8% @ UCF-101Pretext taskの分析(3/5)フレームの時系列順列(時間)+空間的順列(空間)を同時学習動画認識では時間 + 空間の3次元的な表現の同時学習が重要D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.https://arxiv.org/pdf/1811.09795.pdf
136■ タスクのちょうど良い難易度が精度に関係?➤ 簡単/曖昧すぎる情報を推定しても表現が足りない- e.g. Context Prediction➤ 難しすぎても表現できない- e.g. VAE/GAN (少ない補助情報で画像を完全に再現)■ 大域的特徴 vs. 局所的特徴 vs. 動き特徴➤ 大域的- e.g. Rotation➤ 局所的- e.g. Jigsaw Puzzle➤ 動き- e.g. Object Segmentation, Shuffle & LearnPretext taskの分析(4/5)
137■ 組み合わせでもちょうど良い難易度を保つ➤ 組み合わせによる精度向上例- Joint Unsupervised LEarning (JULE)- 特徴表現 + 擬似カテゴリ- Multi-task SSL- CP + Color + Motion Segment + Exemplar- Jigsaw Puzzle++- 2枚の画像でシャッフル- Shuffle & Learn + Jigsaw Puzzle- 時系列フレーム入れ替え + 空間シャッフルPretext taskの分析(5/5)
138■ 2016年発表のJigsaw論文が引用回数391回(2020年現在)➤ ベルン大学でPh.D➤ 博士論文は自己教師Visual Representation➤ 現在はBosch Center for A.I.でResearch Scientist➤ CVPR, ICCV等トップ国際会議に論文を複数通している➤ 代表的な論文Mehdi Noroozi(1/7)- Unsupervised Learning of VisualRepresentations by Solving JigsawPuzzles (ECCV 2016)- Representation Learning by Learningto Count (ICCV 2017)- Boosting Self-Supervised Learning viaKnowledge Transfer (CVPR 2019)https://scholar.google.ch/citations?user=NbW68EAAAAAJ&hl=en
139■ 毎年Firstでトップ国際会議➤ カーネギーメロン大学でPh.D➤ 博士論文はVisual Learning with Minimal HumanSupervision➤ 現在はFAIRのResearch Scientist➤ CVPRにfirstで5本,Second含めると7本➤ CVPR2020に3本Accept➤ 代表的な論文Ishan Misra(2/7)- Cross-stitch Networks for Multi-tasklearning (CVPR 2016)- Shuffle and Learn: Unsupervised Learningusing Temporal Order Verification (ECCV2016) https://imisra.github.io/
140■ 総引用数1649回(2020年現在)➤ MIT CSAILでPh.D➤ 博士論文は Learning Visual Models from PairedAudio-Visual Examples➤ 現在はミシガン大学EECS学科の助教➤ ほぼ毎年Firstでトップ国際会議➤ Multi-modalなSelf-supervisionのスペシャリスト➤ 代表的な論文Andrew Owens(3/7)- Visually Indicated Sounds (CVPR 2016)- Ambient Sound Provides Supervision forVisual Learning (ECCV 2016)- Audio-visual scene analysis withself-supervised multisensory features(ECCV 2018)http://andrewowens.com/
141■ Audio-Visual統合の研究を先導➤ MIT CSAILでPh.D➤ 現在はテキサス大学オースティン校の教授とFAIRのResearch Scientistを兼任➤ IROS 2019やSANE 2019(音響信号処理のWS)で講演➤ CVPR2020共著6件 (うち4件oral)➤ 代表的な論文Kristen Grauman(4/7)- Learning to separate object sounds bywatching unlabeled video (ECCV 2018)- 2.5D visual sound (CVPR 2019)- Co-Separating sounds of visual objects(ICCV 2019)- Listen to look: action recognition bypreviewing audio (CVPR 2020)http://www.cs.utexas.edu/users/grauman/
142■ Contrastive Predictive Codingの第1著者➤ ゲント大学でPh.D➤ 現在はDeepMindのResearcher➤ 生成モデルの研究でも非常に有名(PixelRNN, WaveNet,VQ-VAEのfisrt)➤ 代表的な論文Aäron van den Oord(5/7)- Pixel Recurrent Neural Networks (ICML2016)- Neural Discrete Representation Learning(NIPS 2017)- Representation learning with contrastivepredictive coding (2018)- Data-efficient image recognition withcontrastive predictive coding (2019) https://avdnoord.github.io/homepage/
143■ Cross-modal SSLを先導➤ MIT CSAILでPh.D,現在は同Reserach Scientist➤ Speech/spoken languageとvisualのcross-modalに早くから着手 (ASRU2015)➤ ECCVとACLにfirst1本ずつ(ICASSP, Interspeech等多数)➤ 代表的な論文David Harwath(6/7)- Deep Multimodal Semantic Embeddings forSpeech and Images (ASRU 2015)- Unsupervised Learning of Spoken Languagewith Visual Context (NIPS 2016)- Jointly discovering visual objects and spokenwords from raw sensory input (ECCV 2018)- Learning Hierarchical Discrete Linguistic Unitsfrom Visually-Grounded Speech (ICLR 2019)https://people.csail.mit.edu/dharwath/
144■ CV・マルチビュー幾何学の第一人者➤ Univ. of Oxford, VGGの教授➤ DeepMindにも所属・提携している➤ Mulitple View Geometry in Computer Vision著者- R. Hartley氏との共著でCV分野において不朽の名作- 数学の説明が素晴らしい!➤ VGGNetの著者でもある(CVなら大体なんでもすごい!)➤ 動画系のSSLも空間特徴・数学の観点から攻めている印象➤ 代表的な論文- Very Deep Convolutional Networks for Large-Scale Image Recognition(ICLR 2015)- Multiple view geometry in computer vision(Cambridge University Press 2000)- The pascal visual object classes (VOC) challenge(International Journal of Computer Vision 2010)- Temporal Cycle Consistency Learning (CVPR 2019)- Two-stream convolutional networks for action recognition in videos(NeurIPS 2014)Andrew Zisserman(7/7)https://www.robots.ox.ac.uk/~az/
FAIR(Facebook AI Research; 1/11)145■ 世界の物体検知自己教師学習研究を牽引するFAIR➤ 激強研究機関- 強い研究者が集合,議論してさらに強くなる➤ 画像認識におけるトレンド創出- Mask R-CNN/RetinaNetなど➤ 強い基盤を保有- PyTorch/Caffe2などに代表- Detectronは誰もが使用できる物体認識オープンソーススライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (2/11)146■ 激強研究機関➤ 所長はYann LeCun(左; CNNの考案者の一人)➤ トップの国際会議に毎回数本〜数十本論文通す➤ トップ研究者を常時採用(+厳しい面接を突破)- InternですらNIPS/ICML/CVPR等の主著成果が推奨されているhttps://research.fb.com/category/facebook-ai-research/ 1ページ10本リストされているページが66!(全体で660弱くらいの論文が採択?)
https://research.fb.com/publications/page/9/2019年2月時66pからの104p!
(1年で存在感がさらに増した!)
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-grouphttps://research.fb.com/publications/page/9/【2019年2月時】
 【2020年4月時】

FAIR (3/11)147■ 物体検知分野の著名研究者(覚えておくと得します)➤ Kaiming He- ResNet, Mask R-CNN, Faster R-CNN, Focal Loss等- http://kaiminghe.com/➤ Ross Girshick- DPM, R-CNN, Fast/Faster/Mask R-CNN, YOLO, Focal Loss等- http://www.rossgirshick.info/➤ Piotr Dollar- Caltech Pedstrian DB, MSCOCO, ICF, Mask R-CNN等- https://pdollar.github.io/- 他多数。。。スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (4/11)148■ 自己教師学習分野の著名研究者(覚えておくと得します)➤ Kaiming He- ResNet, Mask R-CNN, Faster R-CNN, Focal Loss, MOCO,MOCOv2, SSL+NAS等- http://kaiminghe.com/➤ Ross Girshick- DPM, R-CNN, Fast/Faster/Mask R-CNN, YOLO, Focal Loss,MOCO, MOCOv2, SSL+NAS等- http://www.rossgirshick.info/➤ 物体検出のみならず,自己教師学習においても存在感スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (5/11)149■ 自己教師学習分野の著名研究者(覚えておくと得します)➤ Ishan Misra(注目研究者でも紹介)- Shuffle and Learn等- https://imisra.github.io/➤ Kristen Grauman(注目研究者でも紹介)- 2.5D Visual Sound, Listen to Look等- 音声以外にも動画, 一人称ビジョン, ファッション等多数- http://www.cs.utexas.edu/users/grauman/➤ Priya Goyal- ImageNet in 1 Hour, Focal Loss, Scaling & Benchmarking等- Engineerとしての能力も高い- https://scholar.google.co.in/citations?user=-9yiQMsAAAAJ&hl=enスライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (6/11)150■ 自己教師学習のトレンドを創出➤ MoCo(CVPR 2020 Oral) -> MoCo v2- 短期間(v1; 2019/11, v2; 2020/03)にアップデート- 詳細は論文サマリ参照- SimCLR等にも影響➤ Scaling and Benchmarking- 長らく見直されていないルールを改正(しようと提案)- AlexNetのみの評価をResNet-50などを使用- Pretext taskの使用データセットのサイズについて評価- 画像識別以外のタスクについても転移学習スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (7/11)151■ 自己教師学習でトレンドを創出するには?1. シンプルアイディア2. 劇的な精度向上3. コードを公開の3拍子は(物体検知, 自己教師学習に限らず)CV界で非常に大きく評価されるMoCoシリーズ,Shuffle & Learn, Scaling & Benchmarkingも3拍子揃えている
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-groupMoCo: https://github.com/facebookresearch/mocoShuffle & Learn: https://github.com/imisra/shuffle-tupleScaling & Benchmarking: https://github.com/facebookresearch/fair_self_supervision_benchmark
FAIR (8/11)152■ 研究はインターンも重要な戦力?➤ 有名研究室エース学生がインターンすること多し➤ やはり有名研究者と数ヶ月に渡り研究を実施Fellowshipプログラムも充実($42,000/year, トラベルサポート込)
https://research.fb.com/programs/fellowship
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (9/11)153■ FAIRのデータ基盤➤ Facebook/Instagramを使用➤ SNSを用いた弱教師によるPre-trainの実行(下図)- Hashtagでラベル付/スケール増加- 35億枚の画像により特徴表現学習(Instagram-3.5B; IG-3.5B)- 2019年は動画版を作成(Instagram-65M; IG-65M)[Mahajan+, ECCV18]FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築
https://arxiv.org/abs/1911.12667IG-65MはCross-ModalDeep Clustering (XDC)にも使用
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (10/11)154■ メタな部分を常に考えている?➤ 手法とともにデータの分析も行う➤ Scaling & Benchmarking (ICCV 2019)- データ量やモデルサイズにスケールする? -> やはりする- AlexNet -> ResNet-50/ImageNet -> YFCCにより精度向上- 画像識別 -> 多様なタスク(場合によっては教師あり学習よりも精度高)画像枚数の増加に伴い,
性能は高くなる傾向
Pretext task(Jigsaw, Colorization)と画像枚数の関係性
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
FAIR (11/11)155■ メタな分析➤ トレンドを創れる研究者が議論してさらに強いベースラインを作り続ける➤ 膨大なデータ量,豊富な計算リソース➤ メタな部分を研究者(や運営)が常に考え続ける- メタサーベイについても大きく先を行っている!スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
156VGG(Visual Geometry Group; 1/5)トレンドを創り続ける研究室■ 激強大学研究室➤ 主宰はAndrew Zisserman & Andrea Vedaldi➤ トップの国際会議に毎回数本〜数十本論文通す➤ トップ研究者を多数輩出- 関係者にはCordelia Schmid氏(INRIA/Google),Karen Simonyan氏(DeepMind),Andrew Fitzgibbon氏(MSR)などhttp://www.robots.ox.ac.uk/~vedaldi/http://www.robots.ox.ac.uk/~az/
157■ VGGの代表研究➤ Multiple View Geometry in Computer Vision- 研究ではないが,不朽の名作にしてMulti-view Geometryの入門書- CVのカメラ幾何について詳細に解説- R. Hartley, A. Zisserman, “Multiple View Geometry in Computer Vision”, Cambridge University Press.➤ VGGNet- GoogLeNetと並びDeeper Networkの走り(その後ResNetへ継承)- StyleTransferやAdversarial Examplesでは現在も使用され研究が進められている- K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-scale Image Recognition”, in NIPS 2014.➤ Pascal VOC- 物体検出において最初のデファクトスタンダード- 物体検出の研究が劇的に進捗する礎となった- M. Everingham, L. V. Gool, C. Williams, J. Winn, A. Zisserman, “The Pascal Visual Object Classes (VOC) Challenge”, in IJCV 2010.VGG(2/5)
158■ 最近の自己教師学習や関連研究➤ Single Image Self-supervision(論文サマリ参照)- 1枚,もしくは少量(10〜100枚)の画像から自己教師学習- 初期層(Conv1, 2)は1枚の画像から十分学習可能と判断➤ Deep Image Prior- 画像の事前情報からノイズ等を除去して再構成- 画像の自然さと再構成誤差を計算して学習➤ Learnable PINS: Cross-Modal Embeddings for Person Identity- 音声と顔の動画のペアデータを用いて個人を識別できる埋め込み空間を人手のラベリングなしで獲得➤ その他多数!VGG(3/5)Yuki M. Asano et al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020/05.https://openreview.net/forum?id=B1esx6EYvrD. Ulyanov et al., “Deep Image Prior”, CVPR 2018.https://sites.skoltech.ru/app/data/uploads/sites/25/2018/04/deep_image_prior.pdfA. Nagrani et al., “Learnable PINS: Cross-Modal Embeddings for Person Identity”, ECCV 2018.https://arxiv.org/pdf/1805.00833.pdf
VGG(4/5)159■ メタな分析➤ 現在,主宰の2人が兼任- Zisserman氏がDeepMind- Vedaldi氏がFacebook AI Research(FAIR)- 外部からの人脈交流も発生- 兼業しながら縮退せずさらに加速させるところがすごい!➤ Vedaldi氏はVLFeatをリード- 主に局所特徴量抽出(e.g. HOG, SIFT)やマッチングの画像処理ライブラリ- 2007年からライブラリを運営- 実装面でのフィードバックも研究に反映?スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
VGG(5/5)160■ メタな分析➤ 多様な研究- 時代に合わせて研究を変化させ,各時代でトレンドを創出- Detection & Tracking, Retrieval, Art Recog., Video Recog., AudioRecog., CNN, SSLなど- Geometry Groupと言いつつもなんでもやる- https://www.robots.ox.ac.uk/~vgg/research/➤ データの収集も自ら行う- 深層学習時代の前から蓄積- Pascal VOCは特に有名- Lip Reading in the Wild: BBCの映像+音声読み上げにより収集- その他,VGG Face, Text Recog. Dataset, Flower, Petなど
161■ 自己教師学習(SSL)の研究を概観➤ 導入:問題設定,SSLの分類,代表例,最近のSSL➤ 論文サマリ:画像/動画/音声認識➤ メタサーベイ :精度の比較,トレンド,注目研究者,注目研究機関■ 現在のSSL➤ 代表的なPretext taskは決まってきた- Jigsaw, Rotationなど- Contrastive Learning, 相互情報量が最近のトレンド➤ ImageNetの教師に近接する精度を実現- MoCo(v2), SimCLR■ 今後のSSL➤ 精度向上!コンパクトモデル!- JFT-300M(Google)やIG-3.5B(Facebook)レベルの認識精度- ImageNetのSOTA(TOP-1で90%弱)を自己教師により達成- コンパクト化(MobileNet的な小さなモデル,Low-shot学習のように少ない教師)➤ 転移学習タスクの多様化- 画像識別以外のタスク(e.g. ナビ, 3D推定)も研究が始まっている!➤ ILSVRC 2012以降の深層学習の研究の歴史を辿るのでは?まとめ
162■ CVPR2018まで➤ アイデアベースで多様な手法が発表されてきた(お蔵入もたくさんあったはず)➤ 画像のデータ構造に着目したSelf-supervised learningが優位だった (Rotation,Jigsaw…)■ 現在の動き➤ データ構造に依存しない手法がうまくいきはじめた(Deep Cluster, 相互情報量に着目したアプローチ)➤ データ構造に依存した手法は画像データのドメインによってうまくいくかが左右される考え(rotation on Placesの結果参照)■ 今後の展望➤ 手法的な展望- データ構造に依存しない手法がさらに発展(具体的には想像がつかない)➤ 研究領域としての展望- 打倒教師あり学習 (ImageNet pretrainedを超える)- Task-specificな教師なし学習 (現在もありますが…)こちらの方がデータ構造に着目するself-supervised learningと相性が良さそうまとめ(2018年版)
163■ 面白いところ➤ データさえあればアノテーションせずに学習できるのは夢がある➤ データ構造を考えながらpretext taskを設定するのは(こちらも)パズルを解いている感覚がある■ 苦しいところ➤ 基本的にやってみないとわからない(良し悪しは実験結果のみでわかる)➤ 評価するのに2重の(pretext と target)チューニングが必要■ 実用として➤ 学習済みモデルとしてはImageNet pretrained modelを使用すれば良い風潮➤ しかし,ImageNet pretrained modelが有効でない場合もある- 画像のドメインがImageNetと大きく異なる場合➤ そういった条件では使いようがありそう➤ 条件によっては半教師あり学習と競合する場合も- 教師なしデータ+教師ありデータまとめ(その他)
164■ ~2018からの差分➤ JigSaw, rotationなどのアイディアベースの学習をさらに発展させたものの展開- 思いつくような手法は出尽くし,それらをさらに改善するという流れ?➤ マルチモーダル系の台頭- 人間の特徴学習に習って五感を全て使おう!という考え- データさえ揃えば新規性になるという手軽さ➤ 距離学習など,より理論的にいい表現学習を目指した研究が増えてきたかも?- 数学勢の参入も近いメタサーベイのメモ [Bonus Slide]
165■ 動画認識のためのSSLの論文を読んで感じたこと➤ 動画データセットのほうが画像のみの物よりタスクを複雑にできる- フレーム順序/OFを学習に用いることで、時間方向の成分を見るようになっていそう- 画像認識のためのSSLでも使えそう(実際にあった)➤ 動画認識のPretext taskはまだアイディア出しの段階?- 他の手法を改善したようなものが少ないため- 手法の変遷:→フレームをシャッフル→オプティカルフロー / 未来のフレームを予測→複数のタスクを組み合わせる- 最近はロスを工夫するものも出てきているみたい- 各手法を評価している論文は少なそう➤ 動画認識のSSLならアイディア・改良・評価の論文にまだチャンスがありそうメタサーベイのメモ [Bonus Slide]
著者紹介

cvpaper.challenge: CV分野の研究コミュニティ167
• 研究テーマ:画像・動画認識,人物行動認識・予測,物体検出,交通予防安全,言語&視覚,大規模DB構築,数式ドリブンDB生成
• 最近の興味:FATE, SSL
• 主要論文:CVPRx2, ICRAx3, BMVC, ACCV等
MyPage/SNS HP: http://hirokatsukataoka.net/ Twitter: @HirokatuKataoka 
• 産業技術総合研究所(CVRT, AI Center)研究員(2016, Apr. ~ 現在)• 東京電機大学 訪問研究員(2016, Apr. ~ 現在) 
• cvpaper.challenge 主宰(2015, May~),nlpaper.challenge HQ(2018, Dec.~),robotpaper.challenge HQ(2019, Jul. ~) 
• 茨城県笠間市出身, 芝浦工大(’05-’09), 慶應義塾大学(’09-’14), 東京大(’14 -’15),長距離走(フルマラソンBest 3’30),水泳(茨城県5位),野球(高校~大学; 海外選抜メンバー),犬と遊ぶこと 
• ひとこと:根っからのチャレンジャーです!
• cvpaper.challenge: 研究分野のトレンドを把握しトレンドを創り出せる研究コミュニティにする
• xpaper.challenge: 分野横断的に研究連携する枠組みを構築することが目標
片岡 裕雄
(かたおか ひろかつ)
【研究テーマや研究の興味】
【ひとこと,目標】
研究コミュニティを強くする!
● 筑波大学 M2● 電通大 柳井研究室 (2018, Apr. ~ 2019, Mar.)● 筑波大 佐藤研究室(2019, Apr. ~ )● 出身:群馬県● 趣味:ゲーム、テトリス、バスケットボール松本晨人(まつもと あさと)【研究のテーマと興味】● 研究テーマ:数式ドリブンDB● 興味のある分野:SSL, Few-Shot,Transfer Leaning,Continual Learning,【目標】● なんか面白いモノを作る! 研究活動
山縣英介(やまがたえいすけ)● 東京工業大学 情報理工学院 M1● 兵庫出身● 中高大剣道部(高校部長,大学副主将)● 趣味は漫画,ゲーム,麻雀● 好きな漫画は宇宙兄弟と天牌【研究テーマや興味がある研究】● 研究テーマ:数式ドリブンDB (PerlinDB)● 興味のある研究:SSL,深層強化学習【目標】2年後:博士or就職5年後:研究室or職場でエース10年後:結婚【座右の銘】● 失敗を知って乗り越えたモノなら,それはいいモノだ(宇宙兄弟より)【最後に一言】AI王に!俺はなるっ!!
山田 亮佑(やまだりょうすけ)● Twitter:https://twitter.com/FragileGoodwill● 東京電機大学 知能機械システム研究室 B4● 長崎県南島原市出身● 小学生:サッカー(国体強化選手),中学生:バスケ,高校:テニス(シングル長崎県ベスト32)● 最近はアコースティックギターに挑戦【研究テーマや興味がある研究】● 研究テーマ:ファッションスタイル解析,三次元点群● 興味のある研究:動画認識,敵対的サンプル【将来の夢】5年後:同世代のAI研究者代表10年後:日本が誇るAI研究者15年後:世界トップクラスのAI研究者【影響をうけた漫画】● スラムダンク,キングダム【最後に一言】世界的に影響を与えることのできる研究者(AIスター)になります!
高橋 遼(たかはし りょう)● 慶應義塾大学大学院 理工学研究科 M1● 出身:宮崎 / 富山 / オーストラリア● 趣味:ドライブ,旅行【研究テーマや興味がある研究】● 研究テーマ:ドメイン適応,AIの公平性● 興味のある研究:GAN,シーングラフ【目標】1年後:CVPR投稿2年後:データサイエンティストとして就職10年後:年収1000万【最後に一言】社会にインパクトを与えられる研究を!卒論研究:上位クラスを考慮したドメイン適応
升山義紀(ますやまよしき)【経歴】● 早稲田大学 基幹理工学研究科 M2 (2019, Apr. ~)● 産総研 人工知能研究センター RA (2019, Nov. ~)● LINE株式会社 アルバイト (2019, Apr. ~ Sep.)【研究テーマや興味がある研究】● 研究テーマ:DNNを使った音響信号処理● 興味のある研究:Audio-visual SSL【目標】● まずは1論文で100引用を稼ぐ研究● 既存の音響信号処理の枠組みにとらわれない学際的な研究 (e.g., 視聴覚統合)【最後に一言】画像もいいけど音声もね!MyPage/SNS HP: https://sites.google.com/view/yoshiki-masuyama/home Twitter: @ymas0315 

伊藤千紘(いとうちひろ)● 東京電機大学大学院 情報環境学専攻 M1● 出身:埼玉県● 高校:山岳部, 陶芸部, 文化祭員会● 趣味:漫画, 映画鑑賞, 登山【研究テーマや興味がある研究】● 研究テーマ:画像認識● 興味のある研究:GAN, 異常検出【目標】● 興味のあることには貪欲に!● 色々な経験を通して一回りも二回りも成長!【最後に一言】今年からM1になりました!よろしくお願いします!これまでの研究活動・慣性センサを用いたCNNによる行動認識
鏡川悠介(きょうかわ ゆうすけ)● 東京電機大学大学院 情報環境学専攻 M1● 所属: データ科学・機械学習研究室● 出身:茨城県古河市● 趣味:cookpadにレシピ投稿【研究テーマや興味がある研究】● 研究テーマ:画像認識○ GANを利用した工業製品の異常検知○ 伊勢型紙の自動分類【目標】● 国際会議に論文を通す!【最後に一言】CV分野に貢献できるように日々精進いたします!!これまでの研究活動GANを利用した工業製品の異常検知第22回PRMUアルコン最優秀賞
【趣味】● テニス・スノボ● ラーメン巡り(二郎など)● 旅行・温泉● 慶應大 青木研究室 M2● 産総研RA● Software Engineering Intern @Tenchijin Inc.● Tokyo, Miami, Singapore笠井 誠斗 (Seito Kasai, かさい せいと)【研究分野】Vision & Language、検索、動画認識、表現学習Twitter: @sk_gnkr96HP: https://skasai5296@github.io 
【目標】● 這ってでもCVPR● 誰が見てもインパクトのある研究● 楽しく結果を出す
【経歴】● 慶應大 青木研究室 (2016, Apr. ~ 2019, Mar.)● 産総研 RA (2017, May ~ 2019, Mar.)● DeNA (2019, Apr. ~ 2020, Mar.)● Mobility Technologies (2020, Apr. ~ )鈴木智之(すずきともゆき)【興味】● Research:Visual representation learning,Video recognition,Generative model, 3D vision● Application:Automotive, Creation/Design,Entertainment【趣味】 旅行、犬と遊ぶこと ウィンタースポーツTwitter: @tomoyukun
My HP: https://tomoyukun.github.io/biography/ 
これまでの研究活動旅行の軌跡(2019.2.8 - 2019.3.19)

Recommended

PPTX
Curriculum Learning (関東CV勉強会)
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
モデル高速化百選
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
猫でも分かるVariational AutoEncoder
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
Anomaly detection 系の論文を一言でまとめた
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
Transformerを用いたAutoEncoderの設計と実験
PDF
深層生成モデルと世界モデル
PDF
Attentionの基礎からTransformerの入門まで
PDF
BlackBox モデルの説明性・解釈性技術の実装
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Optimizer入門&最新動向
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PDF
20150930

More Related Content

PPTX
Curriculum Learning (関東CV勉強会)
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
モデル高速化百選
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Curriculum Learning (関東CV勉強会)
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
【DL輪読会】ViT + Self Supervised Learningまとめ
モデル高速化百選
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?

What's hot

PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
猫でも分かるVariational AutoEncoder
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
Anomaly detection 系の論文を一言でまとめた
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
Transformerを用いたAutoEncoderの設計と実験
PDF
深層生成モデルと世界モデル
PDF
Attentionの基礎からTransformerの入門まで
PDF
BlackBox モデルの説明性・解釈性技術の実装
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Optimizer入門&最新動向
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
Transformerを雰囲気で理解する
【メタサーベイ】基盤モデル / Foundation Models
猫でも分かるVariational AutoEncoder
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Anomaly detection 系の論文を一言でまとめた
[DL輪読会]Deep Learning 第15章 表現学習
機械学習モデルの判断根拠の説明(Ver.2)
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
Transformerを用いたAutoEncoderの設計と実験
深層生成モデルと世界モデル
Attentionの基礎からTransformerの入門まで
BlackBox モデルの説明性・解釈性技術の実装
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Optimizer入門&最新動向
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】Scaling Laws for Neural Language Models
[DL輪読会]ICLR2020の分布外検知速報
【メタサーベイ】数式ドリブン教師あり学習
Transformerを雰囲気で理解する

Similar to 自己教師学習(Self-Supervised Learning)

PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PDF
20150930
PDF
全力解説!Transformer
PDF
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
PPTX
CVPR2018 参加報告(速報版)2日目
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PDF
Vision and Language(メタサーベイ )
PPTX
Cvpr2018 参加報告(速報版)3日目
PDF
【メタサーベイ】Video Transformer
PDF
[DL輪読会]One Model To Learn Them All
PPTX
【DL輪読会】マルチモーダル 基盤モデル
PDF
Contrastive learning 20200607
PDF
文献紹介:Video Transformer Network
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
PPTX
CVPR 2017 報告
PDF
220707_ishizone_class_imbalance_SSL.pdf
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
「解説資料」MetaFormer is Actually What You Need for Vision
PDF
Deep Learningの基礎と応用
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
20150930
全力解説!Transformer
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
CVPR2018 参加報告(速報版)2日目
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Vision and Language(メタサーベイ )
Cvpr2018 参加報告(速報版)3日目
【メタサーベイ】Video Transformer
[DL輪読会]One Model To Learn Them All
【DL輪読会】マルチモーダル 基盤モデル
Contrastive learning 20200607
文献紹介:Video Transformer Network
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
CVPR 2017 報告
220707_ishizone_class_imbalance_SSL.pdf
[DL輪読会]MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision
Deep Learningの基礎と応用

自己教師学習(Self-Supervised Learning)

  • 1.
  • 2.
    2■ cvpaper.challenge メタサーベイの一環➤2020/02/28〜2020/04/30に実施した自己教師学習の調査➤ 論文調査はもちろん,分野の背景知識も含めピックアップ➤ 研究を始めるためには?強い研究機関がなぜ強いか?■ 参考資料➤ “鈴木智之, Self-supervised Learningによる特徴表現学習,2018/09.” をベースに,2018〜2020年の研究を追加➤ Link: http://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf本資料について
  • 3.
    3■ 教師なし特徴表現学習とは?➤ 定義➤評価方法➤ アプローチの大別■ 論文紹介➤ 画像認識➤ 動画認識➤ マルチモーダル(画像+音声)■ メタサーベイ➤ トレンドについて➤ 注目研究者・研究機関とその体制➤ など■ まとめ目次1論文1ページでリストします
  • 4.
    4■ 今回の特徴表現の良さ=discriminative- あらゆる解きたいタスク(target task) に有効なデータの特徴表現- (擬似的なタスク (pretext task) を事前に解くことで獲得)- disentangleなど,他の良さについては問わない■ Self-Supervised Learning (SSL; 自己教師学習)- 自動で生成できる教師信号を用いてpretext taskを定義- 画像,動画,音声,マルチモーダル(本資料のメインフォーカス)■ SSL以外 (Unsupervised)- データ分布を表現するモデルを学習する (教師はない)自己教師学習とは?教師がないデータに対し自ら教師を作成,その問題において良好な特徴表現を獲得するCNNと画像・動画・音声やそれらの統合を自己教師として用いる
  • 5.
    5■ 主に2ステップ:特徴表現獲得 /転移学習■ 評価方法① : 特徴表現獲得(教師作成・識別)➤ Pretext taskで学習したモデルを重み固定の特徴抽出器として用い,特徴量のTarget task での性能を測る➤ 同じデータセット内で評価することが多い- Pretext : ラベルなしImageNet => Target : ラベルありImageNet➤ AlexNetで評価するのがスタンダード (になってしまっている)どうやって学習・評価する?モデルPretext taskex. ImageNetw/o labelsex. AlexNetモデルTarget task識別器固定学習 学習(ex. ImageNet classification)+画像データ ラベル画像データ
  • 6.
    6■ 主に2ステップ:特徴表現獲得 /転移学習■ 評価方法② : 転移学習(Fine-tuning)➤ Pretext taskで学習したパラメータを初期値として用い,Target taskでFine-tuningした時の性能を測る➤ 異なるデータセット間で評価を行うことが多い- Pretext : ラベルなしImageNet => Target : ラベルありPascal VOC➤ AlexNetで評価するのがスタンダードなのは評価方法①と同様どうやって学習・評価する?モデルPretext taskex. ImageNetw/o labelsex. AlexNetTarget task学習+画像データ ラベルモデル学習 画像データラベルなしImageNet => Pascal VOC*を基準にするが,より広範に調査を実施(ex. Pascal VOC segmentation)* classification : %mAP, detection : %mAP, segmentation : %mIoU
  • 7.
    ■ 分野の深化・多様化により評価方法も多少見直す動き➤ AlexNetで評価するのがスタンダート-より大規模なモデル(e.g. ResNet-50)を使用する動きもある➤ 頻出のPretext task: ImageNet => Fine-tuning: Pascal VOC- Pretext taskはより大規模なデータ(e.g. YFCC100M)を使用- Fine-tuningはより多様なタスク(e.g. Navigation)に適用最近のアップデート手法の深化・多様化によりSSLの設定を見直そう!!!@ICCV2019AlexNet -> ResNet-50も使用Fine-tuningに識別・検出・領域分割 -> ナビ・法線推定・少量教師学習も考慮PretextにImageNet-1k -> ImageNet-22k・YFCC100も使用7
  • 8.
    8Pretext task@2018の分類Context pred.識別系再構成系 生成モデル系 その他Spot ArtifactColorizationSplit-brainVAE系GAN系InstanceDiscriminationJigsawJigsaw++RotationCounting■ 2018前半までの研究を分類 ([Noroozi+, ICCV17]参照)■ 便宜上の分類であることに注意➤ アイデアベースの手法が多いこともあり,分類が非常に困難Autoencoder系Context EncoderNoise as targetExemplar CNNhttp://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf より引用
  • 9.
    9Pretext task@2020の分類識別系 再構成系生成モデル系その他相互情報量系 マルチモーダル系対比系(contrastive)推定系 メトリック系 評価系■ 2020年時点での研究分類■ 識別によりカテゴリ番号を出力■ e.g. Jigsaw,Rotation■ 入力画像から別の画像チャンネルを復元■ e.g.Colorization,RGB2Depth■ GAN/VAE/AEなどを使用した画像生成/変換タスクを実施■ e.g. (Big)BiGAN■ 相互情報量の最大化によりタスクを実施■ e.g. CPC■ 画像+αのモダリティを使用(本資料では主に画像+音声)■ e.g. Objectsthat Sound■ ContrastiveLossを使用・拡張■ e.g. MOCO,SimCLR■ 回帰により数値を出力■ e.g.Transformation,■ 特徴空間をベースにして直接推定・距離評価■ e.g. track &space■ 自己教師学習の取り組み自体を見直し・包括的に実験■ e.g. Scaling &Benchmark■ 他の分類に属さない特殊な手法を利用■ 今後分岐する可能性あり
  • 10.
    10■ Jigsaw Puzzle代表的なPretexttask■ Colorization■ Rotation ■ Shuffle & Learn■ 3行3列の画像パッチ整列を解く■ パッチ間境界など局所特徴を捉える■ Jigsaw++など改良版多数提案■ 回転を当てる4カテゴリ識別問題■ 入力画像を0°, 90°, 180°, 270°に回転■ 画像の大域的特徴を獲得■ グレースケール画像をカラー画像化■ 文脈を把握して色情報を推定■ 教師を作りやすい■ 入れ替えた時系列画像の順序を揃える■ 時間の生合成を把握する■ 動画認識向けの自己教師
  • 11.
    112020年現在の自己教師学習■ 人間の教師に近接する精度を実現!➤ ImageNet教師あり学習に「自己教師+数%の教師」で到達!➤SimCLR: Simple Framework for Contrastive Learning of Visual Representations- 下図は論文中より引用- https://arxiv.org/abs/2002.05709SimCLRはパラメータ数が多い(Supervised 約25M vs. SimCLR 約400M)が,自己教師学習により教師あり学習と同等の精度まで到達
  • 12.
  • 13.
    13■ 1ページ1論文で紹介,ほぼ年代順に並んでいます■ 誤りを含む可能性がございます,予めご了承ください■Pretext taskの大別の系列をタイトルに表示■ Pretext/Fine-tuning taskに応じて3セクションに分類➤ 画像認識(Fine-tuning先がVOC/ImageNetなど画像認識)➤ 動画認識(Fine-tuning先がUCF/HMDBなど動画認識)➤ Audio-Visual(Pretextがマルチモーダル)論文サマリについて# 論文選定にはGitHubの”Awesome Self-supervised Learning”を参考にさせて頂きました!# 特に、メンバーの得意分野である “Computer Vision - Image/Video Representation Learning, Audio” を参照https://github.com/jason718/awesome-self-supervised-learning
  • 14.
  • 15.
    15Pretext task@画像認識Context pred.識別系再構成系 生成モデル系その他Spot ArtifactColorization系Cross-DomainVAE系GAN系InstanceDiscriminationJigsaw系Rotation系Counting系Autoencoder系Context Enc.Noise as targetExemplar CNN相互情報量系 マルチモーダル系対比系(contrastive)推定系 メトリック系評価系Track & SpaceCluster系Steady FeatureAmbient SoundGraph系TextTopicNetOptical Flow系Local Pix. Stats.L^3-NetSequence系ShapeCodesCPC系Deep InformaxAET vs AEDNeighboringDiscoveryContrastiveMultiviewCodingAugmentedMultiscale DIMWPC系Scaling & BenchmarkingMIMaximizationMomentumContrastSimCLRPIRLDownstream tasksSSL + NASTransformationSelfieAuto. ShortcutRemovalFew-Shot系MAXLClusterFit
  • 16.
    16■ Exemplar CNN➤Pretext task : (幾何学・色)変換に頑健なインスタンスレベルの画像識別➤ (クラス数=学習画像インスタンス数)であり,普通にSoftmaxで識別していくので使用できるデータセットの規模がスケールしにくい➤ 実はInstance Discrimination(後述)と近いこと(2014年時点で)をしている➤ Geometric matchingなどのtaskでSIFTよりも良い結果その他Dosovitskiy et al., “Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks”, NIPS 2014.https://arxiv.org/abs/1406.6909様々な変換後の,ある画像インスタンス.これを一つのクラスと定義.クラス数(= 画像インスタンス数)が8000あたりで限界となる
  • 17.
    17■ Context Prediction(CP)➤ Pretext task : 画像を3×3に分割し,二つのパッチの相対位置の8クラス分類- 重みを共有した枝構造を持つSiameseNetに2つのパッチを入力- 枝のCNNを学習済みモデルとして使用➤ Fine-tuningの結果はランダム初期化より少し良い程度SiameseNetCls. Det. Seg.random 53.3 43.4 19.8CP 55.3 46.6 —Fine-tuning on Pascal VOC識別系Doersch et al., “Unsupervised visual representation learning by context prediction”, ICCV 2015.https://arxiv.org/abs/1505.05192
  • 18.
    18メトリック系Wang, Xiaolong etal., “Unsupervised Learning of Visual Representations using Videos.”, ICCV, 2015.http://www.cs.cmu.edu/~xiaolonw/papers/unsupervised_video.pdf■ 動画使った学習➤ 数フレームにわたってtrackしたpatchは同じ物体を映しているはず→特徴空間上の距離も近いはず- Pretext task:近いはずの2patch間の距離を小さく,randomなpatchとの距離を大きくするランク学習➤ 評価の結果(finetune)- scratchに対し+4.7%- ImageNet-pretrainedと2.5%差
  • 19.
    19推定系Agrawal, Pulkit etal., “Learning to See by Moving.”, ICCV, 2015.https://arxiv.org/pdf/1505.01596.pdf■ 2画像間のTransformationを推定➤ Pretext task : 画像間の視点の移動を推定(自己位置認識)- Mnistに関してはdigitを移動・回転させて画像のペアを作成- 自然画像に関してはKITTIとSFデータセットを使用➤ 評価の結果(finetune)- Mnistにおいて多くの従来手法を上回る精度- ILSVRC-12 validation setでfinetuneした場合,少ないinstance数でより大きい上昇幅- Scene recognitionやvisual odometryタスクでも良い結果
  • 20.
    20識別系Jayaraman, Dinesh etal., “Learning image representations tied to ego-motion.”, ICCV, 2015.http://vision.cs.utexas.edu/projects/egoequiv/ijcv_bestpaper_specialissue_egoequiv.pdf■ 特徴表現と自己運動を紐付ける➤ 観測者の移動と観測する景色の関係を学習- 従来法:視点を変えて同一の物体の画像撮ったとき,視点変更の前後の画像は特徴空間上近い- 提案手法:視点移動の情報から特徴空間上の位置も予測できる➤ 評価した結果(finetune)- KITTI, SUN, NORBで学習- 複数のデータセットで従来法を上回る結果
  • 21.
    21識別系Jianwei Yang etal., “Joint Unsupervised Learning of Deep Representations and Image Clusters.”, CVPR, 2016.https://arxiv.org/pdf/1604.03628.pdf■ Joint Unsupervised LEarning (JULE)➤ Contribution- ラベル無しデータセットから特徴表現とクラスタを同時に学習するend-to-endな新手法の提案- 凝集型クラスタリングとCNNの特徴表現獲得に関して一つの損失関数で計算- 従来法を上回る性能➤ 複数のタスクに転用可能- (LFW)顔識別,CIFAR-10
  • 22.
    22■ DCGAN➤ Pretexttask : 画像生成モデルの学習- 質の高い生成を可能とするテクニックを主にアーキテクチャの観点から提案- データ分布を高い性能でモデル化 => 良い特徴を捉えている➤ Discriminatorの中間出力を表現に利用➤ ImageNet => Pascal VOCでの実験はなし➤ CIFAR-10においてExemplar CNNと比較生成モデル系on CIFAR-10acc. (%) Num of featureEx CNN 84.3 1024DCGAN 82.8 512Radford et al., “UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVEADVERSARIAL NETWORKS”, ICLR 2016.https://arxiv.org/abs/1511.06434アーキテクチャや表現学習に使用しているデータセットが異なるため対等な評価とは言えない
  • 23.
    23識別系Junyuan Xie etal., “Unsupervised Deep Embedding for Clustering Analysis.”, ICML 2016.http://www.cs.cmu.edu/~xiaolonw/papers/unsupervised_video.pdf■ Deep Embedding Clustering(DEC)➤ Contribution- 特徴表現とクラスタ割り当てを同時に学習する新手法- ソフトクラスタリングによる反復的なrefinement- クラスタリング速度と精度でSOTA(2016)➤ 評価の結果- 通常データでSOTA意外に,imbalanceなデータでも高い精度クラスタリングの結果:各行一つのクラスタ
  • 24.
    24メトリック系Jayaraman, Dinesh etal., “Slow and steady feature analysis: higher order temporal coherence in video”, CVPR 2016.http://vision.cs.utexas.edu/projects/slowsteady/cvpr16.pdf■ Steady Feature Analysis➤ フレーム間の変化の仕方も学習したい- 従来は「隣接するフレーム間では微小な変化しか起こらない=特徴空間上でも隣接してる」という考え- ただ隣接させるだけでなく,特徴空間上で滑らかな予測可能な軌道を描くように学習する手法を提案➤ 評価の結果(finetune)- 複数のタスクでSOTA(2016)
  • 25.
    25■ Context Encoder(CE)➤ Pretext task : 欠損画像の補完- Adversarial Loss + L2 Lossを提案しているが,表現学習の実験はL2 Lossのみ- つまりただの回帰➤ ネットワークは表現学習の段階で欠損画像しか見ていない- しかしTarget taskでは欠損していない画像を入力する再構成系Cls. Det. Seg.random 53.3 43.4 19.8CE 56.5 44.5 29.7JP 67.7 53.2 —Pathak et al., “Context encoders: Feature learning by inpainting”, CVPR 2016.https://arxiv.org/abs/1604.07379
  • 26.
    26■ Jigsaw Puzzle(JP)➤ Pretext task : パッチをランダムな順に入力し,正しい順列をクラス識別- SiameseNetに9つのパッチを同時に入力- 順列は膨大な数になるのでハミング距離が大きくなるように選んだ1000クラスで学習➤ CPはパッチによってはかなりあいまい性がある(下図)➤ ネットワークが見れるパッチが多い方があいまい性が減る➤ CPと比較するとかなり精度が改善している識別系Cls. Det. Seg.random 53.3 43.4 19.8CP 55.3 46.6 —JP 67.7 53.2 —①や②の⑤を基準とした相対位置を推定するのはかなり難しい① ➁⑤Noroozi et al., “Unsupervised learning of visual representations by solving jigsaw puzzles”, ECCV 2016.https://arxiv.org/abs/1603.09246
  • 27.
    ■ 画像から音声を予測➤ 画像からの音声予測がオブジェクトとシーンに関する情報を学習していることに着目して、学習した特徴量を画像認識に適用させる。➤(a)画像から(c)音声特徴量を予測➤ Fast R-CNNの事前学習に適用したけど、ImageNetとは差がある。➤ 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV…マルチモーダル系➁⑤Andrew Owens et al, “Ambient Sound Provides Supervision for Visual Learning”, ECCV 2016.https://arxiv.org/pdf/1608.07017.pdf27
  • 28.
    28■ グレースケール画像を自動的にカラー化➤ 各ピクセルを取り、その周囲を見て、もっともらしい色の分布(ヒストグラム)を予測➤CNNを用いて意味解析とローカリゼーションをカラー化システムに組み込む。➤ 基本ネットワークにはVGG16を用いている。- 事前学習はImageNetなど。再構成系Larsson, Gustav et al, “Learning Representations for Automatic Colorization”, ECCV 2016.https://arxiv.org/pdf/1603.06668.pdfFig. 2: System overview. We process a grayscale image through a deep convolutionalarchitecture (VGG) [37] and take spatially localized multilayer slices (hypercolumns) [15, 26, 28],as per-pixel descriptors. We train our system end-to-end for the task of predicting hue andchroma distributions for each pixel p given its hypercolumn descriptor. These predicteddistributions determine color assignment at test time.
  • 29.
    29■ 大規模な画像データに対してグラフベースの分析を活用➤ グラフ分析により画像間の根本的な意味の類似性を発見できるはず➤各画像をノードとして、各最近傍マッチングペアをエッジとして表すことにより、k-最近傍(k -NN)グラフを作成➤ 教師なし特徴学習と半教師あり学習の設定で、提案する教師なし制約マイニング手法の有効性を示している。その他D. Li et al., “Unsupervised Visual Representation Learning by Graph-Based Consistent Constraints.” ECCV 2016.https://faculty.ucmerced.edu/mhyang/papers/eccv16_feature_learning.pdfPascal Voc 2007での比較
  • 30.
    ■ Bidirectional GenerativeAdversarial Networks (BiGANs)➤ 標準のGANアーキテクチャにエンコーダーを追加➤ 逆マッピングを学習する手段として提案➤ BiGANで使用されているDCGANアーキテクチャが高品質の画像をモデリングできない?➤ BigBiGANに繋がっていくみたい。➤ 参考スライド生成モデル系➁⑤Li Dong et al, “Adversarial Feature Learning”, ICLR 2017. https://arxiv.org/pdf/1605.09782.pdf30
  • 31.
    31■  生成モデル系Cls. Det.Seg.random 53.3 43.4 19.8BiGAN 60.3 46.9 35.2JP 67.7 53.2 —Donahue et al., “ADVERSARIAL FEATURE LEARNING”, ICLR 2017.https://arxiv.org/abs/1605.09782
  • 32.
    32■ TextTopicNet➤ マルチモーダル(テキスト&イメージ)ドキュメントの大規模コーパスをマイニングすることにより、視覚的特徴の自己教師学習を実行することを提案➤テキストコーパスに対して、よく知られたトピックモデリング手法(LDA) によって発見された非表示の意味構造を活用- (1)相関するテキストと画像のペアで構成されるデータセットのテキストコーパスに関するトピックモデルを学習- (2)深いCNNモデルをトレーニングして、画像のピクセルから直接テキスト表現(トピック確率)を予測マルチモーダル系L.Gomez et al., “Self-supervised learning of visual features through embedding images into text topic spaces”, CVPR2017.https://arxiv.org/pdf/1705.08631.pdfFigure 1: Our CNN learns to predict the semantic context in which images appear as illustration. Given an illustrated article we project itstextual information into the topic-probability space provided by a topic modeling framework. Then we use this semantic levelrepresentation as the supervisory signal for CNN trainingTable 3 compares our results for image classification and object detectionon PASCAL with different self-supervised learning algorithms.
  • 33.
    33■ Colorful ImageColorization (CC)➤ Pretext task : グレースケール画像の色付け {L => ab}➤ 単純な回帰ではなく,量子化したab空間の識別問題を解く➤ グレースケール画像入力を前提として表現学習するため,カラー画像を扱う場合は,Lab入力とし,abチャネルはランダムに初期化■ Split-Brain (SB)➤ ネットワークをチャネル方向に2分割し,{L => ab, ab => L} のアンサンブル➤ 回帰ではなく量子化して識別問題にする方が良い特徴表現が得られた再構成系Cls. Det. Seg.random 53.3 43.4 19.8CC 65.9 46.9 35.6SB 67.1 46.7 36.0JP 67.7 53.2 —Zhang et al., “Colorful Image Colorization”, ECCV 2016.R. Zhang et al., “Split-brain autoencoders: Unsupervised learning by cross-channel prediction”, CVPR 2017.https://arxiv.org/abs/1611.09842
  • 34.
    34■ Split-Brain Autoencoders➤ネットワークをチャネル方向に半分に分割して、2つの互いに素なサブネットワークを作成。各サブネットワークは、別のサブセットからのデータの1つのサブセットに対して予測を実行するようにトレーニングされる。
➤ Fast R-CNNを使用し、セグメンテーションは、20の対象オブジェクトの1つまたは背景のいずれかであるオブジェクトクラスのピクセル単位のラベリングされているものでの評価もしている。➤ Lab画像だけでなく、RGB-Dデータに対してもSplit-Brain Autoencodersが有効だと示す。再構成系R. Zhang et al., "Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction", CVPR2017.https://arxiv.org/abs/1611.09842(Left) Images Half of the network predicts color channels from grayscale, and the other half predicts grayscale from color.(Right) RGB-D Images Half of the network predicts depth from images
  • 35.
    ■ モーションベースのセグメンテーションを使用してオブジェクト検出に応用している。➤ Pretexttask : 動画のモーションを利用して付られたセグメントラベルを使用したセグメンテーション➤ 計算やデータの制約による分析をして、約27Mの相関フレームを使用するとImageNetで訓練したのと同等の結果を示す。https://people.eecs.berkeley.edu/~pathak/unsupervised_video/再構成系➁⑤D. Pathak et al., "Learning Features by Watching Objects Move," CVPR2017.https://people.eecs.berkeley.edu/~pathak/papers/cvpr17.pdf 35
  • 36.
    36■ Pretext taskとして自動カラー化の可能性➤打倒 ImageNet pretrainを目指し,自動カラー化の可能性を模索➤ 損失、ネットワークアーキテクチャ、およびトレーニングの詳細の重要性を調査している。➤ カラーとグレースケールの差や、アーキテクチャ別にランダムな初期値を設けた場合と、カラー画像のpre-trainの比較をしている。再構成系➁⑤Larsson Gustav et al., “Colorization as a Proxy Task for Visual Understanding”, CVPR 2017.https://arxiv.org/pdf/1703.04044.pdf
  • 37.
    37識別系Cruz et al.,“DeepPermNet: Visual Permutation Learning”, CVPR 2017. https://arxiv.org/pdf/1704.02729.pdf■ DeepPermNet➤ 自然画像や順序づけられた画像列に内在する構造概念を学習するための一般的な定式化として、視覚順序づけ学習というPretext taskを提案➤ 畳み込みニューラルネットワークを用いて視覚順列問題を解くためのEnd-to-End学習であるDeepPermNetモデル➤ 標準的なCNNの予測値をシンクホーン反復を用いて二重ストキャスティック行列に変換するシンクホーン層を導入
  • 38.
    38その他Bojanowski et al.,“Unsupervised Learning by Predicting Noise”, ICML 2017.https://arxiv.org/pdf/1704.05310.pdf■ Noise As Targets (NAT)➤ ターゲット表現のセットを固定し、それに整列するように特徴量を制約- これにより,ImageNetやPASCAL VOCの最新の教師なし学習法と同等の性能を持つ表現が生成可能ImageNetVOC 2007
  • 39.
    39■ Noise astarget (NAT)➤ Pretext task : 一様にサンプリングされたtarget vectorsに各画像からの出力を1対1に対応させ,近づける- Targetは全体サンプルの誤差の和が最小になるように割り当てたい- 全走査は厳しいのでバッチごとにハンガリアン法で近似的に割り当て➤ 一見意味不明だが,画像の特徴ベクトルを特徴空間上に一様に分散させることに意味があるらしい (Appendix参照)その他Cls. Det. Seg.random 53.3 43.4 19.8NAT 65.3 49.4 36.6JP 67.7 53.2 —Bojanowski et al., “Unsupervised Learning by Predicting Noise”, ICML 2017.https://arxiv.org/abs/1704.05310データ数分,一様分布からサンプリング(固定)Nearest Neighbor
  • 40.
    40その他(複数のタスク統合)Doersch et al.,“Multi-task Self-Supervised Visual Learning”, ICCV2017.https://arxiv.org/abs/1708.07860■ ResNet-101で4つの異なる自己教師付きタスクの比較➤ 明らかになったこと- 深いネットワークでは浅いネットワークよりも自己教師性能が向上- Pretext taskを組み合わせることでタスク単体よりも性能が向上- Context Pred., Colorization, Motion Segment, Exemplar CNN➤ 評価- ImageNetの分類、PASCALのVOC検出、NYUの深さ予測- より深いネットワークの方がうまく機能
  • 41.
    41その他Noroozi et al.,“Representation Learning by Learning to Count”, ICCV 2017. https://arxiv.org/pdf/1708.06734.pdf■ 新たなpretext taskとして視覚的情報のカウントを提案➤ 分類に有用な識別特徴を必要とし、検出を介して定式化➤ 写真を四分割したときに,各パッチの特徴量と写真全体の特徴量が一致するように距離学習を実施➤ 異なる写真に対しては離れるようにtriplet lossを追加全体 4パッチの和
  • 42.
    42識別系Wang et al.,“Transitive Invariance for Self-supervised Visual Representation Learning”, ICCV 2017.https://arxiv.org/pdf/1708.02901.pdf■ 複数のバリエーションを持つデータを整理して推論➤ pretext task: 以下二つに注目したクラスタリング1. インスタンス間変動(同じクラスに属する2つの物体が似たような特徴を持つこと)2. インスタンス内変動(視点、ポーズ、変形、照明など)➤ 物体検知で高い精度の事前学習ができた
  • 43.
    43マルチモーダル系Reija et al.,“Look, Listen and Learn”, ICCV 2017. https://arxiv.org/pdf/1705.08168.pdf■ L^3-Net(Look, Listen and Learn)➤ 大量のビデオデータから視覚情報と聴覚情報を同時に学習- pretext task : 動画と音が一致しているかの判定➤ 評価- 視覚・聴覚ともに識別性能が高い
  • 44.
    44■ Learning toCount (LC)➤ Pretext task : 以下の制約を満たす特徴量を学習➤ 制約:各分割画像と元画像をそれぞれ同じCNNに入力し,元画像の出力   特徴が全分割画像の出力特徴の和と一致する=> 出力特徴の各次元が画像内の「ある高次なprimitive」の量を表す場合に上記の制約を満たすことができる➤ 個人的にかなり面白いアイデアその他Cls. Det. Seg.random 53.3 43.4 19.8LC 67.7 51.4 36.6JP 67.7 53.2 —特徴量がprimitiveのヒストグラムのようなものになるNoroozi et al., “Representation Learning by Learning to Count”, ICCV 2017.https://arxiv.org/abs/1708.06734同じ人
  • 45.
    45識別系Hsin-Ying et al.,“Unsupervised Representation Learning by Sorting Sequences”,ICCV 2017.https://arxiv.org/pdf/1708.01246.pdf■ セマンティックラベルのない動画を用いた教師なし学習➤ pretext task: シャッフルされた動画を正しい時系列に並び替える➤ 評価: UCF-101とHMDB-51において最先端の手法と比較して性能が向上➤ Jigsaw Puzzle(空間位置の並べ替え) の時系列版
  • 46.
    46■ Instance Discrimination(ID)➤ Pretext task : 各画像インスタンスを1つのクラスとした識別問題- 実際はクラス数が膨大のため,NCEを用いる- Logitを前iterationの各画像特徴と入力画像特徴の内積とした時のcross entropyを最小化➤ 最適な状態としては各画像の特徴ベクトルが超球上にまばらに散るような埋め込みになるはず (Appendix参照)=> NATとかなり近いことをしていることになるはず (引用はなし)識別系Cls. Det. Seg.random 53.3 43.4 19.8ID — 48.1 —JP 67.7 53.2 —Wu et al., “Unsupervised Feature Learning via Non-Parametric Instance Discrimination”, CVPR 2018.https://arxiv.org/abs/1805.01978前iterの各画像特徴
  • 47.
    47識別系Zhirong et al.,“Unsupervised Feature Learning via Non-Parametric Instance Discrimination”, CVPR 2018. https://arxiv.org/pdf/1805.01978.pdf■ インスタンス間の区別を最大化による特徴表現の獲得➤ 新しいノンパラメトリックソフトマックス定式化を用いてインスタンス間の区別を最大化することで、教師なし特徴学習➤ 軽量: 画像ごとに128個の特徴量を持つ我々の手法は、100万枚の画像に対して600MBのストレージしか必要としない
  • 48.
    48■ Jigsaw Puzzle++➤Pretext task : 1~3パッチを他の画像のパッチに置き換えたJigsaw Puzzle- 見れるパッチが少ない・他画像からのパッチを識別する必要がある- 上記からpretext taskの難度が上がる- 複数のクラスに属することがないようハミング距離を考慮して順列を選択識別系Cls. Det. Seg.random 53.3 43.4 19.8LC 67.7 51.4 36.6JP++ 69.8 55.5 38.1JP 67.7 53.2 —Noroozi et al., “Boosting Self-Supervised Learning via KnowledgeTransfer”, CVPR 2018.https://arxiv.org/abs/1805.00385同じ人
  • 49.
    49■ Spot Artifact(SA)➤ Pretext task : 特徴マップ上で欠損させた画像の補完- 欠損を補完するrepair layersとdiscriminator間で敵対的学習- 事前にAuto encoderとして学習したモデルの特徴マップを用いる- discriminatorが良い特徴表現を得ることを期待➤ 特徴マップを欠損はより高次な情報を欠損させることを期待 (実際の欠損画像を見てもあまりわからない )再構成系Cls. Det. Seg.random 53.3 43.4 19.8SA 69.8 52.5 38.1JP 67.7 53.2 —Wu et al., “Self-Supervised Feature Learning by Learning to Spot Artifacts”, CVPR 2018.http://openaccess.thecvf.com/content_cvpr_2018/papers/Jenni_Self-Supervised_Feature_Learning_CVPR_2018_paper.pdf赤:corrupt,緑:real
  • 50.
    50識別系Terrell Mundhenk etal., “Improvements to context based self-supervised learning”, CVPR 2018.https://arxiv.org/pdf/1802.01880.pdf■ Completing Damaged Jigsaw Puzzles(CDJP)➤ 従来のPretxt Task (Jigsaw)をより困難なタスクに設定- 入力画像を3×3のパッチに分割し、正しい順列を予測- RGBをLabに変換し、正しいRGB情報を予測- 9つのパッチのうち1ピースを除去し、復元させる➤ 色情報や欠落部分の予測を加えて、タスクの難易度をあげることで、従来の手法よりもdiscrimitiveな特徴表現を獲得
  • 51.
    51■ Classify Rotation(CR)➤ Pretext task : 画像の回転推定- 0°,90°,180°,270°の4クラス分類- それ以上の細かい分類は回転後に補間が必要=> artifactが生まれ,trivial solutionの原因となる➤ objectの回転角を推定するためにはobjectの高次な情報が必要➤ ここまでの最高精度(Cls., Det. ) & 実装が最も簡単識別系Cls. Det. Seg.random 53.3 43.4 19.8CR 73.0 54.4 39.1JP++ 69.8 55.5 38.1Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.https://arxiv.org/abs/1803.07728
  • 52.
    52■ Classify Rotation(CR)➤ データ構造への依存➤ 画像ドメインによっては低次な特徴で回転の推定が可能では?- 実際にPlacesのシーン識別タスクでは奮わない➤ 回転が定義できないような画像もあるはず- 航空写真など識別系Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.https://arxiv.org/abs/1803.07728Places例えば,空の位置のみで回転推定できる
  • 53.
    53識別系O. Kilinc etal., “Learning Latent Representations in Neural Networks for Clustering Through Pseudo Supervision andGraph-based Activity Regularization”, ICLR 2018. https://openreview.net/pdf?id=HkMvEOlAb■ Graph-based Activity Regularization(GAR)➤ 教師なしクラスタリングにより擬似ラベルを設定- クラスタリングの手法はAuto-clustering Output Layer(ACOL)使用- 潜在情報を自己教師として学習➤ データ拡張・回転有無の教示・クラスタリング- データ拡張を施し、回転の有無を推定- その後,クラスタリングにより数字を回答
  • 54.
    54再構成系Terrell Mundhenk, DanielHo and Barry Chen, “Improvements to context based self-supervised learning”, CVPR 2018.https://arxiv.org/pdf/1711.06379.pdf■ Improvements to context based self-supervisedlearning➤ 各チャンネルの色収差を低減することでよりパッチの相対位置の推定が困難- Lab空間に変換後、aとbに対してブラー処理を施す- パッチ数やスケール比が異なる3種類の組み合わせを作成- 各パッチに回転や拡大・縮小などの処理を施す➤ PASCAL VOC以外にもCUB birdsやCompCarsにもfinetuneすることで提案手法が一般的に使用できることを明言
  • 55.
    55■ Deep Cluster(DC)➤ 以下の操作を繰り返し行う1. CNNの中間特徴を元にk-meansクラスタリング2. 割り当てられたクラスタをPseudo labelとして識別問題を学習➤ 最初のiterationではランダム初期化されたCNNの出力を元にクラスタリング- その出力を用いてMLPを学習しても12%出る=> 入力情報はある程度保持されてる➤ ImageNetでの実験ではk = 10000 (> 1000)が最も良い➤ 単純かつ非常に強力な手法識別系Caron et al., “Deep Clustering for Unsupervised Learning of Visual Features”, ECCV 2018. https://arxiv.org/abs/1807.05520Cls. Det. Seg.random 53.3 43.4 19.8CR 73.0 54.4 39.1JP++ 69.8 55.5 38.1DC 73.7 55.4 45.1ImageNet labelとクラスタの相互情報量が増加していくepoch間の相互情報量が増加=> クラスタ割り当てが安定
  • 56.
    56生成モデル系Dinesh Jayaraman, RuohanGao, Kristen Grauman, “ShapeCodes: Self-Supervised Feature Learning by Lifting Views toViewgrids”, ECCV 2018. https://arxiv.org/pdf/1709.00505.pdf■ ShapeCodes: Self-Supervised Feature Learning byLifting Views to Viewgrids➤ 三次元物体を特定の方向から投影した画像を用いて、未知の方向からの三次元物体の形状を予測するタスク➤ このPretext Taskを解くことにより、三次元物体認識に必要な三次元形状の視覚的特徴を獲得
  • 57.
    57再構成系Zhongzheng Ren andYong Jae Lee, “Cross-domain Self-supervised Multi-task Feature Learning Using Synthetic Imagery”, CVPR2018. https://arxiv.org/pdf/1711.09082.pdf■ Cross-Domain Self-supervised Multi-task FeatureLearning using Synthetic Imagery➤ 合成画像からエッジ・法線・深度を推定するマルチタスク- 合成画像では実画像を収集するよりもコストが安価- 2018年時点では、マルチタスクのSSLは少数➤ 実画像に対して適応可能にするため、実画像の特徴に合成画像の特徴をマッピング
  • 58.
    58 相互情報量系Devon Hajelm etal., “Learning deep representations by mutual information estimation and maximization”, arXivpre-print:1808.06670, 2018. https://arxiv.org/abs/1808.06670Tiny ImageNetにおいて教師ありに近い精度
  • 59.
    59識別系Ali Diba, VivekSharma, Luc Van Gool, Rainer Stiefelhagen, “DynamoNet: Dynamic Action and Motion Network”, ICCV 2019.https://arxiv.org/pdf/1904.11407.pdf■ DynamoNet: Dynamic Action and Motion Network➤ 現在までのフレームにおける人物の行動から次のフレームにおける行動を予測することで特定の行動特有の学習し、高次な特徴表現を獲得➤ 動画識別と次フレーム予測をマルチタスク学習
  • 60.
    ■ オプティカルフロー推定による特徴表現学習➤ 画像からピクセル毎のオプティカルフローを推定-pretext task : 動画の一フレームからオプティカルフローを推定するタスク- 課題 :動きを画像から推定しなければならないという曖昧性➤ ポイント- ピクセル群を確率的に推定- ×の部分と同じ物体に属している確率をヒートマップで表示60再構成系A. Mahendran et al., “Cross Pixel Optical Flow Similarity for Self-Supervised Learning” , ACCV2018.http://www.robots.ox.ac.uk/~vgg/publications/2018/Mahendran18/mahendran18.pdfVOC2007での比較
  • 61.
    61相互情報量系A. Oord etal., “Representation learning with contrastive predictive coding”, arXiv pre-print:1807.03748v2, 2018.https://arxiv.org/pdf/1807.03748.pdf■ コンテキストと先の系列情報の相互情報量最大化➤ 系列情報をエンコードして潜在表現 を獲得し更に自己回帰モデルを適用しコンテキスト情報 を獲得➤ Contrastive Predictive Coding (CPC)- 系列情報の 個のサンプル  の中からコンテキスト の ステップ先のサンプルを識別できるように学習(相互情報量の下限の最大化に対応)➤ 評価の結果わかったこと- 他のSSLタスク(e.g., Jigsaw, Colorization)と比べ画像認識性能が改善- 複数のドメイン(speech・NLP・RL)で有効性を確認-
  • 62.
    ■ ヒントつきのオプティカルフロー推定による特徴表現学習➤ オプティカルフロー推定において,部分的に動きの情報を与えて学習させるようにした-従来のオプティカルフローによるSSL:曖昧性が高いという問題- 学習の際に,ピクセル単位で動きの情報を追加してオプティカルフロー推定をさせた➤ セグメンテーションにおいて自己教師ありのSOTAを達成62再構成系X.Zhan et al., “Self-supervised learning via conditional motion propagation”, CVPR2019, https://arxiv.org/pdf/1903.11412.pdf
  • 63.
    ■ 回転量推定による特徴表現学習における回転普遍性の考慮➤回転普遍な画像とそうでない画像に対し同様に 回転量推定を行うのは妥当なのか?という疑問- 右図のように回転しても見た目が変わらない画像もある➤回転推定タスク・クラス分類タスクに加えて,回転普遍性項を追加- 特徴量が回転に依存しないように,回転した時の特徴量の分散を最小化するロスを追加➤ VOCにおいてDC, BiGAN等を上回る精度を実現63識別系Z Feng et al., “Self-Supervised Representation Learning by Rotation Feature Decoupling”, CVPR 2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Feng_Self-Supervised_Representation_Learning_by_Rotation_Feature_Decoupling_CVPR_2019_paper.pdf
  • 64.
    ■ 自己教師学習におけるCNN構造の見直し➤自己教師学習における最適なモデル構造に関するablation study-アーキテクチャ毎に最適なPretext taskが違う- モデルを変えるだけで元論文よりいい精度が得られる場合もあり➤ 自己教師学習とCNN構造に関する様々な知見- 特徴量の評価には重み固定の線形モデルを使った方が良い- pretext taskで最良だったモデルが実際のタスクでも有効とは限らない- skip connectionにより,より後ろの方の層の特徴表現学習が改善できる- モデルを深く・大きくするほど精度が高くなる...などなど64調査系A Kolesnikov et al., “Revisiting Self-Supervised Visual Representation Learning”, CVPR 2019.https://arxiv.org/pdf/1901.09005.pdf
  • 65.
    65生成モデル系L.Zhang et al.,“AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data”, CVPR2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_AET_vs._AED_Unsupervised_Representation_Learning_by_Auto-Encoding_Transformations_Rather_CVPR_2019_paper.pdf■ 画像変換を学習することによる特徴表現学習➤Encoder-Decoderによる表現学習で,Decoderが画像変換t(x)を推定する- ある変換t(・)を考え,Encoderに元画像xと変換画像t(x)を与え,それぞれの画像特徴のペアから画像変換t(・)が推定できるなら,Encoderは有意な表現学習ができているはず- 正解の変換t(・)と推定された変換t ̂(・)の損失関数を最小化するよう学習➤ 画像(data)ではなく,変換(transformation)をdecodeするという発想- data × transformationの様々な組み合わせによる表現学習が可能に- 「変換の損失関数」の定義がやや強引?(変換関数のパラメータの差分を取るなど)
  • 66.
    ■ 特徴量クラスタリングにおいて近傍点に注目➤近傍点同士を少しづつ近づけていくことによる 適切な距離学習- 従来の距離学習:イテレーションごとに複数の点を動かすため,不適切なクラスタに-提案手法:基準点とその近傍点に着目し,ラウンドごとにその2点のみを近づける- 1ラウンド毎に近傍点ペアを選定し,両者を近づけるように更新を行う➤ クラス分類タスクの転移学習において,deepclusterを上回る精度を実現66メトリック系J Huang et al., “Unsupervised deep learning by neighborhood discovery”, ICML 2019.http://proceedings.mlr.press/v97/huang19b/huang19b.pdf❌     ❌    ⭕
  • 67.
    67対比系Y Tian etal., “Contrastive Multiview Coding”, arXiv pre-print:1906.05849, 2019.https://arxiv.org/pdf/1906.05849.pdf■ SSLにおいて,multi-viewを活用➤ 特徴表現学習におけるmulti-viewの重要性- 人間は複数のモダリティから物体を認識する- 特徴表現学習においても,複数の情報チャネル(RGB, Depth, 未来のフレーム情報等)を使いたい➤ 複数の情報チャネルからの特徴量のロスをとり,contrastive learning- 3つ以上の情報を掛け合わせるcontrastive learningの枠組みを提案- 視点の情報が増えるほど特徴表現学習の精度が上がることが確認できた
  • 68.
    68生成モデル系J Donahue etal., “Large Scale Adversarial Representation Learning”, NIPS 2019. https://arxiv.org/pdf/1907.02544.pdf■ BiGAN x BigGAN = BigBiGAN➤ BiGANの基本構造をDCGANからBigGANに変更- Discriminatorはx, zだけでなくxとzを組み合わせた特徴量もみている- モデル構造を含めた詳細なablation studyを実施➤ ImageNetの分類タスクにおいて,BiGANを上回る高い精度を実現
  • 69.
    69相互情報量系P. Bachman etal., “Learning Representations by Maximizing Mutual Information Across Views”, arXiv pre-print:1906.00910v2,2019. https://arxiv.org/pdf/1906.00910■ Augmented Multiscale DIM(AMDIM)➤ Deep InfoMax(DIM)を拡張- 独立して拡張されたコピーから抽出した特徴間の相互情報最大化- 複数の特徴スケール間の相互情報を同時に最大化➤ 評価の結果- ほかのタスクと比べ画像認識性能の向上- 複数のドメイン(e.g., video, audio, text)への拡張
  • 70.
    70識別系Trieu H. Trinhet al., “Selfie:Self-supervised Pretraining for Image Embedding”, arXiv pre-print:1906.02940v3, 2019.https://arxiv.org/pdf/1906.02940.pdf■ Selfie Self-supervised Image Embedding➤ Selfieの詳細- Contrastive Predictive Coding lossを利用して連続データへ一般化- Selfieの事前学習構造にはパッチの処理や、マスク化されていないパッチの内容を要約するネットワークを含む➤ 評価の結果- 3つの基準でSelfieを評価(CIFAR-10,ImageNet 32 x 32,ImageNet 224 x 224)- ResNet-50に対し全ての基準で精度が向上
  • 71.
    71相互情報量系O. J. Hénaffet al., “Data-Efficient Image Recognition with Contrastive Predictive Coding”, arXiv pre-print:1905.09272v2,2019. https://arxiv.org/abs/1905.09272■ CPCを改良し教師あり学習を上回る性能を実現➤ Model capacity (MC) の増加に伴う改良点- Layer norm. (LN) を利用- 垂直(BU)水平(HP)の四方から推定するようにタスクを増加- 画像のパッチごとにrandom color-dropping (RC) を適用➤ 評価の結果わかったこと- ImageNetで10%のラベリングのみでtop5精度91.2%を達成- 100%ラベリングした場合でも事前学習で性能改善
  • 72.
    72識別系D. Hendrycks etal., “Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty”, NeurIPS 2019.https://arxiv.org/pdf/1905.09272.pdf■ SSLを用いた際の頑健性、不確実性➤ intro- Cifar-10とImageNetを併用することで、クリーンな精度が得られずとも頑健性と不確実性推定の性能を向上させる正則化を提供➤ 評価の結果- 自己教師付き学習をauxiliary rotation lossで補完することで全てのタイプの頑健性が向上- SSLは分布外検出の性能を劇的に改善し、CIFAR-10とImageNetを併用した実験では自己教師あり学習の方が完全教師あり学習よりも改善
  • 73.
    73その他Gidaris et al.,“Boosting Few-Shot Visual Learning with Self-Supervision”, ICCV 2019.http://openaccess.thecvf.com/content_ICCV_2019/papers/Gidaris_Boosting_Few-Shot_Visual_Learning_With_Self-Supervision_ICCV_2019_paper.pdf■ Few-shot learningと自己教師あり学習➤ Few-shot Learningと自己教師あり学習で相補させることで、僅かな訓練データを用いて認識能力を高める- 自己教師性を追加することで、Few-shotの分類性能が格段に向上- さらにself-supervised lossのannotation-freeの性質により、ラベル付けされていない多様なデータを利用することができ、性能を向上させた➤ Few-shot recognitionフレームワーク- 上記のフレームワークを半教師ありと教師無しのセットアップに拡張し、Few-shotの物体認識に基づいた自己教師あり又は教師なしの手法を評価するためにも利用できる
  • 74.
    74その他Shikun Liu etal., “Self-Supervised Generalisation with Meta Auxiliary Learning”, arXiv pre-print:1901.08933, 2019.https://arxiv.org/pdf/1901.08933.pdf■ Meta AuXiliary Learning (MAXL)➤ 2つのニューラル・ネットワークにより疑似ラベルを自動的に設定- 補助ラベルを予測するネットワークと、教師ラベルと補助ラベルを予測するネットワークを相互に関係を持たせ学習- 補助ラベルが教師ラベルの一般化(犬→ラブラドール)➤ 画像6タスク(右下表)において性能向上の評価- 全てのタスクで識別性能が向上➤ 補助ラベルの予測タスクの評価(右上)- 複数のベースラインを上回る- 人間が定義したラベルと同等
  • 75.
    75相互情報量系S. Ozair etal., “Wasserstein Dependency Measure for Representation Learning”, NeurIPS 2019.https://arxiv.org/pdf/1903.11780.pdf■ 新しい表現学習目標の提案➤ Wasserstein Dependency Measure(WDM)- KL情報量の代わりにWasserstein距離を使用➤ Wasserstein Predictive Coding(WPC)- WDMの下界として提案- 相互情報量の増加により精度は低下するが、CPCより常に優れている
  • 76.
    76評価系P. Goyal etal., “Scaling and Benchmarking Self-supervised Visual Representation Learning”, ICCV 2019.https://arxiv.org/pdf/1905.01235.pdf■ 自己教師学習の統合的な評価を実施➤ Pretext task/dataset1. Pretext task: Colorization/Jigsaw2. Dataset: ImageNet-1k/22k, YFCC-1M/10M/50M/100M➤ Target task- 画像識別, Low-shot画像識別, ナビゲーション, 物体検出, 法線推定, ファインチューニング, ImageNet線形識別➤ 評価の結果- データ数/モデルサイズのスケールにより自己教師学習は強化される- ナビゲーション,法線推定においてはImageNet事前学習を超えた
  • 77.
    77その他Yuki M. Asanoet al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020.https://openreview.net/forum?id=B1esx6EYvr■ Single Image Self-supervision➤ {BiGAN, RotNet, DeepCluster} + データ拡張による一枚絵からの表現学習- Pretext taskには{1, 10, 100}枚の画像を使用,他はデータ拡張用- データ拡張は{Cropping, Scaling, Rotation, Cont. Changes, Noise}➤ 結論- CNNの初期層(Conv 1, 2)は1枚の自然画像から十分学習可能- 枚数を増やして優位に学習できるのはConv 3以降 (e.g. 33.4 vs. 39.4)- 教師あり学習と同等のLow-levelな特徴は自己教師学習でも学習可能
  • 78.
    78相互情報量系M. Tschannen etal., “On Mutual Information Maximization for Representation Learning”, ICLR 2020.https://arxiv.org/pdf/1907.13625.pdf■ 相互情報量最大化は本当によいのか?➤ 異なる2視点(different views)の相互情報量(MI)を一致- 上記のタスクを通して,相互情報量の最大化を評価- オリジナルの入力xよりも低次元な空間を推定可能- モデルの柔軟性を取れる; DeepInfoMax/CMC/CPCよりも利点がある➤ 下記を明らかにした- 必ずしもMI最大化がよくなるわけではない- エンコーディングの構造は重要なことを明らかにした
  • 79.
    79相互情報量系J. Song etal., “Understanding the Limitations of Variational Mutual Infromation Estimators”, ICLR 2020.https://arxiv.org/pdf/1910.06222.pdf■ Self-consistencyによりトレードオフを解消➤ 相互情報量のトレードオフ(bias-variance)の改善を行う➤ Self-consistency(自己一貫性)により条件付けしてMI推定を改良➤ 従来のMI最大化の問題点(bias-variance tradeoffs)を、Self-consistencyにより改善
  • 80.
    80再構成系J. Song etal., “Understanding the Limitations of Variational Mutual Infromation Estimators”, ICLR 2020.https://arxiv.org/pdf/2002.08822.pdf■ Automatic Shortcut Removal➤ 色収差の埋め込みと除去により特徴表現を学習- “Lens”の収差を埋め込むネットワークを学習・適用- 入力 / 埋め込み画像の誤差を推定➤ ASRを補助タスクとして適用- ImageNet / YouTube-8Mにより学習,ImageNet / Places 205により評価- 各Pretext task(e.g. Rot., Exemplar)に追加したら精度向上(表より)
  • 81.
    81対比系K. He etal., “Momentum Contrast for Unsupervised Visual Representation Learning”, CVPR 2020.https://arxiv.org/pdf/2002.08822.pdf■ Momentum Contrast(MoCo)➤ Contrastive Learningを自己教師学習に適用- サンプリング画像/パッチ x^keyのエンコード特徴 k0, k1,...とクエリx^queryのエンコード特徴 q を比較,Contrastive Loss計算(左図)➤ 2種のPretext task,7種類のTargetタスク- Pretext: ImageNet-1M, Instagram-1B- Target: Pascal VOC, ImageNet, COCO-keypoint/pose, LVIS,CityScapes-instance seg./semantic seg.- いずれも良好な精度(右図はImageNet)
  • 82.
    82対比系T. Chen etal., “A Simple Framework for Contrastive Learning of Visual Representations”, arXiv pre-print:2002.05709 2020.https://arxiv.org/pdf/1911.05722.pdf■ SimCLR: Simple Framework for Contrastive Learning of Visual Representations➤ Contrastive Learningについての各種検討- データ拡張:Crop, Cutout, Jitter, Sobel, Gaussian noise/blur, Rotation- バッチ数:256, 512, 1024, 2048, 4096, 8192- 学習時間:100, 200, 300, 400, … 1000 epochs- ほか:誤差関数,Linear eval.,
  • 83.
    83その他X. Yan etal., “ClusterFit: Improving Generalization of VisualRepresentations”, CVPR 2020. https://arxiv.org/abs/1912.03330■ ClusterFit➤ 事前学習タスクで過学習しがちな特徴表現の汎化性向上- Pre-trainとFine-tuningの間にClusterFitステップを挿入(左図)- 位置付け的には弱教師事前学習(IG-3.5B的) + 自己教師学習(DeepCluster)➤ 画像/動画の11タスク(右下表)において評価- 例えばImageNet-1k@Jigsawでは約10%向上!- 大規模画像/動画タスクにおいて汎用的に使用可能
  • 84.
    84対比系Misra et al.,“Self-Supervised Learning of Pretext-Invariant Representations”, CVPR 2020.https://arxiv.org/abs/1912.01991■ Pretext-Invariant Representation(PIRL)➤ 画像変換に頑健な特徴表現学習- 元画像Iと変換画像I^tを異なるネットワークでエンコード- 両者の特徴が同様になるように誤差を計算して学習➤ 実験ではPretext taskと比較
  • 85.
    85評価系Xiaohua Zhai etal., “A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark”, arXivpre-print:1910.04867v2, 2020. https://arxiv.org/pdf/1910.04867.pdf■ 多様なDownstream tasksによる評価ベンチマークを構築➤ The Visual Task Adaptation Benchmark- ImageNetで表現学習済みのモデルを19の多様なドメインの分類問題にFine-tuningした時のTop1 acc.の平均を評価値とする- 学習データとして全データ/1kサンプル使用する2つの設定を定義➤ 評価の結果わかったこと- 構造理解が必要な分類問題では特にSelf-sup.が強い- Discriminatorの中間特徴を用いる生成モデル系はスコアが総じて低い- Encoderも同時に学習する生成モデル系(BigBiGANなど)は強い- Human sup.にさらにSelf-sup.を加えて学習しても精度向上可能
  • 86.
    86評価系C Liu etal., “Are Labels Necessary for Neural Architecture Search?”, arXiv pre-print:2003.12056, 2020.https://arxiv.org/pdf/2003.12056.pdf■ NASにおける教師あり/自己教師ありの検討➤ ラベルの有無で探索したアーキテクチャのランキングに高い相関あり(左上図)➤ 教師と自己教師により探索したモデルは類似する場合もある(左下図)➤ 教師と自己教師でほぼ同等,自己教師は一部精度の面で超える(右表)NASの文脈において教師は自己教師に置き換えられるかもしれない?ImageNetの探索, 人間教師(a)と回転(b)自己教師が類似
教師/自己教師による精度は相関が高い

  • 87.
    87識別/再構成系Simon Jenniet etal., “Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics”, CVPR 2020.https://arxiv.org/pdf/2004.02331.pdf■ 大域的な特徴表現獲得のための変換識別タスクの提案➤ ImageNet学習済みモデルは局所的な特徴しか捉えていない(左上図)➤ “大域的情報を考慮しない画像補完”の識別による大域的特徴の学習(下図)➤ Rotation、Warpingなども含めた変換の多クラス識別によって各後段タスクでSoTA、ImageNet -> Placesのlinear evaluationでは教師あり学習を超える(右上表)上:オリジナル画像下:大域的な整合性を排除した画像ImageNet教師あり学習済みモデルは上下の識別が苦手
  • 88.
  • 89.
    89Pretext task@動画認識識別系 再構成系生成モデル系その他Jigsaw相互情報量系 マルチモーダル系対比系(contrastive)推定系 メトリック系 評価系AutoEncodewith LSTMCVShuffle and LearnFCN + LSTMOdd-One-OutLearning Long-TermMotion DynamicsGeometryGuided CNNSSL by DRLFAb-NetSpace-TimeCubic PuzzlesSpatio-temporalRepresentaion Cycle-consistencyof TimeJoint-task TemporalCycle-ConsistencyLearningDense PredictiveCoding
  • 90.
    90再構成 | 生成モデル系SNitish et. al., “Unsupervised Learning of Video Representations using LSTMs”, ICML 2015.https://arxiv.org/pdf/1502.04681.pdf■ Autoencode with LSTM➤ Pretext task: 動画シーケンスの再構成・未来予測- autoencoder(L2), future predictor(ce loss), compositeを比較- 入力はAlexNetから得られる各フレーム特徴量- Sports-1M -> UCF-101, HMDB-51➤ 結果- compositeが教師ありに近い精度(約5ポイント減)- 長いシーケンス・異なるドメインの学習でも高い精度
  • 91.
    91識別系I. Misra et.al., “Shuffle and Learn: Unsupervised Learning using Temporal Order Verification”, ECCV 2016.https://arxiv.org/pdf/1603.08561.pdf■ Shuffle and Learn➤ Pretext task: 入力シーケンスが時間的に正しく並んでいるか判定- optical flowの変化が大きい区間のフレームを3つサンプリング- フレームごとにAlexNetに入力 & concat- cross entropy loss➤ 行動認識の事前学習として実験- モーション差が大きい・負例が多いほど精度が高い- ImageNetはsemantic情報に注目しているのに対し提案手法は人間のポーズに注目している
  • 92.
    92再構成系■ FCN+LSTMによる齧歯動物の姿勢・行動推定➤ ラットの前足の姿勢・行動の特徴表現を獲得したい➤Pretext task: 前足detection+フレーム並べ替え- FCNが検出したbboxのフレーム順をシャッフルして、LSTMで正しい順番を予測- optical flowで前足bboxを作成➤ 結果(ラットと人間のポーズデータセットで検証)- queryに近いフレームの検出・Expertに近い性能を達成- detectionでoptical flowより高い高い性能を発揮(+18p)- bootstrap的に学習するとさらに精度向上(+18p+23p)B Brattol et al., “LSTM Self-Supervision for Detailed Behavior Analysis”, CVPR 2017.,http://openaccess.thecvf.com/content_cvpr_2017/papers/Brattoli_LSTM_Self-Supervision_for_CVPR_2017_paper.pdf
  • 93.
    93■ Odd-One-Out Learning➤Pretext task: 複数の入力シーケンスのうちフレーム順がおかしいものがどれかを推定- シーケンスをencodeしてからAlexNetに流す- 出力をconcatしてFCでOddを推定➤ 行動認識の事前学習で実験- 以下の設定で転移学習の精度が向上- sampling法: random、frame数: 6-10、encode:stack-of-diff- 当時のsslのSOTA手法を超えた- UCF101で+10p- HMDB51で+12.7p識別系B Fernando et. al, “Self-Supervised Video Representation Learning With Odd-One-Out Networks”, CVPR 2017.https://arxiv.org/pdf/1611.06646.pdf
  • 94.
    94再構成系■ Long-Term MotionDynamics➤ Pretext task: 入力フレームに対して未来の3Dフローを予測- RGB-Dモダリティで3Dフローを作成- flow spaceの分布でcross entropy lossを計算➤ 面白い点:flowのみを学習にもかかわらずDepthの再構成がきれい➤ Depth、RGBによるどちらの行動認識でも高精度- 3Dフロー予測で空間・時間の関係を見られるようになった?L Zelun et. al., “Unsupervised Learning of Long-Term Motion Dynamics for Videos”, CVPR 2017.https://arxiv.org/pdf/1701.01821.pdf
  • 95.
    95再構成系■ Geometry GuidedCNN➤ 2ステップで学習- 1st Pretext task: sythetic imageでoptical flowを学習- 使いやすDBでflowを学習できる- 2nd Pretext task: 3D moviesでdisparity map(depth)を学習- real domainに寄せる- 2ndを学習するときに1stを忘れないように蒸留とLwFを活用➤ SceneRecogで従来手法よりも高い性能を発揮- 1stと2ndをどちらもやることで精度が向上- ImageNetとのensembleで精度向上(異なる部分を見てる)C Gan et. al, “Geometry Guided Convolutional Neural Networks for Self-Supervised Video RepresentationLearning”, CVPR 2018. http://ai.ucsd.edu/~haosu/papers/cvpr18_geometry_predictive_learning.pdf
  • 96.
    96識別系■ 訓練用データのシャッフルを強化学習で最適化➤ JigsawやShuffle&Learnではシャッフルしたパッチやフレームを入力し、正しい順序を識別-これまではシャッフルの仕方は固定- 本研究ではRLで訓練中のCNNの状態に合ったシャッフルを行う➤ 空間・時間領域ごとにDRLを学習- DRLはシャッフルした後の順序を出力- 報酬はval error、状態はsoftmaxをgather staticsticsしたもの➤ DRL: 2 FC layers, CNN: CaffeNetB Brattoli et. al., “Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning”, ECCV 2018.https://arxiv.org/abs/1807.11293
  • 97.
    97再構成系■ Facial Attributes-Net(FAb-Net)➤ Pretext task: sourceフレームとtargetフレームを入力してtargetフレームを生成する- encoderは顔のアトリビュートをembeddingする- decoderはsourceとtargetのembeddingのcaoncatからsourceからtargetへの変化を推定し、bilinear samplingでtargetを生成する- Curriculum Leaningを使用(バッチの損失でランクを設定)➤ ランドマーク・ポーズ推定等で教師ありに近い性能を発揮Wiles O. et. al., “Self-supervised learning of a facial attribute embedding from video”, BMVC 2018.http://www.robots.ox.ac.uk/~vgg/publications/2018/Wiles18a/wiles18a.pdf
  • 98.
    98識別系■ Space-Time CubicPuzzles➤ Pretext task: 時間方向と空間方向のタスクを同時学習(左図参照)- 時間方向(フレーム並べ替え): 59.3@UCF101- 空間方向(Jigsaw Puzzle): 58.5@UCF101➤ 3D CNNを高度に学習(右表参照)- C3Dにて60.6@UCF101, 28.3@HMDB51- 3D ResNet-18にて65.8@UCF101, 33.7@HMDB51D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.https://arxiv.org/pdf/1811.09795.pdfPretext taskのイメージ図.空間(Jigsaw Puzzle)と時間(フレーム並べ替え)を同時に実行する.動画像の特性をうまく利用した学習体系となっている.
Pretext taskにSpace-Time Cubic Puzzles(3D ST-puzzle)を用いた結果を表示.従来ではUCF101にて50%代であったが,精度を大幅に向上することに成功した.

  • 99.
    99識別系■ 人間の認知システムに倣った動き推定タスク➤ pretexttask : 動画の1フレームをパッチに分割し,動きが最大のパッチ・動きの多様性が最大のパッチ・動きが最小のパッチを推定- 人間は動きが最も大きい部分(物体)と動きが最も小さい部分(背景)を分けて近くすることに着目- 様々なパッチ分割(格子状・放射状など)で検証- 行動認識,シーン理解などのタスクにおいてSSLのSOTAを更新J.Wang et al, “Self-supervised Spatio-temporal Representation Learning for VIdeos by predicting motion and appearancestatistics”, CVPR2019. https://arxiv.org/pdf/1904.03597.pdf
  • 100.
    100再構成系X Wang etal., “Learning Correspondence from the Cycle-consistency of Time”, CVPR 2019.https://arxiv.org/pdf/1904.11407.pdf■ Cycle-consistency of Time➤ 動画内のパッチを逆再生である時点までトラッキングし,開始時点まで再びトラッキング→ 開始時と終了時のパッチの空間座標のユークリッド距離を最小化するcycle-consistency loss(左図)➤ mask, pose等複数のpropagationタスクで自己教師の中でSOTADAVIS-2017でのmask propagationの評価
  • 101.
    101推定系■ 関連性の高い2つのタスクを1つ類似度行列で同時に学習➤ task1とtask2を交互に学習し相乗効果を得る-Pretext task1: Object-level matching (物体追跡)- フレームとクロップされたパッチの類似度行列を計算- Pretext task2: Fine-grained matching (ピクセルカラーマッチング)- パッチとtask1から得られるクロップの類似度行列を計算- カラーパッチを参考にtask1のクロップをカラー化- 2つのタスクの類似度行列を1つの行列で表現する➤ 物体、部位、キーポイント検出でImageNet-ResNet-18に近い性能を発揮Xueting L. et al., “Joint-task Self-supervised Learning for Temporal Correspondence”, NIPS 2019.https://arxiv.org/abs/1903.07593
  • 102.
    102メトリック系■ 二動画間で起きているアクションの埋め込みを時間的に整列する表現学習➤ 同一アクションの起きている動画からアクションの中のシーケンスをCycle-consistencyを使用して時間的に整列する- Cycle-back Classification- Embedding 空間で微分可能な最近傍点を取得、行って戻ってきた点が一致するかどうかの損失- Cycle-back Regression- 戻ってきた最近傍点がずれているオフセットと分散を小さくする損失➤ フレーム単位の類似度検索・異常検知に有効D. Dwibedi et al., “Temporal Cycle-Consistency Learning”, CVPR 2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Dwibedi_Temporal_Cycle-Consistency_Learning_CVPR_2019_paper.pdf
  • 103.
    103推定系■ 数秒先までの動画特徴量を予測し、空間特徴を保持した DensePredictiveCoding による表現学習➤ 特徴量の予測誤差には Noise Contrastive Estimation を特徴マップに対して Dense に行う- 予測した特徴マップに対して時間・空間的負例よりも正解に近いかどうかを判定- 実験では約2.5秒クリップからその先約1.5秒を予測➤ 遠い未来予測を行えば事前学習精度は下がるが、Downstream task において性能は向上T. Han et al., “Video Representation Learning by Dense Predictive Coding”, ICCV 2019 Workshop,http://openaccess.thecvf.com/content_ICCVW_2019/papers/HVU/Han_Video_Representation_Learning_by_Dense_Predictive_Coding_ICCVW_2019_paper.pdf
  • 104.
  • 105.
    105マルチモーダル系(Audio-visual)■ ラベルのない動画から音と画像の特徴を学習➤ Audio-visualcorrespondence (AVC)- 動画では視覚情報と聴覚情報のアラインメントが取れていることを利用- 同じ動画の同時刻のペア (正例) と違うビデオから取ってきたペア (負例)を識別できるように各モダリティの特徴抽出器を学習➤ Audio-visual embedding network- 各モダリティの特徴量のユークリッド距離を利用➤ Audio-visual object localization network- 画像特徴量のどこが音響特徴量に反応しているかを特定し音源定位R. Arandjelović et al., “Objects that Sound”, ECCV 2018. https://arxiv.org/pdf/1804.03641.pdf
  • 106.
    106マルチモーダル系(Audio-visual)■ 動画内の時系列のアライメントに着目➤ Earlyfusion- 音と関係する動きをモデリングするために視覚情報と聴覚情報それぞれが時系列の情報を持つ比較的浅い層の段階で情報を統合し3D conv.➤ Action recognitionの事前学習として有効性を確認- 別の動画のデータを負例として使うより,同動画内の別時刻のデータを負例として使うことで性能改善(動きに関する特徴量を獲得)A. Owens et al, “Audio-Visual Scene Analysis with Self-Supervised Multisensory Features”, ECCV 2018.https://arxiv.org/pdf/1712.06651.pdf
  • 107.
    107マルチモーダル系(Audio-visual)■ 顔と声の埋め込みによるクロスモーダルの検索➤ 埋め込みの学習-同じ動画のペア (正例) と違うビデオから取ってきたペア (負例)を用いてContrastive lossで学習➤ カリキュラムラーニング- Contrastive lossによる学習では識別困難な負例を活用すると性能が改善- 学習途中の埋め込み同士の距離を利用して識別困難か判断A. Nagran et al., “Learnable PINs: Cross-Modal Embeddings for Person Identity”, ECCV 2018.https://arxiv.org/abs/1804.01665
  • 108.
    108マルチモーダル系(Audio-visual)■ アライメントに着目したカリキュラム学習の解析➤ Audio-VisualTemporal Synchronization- 同じ系列の同じ時刻のペアかどうかにもとづいてContrastive lossで学習➤ 様々な負例を利用したカリキュラムラーニング- Easy negative: 別の動画の音- Hard negative: 同じ動画の離れた区間の音➤ 評価の結果- カリキュラムラーニングで正例/負例の識別性能改善(評価はEasyのみ)- ダウンストリームタスクの性能も同様の傾向B. Korbar et al., “Cooperative learning of audio and video models from self-supervised synchronization”, NeurIPS 2018.https://arxiv.org/pdf/1804.03160.pdf
  • 109.
    109マルチモーダル系(Audio-visual)■ 360°動画とモノラル音源からの音場合成➤ 4段階の音場合成(a)モノラル音源と360°動画からの特徴抽出(b) 音源分離を行う時間周波数マスクの推定(動画の特徴量も利用)(c) 分離した音源ごとの位置に関する重みを動画からDNNで計算(d) 観測音場の基底にかかる係数を分離音の重み付き和で推定➤ 自己教師あり学習としてのメリット- 音源位置に関する教師情報を用いずに画像内の音源位置を推定可能➤ Youtubeから音場のデータを持った動画を集めたデータセットを構築P. Morgado et al., “Self-Supervised Generation of Spatial Audio for 360° Video”, NeurIPS 2018.https://arxiv.org/abs/1805.00833
  • 110.
    110マルチモーダル系(Audio-visual)■ クラスタリングに基づく自己教師あり学習➤ Audio-visualcorrespondenceにもとづいた学習の課題- 単一の音源物体が画像の中で支配的であることを暗に仮定- 楽器のソロ演奏動画においては妥当な仮定だが一般の画像には非現実的➤ クラスタリングによる学習- 各モダリティで得られらた特徴量をクラスタリング- 同じ音源物体に関する音と画像の特徴量が集まることを期待- K-means法の目的関数を微分可能に近似し最適化する手法を提案D. Hu et al., “Deep Multimodal Clustering for Unsupervised Audiovisual Learning”, CVPR 2019.http://papers.nips.cc/paper/8002-cooperative-learning-of-audio-and-video-models-from-self-supervised-synchronization.pdf
  • 111.
    111マルチモーダル系(Audio-visual)■ 音声から話者の顔画像の埋め込みベクトルを推定➤ 目的:音声から話者の顔を推定- Face Recognition: ラベル付きの顔画像を用いた顔認識で事前学習- Decoder: 顔認識で事前学習したDNNの中間特徴量から顔画像を推定- Encoder: 動画内の顔画像の特徴量(話者idは未知)を音から推定 (Encoderの学習が人手のラベリングを用いない自己教師ありの知識蒸留)➤ 評価の結果- 顔画像の推定では概形をとらえられたが,男性の子供→女性等も- 話している言語も顔画像の推定結果に影響することを確認TH. Oh et al., “Speech2Face: Learning the Face Behind a Voice”, CVPR 2019.http://papers.nips.cc/paper/7319-self-supervised-generation-of-spatial-audio-for-360-video.pdf
  • 112.
    112マルチモーダル系(Audio-visual)■ 音による画像内の音源物体検出➤ 目的:音からの移動している車両の定位- 2chの音源から物体検出するDNNを学習済みのYOLOv2の中間特徴量と出力をまねるように学習➤ Auditory Vehicle Tracking dataset- 2chの録音と動画のデータセットを構築(評価用の正解ラベルもあり)➤ 評価の結果- 音による定位は照明条件に頑健なので物体追跡の性能改善が期待できるC. Gan et al., “Self-supervised Moving Vehicle Tracking with Stereo Sound”, ICCV 2019.http://www.justinsalamon.com/uploads/4/3/9/4/4394963/cartwright_tricycle_waspaa2019.pdf
  • 113.
    113マルチモーダル系(Audio-visual)■ Cross-Modal DeepClustering (XDC)➤ 教師なしの表現学習手法Deep clusteringのマルチモーダル拡張- 音/動画から得られた特徴量をクラスタリングしたものを動画/音の教師 ラベルに使用(相補的に教師ラベルを作成)➤ 行動認識での評価- 自己教師あり学習のデータセットの規模を上げることで性能改善- 小規模データセットにおいて教師あり学習を上回ることを確認- MDC/CDCと比べてXDCのほうが複数のタスクで有効なことを確認H. Alwassel et al., “Self-Supervised Learning by Cross-Modal Audio-Video Clustering”, arXiv pre-print:1911.12667, 2019.https://arxiv.org/abs/1911.12667
  • 114.
    114マルチモーダル系(Audio-visual)■ ドメイン間のデータの変換に注目➤ データ拡張・モダリティに不変な特徴量の学習-データ拡張に不変な特徴量の学習は自己教師あり学習で高性能(例: MoCo)- 異なるドメインのデータに関しても同様にとらえ,対応したデータを近づけるようにContrastiveロスで学習➤ 行動認識での評価- 理論的に大きな改善は見られないが性能的にはSOTAを達成- IG65Mを使えば更なる性能改善の可能性もありM. Patrick et al., “Multi-modal Self-Supervision from Generalized Data Transformations”, arXiv pre-print:2003.04298, 2020.http://openaccess.thecvf.com/content_CVPR_2019/papers/Oh_Speech2Face_Learning_the_Face_Behind_a_Voice_CVPR_2019_paper.pdf
  • 115.
  • 116.
    メタサーベイ??● 論文の背景にある知識等に着目● 代表的な評価法と精度の変遷●SSLのトレンド● 注目研究者● いかに研究体制(メンバーや環境)を整えるか?という部分にフォーカス116

  • 117.
    検証用データベースの変遷■ Pretext task➤ImageNet-1k→ImageNet-22K, YFCC100M- 多くの大規模データベースが提案され,大量のデータでPretext taskを解くことで精度が上がるかを調査■ Fine-tuning task➤ Pascal VOC→ImageNet (1%/10% label)- 従来手法との比較でPascal VOCも使われるが,Classificationでの評価が主流!?- より汎用的な特徴量獲得を評価するためにVideoにも適用する流れ- 実用的なシステムを考えた際にFine-tuning先で少数のラベルであっても適用可能かを調査今回は,ImageNet-{1k,22K}→PASCAL VOC07ImageNet→ImageNet(ALL, 10% Label)においての精度比較を調査117
  • 118.
    Method Conference NetworkParameters(Millon)ClassificationTop-1(%mAP)Rotatioinc CVPR16 ResNet50(w4×) 86 55.4Colorize ECCV16 ResNet101 28 39.6Jigsaw ECCV16 ResNet50(w2×) 94 44.6DeepCluster ECCV18 VGG 15 48.4AMDIM arXiv Custom-ResNet 626 68.1LA ICCV19 ResNet50 24 60.2BigBiGAN NeurlPS19 ResNet50(w4×) 86 61.3CPCv2 arXiv ResNet50 24 63.8CMC ICLR20 ResNet50(w2×) 188 68.4PILR CVPR20 ResNet50 25.6 63.6MoCo CVPR20 ResNet50(w4×) 375 68.6SimCLR arXiv ResNet50(w4×) 375 76.5Supervised — ResNet50 24 76.3Supervised — ResNet50(w4×) 375 76.8比較{Self, Un}-supervised learning on ImageNet => linear classifiers on ImageNet118
  • 119.
    Method Conference NetworkClassificationTop-5(%mAP)Random init — ResNet50 59.0Rotatioin CVPR16 ResNet50(w2×) 86.4Colorize ECCV16 ResNet152 62.0Jigsaw ECCV16 ResNet50 79.3NPID++ CVPR18 ResNet50 81.5AMDIM arXiv Custom-103 85.8BigBiGAN NeurlPS19 ResNet50(w4×) 78.8CPCv2 arXiv ResNet161 91.2PILR CVPR20 ResNet50 83.8SimCLR arXiv ResNet50(w4×) 92.6Supervised — ResNet50 93.2比較{Self, Un}-supervised learning on ImageNet => Fine-tuing on ImageNet (Label 10%)119
  • 120.
    Method Conference Classification(%mAP)Detection(%mAP)Segmentation(%mIoU)Randominit. — 53.3 43.4 19.8Colorize ECCV16 65.9 46.9 35.6Jigsaw ECCV16 67.7 53.2 ーBiGAN ICLR17 60.1 46.9 34.9Rotation ICLR18 73.0 54.4 39.1Jigsaw++ CVPR18 69.8 55.5 38.1DeepCluster ECCV18 73.7 55.4 45.1Supervised — 79.9 59.1 48.0比較{Self, Un}-supervised learning on ImageNet-1K => Fine-tuing on Pascal VOC2007{Self, Un}-supervised learning on ImageNet-22K => Fine-tuing on Pascal VOC2007Method Conference Classification(%mAP)Detection(%AP50)Segmentation(%mIoU)PILR CVPR20 81.1 73.4 —MoCo CVPR20 — 74.9 —Supervised — 87.5 74.5 — 120
  • 121.
  • 122.
  • 123.
  • 124.
  • 125.
  • 126.
    126■ Deep INFORMAX(DIM)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 実験では画像の部分パッチと画像全体の特徴量について最大化すると最も良かった■ Contrastive Predictive Coding (CPC)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 現在までの系列情報と先の系列情報の相互情報量を最大化相互情報量の最大化(6/7)
  • 127.
    127■ Deep INFORMAX(DIM)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 実験では画像の部分パッチと画像全体の特徴量について最大化すると最も良かった■ Contrastive Predictive Coding (CPC)➤ 明示的に入力と特徴量間の相互情報量を最大化➤ 現在までの系列情報と先の系列情報の相互情報量を最大化相互情報量の最大化(7/7)・従来のNATやIDと異なり,いずれも欠損情報と全体(もしくは欠損してる部分)の情報間で相互情報量の最大化を行うことが効果を発揮している・DIM、CPCの損失関数はConrastive Lossに繋がっており、MoCoやsimCLRも相互情報量最大化の要素を含んでいると考えられる
  • 128.
    128■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的■ 実際は(cls.,det., seg.)のみの評価がほとんど➤ 最初に決めたから?現状,あまり問題意識はない分野全体が過学習?(1/5)モデルPretext taskex. ImageNetw/o labelsex. AlexNetTarget task学習+画像データ ラベルモデル学習 画像データ(ex. Pascal VOC segmentation)
  • 129.
    129■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的■ 実際は(cls.,det., seg.)のみの評価がほとんど➤ 最初に決めたから?現状,あまり問題意識はない■ Pretext taskの定義の仕方が上記のTarget taskに過学習していないか?分野全体が過学習?(2/5)モデルPretext taskex. ImageNetw/o labelsex. AlexNetTarget task学習+画像データ ラベルモデル学習 画像データ(ex. Pascal VOC segmentation)
  • 130.
    130■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的■ 実際は(cls.,det., seg.)のみの評価がほとんど➤ 最初に決めたから?現状,あまり問題意識はない■ Pretext taskの定義の仕方が上記のTarget taskに過学習していないか?➤ 実は他のtask・domainでは異なる結果になるのでは?(ex. Rotation)➤ 高次なtarget taskでの評価ため,情報量保存的アプローチは不利分野全体が過学習?(3/5)A. R. Zamir +, “Taskonomy: Disentangling Task Transfer Learning”, CVPR 2018
  • 131.
    131■ 案1: あらゆるtargettaskで評価⭕ 数によってはある程度の納得感❌ 大変■ 案2: 入力と特徴量間の相互情報量で評価❌ 厳密な計算が不可(NNを用いた推定ベースならDIMなどでは採用)■ 案3: Target taskを(ある程度)限定(task or domain specificな表現学習)⭕ 問題は解消される❌ (汎用性という意味での)ありがたみが薄れる,ほぼ半教師あり学習分野全体が過学習?(4/5)
  • 132.
    132■ 案1: あらゆるtargettaskで評価⭕ 数によってはある程度の納得感❌ 大変■ 案2: 入力と特徴量間の相互情報量で評価❌ 厳密な計算が不可(NNを用いた推定ベースならDIMなどでは採用)■ 案3: Target taskを(ある程度)限定(task or domain specificな表現学習)⭕ 問題は解消される❌ (汎用性という意味での)ありがたみが薄れる,ほぼ半教師あり学習分野全体が過学習?(5/5)表現の良さの評価は非常に難しい…
  • 133.
    133■ Context Pred.(CP) vs. Jigsaw Puzzle (JP)➤ CP: 高次な情報を必要としない- しかし,実際に捉えてほしいのは高次(semantic)な情報- パッチ境界の低レベルな情報のみで相対位置の推定が可能?- パッチ間にgapをつける- パッチ位置をjittering➤ JP: 局所特徴を捉えて順列- CPの曖昧性を解消したことが精度向上?- JP 67.7 vs. CP 55.3 @VOC’07 Cls.- 境界など詳細な特徴も捉えて識別Pretext taskの分析(1/5)例えば…境界やその外挿で判断できなくする① ➁⑤Context Pred.①②⑤を基準とした相対位置推定は 困難Jigsaw Puzzle高次な情報を捉えることに成功か?
  • 134.
    134■ 回転によるPretext task-4方向を推定するタスク- 論文中では2方向,8方向など実施- シンプルながら非常に効果が大きい- 91.16@CIFAR-10 (vs. 92.80 w/ Supervised)- 72.97@VOC’07 (vs. 79.9 w/ Supervised)Pretext taskの分析(2/5)回転による自己教師画像の大域的な特徴を(ある程度)捉えやすい?Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.https://arxiv.org/abs/1803.07728
  • 135.
    135■ Shuffle &Learn- フレーム並べ替え- 58.5% @ UCF-101■ Shuffle & Learn + Jigsaw Puzzle- 上記に +Jigsaw Puzzle(空間情報把握)- 65.8% @ UCF-101Pretext taskの分析(3/5)フレームの時系列順列(時間)+空間的順列(空間)を同時学習動画認識では時間 + 空間の3次元的な表現の同時学習が重要D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.https://arxiv.org/pdf/1811.09795.pdf
  • 136.
    136■ タスクのちょうど良い難易度が精度に関係?➤ 簡単/曖昧すぎる情報を推定しても表現が足りない-e.g. Context Prediction➤ 難しすぎても表現できない- e.g. VAE/GAN (少ない補助情報で画像を完全に再現)■ 大域的特徴 vs. 局所的特徴 vs. 動き特徴➤ 大域的- e.g. Rotation➤ 局所的- e.g. Jigsaw Puzzle➤ 動き- e.g. Object Segmentation, Shuffle & LearnPretext taskの分析(4/5)
  • 137.
    137■ 組み合わせでもちょうど良い難易度を保つ➤ 組み合わせによる精度向上例-Joint Unsupervised LEarning (JULE)- 特徴表現 + 擬似カテゴリ- Multi-task SSL- CP + Color + Motion Segment + Exemplar- Jigsaw Puzzle++- 2枚の画像でシャッフル- Shuffle & Learn + Jigsaw Puzzle- 時系列フレーム入れ替え + 空間シャッフルPretext taskの分析(5/5)
  • 138.
    138■ 2016年発表のJigsaw論文が引用回数391回(2020年現在)➤ ベルン大学でPh.D➤博士論文は自己教師Visual Representation➤ 現在はBosch Center for A.I.でResearch Scientist➤ CVPR, ICCV等トップ国際会議に論文を複数通している➤ 代表的な論文Mehdi Noroozi(1/7)- Unsupervised Learning of VisualRepresentations by Solving JigsawPuzzles (ECCV 2016)- Representation Learning by Learningto Count (ICCV 2017)- Boosting Self-Supervised Learning viaKnowledge Transfer (CVPR 2019)https://scholar.google.ch/citations?user=NbW68EAAAAAJ&hl=en
  • 139.
    139■ 毎年Firstでトップ国際会議➤ カーネギーメロン大学でPh.D➤博士論文はVisual Learning with Minimal HumanSupervision➤ 現在はFAIRのResearch Scientist➤ CVPRにfirstで5本,Second含めると7本➤ CVPR2020に3本Accept➤ 代表的な論文Ishan Misra(2/7)- Cross-stitch Networks for Multi-tasklearning (CVPR 2016)- Shuffle and Learn: Unsupervised Learningusing Temporal Order Verification (ECCV2016) https://imisra.github.io/
  • 140.
    140■ 総引用数1649回(2020年現在)➤ MITCSAILでPh.D➤ 博士論文は Learning Visual Models from PairedAudio-Visual Examples➤ 現在はミシガン大学EECS学科の助教➤ ほぼ毎年Firstでトップ国際会議➤ Multi-modalなSelf-supervisionのスペシャリスト➤ 代表的な論文Andrew Owens(3/7)- Visually Indicated Sounds (CVPR 2016)- Ambient Sound Provides Supervision forVisual Learning (ECCV 2016)- Audio-visual scene analysis withself-supervised multisensory features(ECCV 2018)http://andrewowens.com/
  • 141.
    141■ Audio-Visual統合の研究を先導➤ MITCSAILでPh.D➤ 現在はテキサス大学オースティン校の教授とFAIRのResearch Scientistを兼任➤ IROS 2019やSANE 2019(音響信号処理のWS)で講演➤ CVPR2020共著6件 (うち4件oral)➤ 代表的な論文Kristen Grauman(4/7)- Learning to separate object sounds bywatching unlabeled video (ECCV 2018)- 2.5D visual sound (CVPR 2019)- Co-Separating sounds of visual objects(ICCV 2019)- Listen to look: action recognition bypreviewing audio (CVPR 2020)http://www.cs.utexas.edu/users/grauman/
  • 142.
    142■ Contrastive PredictiveCodingの第1著者➤ ゲント大学でPh.D➤ 現在はDeepMindのResearcher➤ 生成モデルの研究でも非常に有名(PixelRNN, WaveNet,VQ-VAEのfisrt)➤ 代表的な論文Aäron van den Oord(5/7)- Pixel Recurrent Neural Networks (ICML2016)- Neural Discrete Representation Learning(NIPS 2017)- Representation learning with contrastivepredictive coding (2018)- Data-efficient image recognition withcontrastive predictive coding (2019) https://avdnoord.github.io/homepage/
  • 143.
    143■ Cross-modal SSLを先導➤MIT CSAILでPh.D,現在は同Reserach Scientist➤ Speech/spoken languageとvisualのcross-modalに早くから着手 (ASRU2015)➤ ECCVとACLにfirst1本ずつ(ICASSP, Interspeech等多数)➤ 代表的な論文David Harwath(6/7)- Deep Multimodal Semantic Embeddings forSpeech and Images (ASRU 2015)- Unsupervised Learning of Spoken Languagewith Visual Context (NIPS 2016)- Jointly discovering visual objects and spokenwords from raw sensory input (ECCV 2018)- Learning Hierarchical Discrete Linguistic Unitsfrom Visually-Grounded Speech (ICLR 2019)https://people.csail.mit.edu/dharwath/
  • 144.
    144■ CV・マルチビュー幾何学の第一人者➤ Univ.of Oxford, VGGの教授➤ DeepMindにも所属・提携している➤ Mulitple View Geometry in Computer Vision著者- R. Hartley氏との共著でCV分野において不朽の名作- 数学の説明が素晴らしい!➤ VGGNetの著者でもある(CVなら大体なんでもすごい!)➤ 動画系のSSLも空間特徴・数学の観点から攻めている印象➤ 代表的な論文- Very Deep Convolutional Networks for Large-Scale Image Recognition(ICLR 2015)- Multiple view geometry in computer vision(Cambridge University Press 2000)- The pascal visual object classes (VOC) challenge(International Journal of Computer Vision 2010)- Temporal Cycle Consistency Learning (CVPR 2019)- Two-stream convolutional networks for action recognition in videos(NeurIPS 2014)Andrew Zisserman(7/7)https://www.robots.ox.ac.uk/~az/
  • 145.
    FAIR(Facebook AI Research;1/11)145■ 世界の物体検知自己教師学習研究を牽引するFAIR➤ 激強研究機関- 強い研究者が集合,議論してさらに強くなる➤ 画像認識におけるトレンド創出- Mask R-CNN/RetinaNetなど➤ 強い基盤を保有- PyTorch/Caffe2などに代表- Detectronは誰もが使用できる物体認識オープンソーススライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 146.
    FAIR (2/11)146■ 激強研究機関➤所長はYann LeCun(左; CNNの考案者の一人)➤ トップの国際会議に毎回数本〜数十本論文通す➤ トップ研究者を常時採用(+厳しい面接を突破)- InternですらNIPS/ICML/CVPR等の主著成果が推奨されているhttps://research.fb.com/category/facebook-ai-research/ 1ページ10本リストされているページが66!(全体で660弱くらいの論文が採択?)
https://research.fb.com/publications/page/9/2019年2月時66pからの104p!
(1年で存在感がさらに増した!)
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-grouphttps://research.fb.com/publications/page/9/【2019年2月時】
 【2020年4月時】

  • 147.
    FAIR (3/11)147■ 物体検知分野の著名研究者(覚えておくと得します)➤Kaiming He- ResNet, Mask R-CNN, Faster R-CNN, Focal Loss等- http://kaiminghe.com/➤ Ross Girshick- DPM, R-CNN, Fast/Faster/Mask R-CNN, YOLO, Focal Loss等- http://www.rossgirshick.info/➤ Piotr Dollar- Caltech Pedstrian DB, MSCOCO, ICF, Mask R-CNN等- https://pdollar.github.io/- 他多数。。。スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 148.
    FAIR (4/11)148■ 自己教師学習分野の著名研究者(覚えておくと得します)➤Kaiming He- ResNet, Mask R-CNN, Faster R-CNN, Focal Loss, MOCO,MOCOv2, SSL+NAS等- http://kaiminghe.com/➤ Ross Girshick- DPM, R-CNN, Fast/Faster/Mask R-CNN, YOLO, Focal Loss,MOCO, MOCOv2, SSL+NAS等- http://www.rossgirshick.info/➤ 物体検出のみならず,自己教師学習においても存在感スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 149.
    FAIR (5/11)149■ 自己教師学習分野の著名研究者(覚えておくと得します)➤Ishan Misra(注目研究者でも紹介)- Shuffle and Learn等- https://imisra.github.io/➤ Kristen Grauman(注目研究者でも紹介)- 2.5D Visual Sound, Listen to Look等- 音声以外にも動画, 一人称ビジョン, ファッション等多数- http://www.cs.utexas.edu/users/grauman/➤ Priya Goyal- ImageNet in 1 Hour, Focal Loss, Scaling & Benchmarking等- Engineerとしての能力も高い- https://scholar.google.co.in/citations?user=-9yiQMsAAAAJ&hl=enスライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 150.
    FAIR (6/11)150■ 自己教師学習のトレンドを創出➤MoCo(CVPR 2020 Oral) -> MoCo v2- 短期間(v1; 2019/11, v2; 2020/03)にアップデート- 詳細は論文サマリ参照- SimCLR等にも影響➤ Scaling and Benchmarking- 長らく見直されていないルールを改正(しようと提案)- AlexNetのみの評価をResNet-50などを使用- Pretext taskの使用データセットのサイズについて評価- 画像識別以外のタスクについても転移学習スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 151.
    FAIR (7/11)151■ 自己教師学習でトレンドを創出するには?1.シンプルアイディア2. 劇的な精度向上3. コードを公開の3拍子は(物体検知, 自己教師学習に限らず)CV界で非常に大きく評価されるMoCoシリーズ,Shuffle & Learn, Scaling & Benchmarkingも3拍子揃えている
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-groupMoCo: https://github.com/facebookresearch/mocoShuffle & Learn: https://github.com/imisra/shuffle-tupleScaling & Benchmarking: https://github.com/facebookresearch/fair_self_supervision_benchmark
  • 152.
    FAIR (8/11)152■ 研究はインターンも重要な戦力?➤有名研究室エース学生がインターンすること多し➤ やはり有名研究者と数ヶ月に渡り研究を実施Fellowshipプログラムも充実($42,000/year, トラベルサポート込)
https://research.fb.com/programs/fellowship
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 153.
    FAIR (9/11)153■ FAIRのデータ基盤➤Facebook/Instagramを使用➤ SNSを用いた弱教師によるPre-trainの実行(下図)- Hashtagでラベル付/スケール増加- 35億枚の画像により特徴表現学習(Instagram-3.5B; IG-3.5B)- 2019年は動画版を作成(Instagram-65M; IG-65M)[Mahajan+, ECCV18]FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築
https://arxiv.org/abs/1911.12667IG-65MはCross-ModalDeep Clustering (XDC)にも使用
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 154.
    FAIR (10/11)154■ メタな部分を常に考えている?➤手法とともにデータの分析も行う➤ Scaling & Benchmarking (ICCV 2019)- データ量やモデルサイズにスケールする? -> やはりする- AlexNet -> ResNet-50/ImageNet -> YFCCにより精度向上- 画像識別 -> 多様なタスク(場合によっては教師あり学習よりも精度高)画像枚数の増加に伴い,
性能は高くなる傾向
Pretext task(Jigsaw, Colorization)と画像枚数の関係性
スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 155.
    FAIR (11/11)155■ メタな分析➤トレンドを創れる研究者が議論してさらに強いベースラインを作り続ける➤ 膨大なデータ量,豊富な計算リソース➤ メタな部分を研究者(や運営)が常に考え続ける- メタサーベイについても大きく先を行っている!スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 156.
    156VGG(Visual Geometry Group;1/5)トレンドを創り続ける研究室■ 激強大学研究室➤ 主宰はAndrew Zisserman & Andrea Vedaldi➤ トップの国際会議に毎回数本〜数十本論文通す➤ トップ研究者を多数輩出- 関係者にはCordelia Schmid氏(INRIA/Google),Karen Simonyan氏(DeepMind),Andrew Fitzgibbon氏(MSR)などhttp://www.robots.ox.ac.uk/~vedaldi/http://www.robots.ox.ac.uk/~az/
  • 157.
    157■ VGGの代表研究➤ MultipleView Geometry in Computer Vision- 研究ではないが,不朽の名作にしてMulti-view Geometryの入門書- CVのカメラ幾何について詳細に解説- R. Hartley, A. Zisserman, “Multiple View Geometry in Computer Vision”, Cambridge University Press.➤ VGGNet- GoogLeNetと並びDeeper Networkの走り(その後ResNetへ継承)- StyleTransferやAdversarial Examplesでは現在も使用され研究が進められている- K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-scale Image Recognition”, in NIPS 2014.➤ Pascal VOC- 物体検出において最初のデファクトスタンダード- 物体検出の研究が劇的に進捗する礎となった- M. Everingham, L. V. Gool, C. Williams, J. Winn, A. Zisserman, “The Pascal Visual Object Classes (VOC) Challenge”, in IJCV 2010.VGG(2/5)
  • 158.
    158■ 最近の自己教師学習や関連研究➤ SingleImage Self-supervision(論文サマリ参照)- 1枚,もしくは少量(10〜100枚)の画像から自己教師学習- 初期層(Conv1, 2)は1枚の画像から十分学習可能と判断➤ Deep Image Prior- 画像の事前情報からノイズ等を除去して再構成- 画像の自然さと再構成誤差を計算して学習➤ Learnable PINS: Cross-Modal Embeddings for Person Identity- 音声と顔の動画のペアデータを用いて個人を識別できる埋め込み空間を人手のラベリングなしで獲得➤ その他多数!VGG(3/5)Yuki M. Asano et al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020/05.https://openreview.net/forum?id=B1esx6EYvrD. Ulyanov et al., “Deep Image Prior”, CVPR 2018.https://sites.skoltech.ru/app/data/uploads/sites/25/2018/04/deep_image_prior.pdfA. Nagrani et al., “Learnable PINS: Cross-Modal Embeddings for Person Identity”, ECCV 2018.https://arxiv.org/pdf/1805.00833.pdf
  • 159.
    VGG(4/5)159■ メタな分析➤ 現在,主宰の2人が兼任-Zisserman氏がDeepMind- Vedaldi氏がFacebook AI Research(FAIR)- 外部からの人脈交流も発生- 兼業しながら縮退せずさらに加速させるところがすごい!➤ Vedaldi氏はVLFeatをリード- 主に局所特徴量抽出(e.g. HOG, SIFT)やマッチングの画像処理ライブラリ- 2007年からライブラリを運営- 実装面でのフィードバックも研究に反映?スライド再利用「物体検知 @メタサーベイ2019」https://www.slideshare.net/cvpaperchallenge/meta-study-group
  • 160.
    VGG(5/5)160■ メタな分析➤ 多様な研究-時代に合わせて研究を変化させ,各時代でトレンドを創出- Detection & Tracking, Retrieval, Art Recog., Video Recog., AudioRecog., CNN, SSLなど- Geometry Groupと言いつつもなんでもやる- https://www.robots.ox.ac.uk/~vgg/research/➤ データの収集も自ら行う- 深層学習時代の前から蓄積- Pascal VOCは特に有名- Lip Reading in the Wild: BBCの映像+音声読み上げにより収集- その他,VGG Face, Text Recog. Dataset, Flower, Petなど
  • 161.
    161■ 自己教師学習(SSL)の研究を概観➤ 導入:問題設定,SSLの分類,代表例,最近のSSL➤論文サマリ:画像/動画/音声認識➤ メタサーベイ :精度の比較,トレンド,注目研究者,注目研究機関■ 現在のSSL➤ 代表的なPretext taskは決まってきた- Jigsaw, Rotationなど- Contrastive Learning, 相互情報量が最近のトレンド➤ ImageNetの教師に近接する精度を実現- MoCo(v2), SimCLR■ 今後のSSL➤ 精度向上!コンパクトモデル!- JFT-300M(Google)やIG-3.5B(Facebook)レベルの認識精度- ImageNetのSOTA(TOP-1で90%弱)を自己教師により達成- コンパクト化(MobileNet的な小さなモデル,Low-shot学習のように少ない教師)➤ 転移学習タスクの多様化- 画像識別以外のタスク(e.g. ナビ, 3D推定)も研究が始まっている!➤ ILSVRC 2012以降の深層学習の研究の歴史を辿るのでは?まとめ
  • 162.
    162■ CVPR2018まで➤ アイデアベースで多様な手法が発表されてきた(お蔵入もたくさんあったはず)➤画像のデータ構造に着目したSelf-supervised learningが優位だった (Rotation,Jigsaw…)■ 現在の動き➤ データ構造に依存しない手法がうまくいきはじめた(Deep Cluster, 相互情報量に着目したアプローチ)➤ データ構造に依存した手法は画像データのドメインによってうまくいくかが左右される考え(rotation on Placesの結果参照)■ 今後の展望➤ 手法的な展望- データ構造に依存しない手法がさらに発展(具体的には想像がつかない)➤ 研究領域としての展望- 打倒教師あり学習 (ImageNet pretrainedを超える)- Task-specificな教師なし学習 (現在もありますが…)こちらの方がデータ構造に着目するself-supervised learningと相性が良さそうまとめ(2018年版)
  • 163.
    163■ 面白いところ➤ データさえあればアノテーションせずに学習できるのは夢がある➤データ構造を考えながらpretext taskを設定するのは(こちらも)パズルを解いている感覚がある■ 苦しいところ➤ 基本的にやってみないとわからない(良し悪しは実験結果のみでわかる)➤ 評価するのに2重の(pretext と target)チューニングが必要■ 実用として➤ 学習済みモデルとしてはImageNet pretrained modelを使用すれば良い風潮➤ しかし,ImageNet pretrained modelが有効でない場合もある- 画像のドメインがImageNetと大きく異なる場合➤ そういった条件では使いようがありそう➤ 条件によっては半教師あり学習と競合する場合も- 教師なしデータ+教師ありデータまとめ(その他)
  • 164.
    164■ ~2018からの差分➤ JigSaw,rotationなどのアイディアベースの学習をさらに発展させたものの展開- 思いつくような手法は出尽くし,それらをさらに改善するという流れ?➤ マルチモーダル系の台頭- 人間の特徴学習に習って五感を全て使おう!という考え- データさえ揃えば新規性になるという手軽さ➤ 距離学習など,より理論的にいい表現学習を目指した研究が増えてきたかも?- 数学勢の参入も近いメタサーベイのメモ [Bonus Slide]
  • 165.
    165■ 動画認識のためのSSLの論文を読んで感じたこと➤ 動画データセットのほうが画像のみの物よりタスクを複雑にできる-フレーム順序/OFを学習に用いることで、時間方向の成分を見るようになっていそう- 画像認識のためのSSLでも使えそう(実際にあった)➤ 動画認識のPretext taskはまだアイディア出しの段階?- 他の手法を改善したようなものが少ないため- 手法の変遷:→フレームをシャッフル→オプティカルフロー / 未来のフレームを予測→複数のタスクを組み合わせる- 最近はロスを工夫するものも出てきているみたい- 各手法を評価している論文は少なそう➤ 動画認識のSSLならアイディア・改良・評価の論文にまだチャンスがありそうメタサーベイのメモ [Bonus Slide]
  • 166.
  • 167.
  • 168.
    • 研究テーマ:画像・動画認識,人物行動認識・予測,物体検出,交通予防安全,言語&視覚,大規模DB構築,数式ドリブンDB生成
• 最近の興味:FATE,SSL
• 主要論文:CVPRx2, ICRAx3, BMVC, ACCV等
MyPage/SNS HP: http://hirokatsukataoka.net/ Twitter: @HirokatuKataoka 
• 産業技術総合研究所(CVRT, AI Center)研究員(2016, Apr. ~ 現在)• 東京電機大学 訪問研究員(2016, Apr. ~ 現在) 
• cvpaper.challenge 主宰(2015, May~),nlpaper.challenge HQ(2018, Dec.~),robotpaper.challenge HQ(2019, Jul. ~) 
• 茨城県笠間市出身, 芝浦工大(’05-’09), 慶應義塾大学(’09-’14), 東京大(’14 -’15),長距離走(フルマラソンBest 3’30),水泳(茨城県5位),野球(高校~大学; 海外選抜メンバー),犬と遊ぶこと 
• ひとこと:根っからのチャレンジャーです!
• cvpaper.challenge: 研究分野のトレンドを把握しトレンドを創り出せる研究コミュニティにする
• xpaper.challenge: 分野横断的に研究連携する枠組みを構築することが目標
片岡 裕雄
(かたおか ひろかつ)
【研究テーマや研究の興味】
【ひとこと,目標】
研究コミュニティを強くする!
  • 169.
    ● 筑波大学 M2●電通大 柳井研究室 (2018, Apr. ~ 2019, Mar.)● 筑波大 佐藤研究室(2019, Apr. ~ )● 出身:群馬県● 趣味:ゲーム、テトリス、バスケットボール松本晨人(まつもと あさと)【研究のテーマと興味】● 研究テーマ:数式ドリブンDB● 興味のある分野:SSL, Few-Shot,Transfer Leaning,Continual Learning,【目標】● なんか面白いモノを作る! 研究活動
  • 170.
    山縣英介(やまがたえいすけ)● 東京工業大学 情報理工学院 M1● 兵庫出身●中高大剣道部(高校部長,大学副主将)● 趣味は漫画,ゲーム,麻雀● 好きな漫画は宇宙兄弟と天牌【研究テーマや興味がある研究】● 研究テーマ:数式ドリブンDB (PerlinDB)● 興味のある研究:SSL,深層強化学習【目標】2年後:博士or就職5年後:研究室or職場でエース10年後:結婚【座右の銘】● 失敗を知って乗り越えたモノなら,それはいいモノだ(宇宙兄弟より)【最後に一言】AI王に!俺はなるっ!!
  • 171.
    山田 亮佑(やまだりょうすけ)● Twitter:https://twitter.com/FragileGoodwill●東京電機大学 知能機械システム研究室 B4● 長崎県南島原市出身● 小学生:サッカー(国体強化選手),中学生:バスケ,高校:テニス(シングル長崎県ベスト32)● 最近はアコースティックギターに挑戦【研究テーマや興味がある研究】● 研究テーマ:ファッションスタイル解析,三次元点群● 興味のある研究:動画認識,敵対的サンプル【将来の夢】5年後:同世代のAI研究者代表10年後:日本が誇るAI研究者15年後:世界トップクラスのAI研究者【影響をうけた漫画】● スラムダンク,キングダム【最後に一言】世界的に影響を与えることのできる研究者(AIスター)になります!
  • 172.
    高橋 遼(たかはし りょう)● 慶應義塾大学大学院 理工学研究科 M1●出身:宮崎 / 富山 / オーストラリア● 趣味:ドライブ,旅行【研究テーマや興味がある研究】● 研究テーマ:ドメイン適応,AIの公平性● 興味のある研究:GAN,シーングラフ【目標】1年後:CVPR投稿2年後:データサイエンティストとして就職10年後:年収1000万【最後に一言】社会にインパクトを与えられる研究を!卒論研究:上位クラスを考慮したドメイン適応
  • 173.
    升山義紀(ますやまよしき)【経歴】● 早稲田大学 基幹理工学研究科 M2 (2019,Apr. ~)● 産総研 人工知能研究センター RA (2019, Nov. ~)● LINE株式会社 アルバイト (2019, Apr. ~ Sep.)【研究テーマや興味がある研究】● 研究テーマ:DNNを使った音響信号処理● 興味のある研究:Audio-visual SSL【目標】● まずは1論文で100引用を稼ぐ研究● 既存の音響信号処理の枠組みにとらわれない学際的な研究 (e.g., 視聴覚統合)【最後に一言】画像もいいけど音声もね!MyPage/SNS HP: https://sites.google.com/view/yoshiki-masuyama/home Twitter: @ymas0315 

  • 174.
    伊藤千紘(いとうちひろ)● 東京電機大学大学院 情報環境学専攻 M1● 出身:埼玉県●高校:山岳部, 陶芸部, 文化祭員会● 趣味:漫画, 映画鑑賞, 登山【研究テーマや興味がある研究】● 研究テーマ:画像認識● 興味のある研究:GAN, 異常検出【目標】● 興味のあることには貪欲に!● 色々な経験を通して一回りも二回りも成長!【最後に一言】今年からM1になりました!よろしくお願いします!これまでの研究活動・慣性センサを用いたCNNによる行動認識
  • 175.
    鏡川悠介(きょうかわ ゆうすけ)● 東京電機大学大学院 情報環境学専攻 M1●所属: データ科学・機械学習研究室● 出身:茨城県古河市● 趣味:cookpadにレシピ投稿【研究テーマや興味がある研究】● 研究テーマ:画像認識○ GANを利用した工業製品の異常検知○ 伊勢型紙の自動分類【目標】● 国際会議に論文を通す!【最後に一言】CV分野に貢献できるように日々精進いたします!!これまでの研究活動GANを利用した工業製品の異常検知第22回PRMUアルコン最優秀賞
  • 176.
    【趣味】● テニス・スノボ● ラーメン巡り(二郎など)●旅行・温泉● 慶應大 青木研究室 M2● 産総研RA● Software Engineering Intern @Tenchijin Inc.● Tokyo, Miami, Singapore笠井 誠斗 (Seito Kasai, かさい せいと)【研究分野】Vision & Language、検索、動画認識、表現学習Twitter: @sk_gnkr96HP: https://skasai5296@github.io 
【目標】● 這ってでもCVPR● 誰が見てもインパクトのある研究● 楽しく結果を出す
  • 177.
    【経歴】● 慶應大 青木研究室(2016, Apr. ~ 2019, Mar.)● 産総研 RA (2017, May ~ 2019, Mar.)● DeNA (2019, Apr. ~ 2020, Mar.)● Mobility Technologies (2020, Apr. ~ )鈴木智之(すずきともゆき)【興味】● Research:Visual representation learning,Video recognition,Generative model, 3D vision● Application:Automotive, Creation/Design,Entertainment【趣味】 旅行、犬と遊ぶこと ウィンタースポーツTwitter: @tomoyukun
My HP: https://tomoyukun.github.io/biography/ 
これまでの研究活動旅行の軌跡(2019.2.8 - 2019.3.19)

[8]ページ先頭

©2009-2025 Movatter.jp