Movatterモバイル変換

第51回CV勉強会「第４章拡張現実感のためのコンピュータビジョン技術」4.4 未知な環境下におけるカメラの位置姿勢推定2019/02/27 takmin

自己紹介2株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）「コンピュータビジョン勉強会＠関東」主催博士（工学）略歴：1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年）2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化）http://visitlab.jp

昔作ったもの3 ARウェルカムボード（2010年） https://www.youtube.com/watch?v=KgQguj78qMA ソース： https://github.com/takmin/OpenCV-Marker-less-AR今日はこの話はしません

Visual SLAM4ARにおいて、カメラで撮影した画像上に3Dオブジェクトを重畳表示するためには、撮影対象の三次元形状とそれに対するカメラの位置と姿勢を正確に求める必要があるSimultaneous Localization And Mapping (SLAM)LocalizationMapping

SLAMの基本原理1. センサーからランドマークを検出し、Mapへ登録。Mapに登録されたランドマーク5

SLAMの基本原理2. センサーを移動させてランドマークを検出する。今回見つかったランドマークMapに登録されたランドマーク6

SLAMの基本原理3. センサーとMap内のランドマークとの対応関係からセンサーの自己位置を推定。Mapとの対応が取れたランドマーク今回見つかったランドマークMapに登録されたランドマーク7

SLAMの基本原理4. センサーの自己位置を元に、新しく観測されたランドマークをMapへ登録。２へ戻る。Mapに登録されたランドマーク8

カメラ位置の推定9 点の三次元座標と、それを投影した画像上の座標との対応関係が６点以上明らかなとき、カメラ座標の世界座標に対する回転𝑹 と並進𝑻を算出できる 回転：３自由度＋並進３自由度＝６自由度𝑷 = 𝑲 𝑹 𝑻𝑠𝒖 = 𝑷𝑿 𝒘(4.9)回転並進𝒖𝑿 𝒘三次元座標画像上の座標𝑷

三次元点群の推定10 Pose（回転𝑹 と並進𝑻 ）が既知の２台以上のカメラについて、画像上の点の対応関係が分かっているとき、その点の三次元座標が求まる𝑠𝒖 = 𝑷𝑿 𝒘𝑠′𝒖′ = 𝑷′𝑿 𝒘(4.10)以下の連立方程式を𝑿 𝒘について解く既知𝑿 𝒘𝒖𝒖′𝑷 𝑷′

Structure from Motion (SfM)11 同じ対象を撮影した複数の画像（例えば動画）から、対象の三次元形状を復元する

Structure from Motion (SfM)12 同じ対象を撮影した複数の画像（例えば動画）から、対象の三次元形状を復元するバンドル調整を用いて、複数のカメラの相対位置、焦点距離、対象の三次元点座標を同時に推定する＜バンドル調整＞測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパラメータを調整していく

バンドル調整131. 三次元点群とカメラパラメータの初期値を設定する画像から見つけた点の三次元座標の初期値カメラの位置と焦点距離の初期値

バンドル調整142. 三次元点群を各カメラの画像平面へ投影

バンドル調整153. 投影された点と観測した点との誤差の総和を算出投影された点観測点誤差

バンドル調整164. 誤差が小さくなる方向へ特徴点の三次元座標とカメラパラメータを調整（収束するまで２から繰り返す）

Visual SLAMの基本原理1. カメラからキーポイントを検出。三次元座標が既知の点を用いて𝑹0, 𝑻0を算出。三次元座標が既知17新たに検出されたキーポイント

Visual SLAMの基本原理2. カメラを移動させてキーポイントを検出。三次元座標が既知の点を用いて𝑹1, 𝑻1を算出。今回見つかったランドマーク18三次元座標が既知前フレームで検出されたキーポイント

Visual SLAMの基本原理3. 前フレームと現フレームの両方で観測されたキーポイントの三次元座標を算出。今回見つかったランドマーク19三次元座標が既知前フレームで検出されたキーポイント

Visual SLAMの基本原理4. カメラを移動させてキーポイントを検出。三次元座標が既知の点を用いて𝑹2, 𝑻2を算出。以下、2と3を繰り返す今回見つかったランドマーク20三次元座標が既知前フレームで検出されたキーポイント

Direct法を用いたSLAM21SfMで求めた形状は、特徴点の三次元位置のみ画素の値を直接使って画像同士をマッチングすることで、密な3D Mapを求めるmin𝑴𝑰 − 𝑰 𝑟(𝑴)外部パラメータ

Direct法: Photo Consistency22 カメラ１の画素Aのデプスをカメラ２から算出する例 カメラ１の焦点から画素Aへの視線（エピポーラ線）上をカメラ２の画像から探索し、最も類似したテクスチャを求める。カメラ１カメラ2Aのエピポーラ線Add 距離類似度

Direct法: 3D Map生成23 各カメラから求めたデプスマップを統合して三次元モデルを生成

Visual SLAMの研究例 [Uchiyama2015] Uchiyama, H.,Taketomi,T., Ikeda, S., & MonteLima, J. P. S., "AbecedaryTracking and Mapping: a Toolkit forTracking Competitions," Proceedings of the 14th IEEEInternational Symposium on Mixed and Augmented Reality,pp.198-199, 2015. [Klein2007]Klein, G., & Murray, D. (2007). ParallelTracking andMapping for Small AR Workspaces. In IEEE and ACMInternational Symposium on Mixed and Augmented Reality, ISMAR. [Newcombe2011]Newcombe, R.A., Lovegrove, S. J., & Davison,A. J. (2011). DTAM: Dense Tracking and Mapping in Real-Time.In International Conference on ComputerVision. [Engel2014]Engel, J., Schops,T., & Cremers, D. (2014). LSD-SLAM: Large-Scale Direct monocular SLAM. In EuropeanConference on ComputerVision24

Visual SLAMの研究例 [Mur-Artal2015]Mur-Artal, R., Montiel, J. M. M., & Tardos, J. D.(2015). ORB-SLAM:AVersatile and Accurate Monocular SLAMSystem. IEEETransactions on Robotics, 31(5), 1147–1163. [Mur-Artal2016]Mur-Artal, R., &Tardos, J. D. (2016). ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereoand RGB-D Cameras. ArXiv, (October). Retrieved from [Tateno2017]Tateno, K.,Tombari, F., Laina, I., & Navab, N. (2017).CNN-SLAM : Real-time dense monocular SLAM with learneddepth prediction. In IEEE Conference on ComputerVision andPattern Recognition. [Zhou2018]Zhou, H., & Ummenhofer, B. (2018). DeepTAM :Deep Tracking and Mapping. In European Conference onComputerVision.25

[Uchiyama2015] ATAM26 SLAM初学者用に開発されたオープンソースToolkit 可読性が高く、改変が容易 https://github.com/CVfAR/ATAM

[Klein2007]PTAM (1/3) マーカーレスで単眼カメラのPose TrackingをCPU上でリアルタイムで行うSparseVisual SLAM TrackingとMappingを別スレッドで実行 全フレームではなく、KeyFrameを元にMapping http://www.robots.ox.ac.uk/~gk/PTAM/KeyFrameKeyFrameから構築されたMap27

[Klein2007]PTAM (2/3) Mapping KeyFrameをTrackingスレッドから受け取ったら処理開始 MapとKeyFrameのキーポイントとの対応を算出し、新しいMapPointsを追加 バンドル調整で再投影誤差を最小化することでKeyFrameのPoseとMap Pointsの3D座標算出 Tracking 画像ピラミッドを作成し、Coarse-to-Fineに処理 FASTでキーポイントを検出し、周辺画像パッチを取得 Map PointsとKeyPointsを対応付けることでPose推定28

[Klein2007]PTAM (3/3) 合成動画上でのEKF-SLAMとの性能比較PTAMで生成したMap EKF-SLAMで生成したMap 軌跡のGroundTruthとの比較 実験環境 デスクトップPC＋カメラ Intel Core 2 Duo 2.66 GHzMap Points = 4000の時のトラッキング速度29

[Newcombe2011]DTAM (1/3) 密な三次元（深度）の復元とカメラのトラッキングを同時に行う、Dense MonocularVisual Slamの代表的手法 以下の筆者以外の再現実装が公開されている https://github.com/anuranbaka/OpenDTAM https://github.com/TeddybearCrisis/OpenDTAM-3.1 KeyFrameの各画素と同じ色の画素を周辺フレームから（エピポーラ線上を）探索することで深度を推定 (Photo Consistency)30

[Newcombe2011]DTAM (2/3) Dense Mapping 以下のエネルギーを最小化する深度𝝃を推定画像全体で積分データ項：KeyFrameの画素と周辺フレームの画素との一致度（前頁参照）平滑化項：深度がスムーズになるように（ただしエッジは保存） Dense Tracking 2段階のテンプレートマッチングによりPose推定1. 前フレームと現フレームとの画像同士のマッチングにより、回転を算出2. Dense Mapを元に、現フレームの画素を前フレームへ投影し、マッチングをとることで回転を詳細化しつつ並進を算出（6DoF）31

32[Newcombe2011]DTAM (3/3) Intel Core i7 quad-core CPU NVIDIA GTX 480 GPU 入力画像：640 x 480, 24bit RGB, 30Hzカップ付近で高速に前後動かした画像に対し、PTAMと比較

33[Engel2014]LSD-SLAM (1/3) 特徴点ではなく（勾配の大きい）画素の値を直接使ってSemi-DenseなMap構築およびPose推定 Map Optimizationにより大規模なマップを構築可能 https://vision.in.tum.de/research/vslam/lsdslamKeyFrameとの画素の差が最小となるようPose推定KeyFrameを生成し、その深度を推定Loop ClosingによりMap全体を最適化

34[Engel2014]LSD-SLAM (2/3) Tracking 濃度勾配の高い画素のみPose推定に使用（Semi-Dense） 深度を使ってKeyFrameの画素を現フレームに投影し、差分を最小化するようPose推定 (Direct法) Depth Map Estimation Poseの変化が閾値を超えたらKeyFrame生成 KeyFrameの深度初期値を前KeyFrameの深度を投影して生成 追跡フレームとKeyFrameとのベースラインステレオで深度を補正* Map Optimization KeyFrame生成時近傍のKeyFrameおよび類似KeyFrameを取得し、それぞれLoopかを判別 Loopが存在する場合、２つのKeyFrameの画素と深度から相対Poseを求め、それをLoop上を伝播させて最適化(Graph Optimization)*J. Engel, J. Sturm, and D. Cremers. Semi-dense visual odometry for a monocular camera. In IEEE International Conferenceon ComputerVision (ICCV), December 2013

[Engel2014]LSD-SLAM (3/3)[9]Engel, J., Sturm, J., Cremers, D.: Semi-dense visual odometry for a monocular camera.In: Intl. Conf. on ComputerVision (ICCV) (2013)[15]Klein, G., Murray, D.: Parallel tracking and mapping for small AR workspaces. In: Intl.Symp. on Mixed and Augmented Reality (ISMAR) (2007)[14]Kerl, C., Sturm, J., Cremers, D.: Dense visual SLAM for RGB-D cameras. In: Intl.Conf. on Intelligent Robot Systems (IROS) (2013)[7]Endres, F., Hess, J., Engelhard, N., Sturm, J., Cremers, D., Burgard,W.:An evaluation ofthe RGB-D slam system. In: Intl. Conf. on Robotics and Automation (ICRA) (2012)TUM-RGBDベンチマーク（軌跡の二乗誤差（cm））35

36[Mur-Artal2015]ORB-SLAM (1/4) 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの３つのスレッドを並列に動作させることで、リアルタイムに実現 全スレッドでORB特徴を利用 https://github.com/raulmur/ORB_SLAM2入力フレームのカメラPoseを推定Sparseな3DMap(点群)を作成ループを検出しカメラPoseの誤差の蓄積を除去選定されたKeyFrame点群＋PoseグラフORBとBoVWでKeyFrame検索するためのDB共有メモリ

[Mur-Artal2015]ORB-SLAM (2/4) MAP 点(XYZ)とそれに紐づいた代表ORB特徴 各キーフレームの全ORB特徴を保持 Place Recognition: ORBによるBags-of-Wordsでクエリー画像に近いキーフレームを検索するデータベース 追跡失敗時やMapping時に対応点が見つからない時、Loopを探す時などに利用 Tracking 入力フレームのORBとMapとの対応関係でPose推定 Local Mapping KeyFrameから、Place Recognition DB、グラフの更新と3次元点群の生成/更新（バンドル調整） Loop Closing Loop候補を算出し、KeyFrame間の相似変換を伝播37

[Mur-Artal2015]ORB-SLAM (3/4) KeyFrameをNode、フレーム間で共通して見えるORB特徴が閾値以上のものをエッジとしてグラフ化SpanningTreeに強いエッジを追加15個以上の共有点を持つ場合エッジを生成CovisibilityGraphから作成した全域木(SpanningTree)38

[Mur-Artal2015]ORB-SLAM (4/4) 評価実験 Intel Core i7-4700MQ(4 cores@2.40GHz) + 8Gb RAMTUM-RGBDベンチマークの結果処理時間39

[Mur-Artal2016]ORB-SLAM2 (1/2)ORB-SLAMの入力をステレオカメラおよびRGBDセンサーへ拡張 https://github.com/raulmur/ORB_SLAM2 左右のカメラのKeyPointを（RGBDの場合は疑似的に）取得し、深度に合わせてcloseとfarに分類 KeyFrameはfarに対してcloseなKeyPointが十分な時に生成 TrackingやLocal Mappingを増えたKeyPointに対して行う Stereo/RGBDではScale Driftが避けられるため、Loop Closing時に相似変換ではなく回転/平行移動を用いる Dense Mapの構築は単純にKeyFrameに紐づいた点群を投影するだけ（Not Real-time） Stetreo/RGBDカメラからのキーポイント取得40

[Mur-Artal2016]ORB-SLAM2 (2/2) 評価実験 Intel Core i7-4790 + 16Gb RAMにおいて、常にセンサーのフレームレート以下で動作EuRoCデータセットでのRMSE（m）TUM-RGBDデータセットでのRMSE(m)41

[Tateno2017]CNN-SLAM (1/3) LSD-SLAMの深度推定をDeep Neural Networkによる深度推に置き換えることでDenseなMapを構築。 Visual SLAMの弱点である、テクスチャがないケース、スケール不定、回転に弱いなどの問題を補間 Semantic Labelも付与 SLAMにCNNを導入した最初期の論文 IITによる再実装コード http://iitmcvg.github.io/projects/CNN_SLAMCNNによる深度とSemantic Labelの推定LSD-SLAM42

[Tateno2017]CNN-SLAM (2/3) Camera Pose Estimation 現フレームの画素を前キーフレーム上へ投影した時の差が最小となるPoseを推定(Direct法) LSD-SLAM同様、輝度勾配の高い領域 投影時にCNNで推定した深度情報を使用 LSD-SLAMではKey-Frame間のステレオで深度推定 CNN Depth Prediction & Semantic Segmentation Laina, I., Rupprecht, C., Belagiannis,V.,Tombari, F., & Navab, N.(2016). Deeper Depth Prediction with Fully ConvolutionalResidual Networks. IEEE International Conference on 3DVision. 各KeyFrameに対し深度推定 LSD-SLAMと同様にbaseline stereoを用いて深度を補正43

[Tateno2017]CNN-SLAM (3/3) ICL-NUIM datasetとTUM datasetによる軌跡と深度の精度評価以下の環境でリアルタイム• Intel Xeon CPU at 2.4GHz with 16GB of RAM• Nvidia Quadro K5200 GPU with 8GB of VRAM44

45[Zhou2018]DeepTAM (1/3) TrackingとMappingの推定両方を学習ベースで行うDenseMonocular SLAM https://github.com/lmb-freiburg/deeptam Mapping KeyFrameとTrackingフレームとのPhoto Consistencyを入力とし、深度を出力するネットワーク KeyFrame各画素の深度をサンプリングし、深度とPoseを元にTrackingフレームの画像パッチをKeyFrameへ投影することでPhoto Consistency算出 Coarse-to-Fineに推定深度のサンプリング間隔深度毎のPhotoConsistency 深度繰り返し処理で徐々にサンプリング深度を絞り込む

[Zhou2018]DeepTAM (2/3) Tracking KeyFrameと深度から、Pose 𝑇 𝑉から見たKeyFrame画像と深度をレンダリング レンダリングしたKeyFrameと深度、および現フレームを入力とし、Pose変化を予測するネットワーク 学習時はOptical Flowも同時に学習 ネットワークを多段にして、画像ピラミッドを入力とすることでCoarse-to-FineにPose推定46

[Zhou2018]DeepTAM (3/3) 処理速度についての記載なしTUM RGB-D Datasetで評価• Translational RMSE (m/s)• TrackingはFrame-to-KeyFrameでのエラー10フレーム使用した時の推定深度の定性評価47

まとめ48 未知な環境下でのカメラの位置姿勢推定にはVisualSLAMという技術を用いる SLAMは位置姿勢を推定するLocalizationと、地図を作成するMappingの２つの処理が必要 Visual SLAMの重要な技術として、キーポイントを検出し、キーポイントの三次元座標とカメラの位置姿勢を同時に推定する、バンドル調整という方法が多く用いられる Mapを密に求めたい場合は、画素の値を直接マッチングさせるDirect法というアプローチが取られる

Movatterモバイル変換

Change Language

Visual slam

Recommended

More Related Content

What's hot

Similar to Visual slam

More from Takuya Minagawa

Visual slam