Structure from Motion(SfM)12 同じ対象を撮影した複数の画像(例えば動画)から、対象の三次元形状を復元するバンドル調整を用いて、複数のカメラの相対位置、焦点距離、対象の三次元点座標を同時に推定する<バンドル調整>測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパラメータを調整していく
Visual SLAMの研究例 [Uchiyama2015]Uchiyama, H.,Taketomi,T., Ikeda, S., & MonteLima, J. P. S., "AbecedaryTracking and Mapping: a Toolkit forTracking Competitions," Proceedings of the 14th IEEEInternational Symposium on Mixed and Augmented Reality,pp.198-199, 2015. [Klein2007]Klein, G., & Murray, D. (2007). ParallelTracking andMapping for Small AR Workspaces. In IEEE and ACMInternational Symposium on Mixed and Augmented Reality, ISMAR. [Newcombe2011]Newcombe, R.A., Lovegrove, S. J., & Davison,A. J. (2011). DTAM: Dense Tracking and Mapping in Real-Time.In International Conference on ComputerVision. [Engel2014]Engel, J., Schops,T., & Cremers, D. (2014). LSD-SLAM: Large-Scale Direct monocular SLAM. In EuropeanConference on ComputerVision24
25.
Visual SLAMの研究例 [Mur-Artal2015]Mur-Artal,R., Montiel, J. M. M., & Tardos, J. D.(2015). ORB-SLAM:AVersatile and Accurate Monocular SLAMSystem. IEEETransactions on Robotics, 31(5), 1147–1163. [Mur-Artal2016]Mur-Artal, R., &Tardos, J. D. (2016). ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereoand RGB-D Cameras. ArXiv, (October). Retrieved from [Tateno2017]Tateno, K.,Tombari, F., Laina, I., & Navab, N. (2017).CNN-SLAM : Real-time dense monocular SLAM with learneddepth prediction. In IEEE Conference on ComputerVision andPattern Recognition. [Zhou2018]Zhou, H., & Ummenhofer, B. (2018). DeepTAM :Deep Tracking and Mapping. In European Conference onComputerVision.25
34[Engel2014]LSD-SLAM (2/3) Tracking濃度勾配の高い画素のみPose推定に使用(Semi-Dense) 深度を使ってKeyFrameの画素を現フレームに投影し、差分を最小化するようPose推定 (Direct法) Depth Map Estimation Poseの変化が閾値を超えたらKeyFrame生成 KeyFrameの深度初期値を前KeyFrameの深度を投影して生成 追跡フレームとKeyFrameとのベースラインステレオで深度を補正* Map Optimization KeyFrame生成時近傍のKeyFrameおよび類似KeyFrameを取得し、それぞれLoopかを判別 Loopが存在する場合、2つのKeyFrameの画素と深度から相対Poseを求め、それをLoop上を伝播させて最適化(Graph Optimization)*J. Engel, J. Sturm, and D. Cremers. Semi-dense visual odometry for a monocular camera. In IEEE International Conferenceon ComputerVision (ICCV), December 2013
35.
[Engel2014]LSD-SLAM (3/3)[9]Engel, J.,Sturm, J., Cremers, D.: Semi-dense visual odometry for a monocular camera.In: Intl. Conf. on ComputerVision (ICCV) (2013)[15]Klein, G., Murray, D.: Parallel tracking and mapping for small AR workspaces. In: Intl.Symp. on Mixed and Augmented Reality (ISMAR) (2007)[14]Kerl, C., Sturm, J., Cremers, D.: Dense visual SLAM for RGB-D cameras. In: Intl.Conf. on Intelligent Robot Systems (IROS) (2013)[7]Endres, F., Hess, J., Engelhard, N., Sturm, J., Cremers, D., Burgard,W.:An evaluation ofthe RGB-D slam system. In: Intl. Conf. on Robotics and Automation (ICRA) (2012)TUM-RGBDベンチマーク(軌跡の二乗誤差(cm))35
[Tateno2017]CNN-SLAM (2/3) CameraPose Estimation 現フレームの画素を前キーフレーム上へ投影した時の差が最小となるPoseを推定(Direct法) LSD-SLAM同様、輝度勾配の高い領域 投影時にCNNで推定した深度情報を使用 LSD-SLAMではKey-Frame間のステレオで深度推定 CNN Depth Prediction & Semantic Segmentation Laina, I., Rupprecht, C., Belagiannis,V.,Tombari, F., & Navab, N.(2016). Deeper Depth Prediction with Fully ConvolutionalResidual Networks. IEEE International Conference on 3DVision. 各KeyFrameに対し深度推定 LSD-SLAMと同様にbaseline stereoを用いて深度を補正43
44.
[Tateno2017]CNN-SLAM (3/3) ICL-NUIMdatasetとTUM datasetによる軌跡と深度の精度評価以下の環境でリアルタイム• Intel Xeon CPU at 2.4GHz with 16GB of RAM• Nvidia Quadro K5200 GPU with 8GB of VRAM44