JP5671928B2

Movatterモバイル変換

Info

Publication number: JP5671928B2
Application number: JP2010229368A
Authority: JP
Inventors: 順横野; 大久保　厚志; 厚志大久保
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-10-12
Filing date: 2010-10-12
Publication date: 2015-02-18
Anticipated expiration: 2030-10-12
Also published as: CN102542286A; JP2012083938A; US20120087574A1; US8811725B2

Description

本発明は、学習装置、学習方法、識別装置、識別方法、およびプログラムに関し、特に、二枚の画像に写る対象が同一対象であるか否かの識別を、より迅速に、かつより精度良く行うことができるようにした学習装置、学習方法、識別装置、識別方法、およびプログラムに関する。

従来の顔識別の方法は、同一人物識別器による識別方法と多クラス識別器による識別方法との２つに大きく分けられる。同一人物識別器による識別方法については非特許文献１，２に開示されている。同一人物識別器による識別は、例えば、二枚の顔画像からそれぞれ抽出した特徴の差を求め、同一人物識別器の入力として用いることによって行われる。

非特許文献１に開示されている技術は、二枚の画像の対応点同士の特徴の差の演算を行うものであるから、照明の変化などの環境の変化に弱いものと考えられる。また、非特許文献２に記載されている技術も、同様の演算処理を非特許文献１に開示されているフィルタと異なるフィルタを用いて行うものであるから、同様に環境の変化に弱いものと考えられる。

そこで、環境の変化に弱いという欠点を解消するために特許文献１に開示されているような技術が提案されている。図１は、特許文献１に記載されている従来の顔識別の流れを示す図である。

特許文献１に記載の装置においては、識別時、矢印＃１，＃２の先に示すように入力画像のそれぞれの特徴点から複数のガボアフィルタを用いて特徴が抽出され、各ガボアフィルタを用いて抽出された特徴をパラメータとする特徴ベクトルが特徴点毎に求められる。

図２は、ガボアフィルタを示す図である。ガボアフィルタの特性は縞部分のサイズと方向によって規定される。特許文献１に記載の装置においては、５種類のサイズと８種類の方向によって特性が規定される４０種類のフィルタのうちの所定の数のフィルタが特徴点の位置に応じて選択され、各特徴点における特徴の抽出に用いられる。

特許文献１に記載の装置においては、二枚の画像の同じ特徴点から求められた特徴ベクトル同士の相関が白抜き矢印＃１１の先に示すようにして求められる。また、矢印＃１２の先に示すように、同じ特徴点の特徴を表す特徴ベクトルの相関係数をパラメータとする相関ベクトルを識別器の入力として用いることによって、同一人物であるか否かの判定が行われる。

特許文献１に記載の技術によっては、４０種類のフィルタの全てを特徴抽出に用いるのではなく、いくつかのフィルタの出力を組み合わせて用いることによって、識別精度を向上させることができるようになっている。

特開２００８−１６５７３１号公報

"Face Recognition Using Boosted Local Features", Michael Jones and Paul Viola, Mitsubishi Electric Research Laboratories Technical Report, April 2003"Face Recognition Using Ada-Boosted Gabor Features", P.Yang, S.Shan, W.Gao, S.Li, D.Zhang, International Conference on

特許文献１に開示されている技術によっては、特徴点毎に、複数のガボアフィルタを用いてフィルタ演算を行う必要があることから、特徴の抽出に時間がかかってしまう。

本発明はこのような状況に鑑みてなされたものであり、二枚の画像に写る対象が同一対象であるか否かの識別を、より迅速に、かつより精度良く行うことができるようにするものである。

本発明の一側面の学習装置は、同一対象が写る画像のペアと、異なる対象が写る画像のペアとを複数取得する取得手段と、前記取得手段により取得された前記ペアの一方の画像と他方の画像に特徴点を設定する設定手段と、前記一方の画像と前記他方の画像の同じ位置に設定された所定の特徴点を、ランダムに複数選択し、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタを、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択する選択手段と、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して前記選択手段により選択された前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴を抽出する抽出手段と、前記抽出手段により前記一方の画像から抽出された特徴と前記他方の画像から抽出された特徴との相関を求める算出手段と、前記算出手段により求められた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器を学習する学習手段とを備える。

前記学習手段には、複数の弱識別器からなる強識別器である前記同一対象識別器をブースティングにより学習させ、前記選択手段には、前記学習手段が前記弱識別器を学習する毎に、前記所定の特徴点と前記特徴抽出フィルタとをランダムに選択させることができる。

前記特徴抽出フィルタはRectangle Filterであり、元画像の四隅のうちの所定の隅を基準位置とし、前記基準位置と各画素の位置を結ぶ線が対角線となる四角形の領域内の画素の輝度値の和を各画素が画素値として有する第１の積分画像を、前記一方の画像と前記他方の画像のそれぞれを前記元画像として生成する生成手段をさらに設けることができる。

前記生成手段には、さらに、前記元画像の各画素の位置を頂点、前記元画像の四辺のうちの所定の辺を底辺とし、頂角が９０度の三角形の領域内の画素の輝度値の和を各画素が画素値として有する第２の積分画像を、前記一方の画像と前記他方の画像のそれぞれを前記元画像として生成させることができる。

前記選択手段により選択された複数の前記特徴抽出フィルタを表す情報と、前記同一対象識別器の情報を記憶する記憶手段をさらに設けることができる。

本発明の一側面の学習方法は、同一対象が写る画像のペアと、異なる対象が写る画像のペアとを複数取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記一方の画像と前記他方の画像の同じ位置に設定した所定の特徴点を、ランダムに複数選択し、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタを、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択し、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して選択した前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求め、求めた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器を学習するステップを含む。

本発明の一側面のプログラムは、同一対象が写る画像のペアと、異なる対象が写る画像のペアとを複数取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記一方の画像と前記他方の画像の同じ位置に設定した所定の特徴点を、ランダムに複数選択し、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタを、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択し、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して選択した前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求め、求めた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器を学習するステップを含む処理をコンピュータに実行させる。

本発明の他の側面の識別装置は、同一対象が写る画像のペアと、異なる対象が写る画像のペアとを複数取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記一方の画像と前記他方の画像の同じ位置に設定した所定の特徴点を、ランダムに複数選択し、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタを、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択し、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して選択した前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求め、求めた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器を学習する学習装置により学習が行われることによって生成された前記同一対象識別器の情報と、複数の前記特徴抽出フィルタを表す情報とを記憶する記憶手段と、画像のペアを取得する取得手段と、前記取得手段により取得された前記ペアの一方の画像と他方の画像に特徴点を設定する設定手段と、前記記憶手段に記憶されている情報により表される複数の前記特徴抽出フィルタを用いて、前記取得手段により取得された前記ペアの前記一方の画像と前記他方の画像の、前記設定手段により設定されたそれぞれの特徴点の特徴を抽出する抽出手段と、前記抽出手段により前記一方の画像から抽出された特徴と前記他方の画像から抽出された特徴との相関を求める算出手段と、前記算出手段により求められた前記相関を入力とし、前記取得手段により取得された前記ペアの前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを、前記同一対象識別器に基づいて識別する識別手段とを備える。

前記識別手段には、強識別器である前記同一対象識別器を構成する複数の弱識別器に基づいて求められたスコアの和を計算し、計算した和が閾値以上である場合、前記取得手段により取得された前記ペアの前記一方の画像と前記他方の画像に写る対象が同一対象であると識別させることができる。

本発明の他の側面の識別方法は、同一対象が写る画像のペアと、異なる対象が写る画像のペアとを複数取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記一方の画像と前記他方の画像の同じ位置に設定した所定の特徴点を、ランダムに複数選択し、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタを、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択し、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して選択した前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求め、求めた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器を学習する学習装置により学習が行われることによって生成された前記同一対象識別器の情報と、複数の前記特徴抽出フィルタを表す情報とを記憶する記憶手段を備える識別装置の識別方法において、画像のペアを取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記記憶手段に記憶されている情報により表される複数の前記特徴抽出フィルタを用いて、取得した前記ペアの前記一方の画像と前記他方の画像の、設定したそれぞれの特徴点の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求める、求めた前記相関を入力とし、取得した前記ペアの前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを、前記同一対象識別器に基づいて識別するステップを含む。

本発明の他の側面のプログラムは、同一対象が写る画像のペアと、異なる対象が写る画像のペアとを複数取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記一方の画像と前記他方の画像の同じ位置に設定した所定の特徴点を、ランダムに複数選択し、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタを、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択し、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して選択した前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求め、求めた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器を学習する学習装置により学習が行われることによって生成された前記同一対象識別器の情報と、複数の前記特徴抽出フィルタを表す情報とを記憶する記憶手段を備える識別装置の処理をコンピュータに実行させるプログラムにおいて、画像のペアを取得し、取得した前記ペアの一方の画像と他方の画像に特徴点を設定し、前記記憶手段に記憶されている情報により表される複数の前記特徴抽出フィルタを用いて、取得した前記ペアの前記一方の画像と前記他方の画像の、設定したそれぞれの特徴点の特徴を抽出し、前記一方の画像から抽出した特徴と前記他方の画像から抽出した特徴との相関を求める、求めた前記相関を入力とし、取得した前記ペアの前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを、前記同一対象識別器に基づいて識別するステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、同一対象が写る画像のペアと、異なる対象が写る画像のペアとが複数取得され、取得された前記ペアの一方の画像と他方の画像に特徴点が設定され、前記一方の画像と前記他方の画像の同じ位置に設定された所定の特徴点が、ランダムに複数選択され、前記所定の特徴点の特徴の抽出に用いられる特徴抽出フィルタが、予め用意されている複数の前記特徴抽出フィルタの中から、ランダムに選択した前記所定の特徴点毎にランダムに１つ選択される。また、前記一方の画像と前記他方の画像のそれぞれの前記所定の特徴点に対して選択された前記特徴抽出フィルタを用いて、前記所定の特徴点毎の特徴が抽出され、前記一方の画像から抽出された特徴と前記他方の画像から抽出された特徴との相関が求められ、求められた前記相関と、前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かを表すラベル情報に基づいて、二枚の画像に写る対象が同一であるか否かを識別するための同一対象識別器が学習される。

本発明の他の側面においては、画像のペアが取得され、取得された前記ペアの一方の画像と他方の画像に特徴点が設定され、記憶手段に記憶されている情報により表される複数の特徴抽出フィルタを用いて、取得された前記ペアの前記一方の画像と前記他方の画像の、設定されたそれぞれの特徴点の特徴が抽出される。また、前記一方の画像から抽出された特徴と前記他方の画像から抽出された特徴との相関が求められ、求められた前記相関を入力とし、取得された前記ペアの前記一方の画像と前記他方の画像に写る対象が同一対象であるか否かが、前記同一対象識別器に基づいて識別される。

本発明によれば、二枚の画像に写る対象が同一対象であるか否かの識別を、より迅速に、かつより精度良く行うことができる。

＜学習装置について＞
［学習装置の構成］
図３は、本発明の一実施形態に係る学習装置の構成例を示すブロック図である。

図３の学習装置１は、二枚の画像に写る顔が同一人物の顔であるか否かの識別に用いられる同一人物識別器を統計学習によって生成する装置である。学習装置１により生成された同一人物識別器のデータは、二枚の画像に写る顔が同一人物の顔であるか否かの識別を実際に行う識別装置に供給され、識別に用いられる。

学習装置１には、図４に示すように、同一人物の顔が写っている画像のペアと、違う人物の顔が写っている画像のペアが学習用画像として複数入力される。図４の画像Ｐ１１と画像Ｐ１２のペア、画像Ｐ２１と画像Ｐ２２のペア、および画像Ｐｎ１と画像Ｐｎ２のペアが、それぞれ、同一人物の顔が写っている画像のペアである。一方、画像Ｐ１１’と画像Ｐ１２’のペア、画像Ｐ２１’と画像Ｐ２２’のペア、および画像Ｐｍ１’と画像Ｐｍ２’のペアが、それぞれ、違う人物の顔が写っている画像のペアである。

学習装置１は、入力されたそれぞれの画像に写っている顔の部分の画像である顔画像上の複数の特徴点の中から、所定の数の特徴点をランダムに選択する。また、学習装置１は、選択した特徴点における顔の特徴を抽出するのに用いる特徴抽出フィルタを、予め用意されている複数の特徴抽出フィルタの中からランダムに選択し、弱識別器の候補とする。

図４の例においては、画像Ｐ２１’と画像Ｐ２２’の特徴点の中から、対応する位置（それぞれの画像上で同じ位置）にある４つの特徴点が選択されている。また、それぞれの特徴点における顔の特徴を抽出するのに用いる４つの特徴抽出フィルタからなるフィルタセットｓが選択されている。学習装置１には、画像Ｐ２１’と画像Ｐ２２’に重ねて示すような、白色の矩形領域と黒色の矩形領域からなるフィルタが特徴抽出フィルタとして複数種類用意されている。すなわち、学習装置１は、Rectangle Filterを用いて矩形特徴を抽出し、Adaboostなどの、Boostingと呼ばれる機械学習によって識別器の学習を行う装置である。

学習装置１は、選択したフィルタセットｓを用いて各画像から特徴を抽出し、それぞれの画像のペアのうちの一方の画像から抽出した特徴をパラメータとする特徴ベクトルと、他方の画像から抽出した特徴をパラメータとする特徴ベクトルとの相関値を算出する。学習装置１は、算出した相関値を入力（特徴量）として識別器の学習を行い、そのような学習を、Boostingのラウンド毎にフィルタセットを選択し直して繰り返し行う。

このように、学習装置１においては、特徴点と特徴抽出フィルタがランダムに選択され、それぞれの画像のペアから求められた特徴ベクトルの相関値に基づいて識別器の学習が行われる。これにより、学習装置１は、様々な位置の特徴を組み合わせて学習に用いることができ、識別の精度をより向上させることができる識別器を生成することが可能になる。学習装置１の一連の処理については後述する。

図３の画像取得部１１は、同一人物の顔が写っている画像のペアを複数取得するとともに、違う人物の顔が写っている画像のペアを複数取得する。どのペアが同一人物の顔が写っている画像のペアであり、違う人物の顔が写っている画像のペアであるのかを表すラベル情報も学習装置１には入力されている。画像取得部１１により取得される画像は、デジタルカメラなどにより撮影された、様々なサイズ、角度の人の顔が写っている画像である。画像取得部１１は、取得した画像を顔検出部１２に出力する。

顔検出部１２は、画像取得部１１から供給された画像を解析することによって、それぞれの画像に含まれる人の顔の部分を検出し、顔画像を生成する。顔検出部１２は、生成した顔画像を特徴点設定部１３と正規化部１４に出力する。

特徴点設定部１３は、顔検出部１２から供給されたそれぞれの顔画像に複数の特徴点を設定し、特徴点の情報を正規化部１４に出力する。

図５は、特徴点が設定された顔画像の例を示す図である。図５の画像Ｐ１１と画像Ｐ１２はペアを構成する画像である。図５の例においては、縦方向に９個、横方向に６個の計５４個の特徴点が画像Ｐ１１と画像Ｐ１２の対応する位置に設定されている。

正規化部１４は、顔検出部１２から供給された顔画像を解析することによって顔の方向を検出し、特徴点設定部１３により設定された特徴点の位置が基準位置にくるように顔画像を変換するアフィン変換などを正規化処理として行う。これにより、顔検出部１２から供給された顔画像に写っている顔が正面を向いていない場合であっても、正面を向いている顔が写っている画像と同様の画像に変換される。正規化部１４は、特徴点の位置が基準位置にくるように変換した顔画像を中間画像生成部２０に出力し、正規化後の顔画像上の特徴点の情報をフィルタセット選択部１５に出力する。

フィルタセット選択部１５は、顔画像に設定された複数の特徴点の中から所定の数の特徴点をランダムに選択する。また、フィルタセット選択部１５は、選択したそれぞれの特徴点における顔の特徴の抽出に用いられる特徴抽出フィルタを複数の特徴抽出フィルタの中からランダムに選択する。

図６Ａ乃至Ｄは、特徴抽出フィルタの例を示す図である。

図６Ａ乃至Ｄに示す２次元のフィルタがRectangle Filterである。Rectangle Filterは、水平方向、垂直方向、またはいずれかの方向に対して４５度の傾きを有する直線によって区切られる、所定の数の矩形の白領域と黒領域から構成される。

Rectangle Filterを用いた特徴の抽出は、Rectangle Filterを画像上の所定の位置に配置し、白領域に含まれる画素の輝度値の和と、黒領域に含まれる画素の輝度値の和との差を求めることによって行われる。例えば、図６Ａの2 Rectangle Filterはエッジの特徴を抽出するのに適したフィルタであり、図６Ｂ、図６Ｃの3 Rectangle Filterはラインの特徴を抽出するのに適したフィルタである。

フィルタセット選択部１５は、ランダムに選択した特徴点毎に、このような特徴抽出フィルタの中から所定の特徴抽出フィルタをランダムに選択し、フィルタセットを決定する。

図７は、フィルタセットの例を示す図である。

図７には、フィルタセットｓ１乃至Ｓｎのｎ個のフィルタセットが示されている。それぞれのフィルタセットは例えばBoostingのラウンド毎に選択される。図７において、下付の数字を付しているｒは特徴抽出フィルタ（Rectangle Filter）を表し、ｐは特徴点を表す。（ｒ_ｎ，ｐ_ｘｙ）は、ｘ列ｙ行の位置の特徴点である特徴点ｐ_ｘｙにおける顔の特徴の抽出に用いるフィルタとして選択された特徴抽出フィルタが、特徴抽出フィルタｒ_ｎであることを表す。

フィルタセット選択部１５は、このようにして選択した所定の数のフィルタからなるフィルタセットの情報を特徴抽出部１６と学習部１８に出力する。

特徴抽出部１６は、フィルタセット選択部１５により選択されたフィルタセットを用いて、全ての顔画像から特徴を抽出する。特徴抽出部１６は、顔画像毎に、それぞれの顔画像から抽出した特徴をパラメータとする特徴ベクトルを求め、求めた特徴ベクトルの情報を相関値算出部１７に出力する。

なお、特徴抽出部１６において特徴の抽出に用いられる顔画像は、顔検出部１２により生成され、正規化部１４により正規化が施された顔画像ではなく、中間画像生成部２０により生成された中間画像である。後述するように、中間画像生成部２０においては、顔検出部１２により生成され、正規化部１４により正規化が施された顔画像に基づいて、積分画像が中間画像として生成される。

相関値算出部１７は、特徴抽出部１６から供給された情報に基づいて、学習装置１に入力された学習用画像のそれぞれのペアを構成する一方の画像（顔画像）から求められた特徴ベクトルと、他方の顔画像から求められた特徴ベクトルとの相関値を算出する。

図８は、相関値の算出の例を示す図である。

図７のフィルタセットｓ１が選択されている場合について説明する。この場合、同じペアを構成する一方の顔画像からは、特徴点ｐ_１３，ｐ_５１，ｐ_２３，…，ｐ_４３における特徴がそれぞれ特徴抽出フィルタｒ_１，ｒ_５，ｒ_３，…，ｒ_８を用いて抽出され、それらの特徴をパラメータとする特徴ベクトルＶ１が生成される。同様に、同じペアを構成する他方の顔画像からは、特徴点ｐ_１３’，ｐ_５１’，ｐ_２３’，…，ｐ_４３’における特徴がそれぞれ特徴抽出フィルタｒ_１，ｒ_５，ｒ_３，…，ｒ_８を用いて抽出され、それらの特徴をパラメータとする特徴ベクトルＶ１’が生成される。特徴点ｐ_１３，ｐ_５１，ｐ_２３，…，ｐ_４３と特徴点ｐ_１３’，ｐ_５１’，ｐ_２３’，…，ｐ_４３’は、それぞれの画像上で同じ位置にある特徴点である。

相関値算出部１７は、特徴ベクトルＶ１と特徴ベクトルＶ１’の対応するパラメータ同士の相関値を算出し、算出した相関値をパラメータとする相関ベクトルを生成する。相関値算出部１７は、学習用画像の全てのペアに注目してこのような相関ベクトルを生成し、それぞれのペアに基づいて生成した相関ベクトルの情報を学習部１８に出力する。

学習部１８は、相関値算出部１７により生成された相関ベクトルに基づいて、上述したフィルタセットを弱識別器候補として例えばAdaboostを利用した統計学習を行い、複数の弱識別器から構成される同一人物識別器を生成する。

すなわち、学習部１８は、学習用画像のペアがＮ個入力された場合、あるフィルタセットを用いて相関値算出部１７により生成されたＮ個の相関ベクトルの重みとして１／Ｎを割り当てる。学習部１８は、Ｎ個の相関ベクトルと、ラベル情報（同一人であれば＋１、他人であれば−１）に基づいて学習を行い、弱識別器を生成する。

学習部１８は、それ以降、直前に学習の対象とした弱識別器が正解できなかったサンプル（学習用画像のペア）の重みを増やし、他のフィルタセットを用いて生成されたＮ個の相関ベクトルに基づいて重み付き学習を繰り返し行う。学習部１８は、学習によって得られたそれぞれの弱識別器のパラメータ、フィルタセットの情報、信頼度などの、同一人物識別器に関する情報からなる辞書データを学習データ記憶部１９に記憶させる。それぞれの弱識別器は、その弱識別器の学習に用いられたフィルタセットと同じフィルタセットを用いて顔画像から抽出され、生成された相関ベクトルを入力としたときに所定のスコアを出力するものである。

中間画像生成部２０は、正規化部１４から供給された顔画像に基づいて積分画像を生成し、中間画像として特徴抽出部１６に出力する。上述したように、学習装置１において用いられる特徴抽出フィルタは矩形の白領域と黒領域からなるRectangle Filterである。中間画像の生成は、所定の形状の白領域または黒領域に含まれる画素の輝度値の和を容易に求めることができるようにするために行われる。

図９は、中間画像の生成の例を示す図である。

中間画像のサイズ（画素数）は元画像のサイズと同じである。中間画像の各画素の画素値は、元画像の四隅のうちの左上隅などの所定の位置を基準位置として、基準位置と各画素の位置を結ぶ線を対角線とする四角形の範囲に含まれる元画像の各画素の輝度値の和を表す。

図９の例においては左上隅の点Ａ１が基準位置とされている。中間画像上の点Ａ４の画素の画素値は、点Ａ１と点Ａ４を対角線とする四角形である点Ａ１，Ａ２，Ａ４，Ａ３を頂点とする四角形の範囲に含まれる元画像の各画素の輝度値の和を表す。同様に、例えば、中間画像の右下隅の画素の画素値は元画像の画素全体の輝度値の和を表すことになる。

図１０は、中間画像を用いた特徴抽出の例を示す図である。

図１０に斜線を付して示す点Ａ１３，Ａ１４，Ａ４，Ａ１５を頂点とする四角形の範囲に含まれる元画像の画素の輝度値の和を求める場合について説明する。点Ａ１１は点Ａ１と点Ａ２の間の点であり、点Ａ１２は点Ａ１と点Ａ３の間の点である。点Ａ１４は点Ａ２と点Ａ４の間の点であり、点Ａ１５は点Ａ３と点Ａ４の間の点である。点Ａ１３は点Ａ１２と点Ａ１４を結ぶ水平方向の線と、点Ａ１１と点Ａ１５を結ぶ垂直方向の線の交点である。

この場合、中間画像の点Ａ１３の画素の画素値は、点Ａ１，Ａ１１，Ａ１３，Ａ１２を頂点とする四角形の範囲に含まれる元画像の画素の輝度値の和を表す。また、点Ａ１４の画素の画素値は、点Ａ１，Ａ２，Ａ１４，Ａ１２を頂点とする四角形の範囲に含まれる元画像の画素の輝度値の和を表す。点Ａ１５の画素の画素値は、点Ａ１，Ａ１１，Ａ１５，Ａ３を頂点とする四角形の範囲に含まれる元画像の画素の輝度値の和を表す。

点Ａ４の画素の画素値は、上述したように点Ａ１，Ａ２，Ａ４，Ａ３を頂点とする四角形の範囲に含まれる元画像の画素の輝度値の和を表す。従って、斜線を付して示す範囲に含まれる元画像の画素の輝度値の和は、点Ａ４の画素の画素値から、点Ａ１４の画素の画素値と点Ａ１５の画素の画素値を引き、点Ａ１３の画素の画素値を足すことによって求められる。

図１１は、中間画像の各画素の画素値の求め方の例を示す図である。

図１１の下側に斜線を付して示す中間画像の画素ｐ’_１０１の輝度値を求める場合について説明する。中間画像の画素ｐ’_１０１，ｐ’_１０２，ｐ’_１０３，ｐ’_１０４は、それぞれ、元画像の画素ｐ_１０１，ｐ_１０２，ｐ_１０３，ｐ_１０４に対応する画素である。

中間画像の所定の位置にある２×２画素の４画素のうちの右下の１画素の画素値は、右上の画素の画素値と左下の画素の画素値との和から左上の画素の画素値を引き、対応する位置の元画像の１画素の輝度値を足すことによって求められる。すなわち、中間画像の画素ｐ’_１０１の画素値は、画素ｐ’_１０３の画素値と画素ｐ’_１０４の画素値との和から、画素ｐ’_１０２の画素値を引き、元画像の画素ｐ_１０１の輝度値を足すことによって求められる。

中間画像生成部２０においては、このような中間画像が、学習装置１に入力された全ての画像を元画像として用いて生成される。このような中間画像を一度生成しておくことにより、特徴抽出部１６は、水平方向または垂直方向の直線によって領域が区切られる複数の特徴抽出フィルタ（垂直・水平フィルタ）を用いて特徴抽出を行う場合に、その演算を容易に行うことが可能になる。

図１２は、他の中間画像の生成の例を示す図である。

中間画像生成部２０においては、水平方向または垂直方向の直線に対して４５度の傾きを有する直線によって領域が区切られる特徴抽出フィルタ（斜めフィルタ）を用いた演算を容易に行うことができるようにするための中間画像も生成される。この中間画像は、各画素の画素値が、各画素の位置を頂点、元画像の四辺のうちの上辺などの所定の辺を底辺とし、頂角が９０度の三角形の範囲に含まれる元画像の各画素の輝度値の和を表すようにして生成される。

図１２の例においては上辺が底辺とされている。中間画像上の点Ａ３３の画素の画素値は、頂角が９０度の三角形である点Ａ３１，Ａ３２，Ａ３３を頂点とする三角形の範囲に含まれる元画像の各画素の輝度値の和を表す。

図１３は、図１２の中間画像を用いた特徴抽出の例を示す図である。

図１３に斜線を付して示す点Ａ４３，Ａ４５，Ａ３３，Ａ４４を頂点とする四角形の範囲に含まれる元画像の画素の輝度値の和を求める場合について説明する。点Ａ４４は点Ａ３１と点Ａ３３の間の点であり、点Ａ４５は点Ａ３３と点Ａ３２の間の点である。点Ａ４２は、点Ａ３２と点Ａ３３を結ぶ線と平行な点Ａ４４を通る線と、点Ａ３１と点Ａ３２を結ぶ線との交点である。点Ａ４１は、点Ａ３１と点Ａ３３を結ぶ線と平行な点Ａ４５を通る線と、点Ａ３１と点Ａ３２を結ぶ線との交点である。点Ａ４３は、点Ａ４１と点Ａ４５を結ぶ線と、点Ａ４２と点Ａ４４を結ぶ線との交点である。

この場合、点Ａ４３の画素の画素値は、点Ａ４１，Ａ４２，Ａ４３を頂点とする三角形の範囲に含まれる元画像の画素の輝度値の和を表す。同様に、点Ａ４４の画素の画素値は、点Ａ３１，Ａ４２，Ａ４４を頂点とする三角形の範囲に含まれる元画像の画素の輝度値の和を表す。点Ａ４５の画素の画素値は、点Ａ４１，Ａ３２，Ａ４５を頂点とする三角形の範囲に含まれる元画像の画素の輝度値の和を表す。

中間画像の点Ａ３３の画素の画素値は、点Ａ３１，Ａ３２，Ａ３３を頂点とする三角形の範囲に含まれる元画像の画素の輝度値の和を表す。従って、斜線を付して示す範囲に含まれる元画像の画素の輝度値の和は、点Ａ３３の画素の画素値から、点Ａ４４の画素の画素値と点Ａ４５の画素の画素値を引き、点Ａ４３の画素の画素値を足すことによって求められる。

図１４は、図１２の中間画像の各画素の画素値の求め方の例を示す図である。

図１４の下側に斜線を付して示す中間画像の画素ｐ’_１１１の輝度値を求める場合について説明する。中間画像の画素ｐ’_１１１，ｐ’_１１２，ｐ’_１１３，ｐ’_１１４は、それぞれ、元画像の画素ｐ_１１１，ｐ_１１２，ｐ_１１３，ｐ_１１４に対応する画素である。

中間画像の所定の位置にある１画素の画素値は、その画素の左上の画素の画素値と右上の画素の画素値との和から真上の画素の画素値を引き、対応する位置の元画像の１画素の輝度値を足すことによって求められる。すなわち、中間画像の画素ｐ’_１１１の画素値は、中間画像の画素ｐ’_１１２の画素値と画素ｐ’_１１４の画素値との和から、画素ｐ’_１１３の画素値を引き、元画像の画素ｐ_１１１の輝度値を足すことによって求められる。

中間画像生成部２０においては、このような中間画像も、学習装置１に入力された全ての画像を元画像として用いて生成される。これにより、特徴抽出部１６は、斜めフィルタを用いて特徴抽出を行う場合に、その演算を容易に行うことが可能になる。

［学習装置の動作］
次に、図１５のフローチャートを参照して、以上のような構成を有する学習装置１の処理について説明する。

ステップＳ１において、画像取得部１１は、同一人物の顔が写っている画像のペアと、違う人物の顔が写っている画像のペアを複数取得する。

ステップＳ２において、顔検出部１２は、画像取得部１１により取得されたそれぞれの画像に含まれる人の顔の部分を検出し、顔画像を生成する。

ステップＳ３において、特徴点設定部１３は、それぞれの顔画像に特徴点を設定する。

ステップＳ４において、正規化部１４は、顔画像を解析することによって顔の方向を検出し、特徴点の位置が基準位置にくるように顔画像の正規化を行う。

ステップＳ５において、中間画像生成部２０は、正規化後の顔画像に基づいて中間画像を生成する。中間画像生成部２０は、画像取得部１１により取得されたそれぞれの画像を元画像として生成した、垂直・水平フィルタを用いて特徴を抽出するための中間画像と、斜めフィルタを用いて特徴を抽出するための中間画像を特徴抽出部１６に出力する。

ステップＳ６において、フィルタセット選択部１５は、顔画像に設定された複数の特徴点をランダムに選択する。また、フィルタセット選択部１５は、選択したそれぞれの特徴点における顔の特徴の抽出に用いられる特徴抽出フィルタをランダムに選択する。

ステップＳ７において、特徴抽出部１６は、フィルタセット選択部１５により選択されたフィルタセットを中間画像に適用し、全ての顔画像の特徴を抽出する。特徴抽出部１６は、抽出した特徴をパラメータとする特徴ベクトルを顔画像毎に求める。

ここで、ある特徴抽出フィルタを用いて特徴を抽出し、特徴ベクトルを生成した後に、同じ特徴抽出フィルタの黒領域と白領域を入れ替えて同じ位置の特徴を抽出し、特徴ベクトルを生成することが特徴抽出部１６により行われるようにしてもよい。黒領域と白領域を入れ替えた特徴抽出フィルタを用いて特徴を抽出することは、白領域に含まれる画素の輝度値の和と、黒領域に含まれる画素の輝度値の和との差の絶対値を求めることに相当する。

これにより、特に図１６に示すように白領域と黒領域が左右に配置された特徴抽出フィルタＲを用いて顔の輪郭部分の特徴を抽出する場合に、背景の明るさに左右されない識別器の学習が可能になる。

また、ある特徴点における特徴をある特徴抽出フィルタを用いて抽出した後に、同じ特徴抽出フィルタを用いて近傍画素点における特徴の抽出が行われ、それらの特徴の和、または平均をパラメータとする特徴ベクトルが生成されるようにしてもよい。すなわち、同じ特徴抽出フィルタを用いて位置をずらして特徴の抽出が行われ、それらの特徴の和、または平均が特徴抽出部１６により求められる。

これにより、顔の変形に左右されずに精度よく識別を行うことが可能な識別器を生成することが可能となる。近傍画素点とする範囲は任意に設定可能であり、ｘ軸方向とｙ軸方向とでずらす範囲が異なるようにしてもよい。

なお、特徴の抽出にかかる時間等を考えて、これらの絶対値計算や特徴抽出フィルタの位置をずらした特徴抽出が行われないようにすることも可能である。

図１５の説明に戻り、ステップＳ８において、相関値算出部１７は、学習用画像の同じペアを構成する一方の顔画像から求められた特徴ベクトルと、他方の顔画像から求められた特徴ベクトルとの相関値を計算し、相関を表す相関ベクトルを生成する。

ステップＳ９において、学習部１８は、相関値算出部１７により生成された相関ベクトルに基づいて学習を行う。

ステップＳ１０において、学習部１８は、学習が終了したか否かを判定する。学習が終了していないとステップＳ１０において判定された場合、ステップＳ６に戻り、フィルタセットが新たに選択されてBoostingが繰り返される。

一方、学習が終了したとステップＳ１０において判定した場合、ステップＳ１１において、学習部１８は、複数の弱識別器から構成される強識別器である同一人物識別器に関する情報を学習データ記憶部１９に記憶させ、処理を終了する。

以上のように、複数の特徴抽出フィルタを用いて複数の特徴点から抽出された特徴を組み合わせて学習を行うことにより、識別精度をより向上させることが可能な識別器を生成することが可能になる。例えば、顔の目と鼻の特徴を二枚の画像からそれぞれ同時に抽出して学習を行うといったように顔上の複数の位置の特徴を組み合わせて用いることで、識別器の精度が上がることがある。

また、中間画像として積分画像を生成し、Rectangle Filterを用いて特徴抽出を行うようにしたため、複数の特徴点、複数の特徴抽出フィルタを組み合わせて用いるといったような複雑な演算であっても容易に行うことが可能になる。積分画像を生成せずに、直接、元画像を特徴抽出の対象とした場合、輝度値の畳み込み演算などが必要となるが、そのような演算を行う必要がない。

＜識別装置について＞
［識別装置の構成］
図１７は、識別装置の構成例を示すブロック図である。

図１７の識別装置２は、二枚の画像に写る顔が同一人物の顔であるか否かの識別を、学習装置１により生成された同一人物識別器に基づいて行う装置である。同一人識別器に関する情報は、ネットワークを介して、またはメモリカードなどの記録媒体を介して、学習装置１から識別装置２に提供される。

識別装置２には、図１８に示すように、人物の顔が写っている画像のペアが識別対象の画像として入力される。識別装置２は、白抜き矢印の先に示すように、学習時に選択された特徴抽出フィルタのセットであるフィルタセットｓ１１に基づいてそれぞれの画像に写る顔の特徴を抽出する。識別装置２は、一方の画像から抽出した特徴をパラメータとする特徴ベクトルと、他方の画像から抽出した特徴をパラメータとする特徴ベクトルとの相関を算出し、フィルタセットｓ１１を用いて学習された弱識別器に対する入力として用いてスコアを求める。

同様に、識別装置２は、フィルタセットｓ１２に基づいてそれぞれの画像に写る顔の特徴を抽出し、一方の画像から抽出した特徴をパラメータとする特徴ベクトルと、他方の画像から抽出した特徴をパラメータとする特徴ベクトルとの相関を算出する。識別装置２は、算出した相関を、フィルタセットｓ１２を用いて学習された弱識別器に対する入力とし、スコアを求める。識別装置２は、このようなスコアの計算をそれぞれの弱識別器を用いて行い、例えば、スコアの和が閾値以上の値である場合、入力された二枚の画像に写る顔が同一人物の顔であると判定する。

これにより、識別装置２は、学習装置１により生成された同一人識別器に基づいて、入力された二枚の画像に写る顔が同一人物の顔であるか否かを精度よく識別することが可能になる。

図１７の画像取得部３１は、人物の顔が写っている画像のペアを取得し、顔検出部３２に出力する。

顔検出部３２は、画像取得部３１から供給された画像を学習装置１の顔検出部１２と同様にして解析することによって、それぞれの画像に含まれる人の顔の部分を検出し、顔画像を生成する。顔検出部３２は、生成した顔画像を特徴点設定部３３と正規化部３４に出力する。

特徴点設定部３３は、顔検出部３２から供給されたそれぞれの顔画像に複数の特徴点を設定し、特徴点の情報を正規化部３４に出力する。

正規化部３４は、顔検出部３２から供給された顔画像を学習装置１の正規化部１４と同様にして解析することによって顔の方向を検出し、特徴点設定部１３により設定された特徴点の位置が基準位置にくるように顔画像の正規化を行う。正規化部３４は、正規化後の顔画像を中間画像生成部３９に出力し、特徴点の情報を特徴抽出部３５に出力する。

特徴抽出部３５は、学習データ記憶部３８に記憶されている情報に基づいてフィルタセットを選択する。学習データ記憶部３８には、学習装置１により生成された同一人識別器に関する情報が記憶されている。フィルタセットの情報には、フィルタセットを構成するそれぞれの特徴抽出フィルタが、どの特徴点における特徴を抽出するのに用いるものであるのかを表す情報も含まれている。

特徴抽出部３５は、選択したフィルタセットを構成するそれぞれの特徴抽出フィルタを用いて、それぞれの顔画像の所定の特徴点における特徴を抽出する。特徴抽出部３５は、顔画像毎に、それぞれの顔画像から抽出した特徴をパラメータとする特徴ベクトルを求め、求めた特徴ベクトルの情報を相関値算出部３６に出力する。なお、特徴抽出部３５により特徴の抽出に用いられる顔画像は、中間画像生成部３９により生成された中間画像であってもよいし、顔検出部３２により生成され、正規化部３４により正規化が施された顔画像であってもよい。

相関値算出部３６は、特徴抽出部３５から供給された情報に基づいて、識別装置２に入力された識別対象のペアの一方の顔画像から求められた特徴ベクトルと、他方の顔画像から求められた特徴ベクトルとの相関を表す相関ベクトルを算出する。相関値算出部３６は、算出した相関ベクトルの情報を識別部３７に出力する。

識別部３７は、同一人識別器を構成する弱識別器の情報を学習データ記憶部３８から読み出し、相関値算出部３６により算出された相関ベクトルを弱識別器に対する入力としてスコアを算出する。識別部３７は、それぞれの弱識別器を用いて算出したスコアの和が閾値以上である場合、入力された二枚の画像に写る顔が同一人物の顔であると判定し、閾値未満である場合、入力された二枚の画像に写る顔が同一人物の顔ではないと判定する。識別部３７による判定結果は、例えば、識別装置２に接続されるディスプレイに表示されたり、識別装置２に接続されるスピーカから音声によって出力されたりする。

中間画像生成部３９は、適宜、正規化部３４から供給された顔画像に基づいて学習装置１の中間画像生成部２０と同様にして積分画像を生成し、中間画像として特徴抽出部３５に出力する。

［識別装置の動作］
次に、図１９のフローチャートを参照して、識別装置２の処理について説明する。

ステップＳ２１において、画像取得部３１は、識別対象の画像のペアを取得する。

ステップＳ２２において、顔検出部３２は、画像取得部３１により取得されたそれぞれの画像に含まれる人の顔の部分を検出し、顔画像を生成する。

ステップＳ２３において、特徴点設定部３３は、それぞれの顔画像に特徴点を設定する。

ステップＳ２４において、正規化部３４は、顔画像の正規化を行う。

ステップＳ２５において、中間画像生成部３９は、正規化後の顔画像に基づいて中間画像を生成する。中間画像生成部３９は、画像取得部３１により取得されたそれぞれの画像を元画像として、学習装置１の中間画像生成部２０と同様に、垂直・水平フィルタを用いて特徴を抽出するための中間画像と斜めフィルタを用いて特徴を抽出するための中間画像を生成する。

ステップＳ２６において、特徴抽出部３５は、学習データ記憶部３８に記憶されている情報に基づいてフィルタセットを選択する。

ステップＳ２７において、特徴抽出部３５は、選択したフィルタセットを構成する特徴抽出フィルタを用いて、それぞれの顔画像の所定の特徴点における特徴を抽出する。特徴抽出部３５は、顔画像毎に、顔画像から抽出した特徴をパラメータとする特徴ベクトルを求める。

ステップＳ２８において、相関値算出部３６は、識別装置２に入力された識別対象のペアの一方の顔画像から求められた特徴ベクトルと、他方の顔画像から求められた特徴ベクトルとの相関値を計算し、相関を表す相関ベクトルを生成する。

ステップＳ２９において、識別部３７は、同一人識別器を構成する弱識別器の情報を学習データ記憶部３８から読み出し、相関値算出部３６により算出された相関ベクトルを弱識別器に対する入力としてスコアを算出する。

ステップＳ３０において、識別部３７は、新たに算出したスコアを、それまでに算出したスコアに加算する。

ステップＳ３１において、識別部３７は識別終了か否かを判定する。識別が終了していないとステップＳ３１において判定された場合、ステップＳ２６に戻り、フィルタセットが新たに選択されてスコア計算が繰り返される。例えば、全ての弱識別器を用いてスコアが算出されるまで、弱識別器を用いたスコア計算が繰り返される。

一方、識別が終了したとステップＳ３１において判定した場合、ステップＳ３２において、識別部３７は、それぞれの弱識別器を用いて算出したスコアの和に基づいて、二枚の画像に写る顔が同一人物の顔であるか否かを判定する。識別部３７は、識別結果を出力し、処理を終了させる。

以上の処理により、二枚の画像に写る顔が同一人物の顔であるか否かを精度よく識別することが可能になる。

＜変形例＞
以上においては、学習装置１と識別装置２がそれぞれ異なる装置であるものとしたが、図２０に示すように、１つの情報処理装置３において学習装置１と識別装置２が実現されるようにしてもよい。情報処理装置３において実現される学習装置１による学習結果は識別装置２に提供され、二枚の画像に写る顔が同一人物の顔であるか否かの識別に用いられる。

また、同一人物の顔であるか否かの識別に用いられる識別器の学習と識別器を用いた識別について説明したが、以上の処理は、二枚の画像に写る他の対象が同一であるか否かの識別に用いられる識別器の学習と識別器を用いた識別にも適用可能である。

［コンピュータの構成例］
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

CPU(Central Processing Unit)１０１、ROM(Read Only Memory)１０２、RAM(Random Access Memory)１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。また、入出力インタフェース１０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを入出力インタフェース１０５及びバス１０４を介してRAM１０３にロードして実行することにより、上述した一連の処理が行われる。

CPU１０１が実行するプログラムは、例えばリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１０８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１学習装置，２識別装置，１１画像取得部，１２顔検出部，１３特徴点設定部，１４正規化部，１５フィルタセット選択部，１６特徴抽出部，１７相関値算出部，１８学習部，１９学習データ記憶部，２０中間画像生成部，３１画像取得部，３２顔検出部，３３特徴点設定部，３４正規化部，３５特徴抽出部，３６相関値算出部，３７識別部，３８学習データ記憶部，３９中間画像生成部