JP5106271B2

Movatterモバイル変換

Info

Publication number: JP5106271B2
Application number: JP2008169592A
Authority: JP
Inventors: 洋東條; 英智相馬; 哲八代
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-06-27
Filing date: 2008-06-27
Publication date: 2012-12-26
Anticipated expiration: 2028-06-27
Also published as: US20090324086A1; US8379931B2; JP2010009425A; US8971585B2; US20130129157A1

Description

本発明は、画像処理装置、画像処理方法、及びコンピュータプログラムに関し、特に、動画像に写っている所定の被写体を検索するために用いて好適なものである。

従来から、動画像から所定の被写体を検索し、被写体を含むフレーム画像を代表画像とする等して、所望の被写体が写っている区間（期間）の動画像を再生すること等を可能とする技術が提案されている。
特許文献１では、ショット（シーン）の切り替わりを検出し、各ショットの先頭フレームから顔の検出を行い、顔が検出されたフレームを代表画像としている。このとき顔の向き、サイズ、数、男女別、人種別、人物名といった属性についても識別し、その属性を代表画像の条件として指定できるようにしている。
また、特許文献２では、フレームから顔を検出し、検出した顔のサイズ、顔の数、フレームの中心からの距離等から評価値を算出し、その評価値が極大又は極小となるフレームを代表画像としている。

特開２００１−１６７１１０号公報特許第３３１２１０５号公報

しかしながら、従来の技術では、撮影者が意図して撮影した被写体(以下の説明では、必要に応じて主要被写体と称する)であるかどうかの区別を行っていなかった。このため、主要被写体が写っている区間（期間）を探すのが困難であった。被写体を含むフレーム画像で作成した代表画像を一覧としてユーザに提示した場合には、主要被写体と非主要被写体とが混在した状態になっていた。このために、ユーザはまず、主要被写体と非主要被写体との判別を行う必要が生じていた。また、被写体が写っている区間のみからなるダイジェストを生成すると、主要被写体が写っている区間と非主要被写体が写っている区間とが混在したダイジェストが生成される虞があった。

特許文献１に記載の技術では、顔の属性(サイズ、数、男女別、人種別、人物名)に合った代表画像を得ることはできる。しかしながら、これらの属性は、撮影された場面が、撮影者が意図して撮影した場面なのか、それとも偶然写ってしまった場面なのかということとは、関連がない。従って、代表画像として非主要被写体の顔が選択されてしまう虞があった。

また、特許文献２に記載の技術では、被写体をアップで撮影するときのように、一人の被写体をフレームの中心で捉えようとするときには、主要被写体の代表画像を得ることができる。しかしながら、主要被写体と非主要被写体とを含む複数の被写体を同時に撮影するような場合には、代表画像の中に、主要被写体の顔と非主要被写体の顔とが混在してしまう。

図９は、フレーム画面内の被写体の動きと（図９（ａ））、その被写体の実際の動き（図９（ｂ））の一例を示す図である。
図９では、被写体Ａ、Ｂが撮影されているが、撮影者が意図して撮影しているのは被写体Ａであり、被写体Ｂは偶然居合わせたものとする。ここで、被写体Ａ、Ｂは、ビデオカメラから略等距離にあり、被写体Ａ、Ｂの顔のサイズは略同じであるとする。そして、被写体Ａは、図に向かって左側へ移動しようとしており、被写体Ｂは停止又は図に向かって右側へ移動しようとしていたとする。従って、このまま時間が経過すると被写体Ａはフレームアウトしてしまうので、撮影者はビデオカメラを左側へパンさせる。これに伴って、フレーム画面６０１内では、被写体Ｂの顔が、フレーム画面６０１の中心付近を通って右側へ移動する。このために、特許文献２に記載の技術では、主要被写体でない被写体Ｂの顔の評価値が高くなってしまい、その結果、非主要被写体が代表画像に抽出されてしまう。

本発明は、以上のような問題点に鑑みてなされたものであり、動画像から、主要被写体を従来よりも確実に検索できるようにすることを目的とする。

本発明の画像処理装置は、動画像を入力する入力手段と、前記入力手段により入力された動画像から、被写体を検出する検出手段と、前記入力手段により入力された動画像から、前記検出手段により検出された被写体を追跡し、追跡した結果に基づいて、その被写体の動きと、その被写体が前記動画像に存在している動画像区間とを得る追跡手段と、複数の被写体について前記追跡手段により得られた動画像区間に重なりがある場合に、撮影者が撮影装置で被写体を追尾した量に関する追尾量を、前記追跡手段により追跡された被写体の夫々について算出し、前記被写体の夫々の追尾量を比較した結果に基づいて、各被写体が主要な被写体かどうかを判定する主要被写体判定手段と、を備えることを特徴とする。

本発明の画像処理方法は、動画像を入力する入力ステップと、前記入力ステップにより入力された動画像から、被写体を検出する検出ステップと、前記入力ステップにより入力された動画像から、前記検出ステップにより検出された被写体を追跡し、追跡した結果に基づいて、その被写体の動きと、その被写体が前記動画像に存在している動画像区間とを得る追跡ステップと、複数の被写体について前記追跡ステップにより得られた動画像区間に重なりがある場合に、撮影者が撮影装置で被写体を追尾した量に関する追尾量を、前記追跡ステップにより追跡された被写体の夫々について算出し、前記被写体の夫々の追尾量を比較した結果に基づいて、各被写体が主要な被写体かどうかを判定する主要被写体判定ステップと、を有することを特徴とする。

本発明のコンピュータプログラムは、コンピュータに、動画像を入力する入力ステップと、前記入力ステップにより入力された動画像から、被写体を検出する検出ステップと、前記入力ステップにより入力された動画像から、前記検出ステップにより検出された被写体を追跡し、追跡した結果に基づいて、その被写体の動きと、その被写体が前記動画像に存在している動画像区間とを得る追跡ステップと、複数の被写体について前記追跡ステップにより得られた動画像区間に重なりがある場合に、撮影者が撮影装置で被写体を追尾した量に関する追尾量を、前記追跡ステップにより追跡された被写体の夫々について算出し、前記被写体の夫々の追尾量を比較した結果に基づいて、各被写体が主要な被写体かどうかを判定する主要被写体判定ステップと、を実行させることを特徴とする。

本発明によれば、動画像において複数の被写体の存在している区間が重なっている場合に、それら複数の被写体の夫々の動きに基づいて、各被写体が主要な被写体かどうかを判定するようにしたので、動画像から、主要被写体を従来よりも確実に検索できる。

以下に、図面を参照しながら、本発明の実施形態について詳細に説明する。
尚、以下の実施形態では、検索対象の被写体の一例として人物、特に顔を扱うこととする。そして、動画像中から主要被写体となる顔を抽出し、抽出した顔を含む動画像のみを表示できるようにすることにより動画像の内容をユーザが把握できるようにする場合を例に挙げて説明する。もちろん、被写体として人物以外のオブジェクトを対象にした場合にも本発明を適用することが可能である。

＜第１の実施形態＞
図１は、本実施形態における動画像処理装置の制御構成の一例を示すブロック図である。
図１において、ＣＰＵ１０１は、動画像処理装置１００における各種制御を実行する。ＲＯＭ１０２は、動画像処理装置１００の立ち上げ時に実行されるブートプログラムや各種データを格納する。ＲＡＭ１０３は、ＣＰＵ１０１が処理するための制御プログラムを格納（展開）すると共に、ＣＰＵ１０１が各種制御を実行する際の作業領域を提供する。キーボード１０４、マウス１０５は、ユーザによる各種入力操作環境を提供する。

外部記憶装置１０６は、ハードディスクや、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等で構成される。表示器１０７は、液晶ディスプレイ等で構成され、処理の結果等をユーザに対して表示する。ネットワークインターフェース１０８は、ネットワークに接続されている外部の各機器との通信を可能とするためのものである。ビデオインターフェース（Ｉ／Ｆ）１０９は、ビデオカメラ１１０や、ＶＴＲ１１２からの動画像データの取り込みを可能とする。また、バス１１１は、以上の各構成を通信可能に相互に接続するためのものである。
尚、図１に示す構成において、ビデオカメラ１１０、ＶＴＲ１１２や外部記憶装置１０６を、ネットワークに接続（配置）されたもので代用してもよい。

図２は、動画像処理装置１００の機能構成の一例を示すブロック図である。
図２において、動画像入力部２０１は、ビデオＩ／Ｆ１０９を介してビデオカメラ１１０、ＶＴＲ１１２等から動画像データを取得し、動画像処理装置１００に入力するものである。動画像入力部２０１で取得された動画像データは、動画記憶部２０２に動画ファイルとして記録される。尚、外部記憶装置１０６やＮＩＣ１０８を介して外部から動画像処理装置１００にアクセスできる"ネットワークに接続された外部装置"に記憶されている動画ファイルを、動画像入力部２０１が取得して構わない。このようにした場合には、動画像入力部２０１で取得された動画ファイルを改めて外部記憶装置１０６に記憶しなくてもよい。

顔検出部２０３は、動画像入力部２０１で取得された動画像データの所定のフレームから、人物顔パターンを検出し、その検出した結果を顔追跡部２０４に出力する。
顔追跡部２０４は、顔検出部２０３で検出された人物顔パターンを、その人物顔パターンを検出したフレームに後続するフレーム中から追跡し、その追跡した結果から得られる顔シーケンスを主要顔判定部２０６に出力する。ここで、顔シーケンスには、顔が存在する区間（期間）、フレーム画面内の顔領域の移動速度ベクトルの情報が含まれる。

カメラ操作抽出部２０５は、動画像入力部２０１で取得された動画像データのフレームの画像から、パン、チルト等、撮影時の撮影装置（例えばビデオカメラ）の操作の内容を判断し、判断した結果を示すカメラ操作情報を生成して主要顔判定部２０６に出力する。
主要顔判定部２０６は、顔追跡部２０４から出力された顔シーケンスと、カメラ操作抽出部２０５から出力されたカメラ操作情報とに基づいて、主要被写体となる顔に関する顔シーケンスを判定し、判定した顔シーケンスを代表画像抽出部２０７に出力する。

代表画像抽出部２０７は、主要顔判定部２０６から出力された"主要被写体となる顔に関する顔シーケンス"に基づいて、動画像入力部２０１で取得された動画像データから、代表する画像（以下の説明では、必要に応じて代表画像と称する）を抽出する。そして、代表画像抽出部２０７は、抽出した画像と、主要顔判定部２０６から出力された顔シーケンス中の"主要被写体となる顔が存在する区間"とを相互に関連付け、それらをインデックス情報としてインデックス記憶部２０８に記憶する。
表示部２０９は、インデックス記憶部２０８からインデックス情報を読み出して表示器１０７に表示し、キーボード１０４、マウス１０５等を介して取得した"ユーザの指示"に基づいて、動画記憶部２０２に記憶された動画ファイルから、主要被写体となる顔が存在する区間の動画像を再生表示する。

次に、図３のフローチャートを参照しながら、動画像データを取得してからインデックス情報を記憶するまでの動画像処理装置１００の処理動作の一例を説明する。
まず、動画像入力部２０１は、所望の動画像データを入力し、その動画像データのフレームを順に読み出す（ステップＳ３１０）。本実施形態では、例えば、ステップＳ３１０の処理を行うことにより入力手段の一例が実現される。
次に、顔検出部２０３は、ステップＳ３１０で読み出されたフレームから、人物顔パターン（顔）を検出し、その検出した結果を顔追跡部２０４に出力する（ステップＳ３２０）。
本実施形態では、所定のフレーム間隔毎に、各フレームから人物顔パターンの検出（顔の検出）を行うものとする。また、本実施形態では、文献（Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998）で提案されている"ニューラル・ネットワークにより、画像中の人物顔パターンを検出する方法"を適用した場合を例に挙げて説明する。

まず、顔検出部２０３は、顔の検出対象となる動画像データのフレームから、顔画像パターンと照合する所定の領域を切り出す。そして、顔検出部２０３は、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算を行い１つの出力を得る。ここで、膨大な顔画像パターンと非顔画像パターンとに基づいて、ニューラル・ネットワークの重みや閾値が予め学習されている。顔検出部２０３は、例えば、ニューラル・ネットワークの出力が０以上なら、切り出した領域は顔の画像であり、それ以外なら、切り出した領域には顔の画像でないと判別する。
図４は、人物顔パターンを検出する方法の一例を概念的に示す図である。図４を参照しながら、顔検出部２０３のより詳細な処理の一例について説明する。
図４に示すように、顔検出部２０３は、ニューラル・ネットワーク４０１への入力対象となる領域の切り出し位置を、フレームの画像４０２ａ〜４０２ｃ全域を上の行から下の行に向けて順に走査して変更する。そして、顔検出部２０３は、切り出した領域の画素値の分布を、顔と照合するパターン４０３ａ〜４０３ｃとして抽出し、そのパターン４０３ａ〜４０３ｃを入力としてニューラル・ネットワーク４０１による演算を行う。これにより、切り出した領域が人物顔パターン（顔）であるか否かが検出される。
また、本実施形態では、図４に示すように、様々な大きさの顔の検出に対応するため、顔検出部２０３は、顔の検出対象となるフレームの画像４０２ａを所定の割合で順次縮小し、縮小した画像４０２ｂ、４０２ｃの夫々に対しても前述した走査を行い、顔の検出を行うようにしている。

図５は、動画像データのフレームの画像から検出された人物顔パターンと、その人物顔パターンを追跡した結果の一例を示す図である。
図５に示すように、以上のようにして顔検出部２０３によって、動画像データ５０１の所定間隔のフレーム毎に人物顔パターンが検出された結果、フレーム内での顔画像５０２ａ、５０２ｂの位置が抽出される。
尚、画像から顔を検出する方法は、前述したニューラル・ネットワークによる方法に限定されるものではない。例えば、文献（Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002）に挙げられている各種方式を適用できる。
以上のように本実施形態では、例えば、ステップＳ３２０の処理を行うことにより検出手段の一例が実現される。

図３の説明に戻り、顔追跡部２０４は、顔検出部２０３で検出された人物顔パターン毎に、後続するフレーム中から人物顔パターンを追跡し、その追跡した結果から得られる顔シーケンスを主要顔判定部２０６に出力する（ステップＳ３３０）。例えば、図５に示すように、顔追跡部２０４は、所定のフレーム間隔で検出された顔画像５０２ａ、５０２ｂの夫々について、顔画像５０２ａ、５０２ｂが検出されたフレームに後続するフレームで追跡を行う。次に、顔追跡部２０４は、その追跡の結果、前フレームと現フレームにおける顔画像５０２ａ、５０２ｂの位置の変化から、顔の移動速度ベクトルを求める。次に、顔追跡部２０４は、顔画像５０２ａ、５０２ｂを追跡できた区間（顔が存在した区間（期間）)と、その区間内のフレームであって、相互に隣接するフレームから得られた顔の移動速度ベクトルの集合とを、顔シーケンス５０３ａ、５０３ｃとして出力する。

ここで、図６のフローチャートを参照しながら、顔追跡部２０４の処理の一例を詳細に説明する。
まず、顔追跡部２０４は、顔検出部２０３で検出された人物顔パターン（顔画像５０２ａ、５０２ｂ）の領域情報に基づいて、後続するフレームにおいて、その人物顔パターンの探索を行う探索領域を設定する（ステップＳ５１０）。顔検出部２０３で人物顔パターンを検出したフレームの次のフレームで探索を行う場合には、その人物顔パターンの領域を、水平位置及び垂直位置の少なくとも何れか一方について所定量だけその中心位置をずらした近傍の矩形領域を探索領域とする。顔検出部２０３で人物顔パターンを検出したフレームの次の次以降のフレームで探索を行う場合には、そのフレームの１つ前のフレームで探索された人物顔パターンの領域を前述したようにしてずらした領域を探索領域とする。

次に、顔追跡部２０４は、探索領域から切り取られた画像と、探索する人物顔パターンとの相関に基づいて、人物顔パターンを追跡する（ステップＳ５２０）。すなわち、顔追跡部２０４は、探索領域として設定された中心位置を中心として、探索する顔パターンと同じ大きさの矩形領域を順次切り出し、切り出した矩形領域の画像と、探索する人物顔パターンとの輝度分布をテンプレートとした相関値を算出する。そして、顔追跡部２０４は、相関値が最も高い探索領域を人物顔パターンの追跡結果として、その相関値と共にＲＡＭ１０３に一時的に記憶する。
尚、ここでは、人物顔パターンの追跡のために輝度分布の相関値を用いたが、必ずしもこのようにする必要はない。例えば、ＲＧＢ毎の画素値の分布の相関を用いてもよい。また、探索領域内での輝度分布やＲＧＢ値のヒストグラム等、画像の特徴量の相関を用いてもよい。

次に、顔追跡部２０４は、ステップＳ５２０で一時的に記憶した相関値が所定の値以上であるか否かを判定することにより、人物顔パターンを追跡できたか否かを判定する（ステップＳ５３０）。この判定の結果、一時的に記憶した相関値が所定の値以上である場合には、探索する人物顔パターンと、相関値が最も高い探索領域における画像との類似度が高いので、人物顔パターンを正確に追跡できたと判断する。そして、ステップＳ５４０に進む。一方、一時的に記憶した相関値が所定の値以上でない場合には、前記類似度が低いので、人物顔パターンを追跡できなかったと判断し、人物顔パターンの追跡を終了し、後述するステップＳ５７０に進む。

ステップＳ５４０に進むと、顔追跡部２０４は、追跡できた人物顔パターンの領域の位置の変化に基づいて、顔の移動速度ベクトルを求め、ＲＡＭ１０３に一次的に記憶する（ステップＳ５４０）。
次に、顔追跡部２４０は、次のフレームがあるか否かを判定する（ステップＳ５５０）。この判定の結果、次のフレームがない場合には、人物顔パターンの追跡を終了し、後述するステップＳ５７０に進む。

一方、次のフレームがある場合、顔追跡部２４０は、人物顔パターンの追跡を行うフレームを後続する次のフレームに移す（ステップＳ５６０）。そして、前述したステップＳ５１０に戻る。
以上のようにして人物顔パターンの追跡が終了すると、ＲＡＭ１０３に一次的に保存していた一連の顔の移動速度ベクトルを、人物顔パターンを追跡できた区間の情報と共に、顔シーケンス５０３として主要顔判定部２０６に出力する(ステップＳ５７０)。

尚、ここでは、顔検出部２０３で検出された人物顔パターン毎に後続するフレームからその人物顔パターンを探索し、追跡するようにしたが、必ずしもこのようにする必要はない。例えば、人物顔パターンを検出したフレームに後続するフレームに加えて、人物顔パターンを検出したフレームよりも前のフレームにおいても人物顔パターンを探索し、追跡するようにしてもよい。その他、例えば、動画像データから動きベクトルを求め、動きベクトルを手がかりにして人物顔パターンを追跡するようにしてもよい。このようにする場合には、動きベクトルの平均から、顔の移動速度ベクトルを得るようにすることができる。
以上のように本実施形態では、例えば、ステップＳ３３０の処理を行うことにより追跡手段の一例が実現される。

図３の説明に戻り、カメラ操作抽出部２０５は、ステップＳ３１０で得られた動画像データのフレームの画像から、カメラの操作の内容に関わるカメラ操作情報を抽出する（ステップＳ３４０）。カメラの操作の内容とは、前述したようにパン、チルト等である。このための手法としては、例えば、ハフ変換を用いて動きのベクトルの消失点を求め、複数ある消失点のうちの最大の投票数を得た消失点を背景に対する消失点とし、これらの消失点を用いてカメラ操作情報に関する拘束式を解き、カメラ操作情報を得る手法がある。カメラ操作情報と消失点との関係やカメラ操作情報を求める手法は、例えば、文献（金谷健一、「画像理解』、森北出版、１９９０年５月）等に詳しく記されている。また、カメラ操作情報の具体例としては、カメラ操作の速度ベクトルが挙げられる。
以上のように本実施形態では、例えば、ステップＳ３４０の処理を行うことにより抽出手段の一例が実現される。
尚、以上のステップＳ３４０をステップＳ３２０又はステップＳ３３０の前に行ってもよい。

次に、主要顔判定部２０６は、ステップＳ３３０（ステップＳ５７０）で得られた顔シーケンス５０３と、ステップＳ３４０で得られたカメラ操作情報とに基づいて、主要被写体となる顔シーケンスを判定する（ステップＳ３５０）。
ここで、図７のフローチャートを参照しながら、主要顔判定部２０６の処理の一例を詳細に説明する。
まず、主要顔判定部２０６は、ステップＳ３３０で得られた顔シーケンス５０３同士に時間的な重なりの区間があるか否かを判定する（ステップＳ８１０）。この判定の結果、顔シーケンス５０３同士に時間的な重なりの区間がない場合には、後述するステップＳ８４０に進む。

一方、顔シーケンス５０３同士に時間的な重なりの区間がある場合、主要顔判定部２０６は、その重なりの区間について、夫々の顔シーケンス５０３に対する追尾量を求める。追尾量とは、撮影者が被写体（本実施形態では顔）をカメラの操作によって追尾した量を、定量的に表現したものである。
ここで、追尾量を算出する方法の一例を説明する。図８は、２つの顔が存在する区間の一例を示す図である。ここでは、２つの顔が存在する区間が、図８に示すようにして重なっている場合を例に挙げて説明する。

図８において、図９に示す顔Ａが存在する区間９０１と、顔Ｂが存在する区間９０２と、顔Ａが存在する区間９０１と顔Ｂが存在する区間９０２との重なり区間９０３と、顔Ａのみが存在する区間９０４とを示している。ここで、フレーム画面６０１内の顔Ａ、Ｂの動きのベクトル（顔の移動速度ベクトル）６０３、６０４をＶ_a、Ｖ_bとし、カメラ操作情報の一例であるカメラ操作の速度ベクトル６０２をＶ_cとする。また、実世界での顔Ａの速度ベクトル６０５をＶ_raとし、顔Ｂの速度ベクトル６０６をＶ_rbとする。このとき、撮影者は顔Ａを撮影しようとして、顔Ａをカメラ（撮影装置）に追尾させようとしたとする。この結果、顔Ａの実世界での速度ベクトル６０５（＝Ｖ_ra）は、フレーム画面６０１内では、速度が失われたように見え、逆に顔Ｂの実世界での速度ベクトル６０６（＝Ｖ_rb）は、フレーム画面６０１内では、速度が加速されたように見える。このように追尾によって変化した量を用いると、カメラが顔Ａ、Ｂのどちらに追尾しようとしていたのかを判定することができる。
顔Ａに追尾させようとしてカメラを操作した結果失われた"フレーム画面６０１内での顔Ａの速さＶ_Aは、以下の（１）式で表される。

顔Ｂに追尾させようとしてカメラを操作した結果失われた"フレーム画面６０１内での顔Ｂの速さＶ_B"も、（１）式のＶａをＶｂにすることで表される。尚、カメラ操作の速度ベクトル６０２（＝Ｖ_c）が「０（ゼロ）」の場合、撮影者はカメラで顔Ａ、Ｂを追尾していない。よって、このような場合には、（１）式から明らかなように、顔Ａ、Ｂに追尾させようとしてカメラを操作した結果失われた"フレーム画面６０１内での顔Ａ、Ｂの速さＶ_A、Ｖ_B"の値も当然「０（ゼロ）」になる。
以上の速さＶ_A、Ｖ_Bは、フレーム毎の追尾量である。そこで、主要顔判定部２０６は、これらを重なり区間９０３に対して積分することにより、追尾量Ｖ_AI、Ｖ_BIを算出する。具体的に主要顔判定部２０６は、顔Ａ、Ｂの夫々について、以下の（２）式、（３）式により追尾量Ｖ_AI、Ｖ_BIを算出する。

次に、主要顔判定部２０６は、顔Ａと顔Ｂの夫々の追尾量Ｖ_AI、Ｖ_BIを比較する（ステップＳ８３０）。そして、主要顔判定部２０６は、追尾量Ｖ_AI、Ｖ_BIのうち、値が大きな追尾量Ｖ_AI、Ｖ_BI（又は値が所定値以上大きな追尾量Ｖ_AI、Ｖ_BI）に対応する顔シーケンスを、主要被写体となる顔シーケンスと判定する。また、主要顔判定部２０６は、顔Ａと顔Ｂの夫々の追尾量Ｖ_AI、Ｖ_BIが同じ又は所定の範囲内の大きさであれば、顔Ａ、Ｂの両方に関する顔シーケンスが主要被写体となる顔シーケンスと判定する。

次に、主要顔判定部２０６は、ステップＳ８３０で判定された顔シーケンス５０３（主要顔の顔シーケンス）と、その顔シーケンス５０３に対応する重なり区間９０３とに関する情報を、代表画像抽出部２０７に出力する（ステップＳ８４０）。尚、ステップＳ８１０からステップＳ８４０に進んだ場合には、重なり区間９０３がないので、主要顔判定部２０６は、ステップＳ３３０で得られた顔シーケンス５０３に関する情報を、重なり区間がないことを示す情報と共に代表画像抽出部２０７に出力する。尚、単に重なり区間を示す情報がないことをもって、重なり区間がないことを示すようにしてもよい。
以上のように本実施形態では、例えば、ステップＳ３５０の処理を行うことにより主要被写体判定手段の一例が実現される。

図３の説明に戻り、代表画像抽出部２０７は、主要顔判定部２０６から出力された情報に基づいて、代表画像を抽出する（ステップＳ３６０）。
具体的に説明すると、代表画像抽出部２０７は、主要被写体となる顔に関する顔シーケンス５０３と、その顔シーケンス５０３に対応する重なり区間９０３の情報に基づいて、代表画像を抽出する。例えば、前述した図８及び図９に示した例で、顔Ａが主要被写体となる顔である場合は、代表画像に顔Ｂが含まれていることは好ましくない。そこで、代表画像抽出部２０７は、顔Ａが存在する区間９０１から、重なり区間９０３を除いた、顔Ａのみが存在する区間９０４を求める。そして、代表画像抽出部２０７は、求めた区間９０４における"フレームの画像"を１つ又は複数抽出し、これを代表画像とする。

また、顔Ａ、Ｂが共に主要被写体となる場合は、代表画像に顔Ａ、Ｂが一緒に写っていることが望ましい。そこで、代表画像抽出部２０７は、顔Ａが存在する区間９０１と顔Ｂが存在する区間９０１との重なり区間９０３における"フレームの画像"を１つ又は複数抽出し、これを代表画像とする。
また、重なり区間９０３がない場合は、各顔シーケンス５０３には、主要被写体として、顔Ａ、顔Ｂの何れかしか存在していない。そこで、代表画像抽出部２０７は、各顔シーケンス５０３における所定のフレームの画像を１つ又は複数抽出し、これを代表画像とする。

尚、各代表画像の対象となる区間から、どのフレームを選択するかについては、例えば、区間の先頭、中央、終端等、固定の位置から取得する方法があるが、フレームを選択する方法は特に限定されるものではない。
以上のように本実施形態では、例えば、ステップＳ３６０の処理を行うことにより代表画像抽出手段の一例が実現される。

次に、代表画像抽出部２０７は、インデックス情報をインデックス記憶部２０８に記憶する（ステップＳ３７０）。
インデックス情報は、再生対象となる区間（以下の説明では、必要に応じて再生対象区間と称する）と、その区間における代表画像とを相互に関連付けたものである。例えば、前述した図８に示した例において、顔Ａのみが主要被写体である場合には、顔Ａが存在する区間９０１を再生対象区間とし、その区間９０１と、その区間９０１における代表画像とを相互に関連付けてインデックス記憶部２０８に記憶する。
また、顔Ａ、Ｂが共に主要被写体となる場合には、重なり区間９０３、又は、顔Ａが存在する区間９０１と、顔Ｂが存在する区間９０２とのＯＲ演算を行った区間を再生対象区間とする。そして、その区間と、その区間における代表画像とを相互に関連付けてインデックス記憶部２０８に記憶する。

次に、以上のようにしてインデックス情報が得られた後の表示部２０９の処理動作の一例について説明する。
図１０は、表示部２０９のブラウザによって表示機１０７に表示されるグラフィックユーザインターフェースの一例を示す図である。
図１０（ａ）において、ブラウザの表示領域１００１には、サムネイル表示領域１００２内の複数のサムネイル画像と、スクロールバー１００３と、ポインタ１００４とが表示される。
表示部２０９は、インデックス記憶部２０８からインデックス情報を読み出す。次に、表示部２０９は、読み出したインデックス情報に含まれる代表画像を縮小してサムネイル画像を生成し、生成したサムネイル画像を、サムネイル表示領域１００２に並べて表示する。図１０（ａ）に示す例では、サムネイル画像は、サムネイル表示領域１００２の最上列から順番に左から右に向けて表示される。ユーザがスクロールバー１００３を操作すると、表示部２０９は、サムネイル表示領域１００２に表示されているサムネイル画像をスクロールさせる。これによりサムネイル表示領域１００２に一度に表示し切れないサムネイル画像を、順に表示させることができる。

そして、ユーザがマウス１０５等を操作すると、表示部２０９は、ポインタ１００４の位置を動かし、サムネイル表示領域１００２中の、ユーザが所望するサムネイル画像を指定する。ポインタ１００４によりサムネイル画像が選択されると、表示部２０９は、そのサムネイル画像に対応するインデックス情報を参照して、そのサムネイル画像（代表画像）に関連付けられた再生対象区間を取得する。そして、表示部２０９は、選択されたサムネイル画像に対応する動画ファイルを動画像記憶部２０２から読み出す。そうすると、表示部２０９は、図１０（ａ）に示す画面から、図１０（ｂ）に示すような動画再生画面１００５に画面を切り替え、読み出した動画ファイルのうち、取得した再生対象区間の動画像を連続して動画再生画面１００５に表示する。
本実施形態では、例えば、以上のような表示部２０９の処理により、再生手段の一例が実現される。
尚、ここでは、再生対象区間の動画像を動画再生画面１００５に表示するようにしたが、必ずしもこのようにする必要はない。例えば、再生対象区間の動画像を編集できるようにしてもよい。

以上のように本実施形態では、動画像データ５０１の所定間隔のフレーム毎に、人物顔パターン（顔画像５０２）を検出し、顔画像５０２を検出したフレームと、そのフレームに後続するフレームの画像を用いて、顔画像５０２を追跡する。そして、追跡した結果に基づいて、顔画像５０２を追跡できた区間と、その区間における"顔画像の位置の変化"を表す顔の移動速度ベクトルとを含む顔シーケンス５０３を生成する。また、動画像データ５０１のフレームの画像から、動画像データ５０１を得たときのカメラの操作の内容を示すカメラ操作情報を生成する。これら顔シーケンス５０３と、カメラ操作情報とを用いて、撮影者が、カメラで、どの顔を追尾しているのかを判定し、追尾していると判定した顔を主要被写体と判断する。したがって、主要被写体の候補となる被写体が画像内に複数あったとしても、どの被写体が主要被写体であることを自動的に且つ従来よりも正確に判定することが可能になる。

そして、主要被写体として判断した顔（顔画像５０２）に関する顔シーケンス５０３と、主要被写体として判断した顔とその他の顔とが共に表示されている重なり区間９０３とに基づいて、主要被写体として判断した顔に応じた再生対象区間を判断するようにした。したがって、主要被写体が写っている動画像の区間を従来よりも容易に且つ正確に検索できる。
また、主要被写体及び非主要被写体のうち、主要被写体のみが存在する区間の中から代表画像を１つ抽出してそのサムネイル画像を表示し、表示したサムネイル画像を選択させるようにした。したがって、その区間をユーザに選択しやすい形で提示し、再生や、編集への利用を容易にしたり、主要被写体が写っている区間から構成されるダイジェストを自動生成したりすることが可能になる。

＜変形例＞
尚、本実施形態では、顔の移動速度ベクトルやカメラ操作の速度ベクトルを、フレーム単位に求める場合を例に挙げて説明した。しかしながら、必ずしもこのようにする必要はない。例えば、所定フレーム毎にこれらを求めるようにしてもよい。例えば、動画がＭＰＥＧフォーマットのものであれば、ＧＯＰ単位にこれらを求めるようにしても構わない。このようにすることで、処理の高速化を図ることが可能となる。

また、本実施形態では、顔検出部２０３が所定のフレーム間隔で顔画像５０２を検出し、顔追跡部２０４が検出された顔画像５０２の領域を追跡して顔シーケンス５０３を生成する場合を例に挙げて説明した。しかしながら、必ずしもこのようにする必要はない。例えば、顔検出部２０３が毎フレーム、顔画像５０２を検出し、顔追跡部２０４が、検出された顔画像５０２の領域が、前フレームと現フレームとで十分に重なっているかどうかを判定するようにしてもよい。このとき、顔検出部２０３は、正面のみならず、横向きの顔も検出できるようにしておくことが望ましい。

また、本実施形態では、カメラの操作の内容をフレームの画像から抽出するように構成した場合を例に挙げて説明した。しかしながら、必ずしもこのようにする必要はない。例えば、カメラのセンサやボタン操作の情報から、カメラの操作の内容を取得するように構成しても構わない。例えば、防振のためにカメラに設けられたジャイロセンサで検出された情報を利用することによって、パン、チルト等の情報を取得できる。このようにした場合は、カメラ操作抽出部２０５は、カメラ側で取得済みの操作情報を受け取るようにするだけでよい。

また、本実施形態では、主要被写体を判定するためにカメラ操作情報を用いる場合を例に挙げて説明した。しかしながら、カメラによって主要被写体を十分に追尾できることが期待できる環境であれば、カメラ操作抽出部２０５を省略し、フレーム画面内の顔の移動速度ベクトルのみからでも、主要被写体の判定が可能となる。カメラによって主要被写体を完全に追尾できれば、フレーム画面内での主要被写体の移動速度は０になる。このことを利用し、フレーム画面内での顔の移動速度ベクトルの大きさを、重なり区間９０３に対して、夫々の被写体について積算（積分）して比較し、その値が小さい方に対応する顔を主要被写体とすることができる。

また、本実施形態では、主要被写体の再生対象区間と代表画像とを抽出し、ブラウジングする場合を例に挙げて説明した。しかしながら、必ずしもこのようにする必要はない。例えば、主要被写体の再生対象区間のみを求め、これらの区間をつなげて、動画ファイルのダイジェスト再生を行うようにしてもよい。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。被写体の動きが早すぎてユーザが被写体を追いきれず、被写体が一旦フレームアウトして、再度フレームインするような場合が考えられる。本実施形態では、このような場合にも、一連の顔シーケンスとして扱うようにする。このように本実施形態では、前述した第１の実施形態に対し、複数の顔シーケンスが同一の被写体（顔）によるものであるかどうかを判定し、同一であればそれらを一連の顔シーケンスとする処理等を追加したものである。したがって、本実施形態の説明において、前述した第１の実施形態と同一の部分については、図１〜図１０に付した符号と同一の符号を付すこと等により詳細な説明を省略する。

図１１は、動画像処理装置１１００の機能構成の一例を示すブロック図である。本実施形態では、図２に示した第１の動画像処理装置１０００に対し、顔特徴抽出部１１０１と類似度判定部１１０２とが付加された構成である。
顔特徴抽出部１１０１は、顔シーケンス５０３を代表する顔の特徴量として、顔検出部２０３で検出された顔画像５０２を用いる。顔の照明条件や顔の向き等の条件がよいほど顔が検出され易いので、顔シーケンス５０３を代表する顔画像としてふさわしいからである。顔特徴量算出部１１０１は、顔画像５０２から、顔の判定に有効な"顔の特徴点"を探索する。具体的に説明すると、顔特徴量算出部１１０１は、顔の特徴点として、例えば、目尻、口の両端、鼻の頂点等をパターン照合に基づき抽出する。そして、顔特徴量算出部１１０１は、抽出した各特徴点における局所輝度分布を、例えばガボールウェーブレット変換により特徴量として抽出し、ベクトル化する。

尚、顔の特徴量を抽出する方法の詳細については、文献３（Wiskott et al, "Face Recognition by Elastic Bunch Graph Matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.19 , NO.7, JULY 1997）に記載されている。また、顔の特徴量を抽出する方法は、前述したものに限定されるものではない。例えば、文献（Schmid and Mohr, "Local Greyvalue Invariants for Image Retrieval", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.19 , NO.5, MAY 1997）に記載されているローカル記述子を各特徴点で求めるようにしてもよい。更に、顔画像５０２の輝度分布のヒストグラム等を用いて顔の特徴量を比較的単純に抽出するようにしてもよい。

類似度判定部１１０２は、例えば、各顔シーケンス５０３について、顔シーケンス５０３を代表する顔の特徴量が、顔特徴抽出部１１０１で抽出されると、それらの顔の特徴量の類似度が所定値以上であるか否かを判定する。そして、類似度判定部１１０２は、類似度が所定値以上である複数の顔シーケンス５０３を同一人物の顔のものであると見なす。一方、類似度が所定値よりも小さい複数の顔シーケンス５０３については、異なる人物の顔のものであると見なす。類似度については、例えば、特徴量ベクトル同士のユークリッド距離の逆数を用いることにより求めることができる。
以上のように本実施形態では、例えば、類似度判定部１１０２により、顔の特徴量の類似度が所定値以上であるか否かを判定することにより、同一被写体判定手段の一例が実現される。

そして、主要顔判定部２０６は、類似度判定部１１０２により同一人物の顔のものであると判定された複数の顔シーケンス５０３を同一の顔シーケンスとして統合する。これにより、統合された顔シーケンスに含まれる区間と、顔の動きベクトルの集合との夫々が統合される。そして、主要顔判定部２０６は、統合した顔シーケンスを含む複数の顔シーケンスの中から、主要被写体となる顔シーケンスを判定する。
このように本実施形態では、例えば、主要顔判定部２０６により、同一人物の顔のものであると判定された複数の顔シーケンス５０３を同一の顔シーケンスとして統合することにより、動画像区間統合手段の一例が実現される。

図１２は、２つの顔が存在する区間の一例を示す図である。
図１２に示すように、顔Ａが一旦フレームアウトして再度フレームインしているため、顔Ａが存在する区間１２０１、１２０２が２つに分かれてしまっている。このような場合に、類似度判定部１１０２は、これらの区間１２０１、１２０２に対応する顔シーケンス５０３が同一人物の顔のものであると判定する。

このような類似度判定部１１０２での判定結果に基づいて、主要顔判定手段２０６は、顔Ａと顔Ｂとの重なり区間１２０５、１２０６について、顔Ａに対する追尾量を算出し、算出した追尾量を加算する。また、主要顔判定手段２０６は、顔Ａと顔Ｂとの重なり区間１２０５、１２０６について、顔Ｂに対する追尾量も算出する。そして、類似度判定部１１０２は、顔Ａに対する"加算した追尾量"と顔Ｂに対する追尾量とを比較し、比較した結果に基づいて主要被写体の顔シーケンスを判定する。

そして、例えば、主要被写体の顔シーケンスが、顔Ａの顔シーケンスであると判定された場合、代表画像抽出部２０７は、再生対象区間１２０４を採用すればよい。また、主要被写体の顔シーケンスが、顔Ａ、Ｂ両方の顔シーケンスであると判定された場合、代表画像抽出部２０７は、再生対象区間１２０４、１２０７のいずれかを採用すればよい。

以上のように本実施形態では、類似度が所定値以上である複数の顔シーケンス５０３を同一人物の顔のものであると見なすようにした。したがって、第１の実施形態で説明した効果に加えて、被写体が一旦フレームアウトして、再度フレームインするような場合でも、主要被写体が写っている区間を従来よりも確実に検索することができる。
また、顔特徴抽出部１１０１と類似度判定部１１０２を更に設けると、顔画像５０２をクエリとして、顔の特徴で顔の検索を行うような場合でも、主要顔判定手段２０６により、主要でない顔シーケンス５０３を検索対象から除外することが可能になる。

尚、本実施形態では、顔の特徴量の類似度が所定値以上である複数の顔シーケンス５０３を同一人物の顔のものであると見なすようにする場合を例に挙げて説明した。しかしながら、複数の顔シーケンス５０３が同一人物の顔のものであるか否かを判定する方法は、このようなものに限定されない。例えば、２つの区間の間隔が所定時間以内である場合、その存在区間に対応する顔シーケンス５０３を同一人物の顔のものであると見なすようにしてもよい。また、２つの区間の間隔が所定時間以内である場合に、顔特徴抽出部１１０１、類似度判定部１１０２を動作させるようにしてもよい。このようにした場合、２つの区間の間隔が所定時間以内でなければ、その２つの区間に対応する顔シーケンス５０３は、同一人物の顔のものでないと自動的に判定されることになる。

＜本発明の他の実施形態＞
前述した本発明の実施形態における画像処理装置を構成する各手段、並びに画像処理方法の各ステップは、コンピュータのＲＡＭやＲＯＭなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。

また、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図３、図６、図７に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接、あるいは遠隔から供給するものを含む。そして、そのシステムあるいは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合も本発明に含まれる。

したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であってもよい。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷなどがある。また、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などもある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。

また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、ダウンロードした鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。

尚、前述した各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

本発明の第１の実施形態を示し、動画像処理装置の制御構成の一例を示すブロック図である。本発明の第１の実施形態を示し、動画像処理装置の機能構成の一例を示すブロック図である。本発明の第１の実施形態を示し、動画像データを取得してからインデックス情報を記憶するまでの動画像処理装置の処理動作の一例を説明するフローチャートである。本発明の第１の実施形態を示し、人物顔パターンを検出する方法の一例を概念的に示す図である。本発明の第１の実施形態を示し、動画像データのフレームの画像から検出された人物顔パターンと、その人物顔パターンを追跡した結果の一例を示す図である。本発明の第１の実施形態を示し、顔追跡部の処理の一例を詳細に説明するフローチャートである。本発明の第１の実施形態を示し、主要顔判定部の処理の一例を詳細に説明するフローチャートである。本発明の第１の実施形態を示し、２つの顔が存在する区間の一例を示す図である。本発明の第１の実施形態を示し、フレーム画面内の被写体の動きと、その被写体の実際の動きの一例を示す図である。本発明の第１の実施形態を示し、表示機に表示されるグラフィックユーザインターフェースの一例を示す図である。本発明の第２の実施形態を示し、動画像処理装置の機能構成の一例を示すブロック図である。本発明の第２の実施形態を示し、２つの顔が存在する区間の一例を示す図である。

符号の説明

１００、１１００動画像処理装置
２０１動画像入力部
２０２動画記憶部
２０３顔検出部
２０４顔追跡部
２０５カメラ操作抽出部
２０６主要顔判定部
２０７代表画像抽出部
２０８インデックス記憶部
２０９表示部
１１０１顔特徴抽出部
１１０２類似度判定部

Claims

動画像を入力する入力手段と、
前記入力手段により入力された動画像から、被写体を検出する検出手段と、
前記入力手段により入力された動画像から、前記検出手段により検出された被写体を追跡し、追跡した結果に基づいて、その被写体の動きと、その被写体が前記動画像に存在している動画像区間とを得る追跡手段と、
複数の被写体について前記追跡手段により得られた動画像区間に重なりがある場合に、撮影者が撮影装置で被写体を追尾した量に関する追尾量を、前記追跡手段により追跡された被写体の夫々について算出し、前記被写体の夫々の追尾量を比較した結果に基づいて、各被写体が主要な被写体かどうかを判定する主要被写体判定手段と、を備えることを特徴とする画像処理装置。
前記動画像を撮影した撮影装置の動きを抽出する動き抽出手段を更に備え、
前記主要被写体判定手段は、前記動き抽出手段により抽出された撮影装置の動きと、前記複数の被写体の夫々の動きとに基づいて、各被写体の追尾量を算出することを特徴とする請求項１に記載の画像処理装置。
前記主要被写体判定手段で主要な被写体と判定された被写体についての代表画像を、前記動画像から抽出する代表画像抽出手段を更に備えたことを特徴とする請求項１または２に記載の画像処理装置。
前記代表画像抽出手段は、前記検出手段により検出された被写体のうち、前記主要被写体判定手段で主要な被写体と判定された被写体のみが存在する動画像区間の中から、代表画像を抽出することを特徴とする請求項３に記載の画像処理装置。
前記主要被写体判定手段で主要な被写体と判定された被写体が存在する動画像区間を抽出し、抽出した動画像区間の動画像を連続して再生する再生手段を更に備えたことを特徴とする請求項１〜４の何れか１項に記載の画像処理装置。
前記追跡手段により得られた複数の動画像区間が、同一の被写体のものであるかどうかを判定する同一被写体判定手段と、
前記同一被写体判定手段により同一の被写体のものであると判定された複数の動画像区間を統合する動画像区間統合手段を更に備え、
前記主要被写体判定手段は、前記動画像区間統合手段により統合された動画像区間を１つの動画像区間とし、その動画像区間と、前記追跡手段により得られたその他の動画像区間とに重なりがある場合に、各被写体が主要な被写体かどうかを判定することを特徴とする請求項１〜５の何れか１項に記載の画像処理装置。
動画像を入力する入力ステップと、
前記入力ステップにより入力された動画像から、被写体を検出する検出ステップと、
前記入力ステップにより入力された動画像から、前記検出ステップにより検出された被写体を追跡し、追跡した結果に基づいて、その被写体の動きと、その被写体が前記動画像に存在している動画像区間とを得る追跡ステップと、
複数の被写体について前記追跡ステップにより得られた動画像区間に重なりがある場合に、撮影者が撮影装置で被写体を追尾した量に関する追尾量を、前記追跡ステップにより追跡された被写体の夫々について算出し、前記被写体の夫々の追尾量を比較した結果に基づいて、各被写体が主要な被写体かどうかを判定する主要被写体判定ステップと、を有することを特徴とする画像処理方法。
コンピュータに、
動画像を入力する入力ステップと、
前記入力ステップにより入力された動画像から、被写体を検出する検出ステップと、
前記入力ステップにより入力された動画像から、前記検出ステップにより検出された被写体を追跡し、追跡した結果に基づいて、その被写体の動きと、その被写体が前記動画像に存在している動画像区間とを得る追跡ステップと、
複数の被写体について前記追跡ステップにより得られた動画像区間に重なりがある場合に、撮影者が撮影装置で被写体を追尾した量に関する追尾量を、前記追跡ステップにより追跡された被写体の夫々について算出し、前記被写体の夫々の追尾量を比較した結果に基づいて、各被写体が主要な被写体かどうかを判定する主要被写体判定ステップと、を実行させることを特徴とするコンピュータプログラム。