本発明は、ディスプレイ表示装置を有した操作入力装置に関するものである。 The present invention relates to an operation input device having a display device.
近年のデジタル放送の普及と表示ディスプレイ部の薄型化に伴い、大型のテレビ受信装置が一般家庭にも普及するようになってきた。リビングなどの大きな部屋に大きなテレビ受信機を置くことで家族の団らんの中心となっている。そのために写真の閲覧機能や、インターネットへ接続してのホームページの視聴など、従来パーソナルコンピュータが行ってきた役割をテレビ受信機が果たすようになってきた。しかしパーソナルコンピュータのユーザとは異なり、覚える必要がある複雑な操作特にマウスやキーボードなどの入力装置では操作が容易に行えない。しかしこれまで使用されてきたようなリモコンでは操作の幅が小さく、自由な操作が行えない。またリモコンなどの道具はテレビと離れた距離で操作することを想定しているため、テレビと離れた別の装置となっており、紛失などの問題も発生していた。 With the recent spread of digital broadcasting and the thin display display unit, large television receivers have come into widespread use in ordinary households. A large TV receiver in a large room such as a living room is the center of the family. For this reason, television receivers have come to perform the roles that personal computers have been playing in the past, such as browsing photos and viewing homepages connected to the Internet. However, unlike a user of a personal computer, complicated operations that need to be remembered, especially operations using an input device such as a mouse or a keyboard, cannot be easily performed. However, remote controls such as those used so far have a small range of operations and cannot be freely operated. Moreover, since it is assumed that tools such as a remote control are operated at a distance from the TV, it is a separate device from the TV, causing problems such as loss.
そこで特許文献1において、手を使用してのジェスチャーによる入力が提案されている。ジェスチャーはCCDカメラを利用して操作者を撮影し、身振りや手振りによってカーソルの移動を実現するものである。 Thus, Patent Document 1 proposes input by gesture using a hand. A gesture captures an operator using a CCD camera and realizes movement of the cursor by gestures or hand gestures.
図9に特許文献1に記載のインターフェイス装置900の概観図を示す。インターフェイス装置900は、ホストコンピュータ901、表示用ディスプレイ902、CCDカメラ903から構成されている。ユーザが操作表示用ディスプレイ902に向かって、手振りによるジェスチャーを行うと、CCDカメラ903が手振りの様子を捕らえる。その動きと位置を認識し、表示用ディスプレイ902上のカーソル904を動かす。 FIG. 9 shows an overview of the interface device 900 described in Patent Document 1. The interface device 900 includes a host computer 901, a display for display 902, and a CCD camera 903. When the user performs a gesture by hand gesture toward the operation display 902, the CCD camera 903 captures the hand gesture. The movement and position are recognized, and the cursor 904 on the display 902 is moved.
図10に、ユーザの手振りを捕らえるところからカーソル904を動かすまでのインターフェイス装置1000の詳細なブロック図を示す。CCDカメラ1012には、肌色領域の波長の光透過フィルタ1011を設置しておき、人間の顔や手などの肌色領域のみが捕らえられる。CCDカメラ1012からの画像はフレームメモリ1013に蓄えられる。動作認識部1014はフレームメモリ1013上から肌色のエッジを検出し輪郭形状を抽出する。さらに輪郭形状から手の形状のものを選び出し、手の位置とユーザ指示の手の形状(握り手、指立て本数など)を検出する。手の位置と手の形状によって表示デバイス上のカーソルを移動させるため表示制御部1015が表示用ディスプレイ部1016を制御する。
ジェスチャーとは「身振り手振り」のことであり、人間が眼でジェスチャーを認識する場合は、一瞬で判断できるものではなく、ジェスチャーを行っているものの一連の動きから判断を行うものである。 A gesture is a “gesturing hand gesture”. When a human recognizes a gesture with his / her eyes, the gesture cannot be determined instantaneously, but is determined based on a series of movements of a gesture.
カメラなどの撮像装置を使用した場合も同じである。一枚の静止画からジェスチャーの内容を判断することはできない。連続する複数枚の静止画つまりは動画から、入力者がどういった動きをしているかを推定して判断を行う。そのためには動画の各画像の動きの差分を出すと共に、その差分からジェスチャーを行っている同一の物体(入力者の手など)の動き方を解析する必要がある。より精度よくジェスチャーの動きを解析するためには、撮像装置による撮影枚数を多くする方法が知られている。人間の動きは連続した動きであるため、高速で撮影することにより精密な動きをとらえることができる。 The same applies when an imaging device such as a camera is used. The content of the gesture cannot be determined from a single still image. Judgment is made by estimating the movement of the input person from a plurality of continuous still images, that is, moving images. For this purpose, it is necessary to calculate the difference in motion of each image of the moving image and to analyze how the same object (such as the hand of the input person) performing the gesture from the difference. In order to analyze the movement of the gesture with higher accuracy, a method of increasing the number of images taken by the imaging device is known. Since human movements are continuous movements, precise movements can be captured by shooting at high speed.
このジェスチャーをテレビなどの表示装置の前で行う場合、表示装置に表示される画面も都度変化している。テレビ映像は毎秒60フレームであり、この速度でつねに映像も変化し続けている。この映像の前でジェスチャーを行った場合、映像の変化に合わせて撮像装置によって撮影される映像の色合いが変化する。この変化によってジェスチャー認識に必要な手の位置・形状を見失ってしまう問題があった。 When this gesture is performed in front of a display device such as a television, the screen displayed on the display device changes every time. Television images are 60 frames per second, and the images are constantly changing at this speed. When a gesture is performed in front of this video, the color of the video shot by the imaging device changes in accordance with the change in the video. Due to this change, there is a problem that the position and shape of the hand necessary for gesture recognition are lost.
上記課題を解決するために、本発明の入力装置は、ジェスチャーを撮影する手段において、撮影される瞬間にディスプレイ部に表示されている映像を元に、撮影された映像の色情報を補正したうえで、ジェスチャーの解析を行う手段を備えている。 In order to solve the above problems, an input device according to the present invention corrects color information of a photographed image based on an image displayed on a display unit at the moment of photographing in a means for photographing a gesture. And it has a means to analyze gestures.
これらの手段を用い、本発明の入力装置は、ディスプレイ上の画面に表示された映像を、ジェスチャーをとらえた映像の補正に用いることで、ディスプレイ映像の映像変化による外乱を除去し、精度良いジェスチャーの認識が行えるようになる。 Using these means, the input device of the present invention uses the video displayed on the screen on the display for correction of the video that captures the gesture, thereby removing disturbance due to the video change of the display video and accurately gesturing. Can be recognized.
(第1の実施の形態)
以下に、本発明を実施するための最良の形態について、図面を参照して説明する。まず、本実施の形態の入力装置を図1に示す。(First embodiment)
The best mode for carrying out the present invention will be described below with reference to the drawings. First, an input device of this embodiment is shown in FIG.
図1は、ディスプレイなどの映像出力装置と、ユーザからの入力を受け付ける入力機能を持った入力装置100である。入力装置100は、アンテナ部101、受信・変調部102、デコード部103、オーディオ出力部104、映像生成部105、映像表示部106、撮像部151、映像補正部152、ジェスチャー認識部153、色情報保持部154から成り立っている。 FIG. 1 shows an input device 100 having a video output device such as a display and an input function for receiving an input from a user. The input device 100 includes an antenna unit 101, a reception / modulation unit 102, a decoding unit 103, an audio output unit 104, a video generation unit 105, a video display unit 106, an imaging unit 151, a video correction unit 152, a gesture recognition unit 153, color information. The holding unit 154 is configured.
アンテナ部101において、放送局から出力される放送波を受信する。受信した放送波は受信・変調部102で受け取られTSデータに変換される。実施の形態では、受信部と復調部を合わせて1つの機能としたが、実際には、アンテナ101から受信するチューナ部と、受信波を変調するOFDM変調機に分かれていることが多い。本実施の形態では、チューナをもった放送受信機を想定しているが、DVDやHDDなどの記録メディアから蓄積済みのコンテンツを再生してもかまわない。 The antenna unit 101 receives a broadcast wave output from a broadcast station. The received broadcast wave is received by the reception / modulation unit 102 and converted into TS data. In the embodiment, the receiving unit and the demodulating unit are combined into one function. However, in practice, the receiving unit and the demodulating unit are often divided into a tuner unit that receives from the antenna 101 and an OFDM modulator that modulates the received wave. In the present embodiment, a broadcast receiver having a tuner is assumed, but stored content may be reproduced from a recording medium such as a DVD or HDD.
受信・変調部102で、作られたTSデータはデコード部103に送れられる。デコード部103では、映像TSデータと音声TSデータに分離されてデコードされ映像信号と音声信号が生成される。音声信号は音声出力部104で音声に変換される。オーディオ出力104はスピーカやヘッドホンである。音声になったデータは聴覚情報130として、操作者140に到達する。操作者140はこれを耳で聞く。 The TS data generated by the reception / modulation unit 102 is sent to the decoding unit 103. In the decoding unit 103, video TS data and audio TS data are separated and decoded to generate a video signal and an audio signal. The audio signal is converted into audio by the audio output unit 104. The audio output 104 is a speaker or headphones. The voiced data reaches the operator 140 as auditory information 130. The operator 140 hears this by ear.
またデコード部103においてデコードされた映像信号は、映像生成部105に送られる。ここでは、デコードされた映像信号に、メニューやヘルプ画面など、入力装置100にかかわる映像情報を組み合わせる。この付加する映像情報はアイコンやボタンのようにジェスチャーによって操作されるものであってもよし、ジェスチャーには直接関係ないフレームや演出であってもよい。映像生成部105によって生成された映像こそが、操作者が眼にする映像信号となる。 The video signal decoded by the decoding unit 103 is sent to the video generation unit 105. Here, the decoded video signal is combined with video information related to the input device 100 such as a menu or a help screen. The video information to be added may be operated by a gesture such as an icon or a button, or may be a frame or an effect not directly related to the gesture. The video generated by the video generation unit 105 is the video signal that the operator sees.
映像生成部105において、生成された映像信号は映像表示部106へ送られる。映像表示部106は液晶ディスプレイやプラズマディスプレイなどの画像デバイスであり、無数の点によって光に変換され視覚情報131として、操作者140へ送られる。操作者140は、これを眼でとらえ理解する。 In the video generation unit 105, the generated video signal is sent to the video display unit 106. The video display unit 106 is an image device such as a liquid crystal display or a plasma display, and is converted into light by countless points and sent to the operator 140 as visual information 131. The operator 140 grasps and understands this with the eyes.
操作者140は、聴覚情報130と視覚情報131から、入力装置100へ対しての操作を決定する。そして操作者140は体全体や手や足などの体の一部を使用して操作を行う。この情報はジェスチャー入力132として入力装置100にある撮像部151によって撮影される。撮像部151で撮影された被写体は、撮像信号としてデータ化され、当該データはジェスチャー認識部153へ送られて、その内容が入力装置100への操作内容が解析され、それに従い操作される。本構成では、その撮像部151とジェスチャー認識部153の間に映像補正部152を経由する構造となっている。映像補正部では、撮像部151によって得られた撮像信号を、色情報保持部154から得た手の色の情報と映像生成部105によって生成された映像信号を元に色の補正を行う。映像生成部105で生成される映像は時間経過によって常に変化しているため、撮像部151において撮影されたときに映像表示部106に表示されている映像と同じものを使用する。これにより、映像補正部152から出力される映像は、ビデオ信号出力部106による影響を除去したものとなる。 The operator 140 determines an operation for the input device 100 from the auditory information 130 and the visual information 131. The operator 140 performs the operation using the whole body or a part of the body such as a hand or a foot. This information is captured by the imaging unit 151 in the input device 100 as the gesture input 132. The subject imaged by the imaging unit 151 is converted into data as an imaging signal, and the data is sent to the gesture recognition unit 153. The content of the subject is analyzed for the operation content of the input device 100, and the operation is performed accordingly. In this configuration, the image correction unit 152 is interposed between the imaging unit 151 and the gesture recognition unit 153. The video correction unit corrects the color of the imaging signal obtained by the imaging unit 151 based on the hand color information obtained from the color information holding unit 154 and the video signal generated by the video generation unit 105. Since the video generated by the video generation unit 105 constantly changes with the passage of time, the same video displayed on the video display unit 106 when taken by the imaging unit 151 is used. As a result, the video output from the video correction unit 152 has the influence of the video signal output unit 106 removed.
図2に、手をモデルとした色相を示す。ジェスチャー操作でもっとも多く行われるのは手の動きによる入力である。図2の上段左が手のない状態で部屋の映像である。上段右は同じ環境で手を写した場合の映像である。両映像を比較すると、手が映っているか映っていないかの差がある。各映像の色成分を分析し、HSV分布を用いて図示したものがそれぞれの下段に記載されている。HSV分布とは色相(Hue)、彩度(Saturation)、明度(Value)の3成分からなる色空間である。本手法では色相を使用する。色相とは色の種類を0から360度で表現したもので、赤が0度、黄色が60度、緑が120度、水色が180度、青が240度、紫が300度で表される。 FIG. 2 shows a hue using a hand as a model. The most frequently used gesture operation is input by hand movement. The upper left of FIG. 2 is an image of the room with no hands. The upper right is an image of a hand shot in the same environment. Comparing the two images, there is a difference whether the hand is reflected or not. The color components of each image are analyzed, and those illustrated using the HSV distribution are described in the lower part of each image. The HSV distribution is a color space including three components of hue (Hue), saturation (Saturation), and lightness (Value). In this method, hue is used. Hue is a color type expressed from 0 to 360 degrees. Red is 0 degrees, yellow is 60 degrees, green is 120 degrees, light blue is 180 degrees, blue is 240 degrees, and purple is 300 degrees. .
それぞれの色相を比較すると0度から30度の位置である赤に近い色相に大きな差があることがわかる。これより手の色である肌色は赤の成分が多く含まれていることがわかる。この手の色相の情報は事前に色情報保持部154に保持されている。240度あたりの青色に関しても増減があるがこれは手によって隠れたケーブル類の色相である。
よって手によるジェスチャーにおいて、手の可能性がある領域を見つけだす場合、色相において0度近辺となる色を見つけることによって候補を減らすことができる。Comparing the hues, it can be seen that there is a large difference in the hue close to red, which is the position of 0 to 30 degrees. This shows that the skin color, which is the color of the hand, contains a lot of red components. Information on the hand hue is held in advance in the color information holding unit 154. There is also an increase / decrease in blue around 240 degrees, but this is the hue of cables hidden by hand.
Therefore, when an area having a possibility of hand is found in a gesture by hand, candidates can be reduced by finding a color having a hue near 0 degrees.
図3に映像表示部106によって出力された映像が、撮像部151で撮影された映像に対してどのような変化を及ぼすかを示す。右列より映像表示部106の映像が黒の場合、赤の場合、緑の場合、青の場合を示す。また上行より、映像表示部106の映像、撮像部151でとらえた画像、撮像部151でとらえた画像の色相をHSV表示にて示す。映像表示部106の映像が黒の場合については、図2における手を写した映像と同一である。 FIG. 3 shows how the image output by the image display unit 106 changes with respect to the image captured by the image capturing unit 151. From the right column, the video on the video display unit 106 is black, red, green, and blue. Also, from the top row, the video of the video display unit 106, the image captured by the imaging unit 151, and the hue of the image captured by the imaging unit 151 are shown in HSV display. The case where the video on the video display unit 106 is black is the same as the video showing the hand in FIG.
映像表示部106からの出力映像が黒であった場合を説明する。撮像部151で捕らえた映像は、大きく手を映し出している。この映像の色相を確認すると、0度から30度の赤に近い色に分布している。映像も肌色をしており、手の色相はこの位置にあることがわかる。 A case where the output video from the video display unit 106 is black will be described. The image captured by the imaging unit 151 shows a large hand. When the hue of this image is confirmed, it is distributed in a color close to red from 0 degrees to 30 degrees. The image is also skin-colored, and it can be seen that the hue of the hand is in this position.
映像表示部106の画像が赤であった場合、映像が手に反射し手全体が赤く染まっている。この場合、手の領域に対する色の分布は大きく変化していない。次に、映像表示部106の画像が緑であった場合、撮像部151で捕らえた映像は、手が緑色に染まっていることがわかる。このときの色相をみると、手の領域に対応する色の分布が緑や黄色に近い分布となっていることがわかる。次に映像表示部106の画像が青であった場合、撮像部151で捕らえた手は青色に染まってやり、その画像の色相をみると、手の領域に対応する色の分布が青や紫に近い分布となっていることがわかる。 When the image on the video display unit 106 is red, the video is reflected on the hand and the entire hand is stained red. In this case, the color distribution for the hand region has not changed significantly. Next, when the image on the video display unit 106 is green, it can be seen that the video captured by the imaging unit 151 has a hand stained green. Looking at the hue at this time, it can be seen that the color distribution corresponding to the hand region is close to green or yellow. Next, when the image on the video display unit 106 is blue, the hand captured by the imaging unit 151 is dyed blue, and the hue of the image shows that the color distribution corresponding to the hand region is blue or purple. It can be seen that the distribution is close to.
このように映像表示106の映像変化によって撮像部151で捕らえた映像に色変化が起こることが分かる。これが映像表示部106から出力される映像が高速に変化するために、撮像部151でジェスチャーの認識に必要な動画をとらえた場合、フレーム間で同じように色の変化がおこり、色での認識を行う場合においては同一の物体(この本実施の形態では手)であると認識することができない。 In this way, it can be seen that a color change occurs in the video captured by the imaging unit 151 due to the video change in the video display 106. Since the video output from the video display unit 106 changes at a high speed, when the moving image necessary for gesture recognition is captured by the imaging unit 151, the color changes in the same way between frames, and the color recognition is performed. Cannot be recognized as the same object (a hand in this embodiment).
図4に補正を行う映像補正部152の処理を示す。映像補正部152は、ジェスチャー認識のために追跡したい手の色情報Zを色情報保持部154より受け取る(ステップ400)。 FIG. 4 shows processing of the video correction unit 152 that performs correction. The video correction unit 152 receives the color information Z of the hand to be tracked for gesture recognition from the color information holding unit 154 (step 400).
さらに映像補正部152は、撮像部151より操作者140を撮影した映像Aを受け取る(ステップ401)。 Further, the video correction unit 152 receives the video A obtained by shooting the operator 140 from the imaging unit 151 (step 401).
撮像部151で撮影した時間と同時間に映像表示部106に表示した映像Bを映像生成部105より取得する(ステップ402)。 The video B displayed on the video display unit 106 is acquired from the video generation unit 105 simultaneously with the time taken by the imaging unit 151 (step 402).
受け取った映像Bを解析し、主要な色相X度を求める(ステップ403)。主要な位相X度の求め方として、映像Bの全画素の色相の平均値を求めたり、もしくは分布から中央値をとったりしても良い。 The received video B is analyzed to obtain a main hue X degree (step 403). As a method for obtaining the main phase X degree, an average value of hues of all the pixels of the video B may be obtained, or a median value may be taken from the distribution.
映像Bの解析結果である色相Xと手の色相Zの差分量Yを求める(ステップ404)。 A difference amount Y between the hue X and the hue Z of the hand, which is an analysis result of the video B, is obtained (step 404).
Y=Z−X
手が映像Bの光を浴びた場合に、混ざり合う割合を係数Kとしてもとめる(ステップ405)。このとき他の光源や映像表示部106の表示デバイスの輝度や物体まで距離などの情報を用いて係数化してもよい。Y = Z-X
When the hand is exposed to the light of video B, the mixing ratio is obtained as a coefficient K (step 405). At this time, the coefficient may be obtained by using information such as the brightness of another light source or the display device of the image display unit 106 and the distance to the object.
変色した位相より手の本来の位相との角度差を求め、その角度差分だけ映像Aの位相をシフトさせる(ステップ406)。
補正量a=K×Y
シフト後の画像Aをジェスチャー認識部153に送る(ステップ407)。An angle difference from the original phase of the hand is obtained from the discolored phase, and the phase of the image A is shifted by the angle difference (step 406).
Correction amount a = K × Y
The shifted image A is sent to the gesture recognition unit 153 (step 407).
図4の手順に基づき、図3で示した画像Bが赤緑青の3例について補正を行ってみる。補正したい手の色相はおおよそ0から30度の範囲であることがわかっているが、今回の例では20度として求める。 Based on the procedure of FIG. 4, correction is performed for three examples of the image B shown in FIG. Although it is known that the hue of the hand to be corrected is in the range of approximately 0 to 30 degrees, it is obtained as 20 degrees in this example.
まず赤の場合を想定する(ステップ402)。赤の色相値は0度である(ステップ403)。画像B(赤)の位相と手の位相の差は20度である(ステップ404)。本実施の形態では手の色と映像Bの色は1対1で均等に混ざることとする。よって比率Kは0.5となる(ステップ405)。ステップ405より手の色が変色した場合の影響をもとめるが、画像B(赤)の位相と手の位相は同比率で混ざり変色したものとする。この場合変色した色相は10度となる。手の本来の色相は20度であり、変色した色相は10度であるから、差分の10度分画像Aの色相分シフトさせるとよいことがわかる。 First, the case of red is assumed (step 402). The red hue value is 0 degree (step 403). The difference between the phase of image B (red) and the phase of the hand is 20 degrees (step 404). In this embodiment, it is assumed that the color of the hand and the color of the video B are mixed evenly on a one-to-one basis. Therefore, the ratio K is 0.5 (step 405). From step 405, the effect of the discoloration of the hand is determined. It is assumed that the phase of the image B (red) and the phase of the hand are mixed at the same ratio and discolored. In this case, the discolored hue is 10 degrees. Since the original hue of the hand is 20 degrees and the discolored hue is 10 degrees, it can be seen that it is better to shift the image A by the difference of 10 degrees.
画像Bが緑の場合、緑の色相は120度であるから(ステップ403)、手の色相は赤の場合と同じく20度なので、差は−100度である(ステップ404)。比率Kは0.5とする(ステップ405)。よって手の本来の位相まで移動させるには、−50度分シフトさせればよいことがわかる(ステップ406)。 Since the hue of green is 120 degrees when the image B is green (step 403), the hue of the hand is 20 degrees as in the case of red, so the difference is -100 degrees (step 404). The ratio K is set to 0.5 (step 405). Therefore, in order to move to the original phase of the hand, it can be understood that it is necessary to shift by −50 degrees (step 406).
画像Bが青の場合、青の位相は−120度あるから(ステップ403)、手の位相との差は、−140度である(ステップ404)。比率Kは0.5とする(ステップ405)。よって手の本来の位相まで移動させるには70度シフトさせればよいことが分かる(ステップ406)。 When the image B is blue, the phase of blue is −120 degrees (step 403), so the difference from the phase of the hand is −140 degrees (step 404). The ratio K is set to 0.5 (step 405). Therefore, it can be seen that a 70 degree shift is required to move the hand to the original phase (step 406).
図5に図2の画像Bが赤・緑・青の3例について図4の方法において補正した結果を示す。上段に補正後の映像を示す。それぞれの画像の下にその画像の色相を示す。図2の補正前と比較して、手の色を示す色相上に色があることがわかる。この画像をジェスチャー認識部に送ることで(ステップ407)、ジェスチャー認識部153により手の追跡が可能となる。 FIG. 5 shows the result of correcting the image B in FIG. 2 for three examples of red, green, and blue by the method of FIG. The corrected image is shown in the upper row. The hue of the image is shown below each image. It can be seen that there is a color on the hue indicating the color of the hand as compared to before correction in FIG. By sending this image to the gesture recognition unit (step 407), the gesture recognition unit 153 can track the hand.
(第2の実施の形態)
第2の実施の形態について、図面を参照して説明する。まず本実施の形態の入力装置を図6に示す。(Second Embodiment)
A second embodiment will be described with reference to the drawings. First, an input device of this embodiment is shown in FIG.
図6は、ディスプレイなどの映像出力装置と、ユーザからの入力を受け付ける入力機能を持った入力装置600である。入力装置600は、アンテナ部601、受信・変調部602、デコード部603、オーディオ出力部604、映像生成部605、映像表示部606、撮像部651、ジェスチャー認識部653、色情報算出部654から成り立っている。 FIG. 6 shows an input device 600 having a video output device such as a display and an input function for receiving an input from a user. The input device 600 includes an antenna unit 601, a reception / modulation unit 602, a decoding unit 603, an audio output unit 604, a video generation unit 605, a video display unit 606, an imaging unit 651, a gesture recognition unit 653, and a color information calculation unit 654. ing.
アンテナ部601において、放送局から出力される放送波を受信する。受信した放送波は受信・変調部602で受け取られTSデータに変換される。実施の形態では、受信部と復調部を合わせて1つの機能としたが、実際には、アンテナ601から受信するチューナ部と、受信波を変調するOFDM変調機に分かれていることが多い。本実施の形態では、チューナをもった放送受信機を想定しているが、DVDやHDDなどの記録メディアから蓄積済みのコンテンツを再生してもかまわない。 The antenna unit 601 receives a broadcast wave output from a broadcast station. The received broadcast wave is received by the reception / modulation unit 602 and converted into TS data. In the embodiment, the receiving unit and the demodulating unit are combined into one function, but in reality, the receiving unit and the demodulating unit are often divided into a tuner unit that receives from the antenna 601 and an OFDM modulator that modulates the received wave. In the present embodiment, a broadcast receiver having a tuner is assumed, but stored content may be reproduced from a recording medium such as a DVD or HDD.
受信・変調部602で、作られたTSデータはデコード部603に送れられる。デコード部603では、映像TSデータと音声TSデータに分離されてデコードされ映像信号と音声信号が生成される。音声信号は音声出力部604で音声に変換される。オーディオ出力604はスピーカやヘッドホンである。音声になったデータは聴覚情報630として、操作者640に到達する。操作者640はこれを耳で聞く。 The TS data generated by the reception / modulation unit 602 is sent to the decoding unit 603. In the decoding unit 603, video TS data and audio TS data are separated and decoded to generate a video signal and an audio signal. The audio signal is converted into audio by the audio output unit 604. The audio output 604 is a speaker or headphones. The voiced data reaches the operator 640 as auditory information 630. The operator 640 hears this by ear.
またデコード部603においてデコードされた映像信号は、映像生成部605に送られる。ここでは、デコードされた映像信号に、メニューやヘルプ画面など、入力装置600にかかわる映像情報を組み合わせる。この付加する映像情報はアイコンやボタンのようにジェスチャーによって操作されるものであってもよし、ジェスチャーには直接関係ないフレームや演出であってもよい。映像生成部605によって生成された映像こそが、操作者が眼にする映像信号となる。 The video signal decoded by the decoding unit 603 is sent to the video generation unit 605. Here, video information related to the input device 600 such as a menu or a help screen is combined with the decoded video signal. The video information to be added may be operated by a gesture such as an icon or a button, or may be a frame or an effect not directly related to the gesture. The video generated by the video generation unit 605 is the video signal that the operator sees.
映像生成部605において、生成された映像信号は映像表示部606へ送られる。映像表示606は液晶ディスプレイやプラズマディスプレイなどの画像デバイスであり、無数の点によって光に変換され視覚情報631として、操作者640へ送られる。操作者640は、これを眼でとらえ理解する。 In the video generation unit 605, the generated video signal is sent to the video display unit 606. The video display 606 is an image device such as a liquid crystal display or a plasma display, and is converted into light by countless points and sent to the operator 640 as visual information 631. The operator 640 grasps and understands this with the eyes.
操作者640は、聴覚情報630と視覚情報631から、入力装置600へ対しての操作を決定する。そして操作者640は体全体や手や足などの体の一部を使用して操作を行う。この情報はジェスチャー入力632として入力装置600にある撮像部651によって撮影される。撮像部651で撮影された被写体は、撮像信号としてデータ化され、当該データはジェスチャー認識部653へ送られて、その内容が入力装置600への操作内容が解析され、それに従い操作される。本構成では、映像生成部605から映像信号が色情報算出部654へ送られる。色情報算出部654ではジェスチャーを行っている対象物の色(本実施の形態では手)の変色量(色相角度)を計算し色情報とする。映像生成部605で生成される映像は時間経過によって常に変化しているため、撮像部651において撮影されたときに映像表示部606に表示されている映像と同じものを使用する。これにより、色情報算出部654から出力される色情報は、ビデオ信号出力部606による外乱を考慮したものとなる。この色情報算出部654の色情報をジェスチャー認識部653に送りジェスチャーの解析を行う。 The operator 640 determines an operation for the input device 600 from the auditory information 630 and the visual information 631. The operator 640 operates using the whole body or a part of the body such as a hand or a foot. This information is photographed by the imaging unit 651 in the input device 600 as the gesture input 632. The subject imaged by the imaging unit 651 is converted into data as an imaging signal, and the data is sent to the gesture recognition unit 653, and the content of the operation is analyzed for the input device 600, and the operation is performed accordingly. In this configuration, a video signal is sent from the video generation unit 605 to the color information calculation unit 654. The color information calculation unit 654 calculates a color change amount (hue angle) of the color of the target object (the hand in the present embodiment) on which the gesture is being performed, and obtains the color information. Since the video generated by the video generation unit 605 is constantly changing with the passage of time, the same video as that displayed on the video display unit 606 when taken by the imaging unit 651 is used. As a result, the color information output from the color information calculation unit 654 takes into account the disturbance caused by the video signal output unit 606. The color information of the color information calculation unit 654 is sent to the gesture recognition unit 653 to analyze the gesture.
本実施の形態において、映像表示部606で表示された映像が図3の映像表示部106で捕らえられた画像と同じである場合、撮像部651で捕らえられた映像については図3の撮像部151の画像と同一である。 In this embodiment, when the video displayed on the video display unit 606 is the same as the image captured by the video display unit 106 in FIG. 3, the video captured by the imaging unit 651 is the imaging unit 151 in FIG. 3. It is the same as the image.
図7に補正を行う色情報算出部654の処理を示す。色情報算出部654は、映像表示部606に表示した映像Bを映像生成部605より取得する(ステップ701)。 FIG. 7 shows processing of the color information calculation unit 654 that performs correction. The color information calculation unit 654 acquires the video B displayed on the video display unit 606 from the video generation unit 605 (step 701).
受け取った映像Bを解析し、主要な色相Xを求める(ステップ702)。 The received video B is analyzed to obtain a main hue X (step 702).
映像Bの解析結果である色相Xと手の色相の差分量Yを求める(ステップ703)。 A difference amount Y between the hue X and the hue of the hand, which is an analysis result of the video B, is obtained (step 703).
Y=X−Z
手が映像Bの光を浴びた場合に、混ざり合う割合を係数Kとしてもとめる(ステップ704)。このとき他の光源や映像表示部606の表示デバイスの輝度や物体まで距離などの情報を用いて係数化してもよい。
差分Yと比率Kと手の色Zから、変化した手の位相Z´を求める(ステップ705)。Y = X-Z
When the hand is exposed to the light of video B, the mixing ratio is obtained as a coefficient K (step 704). At this time, the coefficient may be converted using information such as the brightness of another light source or the display device of the video display unit 606 and the distance to the object.
The phase Z ′ of the changed hand is obtained from the difference Y, the ratio K, and the hand color Z (step 705).
Z´=Z+K×Y
変色した位相値をジェスチャー認識部653に送る(ステップ706)。Z ′ = Z + K × Y
The changed phase value is sent to the gesture recognition unit 653 (step 706).
図7の手順に基づき、図3で示した画像Bが赤緑青の3例について補正を行ってみる。補正したい手の色相はおおよそ0から30度の範囲であることがわかっているが、今回の例では20度として求める。まず赤の場合を想定する(ステップ701)。 Based on the procedure of FIG. 7, correction is performed for three examples of the image B shown in FIG. Although it is known that the hue of the hand to be corrected is in the range of approximately 0 to 30 degrees, it is obtained as 20 degrees in this example. First, the case of red is assumed (step 701).
赤の色相値は0度である(ステップ702)。画像B(赤)の位相と手の位相の差は20度である(ステップ703)。続いて手の色が変色した場合の影響をもとめるが、画像B(赤)の位相と手の位相は同比率で混ざり変色したものとする(ステップ704)。この場合変色した手色相は10度となる。本実施の形態では同比率としたが、物体までの距離や、室内の照明と映像表示部606との明るさの差などの情報を利用して割合を変えてもよい。この10度を映像Bでの手の位相Z´として(ステップ705)、ジェスチャー認識部653へ送る(ステップ707)。 The red hue value is 0 degrees (step 702). The difference between the phase of the image B (red) and the phase of the hand is 20 degrees (step 703). Subsequently, the influence when the color of the hand is changed is calculated. It is assumed that the phase of the image B (red) and the phase of the hand are mixed at the same ratio and changed color (step 704). In this case, the discolored hand hue is 10 degrees. Although the ratio is the same in this embodiment, the ratio may be changed using information such as the distance to the object and the difference in brightness between the room illumination and the video display unit 606. This 10 degrees is sent to the gesture recognition unit 653 (step 707) as the hand phase Z ′ in the video B (step 705).
画像Bが緑の場合、緑の色相は120度であるから(ステップ702)、手の色相は赤の場合と同じく20度なので、差分Yは100度である(ステップ703)。比率Kは0.5とする(ステップ704)。よって変化した手の位相Z´は、この70度となる(ステップ705)。この70度を手の色相としてジェスチャー認識部653へ送る(ステップ706)。 Since the hue of green is 120 degrees when the image B is green (step 702), the hue of the hand is 20 degrees as in the case of red, so the difference Y is 100 degrees (step 703). The ratio K is set to 0.5 (step 704). Therefore, the changed hand phase Z ′ is 70 degrees (step 705). This 70 degrees is sent to the gesture recognition unit 653 as the hue of the hand (step 706).
画像Bが青の場合、青の位相は−120度あるから(ステップ702)、手の位相との差は、−140度である(ステップ703)。比率Kは0.5とする(ステップ704)。てよって変化した手の位相Z´は、この−50度となる(ステップ705)。この−50度を手の色相としてジェスチャー認識部653へ送る(ステップ706)。 When the image B is blue, the phase of blue is −120 degrees (step 702), so the difference from the phase of the hand is −140 degrees (step 703). The ratio K is set to 0.5 (step 704). The phase Z ′ of the hand thus changed becomes −50 degrees (step 705). This -50 degrees is sent to the gesture recognition unit 653 as the hand hue (step 706).
図8に図2の画像Bが赤・緑・青の3例について手の色相を移動した場合の領域を示す。それぞれ10度、70度、−50度であるため色相空間を赤丸で表す。図のとおり手の領域をあらわしていることがわかる。手の候補となる色相そのものを変更することで、手の空間を手の候補とすることができる。 FIG. 8 shows a region when the hue of the hand is moved in three cases of image B in FIG. 2 of red, green, and blue. Since they are 10 degrees, 70 degrees, and -50 degrees, respectively, the hue space is represented by a red circle. It can be seen that it represents the hand area as shown in the figure. The hand space can be made a hand candidate by changing the hue itself that is a hand candidate.
前述した映像生成部105と605、映像補正部152、色情報保持部154、色情報算出部654、ジェスチャー認識部153と653は、入力機器内のCPUにて動作するソフトウェアで実現しても、同様の機能を持つハードウェアで実現してもかまわない。また映像表示部106と606入力装置100と600に内蔵される形ではなく、外部に存在しケーブルや無線ネットワークを用いて入力装置100と600から出力された映像を表示してもかまわない。撮像部151と651は入力装置100と600に内蔵される形ではなく、外部に存在しケーブルや無線ネットワークを用いて入力装置100と600に入力される形でもかまわない。 The video generation units 105 and 605, the video correction unit 152, the color information holding unit 154, the color information calculation unit 654, and the gesture recognition units 153 and 653 described above may be realized by software operating on the CPU in the input device. It may be realized by hardware having similar functions. In addition, the video display unit 106 and 606 may not be built in the input devices 100 and 600, but may display images output from the input devices 100 and 600 using a cable or a wireless network. The imaging units 151 and 651 are not included in the input devices 100 and 600, but may be externally input to the input devices 100 and 600 using a cable or a wireless network.
本発明にかかる入力装置は、ディスプレイなどの発光する表示装置の前でジェスチャー操作を行う場合に、表示装置の影響で実際の色とは異なる色に変更されてしまった画像を補正することで、正しく物体を認識することができるようになり、正しくジェスチャーを認識できるようになる点で有用である。 When an input device according to the present invention performs a gesture operation in front of a display device that emits light, such as a display, by correcting an image that has been changed to a color different from the actual color due to the influence of the display device, This is useful in that an object can be correctly recognized and a gesture can be correctly recognized.
100,600 入力装置
101,601 アンテナ部
102,602 受信・変調部
103,603 デコード部
104,604 音声出力部
105,605 映像生成部
106,606 映像表示部
130,630 聴覚情報
131,631 視覚情報
132,632 ジェスチャー入力
140,640 操作者
151,651 撮像部
152 映像補正部
153,653 ジェスチャー認識部
154 色情報保持部
654 色情報算出部100,600 Input device 101,601 Antenna unit 102,602 Reception / modulation unit 103,603 Decoding unit 104,604 Audio output unit 105,605 Video generation unit 106,606 Video display unit 130,630 Auditory information 131,631 Visual information 132, 632 Gesture input 140, 640 Operator 151, 651 Imaging unit 152 Video correction unit 153, 653 Gesture recognition unit 154 Color information holding unit 654 Color information calculation unit
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008199337AJP2010039607A (en) | 2008-08-01 | 2008-08-01 | Input device |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008199337AJP2010039607A (en) | 2008-08-01 | 2008-08-01 | Input device |
| Publication Number | Publication Date |
|---|---|
| JP2010039607Atrue JP2010039607A (en) | 2010-02-18 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008199337APendingJP2010039607A (en) | 2008-08-01 | 2008-08-01 | Input device |
| Country | Link |
|---|---|
| JP (1) | JP2010039607A (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012026347A1 (en)* | 2010-08-25 | 2012-03-01 | 株式会社日立ソリューションズ | Electronic blackboard system and program |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012026347A1 (en)* | 2010-08-25 | 2012-03-01 | 株式会社日立ソリューションズ | Electronic blackboard system and program |
| JP2012066564A (en)* | 2010-08-25 | 2012-04-05 | Hitachi Solutions Ltd | Electronic blackboard system and program |
| US9024901B2 (en) | 2010-08-25 | 2015-05-05 | Hitachi Solutions, Ltd. | Interactive whiteboards and programs |
| EP2610718A4 (en)* | 2010-08-25 | 2017-08-23 | Hitachi Solutions, Ltd. | Electronic blackboard system and program |
| Publication | Publication Date | Title |
|---|---|---|
| US10318028B2 (en) | Control device and storage medium | |
| KR101731346B1 (en) | Method for providing display image in multimedia device and thereof | |
| US8818027B2 (en) | Computing device interface | |
| US9491418B2 (en) | Method of providing a digitally represented visual instruction from a specialist to a user in need of said visual instruction, and a system therefor | |
| WO2015037177A1 (en) | Information processing apparatus method and program combining voice recognition with gaze detection | |
| EP2753075A1 (en) | Display apparatus and method for video calling thereof | |
| KR20090063679A (en) | Image display device with pointing function and method | |
| US9704028B2 (en) | Image processing apparatus and program | |
| US20150206354A1 (en) | Image processing apparatus and image display apparatus | |
| RU2598598C2 (en) | Information processing device, information processing system and information processing method | |
| US20120236180A1 (en) | Image adjustment method and electronics system using the same | |
| US9696551B2 (en) | Information processing method and electronic device | |
| US12337226B2 (en) | Home training service providing method and display device performing same | |
| JP2006091948A (en) | Controller for electronic equipment | |
| KR102208893B1 (en) | Display apparatus and channel map manage method thereof | |
| US20180247419A1 (en) | Object tracking method | |
| US20170048447A1 (en) | Image processing apparatus, image processing method, and program | |
| TW201337644A (en) | Information processing device, information processing method, and recording medium | |
| CN113852756A (en) | Image acquisition method, device, equipment and storage medium | |
| JP2010039607A (en) | Input device | |
| KR20120132923A (en) | Display device based on user motion | |
| KR20120051213A (en) | Method for image photographing of multimedia device and multimedia device thereof | |
| US10742862B2 (en) | Information processing device, information processing method, and information processing system | |
| KR101755981B1 (en) | Apparatus and method for implementing face recognition mouse | |
| US20250252535A1 (en) | Image display apparatus |