













本発明は、ビデオ会議システム、及び録画映像作成方法に関する。The present invention relates to a video conferencing system and a method for creating recorded video.
マイクで取得した音声とカメラで撮影した画像とを、通信ネットワークを介して送受信して、遠隔会議を実現するビデオ会議システムが普及している。Videoconferencing systems that enable remote conferences by sending and receiving audio picked up by a microphone and images taken by a camera over a communications network are becoming widespread.
特許文献1には、入力画像からビデオ会議の会議画像を生成する際に、話者部分の領域を拡大、又は縮小することにより、話者が適切な大きさとなるように表示できる会議画像再生システムが開示されている。
また、特許文献2には、ビデオ会議システムにおいて、パノラマカメラと、マイクアレイを組み合わせて、パノラマカメラで会議室全体を撮影し、発言者がいる場合に、自動的に発言者の映像をクローズアップして表示すること等が開示されている。
自拠点の発話者の画像をクローズアップ表示するビデオ会議システムでは、発話者が頻繁に切り替わると、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。また、今までの、ビデオ会議システムでは、会議映像を録画する際に会議映像をそのまま録画しているため、録画映像においても、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。In a video conferencing system that displays a close-up image of the speaker at the same location, if the speaker changes frequently, the close-up image of the speaker changes too frequently. In addition, in conventional video conferencing systems, the conference video is recorded as is, so there is also a problem that the close-up image of the speaker changes too frequently in the recorded video.
このような問題は、例えば、直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいても存在する。This problem also exists, for example, in video conferencing systems that provide close-up views of the nearest speakers.
本発明の一実施の形態は、上記の課題に鑑みてなされたものであって、直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいて、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供する。One embodiment of the present invention has been made in consideration of the above problems, and provides recorded video in a video conferencing system that displays close-ups of multiple recent speakers, with reduced frequency of switching between speakers displayed in close-up.
上記の課題を解決するため、本発明の一実施形態に係るビデオ会議システムは、ビデオ会議の映像を録画するビデオ会議システムであって、マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知部と、1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知部と、前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、を有する。In order to solve the above problem, a video conference system according to one embodiment of the present invention is a video conference system that records video of a video conference, and includes a direction detection unit that detects the direction of sound based on the audio of the video conference acquired by a microphone array, an image detection unit that detects an image of a person from a first video of the video conference captured by one or more cameras, an identification unit that identifies the speaking order of users participating in the video conference using the video conference system based on the direction of sound and the image of the person, and a recorded video creation unit that creates a recorded video of the video conference that displays images of a predetermined number of users, including a first user who has recently spoken, in a predetermined area based on the speaking order from a second video that is a predetermined delay from the first video.
本発明の一実施形態によれば、直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいて、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供することができる。According to one embodiment of the present invention, in a video conferencing system that displays close-ups of multiple recent speakers, it is possible to provide recorded video that reduces the frequency with which the speakers displayed in close-up are switched.
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。The following describes in detail an embodiment of the present invention with reference to the drawings.
<システム構成>
図1は、一実施形態に係る通信システムのシステム構成の例を示す図である。通信システム1は、例えば、自拠点に設置されたビデオ会議システム100を利用して、1人以上の利用者A、利用者B、利用者C、利用者D、・・・が、他の拠点で他のビデオ会議システム110を利用する他の利用者とビデオ会議を行うシステムである。なお、ビデオ会議は、ウェブ会議と呼ばれる場合もある。また、本実施形態に係るビデオ会議システム100は、ビデオ会議の映像を録画する機能を有している。 <System Configuration>
1 is a diagram showing an example of a system configuration of a communication system according to an embodiment. The
なお、以下の説明において、利用者A、利用者B、利用者C、利用者D、・・・のうち、任意の利用者を示す場合、「自拠点の利用者」を用いる。また、図1に示した自拠点の利用者の数、及び他の拠点の他の利用者の数は一例である。In the following explanation, when referring to any of users A, B, C, D, etc., the term "user at the own location" is used. Also, the number of users at the own location and the number of other users at other locations shown in Figure 1 are examples.
図1の例では、通信システム1は、自拠点に設けられたビデオ会議システム100と、他の拠点に設けられた他のビデオ会議システム110と、会議サーバ10とを含む。また、ビデオ会議システム100、他のビデオ会議システム110、及び会議サーバ10は、例えば、インターネット、及びLAN(Local Area Network)等の通信ネットワーク2に接続されている。In the example of FIG. 1, the
例えば、自拠点の利用者は、ビデオ会議システム100を用いて、会議サーバ10が提供するビデオ会議に参加する。また、他利用者は、他のビデオ会議システム110を用いて、会議サーバ10が提供する同じビデオ会議に参加する。これにより、ビデオ会議システム100と、他のビデオ会議システム110は、会議サーバ10を介して、会議映像を互いに送受信して、ビデオ会議を行うことができる。For example, a user at a home base uses a
なお、会議サーバ10が提供するビデオ会議は、会議映像を互いに送受信する任意のビデオ会議(又はウェブ会議)であってよい。また、ビデオ会議システム100は、会議サーバ10を介さずに、通信ネットワーク2を介して、他のビデオ会議システム110と直接ビデオ会議を行うものであってもよい。The video conference provided by the
図1の例では、ビデオ会議システム100は、ビデオ会議端末101と、ビデオ会議端末101に接続される表示装置102とを含む。In the example of FIG. 1, the
ビデオ会議端末101は、例えば、複数のマイクを配列して構成されたマイクアレイ(マイクロフォンアレイ)を備え、マイクアレイを用いて話者の方向を検知する機能を有している。また、ビデオ会議端末101は、ビデオ会議端末101の周辺にいる利用者A、利用者B、利用者C、利用者D、・・・を撮影する1つ以上のカメラを有している。例えば、ビデオ会議システム100は、周囲360のパノラマ画像を撮影可能なパノラマカメラを有し、会議室全体を撮影するものであってもよい。或いは、ビデオ会議システム100は、複数のカメラを有し、複数のカメラで撮影した画像を組み合わせて、ビデオ会議端末101の周辺にいる利用者A、利用者B、利用者C、利用者D、・・・を撮影するものであってもよい。The
また、ビデオ会議端末101は、通信ネットワーク2に接続されており、会議サーバ10が提供するビデオ会議に参加するビデオ会議機能を有している。例えば、ビデオ会議端末101は、マイクアレイで取得した音声と、カメラで撮影した映像とに基づく会議映像を、会議サーバ10を介して、他のビデオ会議システム110に送信する。また、ビデオ会議端末101は、会議サーバ10を介して、他のビデオ会議システム110から受信した会議映像を表示装置102に表示する。また、ビデオ会議端末101は、スピーカを有しており、会議映像に含まれる会議音声を出力することができる。別の一例として、表示装置102がスピーカを備えており、ビデオ会議端末101は、表示装置102が備えるスピーカを用いて、会議の音声を出力してもよい。The
表示装置102は、ビデオ会議端末101が出力する表示画面を表示する装置である。表示装置102は、例えば、ディスプレイ、IWB(Interactive White Board)、又はプロジェクタ等、ビデオ会議端末101が出力する表示画面を表示可能な様々な装置であってよい。The
ここで、IWBは、タッチセンサ搭載型のディスプレイであり、電子黒板とも呼ばれる。IWBは、ディスプレイに表示した画面に、例えば、ペン、又は指等で直接書き込みができるほか、ディスプレイに表示した内容をデータとして保存することができる。また、IWBは、プロジェクタのように、大型のディスプレイとしても用いることもできる。Here, an IWB is a display equipped with a touch sensor, and is also called an electronic whiteboard. An IWB allows users to write directly on the screen displayed on the display with, for example, a pen or a finger, and can also save the contents displayed on the display as data. An IWB can also be used as a large display, like a projector.
他のビデオ会議システム110は、会議サーバ10が提供するビデオ会議に参加し、ビデオ会議システム100と会議映像を送受信することができるものであれば、任意の構成であってよい。例えば、他のビデオ会議システム110は、PC(Personal Computer)、タブレット端末、又はスマートフォン等の情報処理装置であってもよいし、ビデオ会議システム100と同様の構成であってもよい。The other
図2は、一実施形態に係るビデオ会議システムの別の構成例を示す図である。ビデオ会議システム100は、例えば、図2(A)に示すように、ビデオ会議機能を有するPC(Personal Computer)201と、マイクアレイ、1つ以上のカメラ、及びスピーカ等を備えたウェブ会議デバイス201とによって構成されるものであってもよい。Figure 2 is a diagram showing another example of the configuration of a video conferencing system according to an embodiment. For example, as shown in Figure 2 (A), the
ウェブ会議デバイス201は、図1で説明したビデオ会議端末101と同様に、複数のマイクを配列して構成されたマイクアレイ(マイクロフォンアレイ)を備え、マイクアレイを用いて話者の方向を検知する機能を有している。また、ウェブ会議デバイス201は、ウェブ会議デバイス201の周辺にいる利用者A、利用者B、利用者C、利用者D、・・・を撮影する1つ以上のカメラを有している。さらに、ウェブ会議デバイス201は、スピーカを用いて、PC202から出力される会議音声の音声データに基づいて、会議音声を出力することができる。The
ウェブ会議デバイス201は、例えば、USB(Universal Serial Bus)ケーブル203等でPC202に接続されており、ビデオ会議端末101が作成する会議映像と同様の会議映像を作成し、作成した会議映像をPC202に送信する。また、PC202は、通信ネットワーク2に接続されており、ウェブ会議デバイス201から出力される会議映像を用いて、ビデオ会議を行う。The
また、ビデオ会議システム100は、例えば、図2(B)に示すように、ビデオ会議機能を有するIWB211と、上述したウェブ会議デバイス201とによって構成されるものであってもよい。ウェブ会議デバイス201は、例えば、USBケーブル203等でIWB211に接続されており、ビデオ会議端末101が作成する会議映像と同様の会議映像を作成し、作成した会議映像をIWB211に送信する。また、IWB211は、通信ネットワーク2に接続されており、ウェブ会議デバイス201から出力される会議映像を用いて、他のビデオ会議システム110とビデオ会議を行う。The
(会議映像の例)
図3は、一実施形態に係るビデオ会議システムの会議映像の例を示す図である。この図は、例えば、図1で説明したビデオ会議端末101、又は図2(A)、(B)で説明したウェブ会議デバイス201が作成する会議映像のイメージを示す図である。 (Example of meeting video)
3 is a diagram showing an example of a conference video of the video conference system according to an embodiment of the present invention, which is a diagram showing an image of the conference video created by, for example, the
図2に示すように、会議映像300は、例えば、ビデオ会議に参加する利用者の全体を表示する全体表示エリア301と、所定の数の利用者の画像をクローズアップ表示するクローズアップ表示エリア302とを含む。As shown in FIG. 2, the
全体表示エリア301には、例えば、ビデオ会議端末101(又はウェブ会議デバイス201)が備えるカメラで、ビデオ会議が行われている会議室全体を撮影したパノラマ映像が表示される。また、クローズアップ表示エリア302には、直近の発話を行った所定の数の利用者が、クローズアップ表示される。In the
図3の例では、クローズアップ表示エリア302には、3つの表示枠302-1、302-2、302-3が表示されている。この場合、例えば、図1に示すような自拠点において、利用者A、利用者B、利用者Cの順に発話を行うと、クローズアップ表示エリア302には、利用者Aの画像、利用者Bの画像、及び利用者Cの画像がクローズアップ表示(拡大表示)される。なお、クローズアップ表示エリア302に表示する表示枠の数(所定の数)は、2つであってもよいし、4つ以上であってもよい。ここでは、クローズアップ表示エリア302に表示する表示枠の数が3つであるものとして、以下の説明を行う。In the example of FIG. 3, three display frames 302-1, 302-2, and 302-3 are displayed in the close-up
このように、自拠点の発話者の画像をクローズアップ表示するビデオ会議システム100では、発話者が頻繁に切り替わると、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。In this way, in the
図4は、一実施形態に係る会議映像の遷移の例を示す図である。なお、ビデオ会議システム100は、自拠点で新たな利用者が発話した場合、3つの表示枠302-1、302-2、302-3のうち、最も過去に発話した利用者の画像が表示されている表示枠に、新たに発話した利用者の画像を表示するものとする。Figure 4 is a diagram showing an example of the transition of a conference video according to one embodiment. When a new user speaks at the
例えば、ビデオ会議において、利用者A、利用者B、利用者Cの順に発話が行われ、ビデオ会議システム100は、図3に示すような会議映像300を出力しているものとする。この状態で、新たに利用者Dが発話すると、ビデオ会議システム100は、図4(A)に示すように、利用者A、利用者B、利用者Cのうち、最も過去に発話した利用者Aが表示されていた表示枠302-1に、利用者Dの画像を表示する会議映像410を出力する。For example, in a video conference, users A, B, and C speak in that order, and the
また、この状態で、新たに利用者Aが発話すると、ビデオ会議システム100は、図4(B)に示すように、利用者D、利用者B、利用者Cのうち、最も過去に発話した利用者Bが表示されていた表示枠302-2に、利用者Aの画像を表示する会議映像420を出力する。さらに、この状態で、新たに利用者Bが発話すると、ビデオ会議システム100は、図4(C)に示すように、利用者D、利用者A、利用者Cのうち、最も過去に発話した利用者Cが表示されていた表示枠302-3に、利用者Bの画像を表示する会議映像430を出力する。同様に、この状態で、新たに利用者Cが発話すると、ビデオ会議システム100は、図4(D)に示すように、利用者D、利用者A、利用者Bのうち、最も過去に発話した利用者Dが表示されていた表示枠302-1に、利用者Cの画像を表示する会議映像440を出力する。When user A newly speaks in this state, the
このように、自拠点の発話者の画像をクローズアップ表示するビデオ会議システム100では、発話者が頻繁に切り替わると、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなる。また、今までの、ビデオ会議システムでは、会議映像を録画する際に会議映像をそのまま録画しているため、録画映像においても、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。In this way, in a
そこで、ビデオ会議システム100は、カメラで撮影したビデオ会議の第1の映像を所定の時間遅延させた第2の映像と、第1の映像に基づいて特定した利用者の発話順序とに基づいて、発話者の切り替え頻度を抑制した録画映像を作成する機能を有している。ここで、所定の時間は、例えば、1分~5分程度、好ましくは、2分~3分程度の時間であるが、これに限られない。The
図5は、一実施形態に係る録画映像の遷移の例を示す図である。ここで、ビデオ会議システム100は、第2の映像において、新たな利用者が発話した場合、3つの表示枠302-1、302-2、302-3のうち、最も過去に発話した利用者の画像が表示されている表示枠を、新たに発話した利用者の画像に置き換えるものとする。ただし、ビデオ会議システム100は、第2の映像において新たに第1の利用者が発話した場合、次に発話する第2の利用者の画像が表示されている表示枠、及び次の次に発話する第3の利用者の画像が表示されている表示枠を、置き換えの対象から外す。また、ビデオ会議システム100は、第2の映像において新たに発話した第1の利用者が、クローズアップ表示エリア302に既に表示されている場合、クローズアップ表示エリア302のレイアウトを変更しない。FIG. 5 is a diagram showing an example of the transition of recorded video according to an embodiment. Here, when a new user speaks in the second video, the
例えば、所定の時間遅延させた第2の映像において、利用者A、利用者B、利用者Cの順に発話が行われ、ビデオ会議システム100は、図3に示すような会議映像300を作成したものとする。また、ビデオ会議システム100は、遅延させていない第1の映像に基づいて、この後の発話順序が、利用者D、利用者A、利用者B、利用者Cの順序であることを特定したものとする。For example, in the second video delayed by a predetermined time, user A, user B, and user C speak in that order, and the
この状態で、第2の映像において、新たに利用者Dが発話すると、ビデオ会議システム100は、例えば、図5(A)に示すような録画映像510を作成する。ここでは、利用者Dの次に発話する利用者Aの画像が表示枠302-1に表示されているので、ビデオ会議システム100は、表示枠302-1を置き換えの対象から外す。また、利用者Aの次に発話する利用者Bの画像が表示枠302-2に表示されているので、ビデオ会議システム100は、表示枠302-2も置き換えの対象から外す。これにより、ビデオ会議システム100は、残りの表示枠302-3に、新たに発話した利用者Dの画像を表示する。In this state, when user D newly speaks in the second video, the
この状態で、第2の映像において、新たに利用者Aが発話すると、ビデオ会議システム100は、例えば、図5(B)に示すような録画映像520を作成する。ここでは、録画映像510において、既に利用者Aの画像が表示されているので、ビデオ会議システム100は、クローズアップ表示エリア302のレイアウトを変更しない。In this state, when user A speaks again in the second video, the
また、この状態で、第2の映像において、新たに利用者Bが発話すると、ビデオ会議システム100は、例えば、図5(C)に示すような録画映像530を作成する。ここでも、録画映像510において、既に利用者Bの画像が表示されているので、ビデオ会議システム100は、クローズアップ表示エリア302のレイアウトを変更しない。In this state, when user B speaks again in the second video, the
さらに、この状態で、第2の映像において、新たに利用者Cが発話すると、ビデオ会議システム100は、例えば、図5(D)に示すような録画映像540を作成する。例えば、ビデオ会議システム100は、録画映像530のクローズアップ表示エリア302に表示している利用者A、利用者B、利用者Dのうち、最も過去に発話した利用者Dの画像が表示されていた表示枠302-3に、新たに発話した利用者Cの画像を表示する。Furthermore, in this state, when user C newly speaks in the second video, the
このように、ビデオ会議システム100は、図4で説明した会議映像410、420、430、440より、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像510、520、530、540を作成し、録画することができる。In this way, the
<ハードウェア構成>
続いて、本実施形態に係る各装置のハードウェア構成の例について説明する。 <Hardware Configuration>
Next, an example of the hardware configuration of each device according to this embodiment will be described.
(ビデオ会議端末ハードウェア構成)
図6は、一実施形態に係るビデオ会議端末のハードウェア構成の例を示す図である。ビデオ会議端末101は、例えば、CPU(Central Processing Unit)601、ROM(Read Only Memory)602、RAM(Random Access Memory)603、SSD(Solid State Drive)604、ネットワークI/F(Interface)605、外部機器接続I/F606、ディスプレイI/F607、操作部608、映像コーデック609、音処理ユニット610、マイクアレイ611、スピーカ612、映像処理ユニット613、カメラ614a、614b、・・・、映像遅延バッファ615、及びバス616等を有する。 (Videoconferencing terminal hardware configuration)
6 is a diagram showing an example of a hardware configuration of a video conference terminal according to an embodiment. The
CPU601は、所定のプログラムを実行することにより、ビデオ会議端末101が備える様々な機能を制御する演算装置(プロセッサ)である。ROM602は、例えば、CPU601の起動に用いられるプログラム等を記憶する不揮発性のメモリである。RAM603は、例えば、CPU601のワークエリア等として用いられる揮発性のメモリである。SSD604は、例えば、ビデオ会議端末101用のプログラム、データ、又は設定情報等を記憶するストレージデバイスの一例である。The
ネットワークI/F605は、ビデオ会議端末101を、例えば、通信ネットワーク2等に接続するための通信インタフェースである。外部機器接続I/F606は、ビデオ会議端末101に、様々な外部機器を接続するためのインタフェースである。ここで、外部機器には、例えば、ビデオ会議端末101が作成した録画映像を録画するための外部記憶装置等が含まれる。ディスプレイI/F607は、ビデオ会議端末101に表示装置102等を接続するためのインタフェースである。操作部608は、例えば、操作ボタン、スイッチ、又はタッチパネル等の、利用者の操作を受け付ける入力デバイスである。The network I/
映像コーデック609は、例えば、ビデオ会議で送受信する会議映像を符号化するCoder、及び符号化された会議映像を復号するDecoder等を含む。なお、会議映像の符号化、及び復号はソフトウェアで行われるものであってもよい。The
音処理ユニット610は、例えば、マイクアレイ611を用いて、指向性を制御するビームフォーミング等の様々は音処理を実行するデバイスである。また、音処理ユニット610は、スピーカ612を用いて、会議音声等の様々な音を出力する音処理も実行する。The
映像処理ユニット613は、1つ以上のカメラ614a、614b、・・・から、ビデオ会議端末101の周辺を撮影した画像を取得し、取得した画像に対して、例えば、画像合成、画質補正、又は歪み補正等の画像処理を行うデバイスである。カメラ614a、614b、・・・は、ビデオ会議端末101の周辺の画像を撮影する撮影装置である。映像遅延バッファ615は、カメラで撮影したビデオ会議の第1の映像を所定の時間遅延させた第1映像を生成するバッファである。バス616は、上記の各構成要素に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。The
(ウェブ会議デバイスのハードウェア構成)
ウェブ会議デバイス201は、例えば、図6に示したビデオ会議端末101のハードウェア構成から、ディスプレイI/F607、映像コーデック609を省略したハードウェア構成を有している。ウェブ会議デバイス201は、例えば、外部機器接続I/F606を介して、PC202、又はIWB211に接続される。 (Hardware configuration of web conferencing device)
The
(コンピュータのハードウェア構成)
PC202は、例えば、図7に示すような、コンピュータ700のハードウェア構成を有している。また、会議サーバ10は、例えば、1つ以上のコンピュータ700によって構成される。 (Computer hardware configuration)
The
図7は、一実施形態に係るコンピュータのハードウェア構成を示す図である。コンピュータ700は、例えば、CPU701、ROM702、RAM703、HD(Hard Disk)704、HDD(Hard Disk Drive)コントローラ705、ディスプレイ706、外部機器接続I/F707、ネットワークI/F708、キーボード709、ポインティングデバイス710、DVD-RW(Digital Versatile Disk ReWritable)ドライブ712、メディアI/F714、及び、バスライン715等を備えている。Figure 7 is a diagram showing the hardware configuration of a computer according to one embodiment. The
これらのうち、CPU701は、コンピュータ700の全体の動作を制御する演算装置である。ROM702は、IPL等のCPU701の駆動に用いられるプログラムを記憶する不揮発性のメモリである。RAM703は、CPU701のワークエリア等として使用される揮発性のメモリである。HD704は、OS(Operating System)やアプリケーション等のプログラムや、各種のデータ等を記憶する大容量の記憶装置である。HDDコントローラ705は、CPU701の制御にしたがってHD704に対する各種データの読み出し又は書き込みを制御する。Of these, the
ディスプレイ706は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F707は、各種の外部機器を接続するためのインタフェースである。ネットワークI/F708は、通信ネットワークを利用してデータ通信をするための通信インタフェースである。キーボード709は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス710は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。The
DVD-RWドライブ712は、着脱可能な記録媒体の一例としてのDVD-RW711に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RW711は、DVD-RWに限らず、他の着脱可能な記録媒体であっても良い。メディアI/F714は、フラッシュメモリ等のメディア713に対するデータの読み出し又は書き込み(記憶)を制御する。バスライン715は、図7に示されているCPU701等の各構成要素を電気的に接続するためのアドレスバス、データバス、及び各種の制御信号等を含む。The DVD-
<機能構成>
続いて、本実施形態に係るビデオ会議システム100の機能構成の例について説明する。 <Functional configuration>
Next, an example of the functional configuration of the
図8は、一実施形態に係るウェブ会議システムの機能構成の一例を示す図である。図8の例では、ビデオ会議システム100は、ビデオ会議端末101と、ビデオ会議端末101に接続される表示装置102とを含む。FIG. 8 is a diagram illustrating an example of the functional configuration of a web conference system according to an embodiment. In the example of FIG. 8, a
(ビデオ会議端末の機能構成)
ビデオ会議端末101は、例えば、通信部801、音声取得部802、方向検知部803、映像取得部804、画像検知部805、特定部806、映像遅延部807、録画映像作成部808、録画映像管理部809、会議映像作成部810、UI(User Interface)部811、会議制御部812、表示制御部813、及び音声出力部814等を有する。 (Functional configuration of video conferencing terminal)
The
通信部801は、例えば、CPU601が実行するプログラム、及びネットワークI/F605等によって実現され、ビデオ会議端末101を通信ネットワーク2に接続し、会議サーバ10等の他の装置と通信する通信処理を実行する。The
音声取得部802は、例えば、CPU601が実行するプログラム、マイクアレイ611、及び音処理ユニット610等によって実現され、ビデオ会議端末101の周辺の音声を取得する音声取得処理を実行する。また、音声取得部802は、例えば、マイクアレイ611によるビームフォーミング、取得した音声の音質調整、又は取得した音声の音量調整等も行う。The
方向検知部803は、例えば、CPU601が実行するプログラム、及び音処理ユニット610等によって実現され、音声取得部802がマイクアレイ611で取得したビデオ会議の音声に基づいて音の方向を検知する方向検知処理を実行する。例えば、方向検知部803は、マイクアレイ611の複数のマイクで取得した音声データを解析して、音源がどの方向にあるかを推定する。The
映像取得部804は、例えば、CPU601が実行するプログラム、1つ以上のカメラ614a、614b、・・・、及び映像処理ユニット613等によって実現される。映像取得部804は、例えば、ビデオ会議端末101の周辺を撮影した第1の映像を取得する映像取得処理を実行する。また、映像取得部804は、取得した第1の映像の画質補正、又は歪み補正等も行う。The
画像検知部805は、例えば、CPU601が実行するプログラム、及び映像処理ユニット等によって実現され、映像取得部804が、1つ以上のカメラ614a、614b、・・・で撮影した第1の映像から人物の画像を検知する画像検知処理を実行する。例えば、画像検知部805は、入力した映像から、人物が映っている領域を推定するように、予め機械学習した学習済の機械学習モデル等を用いて、人物が映っている領域を推定することにより、人物の画像を検知してもよい。The
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。Here, machine learning refers to a technology that allows a computer to acquire human-like learning capabilities, in which the computer autonomously generates algorithms necessary for judgments such as data identification from training data that is previously loaded, and applies these to new data to make predictions. The learning method for machine learning may be any of supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, and deep learning, or may be a combination of these learning methods; any learning method for machine learning is acceptable.
なお、画像検知部805は、例えば、公知のパターン認識技術等を用いて、映像取得部804が取得した第1の映像から、人物の画像を検知してもよい。In addition, the
特定部806は、例えば、CPU601が実行するプログラム等によって実現される。特定部806は、方向検知部803が検知した音の方向と、画像検知部805が検知した人物の画像とに基づいて、自拠点で発話した利用者、及び自拠点で発話した人物の発話順序を特定する特定処理を実行する。The
映像遅延部807は、例えば、CPU601が実行するプログラム、及び映像遅延バッファ615等によって実現され、映像取得部804が取得した第1の映像を所定の時間遅延させて、第2の映像を出力する映像遅延処理を実行する。例えば、映像遅延部807は、第1の映像を所定の時間保持した後に、第2の映像を出力する映像遅延バッファ615に、第1の映像を入力する。The
録画映像作成部808は、例えば、CPU601が実行するプログラム、及び映像処理ユニット等によって実現される。録画映像作成部808は、第1の映像を所定の時間遅延させた第2の映像から、特定部806が特定した発話順序に基づいて、例えば、図5(A)~(D)で説明した録画映像510、520、530、540等を作成する録画映像作成処理を実行する。なお、録画映像作成部808が実行する録画映像作成処理については、複数の実施形態を例示して後述する。The recorded
録画映像管理部809は、例えば、CPU601が実行するプログラム等によって実現され、録画映像作成部808が作成した録画映像を、例えば、SSD604、又は外部機器接続I/F606に接続した外部記憶装置等に録画(記憶)する。The recorded
会議映像作成部810は、例えば、CPU601が実行するプログラム、及び映像処理ユニット等によって実現される。会議映像作成部810は、第1の映像から、例えば、図4(A)~(D)で説明した会議映像410、420、430、440等を作成する会議映像作成処理を実行する。The conference
UI部811は、例えば、CPU601が実行するプログラム、及び操作部608等によって実現され、利用者によるビデオ会議端末101に対する様々な操作を受け付ける。The
会議制御部812は、例えば、CPU601が実行するプログラム、及び映像コーデック609等によって実現され、通信部801を介して会議サーバ10に接続し、他のビデオ会議システム110とビデオ会議を行う会議制御処理を実行する。例えば、会議制御部812は、ビデオ会議中に、会議映像作成部810が作成した会議映像を、会議サーバ10を介して、他のビデオ会議システム110に送信する。また、会議制御部812は、会議サーバ10を介して、他のビデオ会議システム110から会議映像を受信する。なお、会議制御部812は、既存の様々なビデオ会議、又はウェブ会議の仕組みを利用するものであってよい。The
表示制御部813は、例えば、CPU601が実行するプログラム、及びディスプレイI/F607等によって実現され、会議制御部812が他のビデオ会議システム110から受信した会議映像を、表示装置102等に表示させる。The
音声出力部814は、例えば、CPU601が実行するプログラム、音処理ユニット610、及びスピーカ612等によって実現される。音声出力部814は、例えば、会議制御部812が他のビデオ会議システム110から受信した会議映像に含まれる会議音声を出力する音声出力処理を実行する。なお、音声出力部814は、表示装置102が備えるスピーカ等によって実現されるものであってもよい。The
図9は、一実施形態に係るウェブ会議システムの機能構成の別の一例を示す図である。図8で説明したビデオ会議端末101の各機能構成は、例えば、図9に示すように、ウェブ会議デバイス201と、PC202に、分散して設けられていてもよい。また、PC202は、IWB211等のウェブ会議機能を有する電子機器であってもよい。FIG. 9 is a diagram showing another example of the functional configuration of a web conference system according to an embodiment. The functional configuration of the
(ウェブ会議デバイスの機能構成)
ウェブ会議デバイス201は、例えば、通信部911、音声取得部802、方向検知部803、映像取得部804、画像検知部805、特定部806、映像遅延部807、録画映像作成部808、録画映像管理部809、会議映像作成部810、UI部811、及び音声出力部814等を有する。これらの各機能構成のうち、通信部911以外の機能構成は、図8で説明した各機能構成と同様なので、ここでは説明を省略する。 (Web conferencing device functional configuration)
The
通信部911は、例えば、ウェブ会議デバイス201が備えるCPUが実行するプログラム、及び外部機器接続I/F等によって実現され、PC202(又はIWB211等)と通信する通信処理を実行する。例えば、通信部911は、会議映像作成部810が作成した会議映像を、PC202等に送信する。また、通信部911は、PC202等から他のビデオ会議システム110からの会議映像に含まれる会議音声を受信し、音声出力部814に出力する。The
(PCの機能構成)
PC202は、例えば、第1の通信部901、第2の通信部902、UI部903、会議制御部812、及び表示制御部813等を有する。 (Functional configuration of PC)
The
第1の通信部901は、例えば、CPU701が実行するプログラム、及びネットワークI/F708等によって実現され、PC202を通信ネットワーク2に接続し、会議サーバ10等の他の装置と通信する第1の通信処理を実行する。The
第2の通信部902は、例えば、CPU701が実行するプログラム、及び外部機器接続I/F707等によって実現され、外部機器接続I/F707に接続されたウェブ会議デバイス201等と通信する第2の通信処理を実行する。The
UI部903は、例えば、CPU701が実行するプログラム等によって実現され、PC202に対する利用者の操作を受け付ける。The
会議制御部812は、例えば、CPU701が実行するプログラム等によって実現され、第1の通信部901を介して会議サーバ10に接続し、他のビデオ会議システム110とビデオ会議を行う会議制御処理を実行する。例えば、会議制御部812は、第2の通信部902が、ウェブ会議デバイス201から受信した会議映像を、会議サーバ10を介して、他のビデオ会議システム110に送信する。また、会議制御部812は、会議サーバ10を介して、他のビデオ会議システム110から会議映像を受信し、受信した会議映像を表示制御部813に表示させる。さらに、会議制御部812は、受信した会議映像に含まれる会議音声をウェブ会議デバイス201に送信して、会議音声を出力させる。The
なお、図8、9に示したビデオ会議システム100の機能構成は一例である。例えば、図8、9に示した各装置が備える各機能構成は、ビデオ会議システム100に含まれるいずれの装置が備えていてもよい。Note that the functional configuration of the
<処理の流れ>
続いて、本実施形態に係る録画映像作成方法の処理の流れについて説明する。 <Processing flow>
Next, the process flow of the recorded video creating method according to this embodiment will be described.
(会議映像、及び録画映像の作成処理)
図10は、一実施形態に係る会議映像、及び録画映像の作成処理の例を示すフローチャートである。この処理は、他のビデオ会議システム110とビデオ会議中に、ビデオ会議システム100が実行する会議映像の作成処理、及び録画映像の作成処理の概要を示している。 (Creation of meeting video and recorded video)
10 is a flowchart showing an example of a process for creating a conference video and a recorded video according to an embodiment. This process shows an overview of a process for creating a conference video and a recorded video executed by the
ステップS1001において、方向検知部803は、音声取得部802がマイクアレイ611で取得した音声に基づいて音の方向を検知する。In step S1001, the
ステップS1102において、画像検知部805は、1つ以上のカメラ614a、614b、・・・で撮影した第1の映像から人物の画像を検知する。例えば、画像検知部805は、自拠点でビデオ会議に参加している人物の画像を検知する。In step S1102, the
ステップS1103において、特定部806は、方向検知部803が検知した音の方向と、画像検知部805が検知した人物の画像とに基づいて、自拠点で発話した利用者、及び自拠点で発話した人物の発話順序を特定する。In step S1103, the
ステップS1104において、会議映像作成部810は、第1の映像から、他の利用者より後に発話した所定の数の利用者の画像をクローズアップ表示エリア302に表示する会議映像を作成する。なお、ここでは、所定の数が「3」であるものとして以下の説明を行う。In step S1104, the conference
例えば、図1の自拠点において、利用者A、利用者B、利用者Cの順に発話したものとする。この場合、会議映像作成部810は、図3に示すように、他の利用者(利用者D)より後に発話した3人の利用者(利用者A、利用者B、利用者C)の画像をクローズアップ表示エリア302に表示する会議映像300を作成する。For example, assume that at the home location in FIG. 1, users A, B, and C speak in that order. In this case, the conference
ステップS1005において、会議映像作成部810は、作成した会議映像を、例えば、会議制御部812に出力する。これにより、会議制御部812は、会議映像作成部810が出力した会議映像を、自拠点の会議映像として、会議サーバ10を介して他のビデオ会議システム110に送信する。In step S1005, the conference
また、録画映像作成部808は、ステップS1004、S1005の処理とは別に、ステップS1006の処理を実行する。ステップS1006において、録画映像作成部808は、第1の映像を遅延させた第2の映像から、発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像をクローズアップ表示エリア302に表示する録画映像を作成する。例えば、録画映像作成部808は、図5(A)~(D)で説明した録画映像510、520、530、540等を作成する。The recorded
ステップS1007において、録画映像管理部809は、録画映像作成部808が作成した録画映像を、例えば、SSD604、又は外部機器接続I/F606に接続された外部記憶装置等に録画(記憶)する。In step S1007, the recorded
図10の処理により、ビデオ会議システム100は、第1の映像に基づいて、例えば、図4(A)~(D)で説明した会議映像を作成するとともに、第2の映像に基づいて、例えば、図5(A)~(D)で説明した録画映像を作成する。By the process of FIG. 10, the
(録画映像の作成処理)
続いて、例えば、図10のステップS1006において、ビデオ会議システム100が実行する録画映像の作成処理の例について、複数の実施形態を例示して説明する。 (Recorded video creation process)
Next, an example of the process of creating a recorded video executed by the
[第1の実施形態]
図11は、第1の実施形態に係る録画映像の作成処理の例を示すフローチャートである。この処理は、例えば、図10のステップS1006において、録画映像作成部808が実行する録画映像の作成処理の一例を示している。 [First embodiment]
Fig. 11 is a flowchart showing an example of a process for creating a recorded video according to the first embodiment. This process shows an example of a process for creating a recorded video executed by the recorded
ステップS1101において、第1の映像を所定の時間遅延させた第2の映像において、新たに第1の利用者が発話すると、録画映像作成部808は、ステップS1102以降の処理を実行する。In step S1101, when the first user newly speaks in the second video, which is the first video delayed by a predetermined time, the recorded
ステップS1102において、録画映像作成部808は、所定のエリアの表示枠に空きがあるか否かを判断する。例えば、録画映像作成部808は、図5(A)に示すような録画映像510のクローズアップ表示エリア302に空きがあるか否かを判断する。なお、クローズアップ表示エリア302は、所定のエリアの一例である。図5(A)の例では、全ての表示枠302-1、302-2、302-3に利用者が表示されているので、録画映像作成部808は空きがないと判断する。In step S1102, the recorded
所定のエリアの表示枠に空きがある場合、録画映像作成部808は、処理をステップS1103に移行させる。一方、所定のエリアの表示枠に空きがない場合、録画映像作成部808は、処理をステップS1104に移行させる。If there is free space in the display frame of the specified area, the recorded
ステップS1103に移行すると、録画映像作成部808は、空いている表示枠に第1の利用者の画像をクローズアップ表示した録画映像を作成する。When the process proceeds to step S1103, the recorded
一方、ステップS1104に移行すると、録画映像作成部808は、第1の利用者の画像が所定のエリアに表示されているか否かを判断する。例えば、図5(A)に示すような録画映像510の状態から、第2の映像において新たに利用者Aが発話したものとする。この場合、クローズアップ表示エリア302には、既に利用者Aの画像が表示されているので、録画映像作成部808は、第1の利用者の画像が所定のエリアに表示されていると判断する。On the other hand, when the process proceeds to step S1104, the recorded
第1の利用者の画像が所定のエリアに表示されている場合、録画映像作成部808は、処理をステップS1105に移行させる。一方、第1の利用者の画像が所定のエリアに表示されていない場合、録画映像作成部808は、処理をステップS1106に移行させる。If the image of the first user is displayed in the specified area, the recorded
ステップS1105に移行すると、録画映像作成部808は、現在の所定のエリアのレイアウトを維持して、録画映像を作成する。例えば、図5(B)に示すような録画映像520の状態から、第2の映像において新たに利用者Aが発話したものとする。この場合、録画映像作成部808は、クローズアップ表示エリア302のレイアウトを変更せずに、例えば、図5(C)に示すような録画映像530を作成する。When the process proceeds to step S1105, the recorded
一方、ステップS1106に移行すると、録画映像作成部808は、特定部806が特定した発話順序に基づいて、第1の利用者の次に発話する第2の利用者の画像が、所定のエリアに表示されているか否かを判断する。第2の利用者の画像が、所定のエリア(クローズアップ表示エリア302)に表示されている場合、録画映像作成部808は、処理をステップS1107に移行させる。一方、第2の利用者の画像が、所定のエリアに表示されていない場合、録画映像作成部808は、処理をステップS1108に移行させる。On the other hand, when the process proceeds to step S1106, the recorded
ステップS1107に移行すると、録画映像作成部808は、第2の利用者の画像の表示枠を維持する。When proceeding to step S1107, the recorded
ステップS1108に移行すると、録画映像作成部808は、特定部806が特定した発話順序に基づいて、第2の利用者の次に発話する第3の利用者の画像が、所定のエリアに表示されているか否かを判断する。第3の利用者の画像が、所定のエリア(クローズアップ表示エリア302)に表示されている場合、録画映像作成部808は、処理をステップS1109に移行させる。一方、第3の利用者の画像が、所定のエリアに表示されていない場合、録画映像作成部808は、処理をステップS1110に移行させる。When the process proceeds to step S1108, the recorded
ステップS1109に移行すると、録画映像作成部808は、第3の利用者の画像の表示枠を維持する。When proceeding to step S1109, the recorded
ステップS1110において、録画映像作成部808は、残りの表示枠のうち、タイムスタンプが最も古い表示枠に、第1の利用者の画像をクローズアップ表示する録画映像を作成する。例えば、各表示枠には、最後に画像を更新した時刻を示すタイムスタンプ等が付加されているものとする。In step S1110, the recorded
図12の処理により、録画映像作成部808は、第1の利用者が発話したときに、第2の利用者の画像が所定のエリアに表示されている場合、少なくとも第1の利用者の画像と第2の利用者画像とを所定のエリアに表示する録画映像を作成する。By the process of FIG. 12, if an image of a second user is displayed in a specified area when a first user speaks, the recorded
また、録画映像作成部808は、第1の利用者が発話したときに、第3の利用者の画像が所定のエリアに表示されている場合、少なくとも第1の利用者の画像と第3の利用者画像とを所定のエリアに表示する録画映像を作成する。In addition, if an image of a third user is displayed in a specified area when the first user speaks, the recorded
さらに、録画映像作成部808は、第1の利用者が発話したときに、第2の利用者の画像と第3の利用者の画像が所定のエリアに表示されている場合、第1の利用者の画像と第2の利用者画像と第3の利用者の画像とを所定のエリアに表示する録画映像を作成する。Furthermore, if an image of a second user and an image of a third user are displayed in a specified area when the first user speaks, the recorded
また、録画映像作成部808は、第1の利用者が発話したときに、第1の利用者の画像が所定のエリアに表示されている場合、所定のエリアの表示を変更せずに、録画映像を作成する。In addition, if an image of the first user is displayed in a specified area when the first user speaks, the recorded
[第2の実施形態]
図12は、第2の実施形態に係る録画映像の作成処理の例を示すフローチャートである。この処理は、例えば、図10のステップS1006において、録画映像作成部808が実行する録画映像の作成処理の別の一例を示している。この処理は、図11で説明した第1実施形態に係る録画映像の作成処理のステップS1101の次に、ステップS1201の処理が追加されている。なお、ステップS1102以降の処理は、第1の実施形態に係る録画映像の作成処理と同様なので、ここでは説明を省略する。 Second Embodiment
Fig. 12 is a flowchart showing an example of a process for creating a recorded video according to the second embodiment. This process shows another example of the process for creating a recorded video executed by the recorded
ステップS1101において、第1の映像を所定の時間遅延させた第2の映像において、新たに第1の利用者が発話すると、録画映像作成部808は、ステップS1201の処理を実行する。In step S1101, when the first user newly speaks in the second video, which is the first video delayed by a predetermined time, the recorded
ステップS1201において、録画映像作成部808は、第2の映像における第1の利用者の発話時間が所定の時間(例えば、1秒~3秒程度)未満であるか否かを判断する。ここで、第2の映像は、第1の映像を遅延させた映像なので、ビデオ会議システム100は、第1の映像に基づいて、第1利用者の発話時間を予め取得しておくことができる。また、録画映像の作成には即時性は求められないため、録画映像作成部808は、所定の時間待機することにより、第2の映像から第1の利用者の発話時間が、所定の時間未満であるか否かを判断してもよい。In step S1201, the recorded
発話時間が所定の時間未満でない場合、録画映像作成部808は、ステップS1102以降の処理を実行する。一方、発話時間が所定の時間未満である場合、録画映像作成部808は、処理をステップS1105に移行させる。If the speaking time is not less than the predetermined time, the recorded
図12の処理により、ビデオ会議システム100は、第1の利用者の発話時間が所定の時間未満である場合、クローズアップ表示エリア302のレイアウトを維持して録画映像を作成する。従って、所定の時間に適切な時間を設定することにより、ビデオ会議システム100は、例えば、「はい」、「いいえ」等の短い発話により、クローズアップ表示される発話者が頻繁に切り替わることを抑制することができる。By the process of FIG. 12, if the speaking time of the first user is less than the predetermined time, the
[第3の実施形態]
図13は、第3の実施形態に係る録画映像の作成処理の例を示すフローチャートである。この処理は、例えば、図10のステップS1006において、ビデオ会議システム100が実行する録画映像の作成処理のより具体的な処理の一例を示している。なお、ここでは、ビデオ会議システム100が、図8に示すように、ビデオ会議端末101と表示装置によって構成されているものとして、以下の説明を行う。 [Third embodiment]
Fig. 13 is a flowchart showing an example of a process for creating a recorded video according to the third embodiment. This process shows a more specific example of the process for creating a recorded video executed by the
ステップS1301において、ビデオ会議システム100は、システムを初期設定する。例えば、ビデオ会議システム100は、ビデオ会議端末101を初期化する。In step S1301, the
ステップS1302において、ビデオ会議端末101は、カメラ614-1、614-2、・・・、マイクアレイ611、及びスピーカ612等を初期化する。In step S1302, the
ステップS1303において、ビデオ会議端末101は、他のビデオ会議システム100との接続を確認して、ビデオ会議を開始する。また、ビデオ会議端末101は、録画条件を設定して録画を開始する。好ましくは、録画は任意のタイミングで中断、又は中止することができる。In step S1303, the
ステップS1304、ステップS1305において、第2の映像で利用者Aが発話すると、ビデオ会議端末101は、録画映像において、利用者Aをクローズアップ表示エリア302にクローズアップ表示する。なお、ここでは、クローズアップ表示エリア302に、3つ表示枠があるものとする。In steps S1304 and S1305, when user A speaks in the second video, the
ステップS1306、S1307において、第2の映像で利用者Bが発話すると、ビデオ会議端末101は、録画映像において、利用者Bをクローズアップ表示エリア302にクローズアップ表示する。In steps S1306 and S1307, when user B speaks in the second video, the
ステップS1308、S1309において、第2の映像で利用者Cが発話すると、ビデオ会議端末101は、録画映像において、利用者Cをクローズアップ表示エリア302にクローズアップ表示する。ここで、録画映像のクローズアップ表示エリア302には、利用者Aの画像、利用者Bの画像、及び利用者Cの画像が表示される。In steps S1308 and S1309, when user C speaks in the second video, the
ステップS1310において、ビデオ会議端末101は、クローズアップ表示エリア302の全ての表示枠に利用者が表示されると、特定部806が特定した発話順序を取得し、クローズアップ表示エリア302の優先度を決定(更新)するものとする。なお、図13において、発話順序(-->D-->A)は、次に発話する利用者が利用者Dであり、利用者Dの次に発話する利用者が利用者Aであることを示している。ここでは、今後の話者が、D-->A-->B-->C-->E-->Aの順に推移するものとして以下の説明を行う。また、優先度(B>A>C)は、利用者Bの画像が表示されている表示枠の優先度が最も高く、利用者Cの画像が表示されている表示枠の優先度が最も低いことを表している。In step S1310, when users are displayed in all display frames of the close-up
ステップS1311、S1312において、第2の映像で利用者Dが発話すると、ビデオ会議端末101は、発話順序(-->A-->B)を取得し、利用者A、B、Cの優先度を決定する。例えば、発話順序(-->A-->B)から、利用者A、Bの優先度は利用者Cより高くすべきであり、AがBより先に発話することから、ビデオ会議端末101は、優先度を(A>B>C)に決定する。In steps S1311 and S1312, when user D speaks in the second video, the
ステップS1313において、ビデオ会議端末101は、優先度がもっとも低い、利用者Cの画像が表示されている表示枠302-3に、利用者Dの画像をクローズアップ表示する。これにより、例えば、図5(A)に示すような録画映像510が作成される。また、ステップS1314において、ビデオ会議端末101は、優先度を(A>B>D)に更新する。In step S1313, the
ステップS1315、S1316において、第2の映像で利用者Aが発話すると、録画映像510のクローズアップ表示エリア302に、利用者Aの画像が既に表示されているので、ビデオ会議端末101は、クローズアップ表示エリア302のレイアウトを維持する。これにより、例えば、図5(B)に示すような録画映像520が作成される。In steps S1315 and S1316, when user A speaks in the second video, since an image of user A is already displayed in the close-up
ステップS1317において、ビデオ会議端末101は、発話順序(-->B-->C)を取得し、利用者A、B、Dの優先度を決定する。例えば、発話順序(-->B-->C)から、利用者Bの優先度は利用者A、Dより高くすべきであり、利用者Dは、利用者Aより過去の発話者になるので、ビデオ会議端末101は、優先度を(B>A>D)に更新する。In step S1317, the
ステップS1318、S1319において、第2の映像で利用者Bが発話すると、録画映像510のクローズアップ表示エリア302に、利用者Bの画像が既に表示されているので、ビデオ会議端末101は、クローズアップ表示エリア302のレイアウトを維持する。これにより、例えば、図5(C)に示すような録画映像530が作成される。In steps S1318 and S1319, when user B speaks in the second video, since an image of user B is already displayed in the close-up
ステップS1320において、ビデオ会議端末101は、発話順序(-->C-->E)を取得し、利用者A、B、Dの優先度を決定する。例えば、発話順序(-->C-->E)から、優先度を高くすべき利用者はいないので、ビデオ会議端末101は、過去の発話順序が遅い順に、優先度を(B>A>D)に更新する。In step S1320, the
ステップS1321、S1322において、第2の映像で利用者Cが発話すると、ビデオ会議端末101は、発話順序(-->E-->A)を取得し、利用者A、B、Dの優先度を決定する。例えば、発話順序(-->E-->A)から、利用者Aの優先度は利用者B、Dより高くすべきであり、利用者Dは、利用者Bより過去の発話者になるので、ビデオ会議端末101は、優先度を(A>B>D)に決定する。In steps S1321 and S1322, when user C speaks in the second video, the
ステップS1323において、ビデオ会議端末101は、優先度がもっとも低い、利用者Dの画像が表示されている表示枠302-3に、利用者Cの画像をクローズアップ表示する。これにより、例えば、図5(D)に示すような録画映像540が作成される。また、ステップS1324において、ビデオ会議端末101は、利用者A、B、Cの優先度を更新する。好ましくは、利用者Bは、利用者Cより過去の発話者になるので、ビデオ会議端末101は、優先度を(A>C>B)に更新する。
ビデオ会議端末101は、録画完了まで、同様の処理を繰り返し実行する。 In step S1323, the
The
(優先度の決定処理)
図14は、第3の実施形態にかかる優先度の決定処理の例を示すフローチャートである。この処理は、例えば、図13のステップS1310、S1313、S1316、S1319等において、ビデオ会議端末101が実行する優先度の決定処理の一例を示している。 (Priority Determination Process)
Fig. 14 is a flowchart showing an example of a priority determination process according to the third embodiment. This process shows an example of a priority determination process executed by the
なお、図14に示す処理の開始時点において、利用者Zが新たにクローズアップ表示エリア302に表示され、クローズアップ表示エリア302に利用者Xの画像、利用者Yの画像、利用者Zの画像が表示されている状態であるものとする。At the start of the process shown in FIG. 14, user Z is newly displayed in close-up
ステップS1401において、ビデオ会議端末101は、利用者X、又は利用者Yが次の発話者であるか否かを判断する。利用者X、又は利用者Yが次の発話者である場合、ビデオ会議端末101は、処理をステップS1402に移行させる。一方、利用者Xも利用者Yも次の発話者でない場合、ビデオ会議端末101は、処理をステップS1405に移行させる。In step S1401, the
ステップS1402に移行すると、ビデオ会議端末101は、利用者X、又は利用者Yが次の次の発話者であるか否かを判断する。利用者X、又は利用者Yが次の次の発話者である場合、ビデオ会議端末101は、処理をステップS1403に移行させる。一方、利用者Xも利用者Yも次の次の発話者でない場合、ビデオ会議端末101は、処理をステップS1404に移行させる。When the process proceeds to step S1402, the
ステップS1403に移行すると、ビデオ会議端末101は、利用者Xが次の発話者であるか否かを判断する。利用者Xが次の発話者である場合、ビデオ会議端末101は、優先度を「X>Y>Z」に決定する。一方、利用者Xが次の発話者でない場合、ビデオ会議端末101は、優先度を「Y>X>Z」に決定する。When the process proceeds to step S1403, the
ステップS1404に移行すると、ビデオ会議端末101は、利用者Xが次の発話者であるか否かを判断する。利用者Xが次の発話者である場合、ビデオ会議端末101は、優先度を「X>Z>Y」に決定する。一方、利用者Xが次の発話者でない場合、ビデオ会議端末101は、優先度を「Y>Z>X」に決定する。When the process proceeds to step S1404, the
ステップS1405に移行すると、ビデオ会議端末101は、利用者X、又は利用者Yが次の次の発話者であるか否かを判断する。利用者X、又は利用者Yが次の次の発話者である場合、ビデオ会議端末101は、処理をステップS1406に移行させる。一方、利用者Xも利用者Yも次の次の発話者でない場合、ビデオ会議端末101は、処理をステップS1407に移行させる。When the process proceeds to step S1405, the
ステップS1406に移行すると、ビデオ会議端末101は、利用者Xが次の次の発話者であるか否かを判断する。利用者Xが次の次の発話者である場合、ビデオ会議端末101は、優先度を「X>Z>Y」に決定する。一方、利用者Xが次の次の発話者でない場合、ビデオ会議端末101は、優先度を「Y>Z>X」に決定する。When the process proceeds to step S1406, the
ステップS1407に移行すると、ビデオ会議端末101は、利用者Yが利用者Xより過去の発話者であるか否かを判断する。利用者Yが利用者Xより過去の発話者である場合、ビデオ会議端末101は、優先度を「Z>X>Y」に決定する。一方、利用者Yが利用者Xより過去の発話者でない場合、ビデオ会議端末101は、優先度を「Z>Y>X」に決定する。When the process proceeds to step S1407, the
図13の処理により、ビデオ会議端末101は、発話順序に基づいて、次の発話者と、次の次の発話者が優先順位の上位にくるように、利用者X、利用者Y、利用者Zの優先順位を決定(更新)することができる。ただし、図13に示した処理は一例である。ビデオ会議端末101は、発話順序に基づいて、次の発話者と次の次の発話者が優先順位の上位にくるように、他の方法で利用者の優先順位を決定してもよい。By the process of FIG. 13, the
(会議映像、及び録画映像のイメージ)
図15は、一実施形態に係る会議映像の作成処理のイメージを示す図である。会議映像作成部810は、例えば、図15に示すように、音声データ、及びカメラ映像ストリームと同じタイミングで会議映像を作成する。今までは、この会議映像をそのまま録画していたため、例えば、クローズアップ表示エリア302に表示される利用者の画像が頻繁に切り替わるという問題がある。また、この方法では、話者検知に要する時間t等により、新たに発話した話者が、クローズアップ表示されるまでに遅延が発生するという問題もある。 (Images of the meeting video and recorded video)
Fig. 15 is a diagram showing an image of a conference video creation process according to an embodiment. The conference
図16は、一実施形態に係る録画映像の作成処理のイメージを示す図である。録画映像作成部808は、例えば、図16に示すように、カメラ映像ストリームを所定の時間(録画映像遅延時間)遅延させたカメラ映像ストリームを用いて、録画映像のレイアウトを行う。これにより、録画映像作成部808は、予め特定した発話順序に基づいて、クローズアップ表示エリア302に表示される利用者の画像の切り替わり頻度が少なくなるように、録画映像のレイアウトを行うことができる。また、この方法では、話者検知に要する時間tの影響を受けないので、新たに発話した話者が、クローズアップ表示されるまでに遅延も解消することができる。Figure 16 is a diagram showing an image of the process of creating recorded video according to one embodiment. For example, as shown in Figure 16, the recorded
以上、本発明の各実施形態によれば、直近の複数の発話者をクローズアップ表示するビデオ会議システム100において、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供することができる。As described above, according to each embodiment of the present invention, in a
<補足>
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。 <Additional Information>
Each function of each embodiment described above can be realized by one or more processing circuits. Here, the term "processing circuit" in this specification includes a processor programmed to execute each function by software, such as a processor implemented by an electronic circuit, and devices such as an ASIC (Application Specific Integrated Circuit), a DSP (digital signal processor), an FPGA (field programmable gate array), and a conventional circuit module designed to execute each function described above.
<付記>
本明細書には、下記の各項のビデオ会議システム、及び録画映像作成方法が開示されている。
(第1項)
ビデオ会議の映像を録画するビデオ会議システムであって、
マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知部と、
1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知部と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、
を有する、ビデオ会議システム。
(第2項)
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の次に発話する第2の利用者の画像が前記所定のエリアに表示されている場合、少なくとも前記第1の利用者の画像と前記第2の利用者画像とを前記所定のエリアに表示する前記録画映像を作成する、第1項に記載のビデオ会議システム。
(第3項)
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の次に発話する第2の利用者の次に発話する第3の利用者の画像が前記所定のエリアに表示されている場合、少なくとも前記第1の利用者の画像と前記第3の利用者の画像とを前記所定のエリアに表示する前記録画映像を作成する、第1項又は第2項に記載のビデオ会議システム。
(第4項)
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の画像が前記所定のエリアに表示されている場合、前記所定のエリアの表示を変更せずに、前記録画映像を作成する、第1項~第3項のいずれかに記載のビデオ会議システム。
(第5項)
前記録画映像作成部は、前記第2の映像において、利用者の発話時間が所定の時間未満である場合、前記所定のエリアの表示を変更せずに、前記録画映像を作成する、第1項~第4項のいずれかに記載のビデオ会議システム。
(第6項)
前記第1の映像から、他の利用者よりも後に発話した前記所定の数の利用者の画像を前記所定のエリアに表示する前記ビデオ会議の会議映像を作成する会議映像作成部を有する、第1項~第5項のいずれかに記載のビデオ会議システム。
(第7項)
前記録画映像作成部は、前記所定のエリアに表示される利用者の画像の変化が、前記会議映像より少ない前記録画映像を作成する、第6項に記載のビデオ会議システム。
(第8項)
前記第1の映像を前記所定の時間保持した後に、前記第2の映像を出力する遅延バッファを有する、第1項~第7項のいずれかに記載のビデオ会議システム。
(第9項)
ビデオ会議を制御する第1の装置と、マイクアレイと1つ以上のカメラとを備え、第1の装置に接続される第2の装置と、を含み前記ビデオ会議の映像を録画するビデオ会議システムであって、
前記第2の装置は、
前記マイクアレイで取得した音声に基づいて音の方向を検知する方向検知部と、
前記カメラで撮影した第1の映像から人物の画像を検知する画像検知部と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、
を有する、ビデオ会議システム。
(第10項)
ビデオ会議の映像を録画するビデオ会議システムが、
マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知処理と、
1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知処理と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定処理と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成処理と、
を実行する、録画映像作成方法。 <Additional Notes>
This specification discloses the following video conference system and video recording method.
(Section 1)
A video conferencing system for recording video of a video conference, comprising:
a direction detection unit that detects a direction of a sound based on the sound of the video conference acquired by a microphone array;
an image detection unit for detecting an image of a person from a first video of the video conference captured by one or more cameras;
an identification unit that identifies a speech order of users participating in the video conference using the video conference system based on the direction of the sound and the image of the person;
a recorded video creation unit that creates a recorded video of the video conference from a second video obtained by delaying the first video by a predetermined time, the recorded video displaying images of a predetermined number of users including a first user who has recently spoken in a predetermined area based on the order of speech;
A video conferencing system comprising:
(Section 2)
The video conferencing system described in
(Section 3)
The video conferencing system described in
(Section 4)
A video conferencing system as described in any of
(Section 5)
A video conferencing system as described in any one of
(Section 6)
6. The video conference system according to any one of
(Section 7)
7. The video conference system according to
(Section 8)
8. The video conference system according to any one of
(Section 9)
1. A video conferencing system including a first device for controlling a video conference, and a second device having a microphone array and one or more cameras and connected to the first device, for recording a video of the video conference,
The second device comprises:
a direction detection unit that detects a direction of a sound based on the sound acquired by the microphone array;
an image detection unit that detects an image of a person from a first image captured by the camera;
an identification unit that identifies a speech order of users participating in the video conference using the video conference system based on the direction of the sound and the image of the person;
a recorded video creation unit that creates a recorded video of the video conference from a second video obtained by delaying the first video by a predetermined time based on the speech order, the recorded video displaying images of a predetermined number of users including a first user who has recently spoken in a predetermined area;
A video conferencing system comprising:
(Article 10)
A video conferencing system that records video of video conferences
a direction detection process for detecting a direction of a sound based on the audio of the video conference acquired by a microphone array;
an image detection process for detecting an image of a person in a first video of the videoconference captured by one or more cameras;
a process of identifying a speech order of users participating in the video conference using the video conference system based on the direction of the sound and the image of the person;
a recorded video creation process for creating a recorded video of the video conference, which displays images of a predetermined number of users including a first user who has recently spoken in a predetermined area based on the speech order, from a second video obtained by delaying the first video by a predetermined time;
A method for creating recorded footage.
以上、本発明の実施形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、様々な変形、及び応用が可能である。Although the embodiment of the present invention has been described above, the present invention is not limited to such a specific embodiment, and various modifications and applications are possible within the scope of the gist of the present invention described in the claims.
1 通信システム
10 会議サーバ
100 ビデオ会議システム
101 ビデオ会議端末
201 ウェブ会議デバイス(第2の装置)
202 PC(第1の装置)
211 IWB(第1の装置)
302 クローズアップ表示エリア(所定のエリア)
611 マイクアレイ
614-1、614-2 カメラ
615 映像遅延バッファ
803 方向検知部
805 画像検知部
806 特定部
807 映像遅延部
808 録画映像作成部
810 会議映像作成部 1
202 PC (first device)
211 IWB (first device)
302 Close-up display area (predetermined area)
611 Microphone array 614-1, 614-2
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022190715 | 2022-11-29 | ||
| JP2022190715 | 2022-11-29 |
| Publication Number | Publication Date |
|---|---|
| JP2024078382Atrue JP2024078382A (en) | 2024-06-10 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023102537APendingJP2024078382A (en) | 2022-11-29 | 2023-06-22 | Video conference system and method for creating recorded video |
| Country | Link |
|---|---|
| JP (1) | JP2024078382A (en) |
| Publication | Publication Date | Title |
|---|---|---|
| JP7379907B2 (en) | Information processing device, information processing program, information processing system, information processing method | |
| US10848889B2 (en) | Intelligent audio rendering for video recording | |
| CA2874715C (en) | Dynamic video and sound adjustment in a video conference | |
| JP7612991B2 (en) | Systems, methods, and programs for implementing a personal camera that adapts to both local and remote surroundings | |
| CN114641975B (en) | Throttling and prioritization of multi-channel audio and/or multiple data streams for conferencing | |
| EP2514105B1 (en) | Method for controlling external output of a mobile device and corresponding mobile device | |
| WO2019140161A1 (en) | Systems and methods for decomposing a video stream into face streams | |
| CN111937376B (en) | Electronic device, control method thereof, and readable recording medium | |
| CN113676693B (en) | Picture presentation method, video conference system, and readable storage medium | |
| US10444955B2 (en) | Selectable interaction elements in a video stream | |
| JP7427408B2 (en) | Information processing device, information processing method, and information processing program | |
| US20100293469A1 (en) | Providing Portions of a Presentation During a Videoconference | |
| JP2019101754A (en) | Summarization device and method for controlling the same, summarization system, and program | |
| US20210136127A1 (en) | Teleconferencing Device Capability Reporting and Selection | |
| CN111327823A (en) | Video generation method, device and corresponding storage medium | |
| JPH1042264A (en) | Video conference system | |
| JP2025109821A (en) | Meeting device, image creation method, program, and terminal device | |
| JP2023131635A (en) | Display system, display method, imaging apparatus, and program | |
| JP2024078382A (en) | Video conference system and method for creating recorded video | |
| JP6500366B2 (en) | Management device, terminal device, transmission system, transmission method and program | |
| US11451743B2 (en) | Control of image output | |
| CN111816183B (en) | Voice recognition method, device, equipment and storage medium based on audio and video recording | |
| JP2023130822A (en) | Apparatus system, imaging apparatus, and display method | |
| CN116437039A (en) | Surrounding view image conference system and method | |
| JP2003339034A (en) | Network conference system, network conference method, and network conference program |