









本発明は、通信端末、判定方法及びプログラムに関する。The present invention relates to a communication terminal, a determination method, and a program.
  通信端末を用いて会議を行う会議システムが知られている。例えば、特許文献1には、複数のマイクロホンと音声レベル検出手段及び音声データ保存手段を備えるマイクロコンピュータとスピーカとから構成される会議用音声システムが開示されている。Conference systems that use communication terminals to hold conferences are known. For example,
  特許文献1に記載の会議用音声システムには、マイクロホンに音声が捉えられるとミュートが解除されるオートミュート解除装置が備えられている。しかしながら、特許文献1に記載の会議用音声システムでは、単に音声が捉えられたことをしてミュートが解除されるため、ユーザによる発話の意図を含まない音声、例えば咳または物音がマイクに捉えられることで、ユーザが発話を意図しない状態でのミュートの解除が発生し得る。The conference audio system described in
本発明は、上記した点に鑑みてなされたものであり、ユーザの意図に沿った態様でミュート解除に関する動作を行うことが可能な通信端末を提供することを目的とする。The present invention has been made in consideration of the above points, and aims to provide a communication terminal that can perform operations related to unmuting in a manner that meets the user's intentions.
本発明による通信端末は、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成部と、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、前記ミュート状態である場合に、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有し、前記ミュート解除判定部は、前記第1の音声データによって示される音声に所定のキーワードが含まれている場合に前記ミュート状態を解除すべきであると判定することを特徴とする。 The communication terminal of the present invention is a communication terminal capable of constructing an audio transmission/reception system for transmitting and receiving audio data together with other communication terminals, and has an audio data generation unit that generates first audio data from input audio input to the communication terminal, a mute state determination unit that determines whether the communication terminal is in a mute state in which it is not transmitting the first audio data in the audio transmission/reception system, and a mute release determination unit that, when in the mute state, determines whether the mute state should be released based on a first audio level indicating the intensity of the input audio and a second audio level indicatingthe intensity of the audio indicated by second audio data transmitted from the other communication terminal, and is characterized in that the mute release determination unit determines that the mute state should be released when the audio indicated by the first audio data contains a predetermined keyword .
また、本発明による判定方法は、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末による判定方法であって、音声データ生成部が、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成ステップと、ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を有し、前記ミュート解除判定部は、前記第1の音声データによって示される音声に所定のキーワードが含まれている場合に前記ミュート状態を解除すべきであると判定することを特徴とする。 In addition, a judgment method according to the present invention is a judgment method by a communication terminal capable of constructing an audio transmission/reception system for transmitting and receiving audio data together with other communication terminals, and includes an audio data generation step in which an audio data generation unit generates first audio data from input audio input to the communication terminal, a mute state judgment step in which a mute state judgment unit judges whether or not the communication terminal is in a mute state in which the communication terminal is not transmitting the first audio data in the audio transmission/reception system, and a mute unmute judgment step in which, when the mute state judgment unit judges that the communication terminal is in the mute state, a mute unmute judgment unit judges whether or not the mute state should be unmuted based on a first audio level indicating the intensity of the input audio anda second audio level indicating the intensity of the audio indicated by second audio data transmitted from the other communication terminal, and is characterized in that the mute unmute judgment unit judges that the mute state should be unmute if the audio indicated by the first audio data contains a predetermined keyword .
また、本発明によるプログラムは、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末に実行させるプログラムであって、音声データ生成部が、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成ステップと、ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を有し、前記ミュート解除判定部は、前記第1の音声データによって示される音声に所定のキーワードが含まれている場合に前記ミュート状態を解除すべきであると判定するプログラムである。 In addition, the program according to the present inventionis a program to be executed by a communication terminal capable of constructing an audio transmission/reception system for transmitting and receiving audio data together with other communication terminals, the program having an audio data generation step in which an audio data generation unit generates first audio data from input audio input to the communication terminal, a mute state determination step in which a mute state determination unit determines whether the communication terminal is in a mute state in which the communication terminal is not transmitting the first audio data in the audio transmission/reception system, and a mute unmute determination step in which, when the mute state determination unitdetermines that the communication terminal is in the mute state, a mute unmute determination unit determines whether the mute state should be unmuted based on a first audio level indicating the intensity of the input audio and a second audio level indicating the intensity of the audio indicated by second audio data transmitted from the other communication terminal, and the mute unmute determination unit determines that the mute state should be unmute when the audio indicated by the first audio data contains a predetermined keyword .
以下、本発明の実施例について図面を参照しつつ具体的に説明する。なお、図面において、同一の構成要素については同一の符号を付け、重複する構成要素の説明は省略する。The following describes in detail an embodiment of the present invention with reference to the drawings. Note that in the drawings, the same components are given the same reference numerals, and descriptions of duplicated components are omitted.
  図1は、実施例1に係る音声送受信システムとしての会議システム100を示す図である。以下の説明においては、会議システム100が、3台の通信端末10、11及び12と会議サーバ14とがネットワークNWを介して通信可能に接続されて構築されているシステムである場合を説明する。もちろん、会議システム100を構成する通信端末の台数は、図1に示す3台に限られるものではなく、システムの能力が許す限り何台であっても良い。Figure 1 is a diagram showing a
ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、公衆通信回線(公衆回線)等の双方向にデータ通信が可能な有線又は無線の通信ネットワークである。The network NW is, for example, a wired or wireless communication network capable of two-way data communication, such as a WAN (Wide Area Network), a LAN (Local Area Network), or a public communication line (public line).
  通信端末10、11及び12の各々は、ネットワークNWを介して会議サーバ14に接続可能な通信端末である。通信端末10、11及び12の各々は、会議サーバ14によって互いに通信可能に接続されることで、当該会議サーバ14を介して互いに音声データの送受信を行うことができる。本実施例において、通信端末10、11及び12の各々は、音声データの送受信が可能なPC(Personal Computer)である。Each of the
  会議サーバ14は、通信端末10、11及び12の各々とネットワークNWを介して個々に接続を確立し、通信端末10、11及び12の各々を互いに音声データの送受信が可能な状態とする通信装置である。The
  本実施例において、通信端末10、11及び12の各々には、会議システム100を構築するための会議アプリケーションがインストールされている。会議サーバ14は、当該アプリケーションを介した通信端末10、11及び12の各々からの接続要求に応答することにより、通信端末10、11及び12の各々を互いに音声データの送受信が可能な状態にすることができる。In this embodiment, a conference application for constructing the
  なお、当該会議アプリケーションは、例えば、ネットワークNWを介した通信によって通信端末10、11及び12の各々に取得されても良く、DVD等の光ディスクまたはUSB等の記憶媒体を介して取得されてもよい。The conference application may be acquired by each of the
  図2は、通信端末10の構成を示すブロック図である。以下、通信端末11及び12についても通信端末10と同様の構成を有する。Figure 2 is a block diagram showing the configuration of
  制御部15は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を含む処理装置である。CPUは、ROMに記憶された各種プログラムを読み出し実行することにより各種機能を実現する。制御部15は、通信端末10の利用者(以下、ユーザとも称する)による操作に応じて各部への指示及び制御を行う部分である。本実施例では、上記した会議アプリケーションの処理を制御部15が実行する。The
  入力装置16は、通信端末10のユーザからの入力操作を受け付ける入力装置である。入力装置16は、例えば、キーボードやマウスなどの、文字や数字等の情報を入力する入力機器である。The
  マイク17は、通信端末10のユーザの音、例えば当該ユーザが発した音声を収音して電気信号に変換する音声入力装置である。言い換えれば、マイク17は、通信端末10に入力された入力音声から第1の音声データとしての音声データを生成する音声データ生成部である。The
  スピーカ18は、制御部15の制御に基づいて通信端末11及び12から送信される第2の音声データとしての音声データによって示される音声を出力する音声出力装置である。本実施例において、通信端末10のユーザは、マイク17及びスピーカ18を通して通信端末11及び12の各々のユーザと音声通話可能である。The
  カメラ19は、制御部15の制御に基づいて撮影を行う撮像装置である。カメラ19は、例えば、通信端末10のユーザを撮影するカメラである。The
  ディスプレイ21は、制御部15の制御に基づいて画面表示を行う表示装置である。ディスプレイ21には、例えば、通信端末11及び12と通信可能に接続されている際に、カメラ19の映像、通信端末10における音声のミュートのON/OFFの状況や会議に参加している通信端末11及び12のユーザ名が表示されるウインドウ等の会議ユーザインタフェースが表示される。The
  なお、ディスプレイ21は、入力装置16としての通信端末10のユーザからの入力操作を受け付けるタッチパネルと制御部15の制御に基づいて画面表示を行うディスプレイとが組み合わされたタッチパネルディスプレイであってもよい。ディスプレイ21がタッチパネルである場合、ディスプレイ21は、上記入力装置16に加えて、または上記入力装置16に替えて入力機器として機能する。The
  以下に、制御部15の機能ブロックについて説明する。The functional blocks of the
  通信部23は、制御部15の指示に従って通信端末11及び12とデータの送受信を行う機能部である。通信部23は、例えば、NIC(Network Interface Card)等の通信インターフェース機器とともにネットワークNWを介してデータをやり取りするための通信インターフェースを形成し、ネットワークNWを介したデータの送受信を行う部分である。The
  通信部23は、マイク17によって音声入力された後に制御部15において変換された音声データを会議サーバ14に送信する送信部であり得る。また、通信部23は、会議サーバ14を介して他の通信端末から送信された音声データを受信する受信部であり得る。The
  ミュート状態判定部24は、会議システム100において通信端末10が音声データを送信しない状態であるミュート状態であるか否かを判定する判定部である。ミュート状態判定部24は、例えば、ユーザによる入力装置16の操作によって音声のミュートが選択されている場合に、通信端末10がミュート状態であると判定する。The mute
  ミュート解除判定部25は、自端末、すなわち通信端末10のマイク17に入力された音声に基づいてミュート状態を解除するか否かを判定する判定部である。具体的には、ミュート解除判定部25は、通信端末10のユーザが発話を意図した発声をしたか否かを判定することでミュート状態を解除すべきかを判定する。The mute
  例えば、ミュート解除判定部25は、自端末のマイク17に入力された音声の強度を示す音声レベル(以下、第1の音声レベルとも称する)が所定の閾値(以下、第1の閾値とも称する)以上になったか否かで通信端末10のユーザが発話を意図する発声をしているかを判定する。For example, the mute
第1の閾値は、例えば、自端末のユーザが発話した際の音声レベルの履歴から設定され得る。また、第1の閾値は、ユーザの咳払いの音又はマウスのクリック音などの小さな雑音や環境音の音声レベルよりも大きくなるように設定されている。The first threshold value may be set, for example, from the history of the voice level when the user of the terminal speaks. The first threshold value is also set to be higher than the voice level of small noises and environmental sounds, such as the sound of the user clearing their throat or the sound of clicking a mouse.
  ミュート解除判定部25は、他端末、すなわち通信端末11及び12から送信された音声データによって示される音声に基づいて通信端末11及び12のユーザが発話を意図した発声をしているか否かを判定する判定部でもある。The mute
  例えば、ミュート解除判定部25は、他端末、すなわち通信端末11及び12から送信された音声データによって示される音声の強度を示す音声レベル(以下、第2の音声レベルとも称する)が所定の閾値(以下、第2の閾値とも称する)以下になったか否かで通信端末11及び12のユーザが発話を意図する発声をしているかを判定する。For example, the mute
  第2の閾値は、通信端末11及び12のユーザが発話した際の音声レベルの履歴に基づき、当該音声レベルよりも小さくなるように設定されている。The second threshold is set to be smaller than the voice level based on the history of the voice levels when the users of the
  本実施例において、ミュート解除判定部25は、通信端末10がミュート状態である場合に、第1の音声レベルに基づいて通信端末10のユーザが発話を意図する発声をしたと判定し、且つ第2の音声レベルに基づいて通信端末11及び12のユーザが発話を意図する発声をしていないと判定すると、ミュート状態を解除すべきと判定する。In this embodiment, when the
  制御部15は、ミュート解除判定部25がミュート状態を解除すべきと判定すると、スピーカ18から通信端末10がミュート状態であることを通信端末10のユーザに通知するための通知音を出力させる制御を実行する。When the mute
  当該通知音は、例えば、「ピッピッ」という単純なアラーム音でもよく、「ミュート中です」といった音声でもよい。また、制御部15は、スピーカ18から上記した通知音を出力させると共に、ディスプレイ21上に「ミュート中です」という表示をしてもよい。The notification sound may be, for example, a simple alarm sound such as "beep beep" or a voice such as "Muted." The
  通信端末10のユーザは、例えば、発話をした際にスピーカ18から出力された通知音によって通信端末10がミュート状態であることに気が付くことで、入力装置16を操作し、当該通信端末10のミュート状態を解除して再び発話を行い得る。When the user of the
  なお、制御部15は、スピーカ18から通知音を出力させると共に通信端末10のミュート状態を解除してもよい。これにより、当該通知音によって通信端末10がミュート状態であることに気が付いたユーザが、通信端末10のミュート状態を解除する操作を行う手間を省くことができる。The
  言い換えれば、通信端末10のユーザは、当該通信端末10がミュート状態であったこと及び当該ミュート状態が解除されたことを認識しつつ、そのまま発話を行うことができる。なお、制御部15は、必ずしも通知音を出力させると共に通信端末10のミュート状態を解除しなくてもよく、通知音無しで単に通信端末10のミュート状態を解除してもよい。In other words, the user of the
  また、制御部15は、通信端末10のユーザによる手動で又は自動でミュート状態が解除された際に、ディスプレイ21上に「ミュート状態を解除しました」等の表示をすることで、通信端末10のユーザにミュート状態が解除されたことを知らせてもよい。In addition, when the mute state is released either manually or automatically by the user of the
  図3は、会議サーバ14の構成を示すブロック図である。制御部27は、CPUやROM、RAMを含み、会議サーバ14の各部への指示及び制御を行う処理装置である。Figure 3 is a block diagram showing the configuration of the
  制御部27は、上記したように、会議アプリケーションを介した通信端末10、11及び12の各々から送信される接続要求に応答することにより、通信端末10、11及び12の各々を互いに音声データの送受信が可能な状態にする。As described above, the
  制御部27のうちのミキシング部28は、通信端末10、11及び12の各々が互いに音声データの送受信が可能な状態になると、通信端末10、11及び12の各々から送信される音声データに対して合成処理を行い、1つの音声データを生成するミキサー機能を有する部分である。ミキシング部28によって生成された音声データは通信端末10、11及び12の各々に送信される。The mixing
  通信部29は、制御部27の指示に従って外部機器とのデータの送受信を行う通信インターフェースである。通信部29は、例えば、ネットワークNWに接続するためのNICである。通信部29は、通信端末10、11及び12の各々から送信される音声データを受信する受信部であり得る。また、通信部29は、ミキシング部28にて合成処理を行った音声データを通信端末10、11及び12の各々に送信する送信部であり得る。The
  以下に、本実施例における通信端末10の具体的な動作の一例をフローチャートを用いて説明する。Below, an example of the specific operation of the
  図4は、通信端末10の制御部15において実行される通知音出力ルーチンRT1を示すフローチャートである。制御部15は、例えば、会議サーバ14を介して自端末、すなわち通信端末10と通信端末11及び12との間で接続が確立されたことを開始トリガーとして、通知音出力ルーチンRT1を開始する。Figure 4 is a flowchart showing the notification sound output routine RT1 executed by the
  制御部15は、まず、ミュート状態判定部24を介して通信端末10がミュート状態であるか否かを判定する(ステップS101)。制御部15は、ミュート状態判定部24が通信端末10がミュート状態ではないと判定すると(ステップS101:NO)、通知音出力ルーチンRT1を終了する。The
  制御部15は、ミュート状態判定部24が通信端末10がミュート状態であると判定すると(ステップS101:YES)、ミュート解除判定部25を介してマイク17に入力された音声の強度を示す第1の音声レベルが第1の閾値以上になったか否かを判定する(ステップS102)。When the mute
  制御部15は、ミュート解除判定部25が第1の音声レベルが第1の閾値以上になっていないと判定すると(ステップS102:NO)、すなわち通信端末10のユーザが発話を意図した発声をしていないと判定すると、通知音出力ルーチンRT1を終了する。When the mute
  制御部15は、ミュート解除判定部25が第1の音声レベルが第1の閾値以上になったと判定すると(ステップS102:YES)、すなわち通信端末10のユーザが発話を意図した発声をしていると判定すると、ミュート解除判定部25を介して第2の音声レベルが第2の閾値以下になったか否かを判定する(ステップS103)。When the mute
  制御部15は、ミュート解除判定部25が第2の音声レベルが第2の閾値以下になっていないと判定すると(ステップS103:NO)、すなわち通信端末11及び12のユーザが発話を意図した発声をしていると判定すると、通知音出力ルーチンRT1を終了する。When the mute
  制御部15は、ミュート解除判定部25が第2の音声レベルが第2の閾値以下になったと判定すると(ステップS103:YES)、すなわち通信端末11及び12のユーザが発話を意図した発声をしていないと判定すると、スピーカ18から通信端末10がミュート状態であることを通知する通知音を出力させる(ステップS104)。When the mute
  制御部15は、ステップS104により、上記したように、通信端末10がミュート状態であることを通信端末10のユーザに通知するためのアラームや音声等の通知音をスピーカ18から出力させる。制御部15は、ステップS104の後に通知音出力ルーチンRT1を終了する。In step S104, the
  上記したように、本実施例によれば、通信端末10がミュート状態である場合に、ミュート解除判定部25が第1の音声レベルに基づいて通信端末10のユーザが発話を意図する発声をしたと判定し、且つ第2の音声レベルに基づいて通信端末11及び12のユーザが発話を意図する発声をしていないと判定すると、制御部15は、スピーカ18から通信端末10がミュート状態である旨を通知する通知音を出力させる。As described above, according to this embodiment, when the
  これにより、通信端末10のユーザは、自身が発話を意図する発声をした際に、通信端末11及び12のユーザが発話を意図する発声をしていないような状況において通信端末10がミュート状態であることを知ることができる。As a result, the user of
  また、制御部15の制御によってスピーカ18から通知音を出力させると共にミュート状態を解除する態様とした場合には、通信端末10のユーザは、ミュート状態の解除に係る操作等をすることなくスムーズに発話をすることができる。In addition, when the
従って、本実施例によれば、単に自身の音声が捉えられたことをしてミュート状態が解除されることや、会議中に他の会議参加者が発言をしている際にミュート状態が解除されることが発生しないため、ユーザの意図に沿った態様でミュート解除に関する動作を行うことができる。Therefore, according to this embodiment, the mute state is not released simply because the user's own voice is picked up, nor is the mute state released when another conference participant is speaking during the conference, so the operation related to unmuting can be performed in a manner that is in line with the user's intention.
  なお、本実施例において、通信端末10、11及び12の各々は、PCである場合について説明したが、会議サーバ14を介して互いに音声データの送受信が可能な端末であればよく、これに限られない。例えば、通信端末10、11及び12の各々は、タブレット端末やスマートフォンであってもよい。また、通信端末10、11及び12の各々は、例えば、ミュート状態のON/OFFの切り替えが可能なIP(Internet Protocol)電話や、固定電話(アナログ電話)であってもよい。In the present embodiment, the
  なお、通信端末10、11及び12の各々は、会議サーバ14を介して互いに音声データの送受信が可能であればよく、互いに異なる端末であってもよい。例えば、会議システム100において、通信端末10をPCとし、通信端末11をスマートフォンとし、通信端末12をIP電話としてもよい。Note that each of the
  本実施例において、通信端末10、11及び12の各々には、上記した会議アプリケーションがインストールされ、当該各々の制御部においてミュート状態の判定やユーザの発話の判定が行われるとしたがこれに限られない。例えば、上記した通信端末10、11及び12の各々のミュート状態の判定やユーザの発話の判定は、Webブラウザ上のWebアプリケーション上において会議サーバ14によって行われてもよい。In this embodiment, the above-mentioned conference application is installed in each of the
  以下に、実施例2に係る音声送受信システムとしての会議システム200について図5~10を用いて説明する。会議システム200は、音声認識サーバ33を有する点で実施例1と異なっており、また、通信端末30、31及び32の構成が実施例1と異なっている。会議システムは、これらの点以外において実施例1と同様の構成を有する。Below, a
  図5は、会議システム200の構成を示す図である。以下の説明においては、会議システム200が、3台の通信端末30、31及び32と会議サーバ14と音声認識サーバ33とがネットワークNWを介して通信可能に接続されて構築されているシステムである場合を説明する。もちろん、会議システム200を構成する通信端末の台数は、図5に示す3台に限られるものではなく、システムの能力が許す限り何台であっても良い。Figure 5 is a diagram showing the configuration of the
  音声認識サーバ33は、通信端末30から送信される音声データをテキストデータに変換し、当該テキストデータを通信端末30に送信する音声認識サーバである。本実施例において、音声認識サーバ33は、会議サーバ14とは別個に設けられている。The
  図6は、通信端末30の構成を示すブロック図である。制御部34は、ミュート解除判定部35の構成が実施例1と異なっており、それ以外の点で実施例1と同様の構成を有する。以下、通信端末31及び32についても通信端末30と同様の構成を有する。Figure 6 is a block diagram showing the configuration of
  本実施例において、ミュート解除判定部35は、音声レベル判定部35A及びキーワード判定部35Bとから構成される。In this embodiment, the mute
  音声レベル判定部35Aは、通信端末30がミュート状態である場合に、上記した第1の音声レベルが第1の閾値以上になったかを判定し、また、上記した第2の音声レベルが第2の閾値以下になったかを判定する。When the
  ミュート解除判定部35は、音声レベル判定部35Aが第1の音声レベルが第1の閾値以上になったと判定した場合に、通信端末30のユーザが発話を意図する発声をしたと判定する。また、ミュート解除判定部35は、音声レベル判定部35Aが第2の音声レベルが第2の閾値以下になったと判定した場合に、通信端末31及び32のユーザが発話を意図する発声をしていないと判定する。When the audio
  キーワード判定部35Bは、音声認識サーバ33から送信されるテキストデータが示す文字列とキーワードDB36に保存されているキーワードとを比較し、当該文字列に所定のキーワードが含まれているか否かを判定する判定部である。具体的には、キーワード判定部35Bは、上記したテキストデータが示す文字列に発話の意図を有するワードが含まれているか否かを判定する。The
  ミュート解除判定部35は、キーワード判定部35Bが上記したテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定した場合に通信端末30のユーザが発話を意図する発声をしていると判定する。The mute
  キーワードDB36は、上記した発話の意図を有するワードを複数保持しているデータベースである。なお、キーワードDB36は、外部ハードディスク等の外部記憶装置に記憶されていてもよく、制御部34は、当該外部記憶装置を介して上記したキーワードを取得してもよい。The
ここで、図7を用いて上記したキーワードDB36が保持しているキーワードについて説明する。Here, we will use Figure 7 to explain the keywords stored in the above-mentioned keyword DB36.
図7は、キーワードDB36が保持しているキーワードの一例を示すキーワードTB1を示す図である。キーワードTB1において、「キーワードの種類」は、キーワードTB1に保存されているワードがどのようなシチュエーションで用いられる言葉であるかを示すものである。また、キーワードTB1において、「キーワードの例」は、上記したキーワードの種類の各々に対応する言葉の一例を示したものである。Figure 7 is a diagram showing keyword TB1 showing examples of keywords stored in keyword DB36. In keyword TB1, "keyword type" indicates the situation in which the words stored in keyword TB1 are used. Also, in keyword TB1, "keyword example" shows an example of a word corresponding to each of the above-mentioned keyword types.
キーワードTB1において、「挨拶を示す言葉」とは、例えば、「おはようございます」や「よろしくおねがいします」などの、主に会議の開始時において多く用いられる言葉である。In keyword TB1, "greeting words" are words that are often used at the start of a meeting, such as "Good morning" or "Thank you for your help."
また、キーワードTB1において、「自身から話しかける際に用いる言葉」とは、例えば、「ちょっとすみません」や「よろしいでしょうか」などの、主に自身が話に割って入る際や自身から話を切り出す際に多く用いられる言葉である。In addition, in keyword TB1, "words used when speaking to oneself" are words that are often used when oneself wants to interrupt a conversation or initiate a conversation, such as "Excuse me for a moment" or "Is that okay?".
また、キーワードTB1において、「他者から話を振られた際に用いる言葉」とは、例えば、「それは」や「わかりました」などの、他者から説明を求められた際や他者の意見に同意する際に多く用いられる言葉である。In addition, in keyword TB1, "words used when started on a conversation by another person" are words such as "that" or "I understand" that are often used when someone asks for an explanation or when agreeing with another person's opinion.
  再び図6を参照する。制御部34は、ミュート解除判定部35が第2の音声レベルに基づいて通信端末31及び32のユーザが発話を意図する発声をしていないと判定すると、音声レベルが第1の閾値以上になっている音声を一定時間(例えば最初の2~3秒程度)抽出し、当該音声を音声データに変換して音声認識サーバ33に送信する。Referring again to FIG. 6 , when the mute
  本実施例において、ミュート解除判定部35は、上記したように、キーワード判定部35Bが上記したテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定した場合に、通信端末30のユーザが発話を意図する発声をしていると判定する。In this embodiment, as described above, when the
  制御部34は、ミュート解除判定部35が通信端末30のユーザが発話を意図する発声をしていると判定した場合に、実施例1と同様に、スピーカ18から通信端末30がミュート状態であることを通知する通知音を出力させる。なお、制御部34は、実施例1と同様に、スピーカ18から通知音を出力させると共に通信端末30のミュート状態を解除してもよい。When the mute
  図8は、音声認識サーバ33の構成を示すブロック図である。制御部37は、CPUやROM、RAMを含む処理装置である。制御部37は、音声認識サーバ33の各部への指示及び制御を行う部分である。Figure 8 is a block diagram showing the configuration of the
  制御部37のうちの音声認識部38は、通信端末30から送信される音声データを音声認識する部分である。具体的には、音声認識部38は、上記したように、通信端末30から送信される音声データを音声変換によって文字列からなるテキストデータに変換する。The
  音声認識部38は、例えば、通信端末30から送信される音声データから音の周波数や強弱等の特徴量を抽出し(音響分析)、音響分析によって抽出した特徴量を予め学習している音や単語の情報に照らし合わせて声の最小単位である音素を抽出し(音響モデル)、情報データベースの中から音の組み合わせを抽出して単語として認識し(発音辞書)、音響モデルで抽出した音素及び発音辞書で認識した単語を組み合わせ、意味のある文章として認識する(言語モデル)ことによって、音声を文字として認識することができる。The
  通信部39は、制御部37の指示に従って通信端末31及び32とデータの送受信を行う通信インターフェースである。通信部39は、例えば、ネットワークNWに接続するためのNICである。通信部39は、通信端末30から送信される音声データを受信する受信部であり得る。また、通信部39は、音声認識によって生成されたテキストデータを通信端末30に送信する送信部であり得る。The
  大容量記憶装置41は、例えば、ハードディスク装置、SSD(solid state drive)、フラッシュメモリ等により構成されており、オペレーティングシステムや、ソフトウェア等の各種プログラムを記憶している。本実施例において、大容量記憶装置41は、上記した音声認識のための音響モデルや発音辞書における音や単語の情報などを保持している。The large-
  以下に、本実施例における通信端末30及び音声認識サーバ33の各々の具体的な動作の一例をフローチャートを用いて説明する。Below, an example of the specific operation of the
  図9は、通信端末30の制御部34において実行される通知音出力ルーチンRT2を示すフローチャートである。図9において、実施例1に係る通信端末10の制御部15において実行される通知音出力ルーチンRT1と異なる点のみ説明する。Figure 9 is a flowchart showing the notification sound output routine RT2 executed by the
  制御部34は、ステップS103において、ミュート解除判定部25が第2の音声レベルが第2の閾値以下になったと判定すると(ステップS103:YES)、第1の音声レベルが第1の閾値以上となった音声の最初の2~3秒程度を抽出し、音声データに変換して音声認識サーバ33に送信する(ステップS201)。When the mute
  制御部34は、ステップS201の後に、音声認識サーバ33からテキストデータを受信したか否かを判定する(ステップS202)。制御部34は、音声認識サーバ33からテキストデータを受信していないと判定すると(ステップS202:NO)、ステップS202を繰り返し実行する。After step S201, the
  制御部34は、音声認識サーバ33からテキストデータを受信したと判定すると(ステップS202:YES)、キーワード判定部35Bを介して当該テキストデータにキーワードDB36に保存されているキーワードが含まれているか否かを判定する(ステップS203)。すなわち、キーワード判定部35Bは、自端末のマイク17に入力された音声が発話の意図を有するワードであるか否かを判定する。When the
  制御部34は、キーワード判定部35Bがテキストデータに発話の意図を有するワードが含まれていると判定すると(ステップS203:YES)、すなわちミュート解除判定部35が通信端末30のユーザが発話を意図する発声をしていると判定した場合に、スピーカ18から通信端末10がミュート状態であることを通知する通知音を出力させる(ステップS204)。When the
  制御部34は、キーワード判定部35Bがテキストデータにキーワードが含まれていないと判定すると(ステップS203:NO)、通知音出力ルーチンRT2を終了する。制御部34は、ステップS204の後に通知音出力ルーチンRT2を終了する。When the
  図10は、音声認識サーバ33の制御部37において実行される音声認識ルーチンRT3を示すフローチャートである。制御部37は、例えば、ネットワークNWを介して音声認識サーバ33と通信端末30との間で接続が確立されたことを開始トリガーとして、音声認識ルーチンRT3を開始する。Figure 10 is a flowchart showing the voice recognition routine RT3 executed by the
  制御部37は、通信端末30から音声データを受信したか否かを判定する(ステップS301)。制御部37は、通信端末30から音声データを受信したと判定すると(ステップS301:YES)、当該音声データが示す音声を音声認識部38を介してテキストデータに変換する(ステップS302)。The
  制御部37は、通信端末30から音声データを受信していないと判定すると(ステップS301:NO)、音声認識ルーチンRT3を終了する。When the
  制御部37は、ステップS302の後に、音声認識部38を介して変換されたテキストデータを通信端末30に送信する(ステップS303)。ステップS303の後に、音声認識ルーチンRT3を終了する。After step S302, the
  上記したように、本実施例によれば、通信端末30がミュート状態である場合に、ミュート解除判定部35が第1の音声レベルが第1の閾値以上であると判定し、且つ第2の音声レベルが第2の閾値以下であると判定すると、制御部34は、第1の閾値以上の音声が示す音声データを音声認識サーバ33に送信する。As described above, according to this embodiment, when the
  そして、制御部34は、音声認識サーバ33から送信されるテキストデータを参照し、キーワード判定部35Bがテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定すると、スピーカ18から通信端末30がミュート状態である旨を通知する通知音を出力させる。Then, the
  これにより、通信端末30のユーザは、自身が一定の音声レベルを有する音声を発した際に、通信端末11及び12のユーザが発言をしていないような状況において、通信端末30に入力された音声が発話の意図を有するワードである場合に通信端末30がミュート状態であることを知ることができる。As a result, when the user of
  また、制御部34によってスピーカ18から通知音を出力させると共に通信端末30のミュート状態を解除する態様とした場合には、通信端末30のユーザは、通信端末30のミュート状態を解除する操作をすることなく発話をすることができる。In addition, when the
従って、本実施例によれば、実施例1と同様に、単に自身の音声が捉えられたことをしてミュート状態が解除されることや、会議中に他の会議参加者が発言している際にミュート状態が解除されることが発生しないため、ユーザの意図に沿った態様でミュート解除に関する動作を行うことができる。Therefore, according to this embodiment, as in the first embodiment, the mute state is not released simply because the user's own voice is picked up, nor is the mute state released when another conference participant is speaking during the conference, so that the operation of unmuting can be performed in a manner that is in line with the user's intention.
  本実施例において、通信端末30のミュート状態を解除するための機能(ミュート解除機能)の一翼を担う音声認識サーバ33は、会議サーバ14と別個に存在している。言い換えれば、会議サーバ14が変わった場合であっても、その度に音声認識サーバ33を変更する必要がない。In this embodiment, the
  そのため、例えば、会議毎に異なるプロトコルで構築される会議システムを用いる場合であっても、上記したミュート解除機能を発揮させるために異なる処理、例えば会議毎に異なるプロトコルに準じた音声データを生成する等の処理を行う必要が無い。従って、音声認識サーバ33を会議サーバ14と別個に設けることで、上記ミュート解除機能、及び当該機能を搭載したアプリケーションの汎用性を高めることが可能となる。Therefore, for example, even if a conference system is used that is built with a different protocol for each conference, there is no need to perform different processing to realize the above-mentioned unmute function, such as processing to generate voice data conforming to a different protocol for each conference. Therefore, by providing the
  例えば、上記したミュート解除機能は、ZOOM(登録商標)、Skype(登録商標)、Teams(登録商標)、BlueJeans(登録商標)、Webex(登録商標)等の様々な会議アプリケーションにアドオンとして追加され、各会議アプリケーションで行われる会議の音声データを音声認識サーバ33に送信することで、上記ミュート解除機能を実現可能である。For example, the above-mentioned unmute function can be added as an add-on to various conferencing applications such as ZOOM (registered trademark), Skype (registered trademark), Teams (registered trademark), BlueJeans (registered trademark), and Webex (registered trademark), and the above-mentioned unmute function can be realized by transmitting the voice data of the conference held in each conferencing application to the
  なお、制御部34は、通知音出力ルーチンRT2において、音声レベル判定部35Aが第2の音声レベルが第2の閾値以下となっていると判定した場合に(ステップS103:YES)、第1の閾値以上の音声レベルを有する音声を音声データとして音声認識サーバ33に送信する(ステップS201)としたが、当該ステップS103は実行されなくてもよい。Note that in the notification sound output routine RT2, if the voice
  すなわち、制御部34は、第1の音声レベルが第1の閾値以上となり、且つ第1の閾値以上の音声レベルを有する音声に発話の意図を有するワードが含まれている場合に、スピーカ18から通知音を出力させてもよい。これにより、制御部34は、自端末に入力された音声の態様のみに基づいて、通信端末30のミュート状態の通知や解除を行うことができる。That is, the
  本実施例において、音声認識サーバ33は、通信端末30に代わってキーワード判定部35Bを有していてもよく、大容量記憶装置41がキーワードDB36を有していてもよい。例えば、音声認識サーバ33の制御部37は、通信端末30から送信された音声データを音声認識部38にてテキストデータに変換し、キーワード判定部35Bによって当該テキストデータが示す文字列に発話の意図を有するキーワードが含まれているか否かを判定してもよく、当該判定の結果を通信端末30に送信してもよい。In this embodiment, the
  これにより、通信端末30の制御部34は、音声認識サーバ33から送信されるキーワード判定の結果に基づいて、上記した文字列に発話の意図を有するワードが含まれているという判定結果である場合に、スピーカ18からミュート状態の通知音を出力してもよい。As a result, the
  本実施例において、音声認識サーバ33は、通信端末30、31及び32の各々にそれぞれ組み込まれていてもよい。例えば、通信端末30がIP電話である場合には、音声認識サーバ33は、複数の電話機を接続する構内交換機(PBX)に組み込まれていてもよい。また、音声認識サーバ33は、会議サーバ14に組み込まれていてもよい。In this embodiment, the
  実施例1及び実施例2おいて説明した通信端末、会議サーバ14及び音声認識サーバ33の各々の制御部における一連の処理は、コンピュータにより実行させるプログラムとしてもよい。また、当該プログラムは、コンピュータに読み取り可能な記録媒体に記録されていてもよい。The series of processes in the control units of the communication terminal, the
上記した記録媒体のタイプは、特に限定されず、例えば、光ディスク、ハードディスク、またはフラッシュメモリもしくはSSD等の半導体メモリであってもよい。また、上記プログラムは、通信を介して通信端末にダウンロードされインストールされてもよい。The type of the recording medium is not particularly limited, and may be, for example, an optical disk, a hard disk, or a semiconductor memory such as a flash memory or SSD. The program may also be downloaded and installed in a communication terminal via communication.
上記した実施例1及び実施例2において示した制御ルーチンは例示に過ぎず、用途または使用条件等に応じて適宜選択及び変更可能である。The control routines shown in the above-mentioned Examples 1 and 2 are merely examples, and can be appropriately selected and modified depending on the application or conditions of use, etc.
10、11、12、30、31、32  通信端末
14  会議サーバ
15、27、34、37  制御部
16  入力装置
17  マイク
18  スピーカ
19  カメラ
21  ディスプレイ
23、29、39  通信部
24  ミュート状態判定部
25、35  ミュート解除判定部
26  ミキシング部
33  音声認識サーバ
35A  音声レベル判定部
35B  キーワード判定部
36  キーワードDB
38  音声変換部
41  大容量記憶装置10, 11, 12, 30, 31, 32
 38
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2021116986AJP7694217B2 (en) | 2021-07-15 | 2021-07-15 | COMMUNICATIONS TERMINAL, DETECTION METHOD, AND PROGRAM | 
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2021116986AJP7694217B2 (en) | 2021-07-15 | 2021-07-15 | COMMUNICATIONS TERMINAL, DETECTION METHOD, AND PROGRAM | 
| Publication Number | Publication Date | 
|---|---|
| JP2023013073A JP2023013073A (en) | 2023-01-26 | 
| JP7694217B2true JP7694217B2 (en) | 2025-06-18 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2021116986AActiveJP7694217B2 (en) | 2021-07-15 | 2021-07-15 | COMMUNICATIONS TERMINAL, DETECTION METHOD, AND PROGRAM | 
| Country | Link | 
|---|---|
| JP (1) | JP7694217B2 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2007013180A1 (en) | 2005-07-27 | 2007-02-01 | Kabushiki Kaisha Audio-Technica | Conference audio system | 
| WO2018173293A1 (en) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Speech terminal, speech command generation system, and method for controlling speech command generation system | 
| JP2019184800A (en) | 2018-04-09 | 2019-10-24 | 富士ゼロックス株式会社 | Information processor, program, and information processing system | 
| JP2020198588A (en) | 2019-06-05 | 2020-12-10 | シャープ株式会社 | Audio processing system, conferencing system, audio processing method, and audio processing program | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP3466050B2 (en)* | 1997-05-06 | 2003-11-10 | 富士通株式会社 | Voice switch for talker | 
| JP2022016997A (en)* | 2020-07-13 | 2022-01-25 | ソフトバンク株式会社 | Information processing method, information processing device and information processing program | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2007013180A1 (en) | 2005-07-27 | 2007-02-01 | Kabushiki Kaisha Audio-Technica | Conference audio system | 
| WO2018173293A1 (en) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Speech terminal, speech command generation system, and method for controlling speech command generation system | 
| JP2019184800A (en) | 2018-04-09 | 2019-10-24 | 富士ゼロックス株式会社 | Information processor, program, and information processing system | 
| JP2020198588A (en) | 2019-06-05 | 2020-12-10 | シャープ株式会社 | Audio processing system, conferencing system, audio processing method, and audio processing program | 
| Publication number | Publication date | 
|---|---|
| JP2023013073A (en) | 2023-01-26 | 
| Publication | Publication Date | Title | 
|---|---|---|
| CN104462070A (en) | A speech translating system and a speech translating method | |
| US6744860B1 (en) | Methods and apparatus for initiating a voice-dialing operation | |
| US8385329B2 (en) | Method and system of voice carry over for instant messaging relay services | |
| JP6548045B2 (en) | Conference system, conference system control method, and program | |
| JP2008099330A (en) | Information processor, and portable telephone set | |
| CN103973877A (en) | Method and device for using characters to realize real-time communication in mobile terminal | |
| JP2024507916A (en) | Audio signal processing method, device, electronic device, and computer program | |
| US11234088B2 (en) | Centrally controlling communication at a venue | |
| JP2018174442A (en) | Conference support system, conference support method, program of conference support apparatus, and program of terminal | |
| JP7036463B1 (en) | Teleconference system, communication terminal, teleconferencing method and program | |
| JP2010103751A (en) | Method for preventing prohibited word transmission, telephone for preventing prohibited word transmission, and server for preventing prohibited word transmission | |
| WO2018198791A1 (en) | Signal processing device, method, and program | |
| JP2018174439A (en) | Conference support system, conference support method, program of conference support apparatus, and program of terminal | |
| JPWO2015083741A1 (en) | Relay device, display device, and communication system | |
| JP7694217B2 (en) | COMMUNICATIONS TERMINAL, DETECTION METHOD, AND PROGRAM | |
| JP2019015837A (en) | Conversation type robot having character of cat and conversation management program for showing character of cat | |
| US8775163B1 (en) | Selectable silent mode for real-time audio communication system | |
| JP2019176386A (en) | Communication terminals and conference system | |
| JP2007259427A (en) | Mobile terminal device | |
| CN112885350A (en) | Control method and device of network conference, electronic equipment and storage medium | |
| JP2020113938A (en) | Information processing apparatus, information processing method, information processing system, and program | |
| JP2007096555A (en) | Voice conference system, terminal, talker priority level control method used therefor, and program thereof | |
| JP7625901B2 (en) | CONTROL DEVICE, CONTROL SYSTEM AND METHOD | |
| JP2007336395A (en) | Voice processor and voice communication system | |
| JP7754248B2 (en) | Systems, methods, and control devices | 
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text:JAPANESE INTERMEDIATE CODE: A621 Effective date:20240508 | |
| A977 | Report on retrieval | Free format text:JAPANESE INTERMEDIATE CODE: A971007 Effective date:20250131 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20250218 | |
| A521 | Request for written amendment filed | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20250418 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text:JAPANESE INTERMEDIATE CODE: A01 Effective date:20250507 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text:JAPANESE INTERMEDIATE CODE: A61 Effective date:20250520 | |
| R150 | Certificate of patent or registration of utility model | Ref document number:7694217 Country of ref document:JP Free format text:JAPANESE INTERMEDIATE CODE: R150 |