JP2007336344A

Movatterモバイル変換

Info

Publication number: JP2007336344A
Application number: JP2006167321A
Authority: JP
Inventors: Hideo Fushimoto; 秀雄伏本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-06-16
Filing date: 2006-06-16
Publication date: 2007-12-27

Abstract

【課題】連続的な会話を中断することなく、快適なＴＶ電話システム、ＴＶ会議システムを実現する。
【解決手段】検索用のキーワードと関連付けられたデータを記憶する外部記憶部２４と、自装置及び外部装置のうちの少なくとも何れか一方に対して発声された音声を音声データとして入力する音声入力部１５と、前記音声データに基づいてキーワードを抽出し、抽出したキーワードに係るデータを外部記憶部２４から読み出して、読み出したデータを表示出力部１７に表示すると共に、当該データを通信ネットワーク２３を介して前記外部装置に送信する制御を行う制御部１１を具備する。
【選択図】図１

Description

本発明は、音声データ及び画像データを含む各種のデータを伝送路を介して外部装置と送受信可能に構成された情報端末装置、その駆動方法、及び当該駆動方法をコンピュータに実行させるためのプログラムに関する。

従来より、画像データ、音声データ等の各種情報をネットワークを介して端末装置間で授受するＴＶ電話／ＴＶ会議システムが提案されている（例えば、下記の特許文献１参照）。

近年、ＴＶ電話では、画像データと音声データを端末装置間で送受信することにより、相手側の映像を見ながら会話ができるようになっている。更に、ＴＶ電話では、ネットワークの伝送路の大幅な伝送容量の増大に伴い、ＴＶ会議システムで提案されている、映像、音声を授受するだけではなく、ファイル転送、描画情報のやり取り、アプリケーションソフトの共有等を多地点間で行うことができるようになっている。これにより、効率的な会議を進めることが可能なシステムが提供されている。

上述したシステムでは、ＴＶ会議システムのみならず、個人のＴＶ電話においても、端末装置内に記憶された画像データや各種ドキュメントデータ等をお互いの端末装置上に表示出力させて会話を行うことができるようになっている。これにより、遠隔地間で会話をしながら、各種情報を共有することが可能であり、よりリアルな会議の雰囲気での会話に近づけたシステムも実現されてきている。

特開２００３−２２４８３６号公報

上述したシステムにおいては、端末装置の表示画面を見ながら会話を行い、必要に応じて共有すべき情報を端末装置を操作することにより検索、出力して送信を行うことを実現している。

しかしながら、上述したシステムでは、端末装置に設けられたキーボード等の入力手段を操作して所望のデータが格納されている記憶手段を特定し、その中から当該所望のデータを検索して、自装置の表示装置に表示すると共に、相手側の端末装置に対する送信指示を行うことが必要となり、連続的に会話をしている状態である場合、当該操作中は会話が中断してしまうといった問題があった。

また、上述したシステムでは、表示装置に出力されている双方の映像を確認しながら会話が行われるため、通常、映像を撮影するカメラが表示装置上に配設されている関係上、会話者は、表示装置からある程度離れた位置で会話を行う必要がある。また、上述した操作を表示装置を含む端末装置で行う場合は、端末装置の傍に近づき操作を行うため、やはり、会話が一時的に中断されてしまうといった問題があった。

本発明は上述の問題点に鑑みてなされたものであり、連続的な会話を中断することなく、快適なＴＶ電話システム、ＴＶ会議システムを実現する情報端末装置、その駆動方法及びプログラムを提供することを目的とする。

本発明の情報端末装置は、音声データ及び画像データを含む各種のデータを伝送路を介して外部装置と送受信可能に構成された情報端末装置であって、検索用のキーワードと関連付けられたデータを記憶する第１の記憶手段と、前記情報端末装置及び前記外部装置のうちの少なくとも何れか一方に対して発声された音声を音声データとして入力する音声入力手段と、前記音声入力手段により入力された音声データに基づいてキーワードを抽出する抽出手段と、前記抽出手段で抽出したキーワードに係るデータを前記第１の記憶手段から読み出す読み出し手段と、前記読み出し手段で読み出したデータを表示媒体に表示する表示手段と、前記読み出し手段で読み出したデータを前記伝送路を介して前記外部装置に送信する送信手段とを有する。

本発明の情報端末装置の駆動方法は、音声データ及び画像データを含む各種のデータを伝送路を介して外部装置と送受信可能に構成され、検索用のキーワードと関連付けられたデータを記憶する第１の記憶手段を具備する情報端末装置の駆動方法であって、前記情報端末装置及び前記外部装置のうちの少なくとも何れか一方に対して発声された音声を音声データとして入力する音声入力ステップと、前記音声入力ステップにより入力された音声データに基づいてキーワードを抽出する抽出ステップと、前記抽出ステップで抽出したキーワードに係るデータを前記第１の記憶手段から読み出す読み出しステップと、前記読み出しステップで読み出したデータを表示媒体に表示する表示ステップと、前記読み出しステップで読み出したデータを前記伝送路を介して前記外部装置に送信する送信ステップとを有する。

また、本発明のプログラムは、前記情報端末装置の駆動方法の各ステップをコンピュータに実行させるためのものである。

本発明によれば、連続的な会話を中断することなく、快適なＴＶ電話システム、ＴＶ会議システムを実現することができる。

以下、図面を参照して、本発明の実施形態について説明する。

（第１の実施形態）
図１は、第１の実施形態に係る情報端末装置のハードウエア構成を示すブロック図である。
図１において、制御部１１は、情報端末装置のシステム全体の制御を司るものであり、例えば、後述する情報検索出力制御及び情報送信制御等を実行する。ＲＯＭ１２は、制御部１１で各種制御を行う際に必要なプログラムなどを格納する。ＲＡＭ１３は、入力データなどの情報やプログラム実行中のデータなどを一時的に記憶する。

画像入力部１４は、例えばカメラ装置等からなるものであり、ＴＶ電話／ＴＶ会議システムにおいて、撮影された映像（画像）を映像データ（画像データ）として入力を行う。音声入力部１５は、例えばマイク装置等からなるものであり、ＴＶ電話／ＴＶ会議システムにおいて、発声された音声を音声データとして入力を行う。ここで、本実施形態の音声入力部１５は、当該情報端末装置のみならず、相手側の情報端末装置に対して発声された音声を音声データとして入力するものとする。

操作入力部１６は、例えばキーボード装置等からなるものであり、情報端末装置における各種の設定、制御、データ入力手段として機能する。

表示出力部１７は、例えば液晶ディスプレイ端末装置やＴＶ表示装置等からなるものであり、画像を出力する手段として機能する。また、音声出力部１８は、例えばスピーカ装置等からなるものであり、音声を出力する手段として機能する。これらの表示出力部１７及び音声出力部１８により、当該情報端末装置と通信可能に構成された情報端末装置の使用者における双方の顔や、会話、共有データの出力再生がなされる。通常、表示出力部１７は、同時に複数の情報の出力が可能であり、送信側の映像データや、相手側の映像データ、共有データ、及び各情報端末装置内の情報が同時に出力可能に構成されている。

画像符号化／復号化処理部１９及び音声符号化／復号化処理部２０は、送信側の情報端末装置と受信側の情報端末装置との間で、それぞれ、映像及び音声、並びにその他の情報を授受する際のこれらの各データの符号化／復号化処理を行なう。多重／分離処理部２１は、画像データ、音声データを分離した後、回線インターフェース処理部２２を介して、通信ネットワーク２３に伝送可能な通信形態に所望の通信プロトコルに準じた変換を行う。これらの一連の処理により、送信側の情報端末装置と受信側の情報端末装置との間で、画像データ及び音声データを含む各種のデータの送受信が行なわれる。

外部記憶部２４には、画像やドキュメント等の各種のデータが検索用のキーワードと関連付けられて記憶されている。音声認識処理部２５は、音声入力部１５より入力された音声データの中から従来より提案されている認識処理を用いてテキスト情報に変換するものであり、このテキスト情報は、キーワードとしてキーワード保持部２６へ順次格納される。

制御部１１は、キーワード保持部２６に格納された各種キーワードを活用して、外部記憶部２４内に予めキーワードと関連付けられて格納された画像データや各種のデータの検索を行う。そして、制御部１１は、検索された各種のデータを外部記憶部２４から読み出して、表示出力部１７に表示出力したり、回線インターフェース処理部２２を介して、相手の情報端末装置に送信したりする。

図２は、従来例における表示出力部１７の出力表示の一例を示す図である。
図２に示す表示出力部１７には、送信側の情報端末装置の画像入力部１４で撮影された画像を表示する送信側映像部２７と、相手側の情報端末装置で撮影され、通信ネットワーク２３を介して伝送される画像を表示する相手側映像部２８が設けられている。この場合、また、音声入力部１５により音声データを送受信しながら、通信ネットワーク２３を介して映像と音声による会話が実現されている。

上述のように、映像と音声で会話を行っている際、送信側の情報端末装置内の外部記憶部２４に格納された画像やドキュメント等のデータに関して会話を行う場合、外部記憶部２４内のデータの格納状態を示すデータ一覧２９を表示出力部１７の下部に表示させる。このデータ一覧２９は、通常、階層構造になっている。

操作者は、会話をしながら操作入力部１６の操作によりデータ一覧２９の中から所望のデータ「００１」３０を送信指示することにより、通信ネットワーク２３を介して相手側の情報端末装置の表示出力部に当該データ「００１」が出力表示される。この際、送信側の情報端末装置では、送信するデータ「００１」３０を画像符号化／復号化処理部１９で圧縮し、回線インターフェース処理部２２を介して、相手側の情報端末装置に送信する。また、送信側の情報端末装置の表示出力部１７には、送信指示したデータ「００１」３０がデータ表示部３１に表示される。このようにして、送信側と相手側とが表示されたデータ「００１」を確認しながら会話を行うことが可能となる。

図３は、図２に示す従来例における表示出力部１７の出力表示動作を示すフローチャートである。この図３に示す処理は、図１の制御部１１で行われる。

まず、ステップＳ１０１では、送信側の情報端末装置と相手側（受信側）の情報端末装置とを、通信ネットワーク２３を介して画像データや音声データを含む各種のデータの送受信が可能な状態として、通信開始の処理を行う。

続いて、操作者が外部記憶部２４内のデータを相手側の情報端末装置に送信する場合、ステップＳ１０２では、図２における表示出力部１７の下段に示すデータ一覧２９を表示出力させる。

続いて、ステップＳ１０３では、操作者によりデータ一覧２９から相手側の情報端末装置に送信する所望のデータ（図２に示す例では、データ「００１」３０）が選択され、当該データの送信指示があるか否かを判断する。この判断の結果、データの送信指示がなかった場合には、ステップＳ１０７に進む。一方、ステップＳ１０３の判断の結果、データの送信指示があった場合には、ステップＳ１０４に進む。

ステップＳ１０４では、ステップＳ１０３で送信指示されたデータ「００１」３０の元データを外部記憶部２４から読み出し、画像符号化／復号化処理部１９で圧縮して通信ネットワーク２３を介して相手側の情報端末装置に送信する。続いて、ステップＳ１０５では、図２に示すように、送信指示したデータ「００１」３０を当該表示出力部１７のデータ表示部３１に表示合成する。

続いて、ステップＳ１０６では、操作者によりデータ一覧２９から相手側の情報端末装置に送信する他のデータが選択され、当該データの送信指示があるか否かを判断する。この判断の結果、他のデータの送信指示があった場合には、ステップＳ１０４に戻り、ステップＳ１０４で改めて当該他のデータを読み出して、ステップＳ１０５で当該他のデータを表示しながら会話を継続することになる。一方、ステップＳ１０６の判断の結果、他のデータの送信指示がなかった場合には、ステップＳ１０７に進む。

続いて、ステップＳ１０７では、一連の会話を終了させるために、通信の切断処理を実行する。以上のステップＳ１０１〜ステップＳ１０７までの処理を経ることにより、図２に示す表示出力部１７の出力表示動作が行われる。

図２及び図３に示す従来例の場合、表示出力部１７の相手側映像部２８を確認しながら操作入力部１６を操作して所望のデータを検索指示することが必要であった。このため、当該所望のデータが格納されている構成が複雑な場合、操作入力部１６の操作に手間取り、会話が中断してしまうといった不都合が発生していた。そこで、この課題を解決するための本発明の第１の実施形態に係る情報端末装置の駆動方法を、図４乃至図６を用いて以下に説明する。

図４は、第１の実施形態における表示出力部１７の出力表示の一例を示す図である。
本実施形態では、図４に示す送信側映像部２７と相手側映像部２８を同一画面上に表示しながら会話を行っている時、会話における音声データを音声認識処理部２５において順次認識して、キーワードを連続的に抽出する。

そして、連続的に抽出されるキーワードから、予め外部記憶部２４内にキーワードと共に格納された複数のデータの中から、抽出されたキーワードと一致するキーワードに係るデータを順次読み出し、これを表示出力部１７のデータ表示部３３に順次表示する。

これにより、会話を継続しながら、会話の中から関連する情報がデータ表示部３３に順次表示されると共に、当該情報を共有させることにより、円滑で効率的なＴＶ会議システムが実現される。

図５は、第１の実施形態に係る情報端末装置の駆動方法を示すフローチャートである。具体的に、図５は、図４に示す表示出力部１７の出力表示動作を示すフローチャートである。この図５に示す処理は、図１の制御部１１で行われる。

まず、ステップＳ２０１では、送信側の情報端末装置と相手側（受信側）の情報端末装置とを、通信ネットワーク２３を介して画像データや音声データを含む各種のデータの送受信が可能な状態として、通信開始の処理を行う。

続いて、ステップＳ２０２では、会話中の音声からデータ検索のキーワードを抽出する音声認識モードの設定がなされているか否かを判断する。この判断の結果、音声認識モードの設定がなされていない場合には、ステップＳ２１０に進む。一方、ステップＳ２０２の判断の結果、音声認識モードの設定がなされている場合には、ステップＳ２０３に進む。

ステップＳ２０２で音声認識モードが設定されていると判断された場合、続いて、ステップＳ２０３では、送信者あるいは相手側の会話を音声認識処理部２５で順次音声認識を行い、検索対象となるキーワードが発声されたか否かを判断する。この判断の結果、検索対象となるキーワードが発声されていない場合には、検索対象となるキーワードが発声されるまで、ステップＳ２０３で待機する。一方、ステップＳ２０３の判断の結果、検索対象となるキーワードが発声された場合には、ステップＳ２０４に進む。

ステップＳ２０７では、当該元データを読み出す。続いて、ステップＳ２０８では、ステップＳ２０７で読み出した元データを表示出力部１７のデータ表示部３３に表示する。さらに、相手側の情報端末装置にステップＳ２０７で読み出された元データを送信し、当該相手側の情報端末装置の表示出力部に当該元データを出力表示させる。

続いて、ステップＳ２０９では、次なる検索キーワードが発声されたか否かを判断し、発声された場合には、ステップＳ２０４に戻って以降の処理を繰り返す。一方、ステップＳ２０９での判断の結果、次なる検索キーワードが発声されなかった場合には、ステップＳ２１０に進む。

ステップＳ２１０では、一連の会話を終了させるために、通信の切断処理を実行する。以上のステップＳ２０１〜ステップＳ２１０までの処理を経ることにより、図４に示す表示出力部１７の出力表示動作が行われる。

図６は、第１の実施形態における表示出力部１７の出力表示の他の一例を示す図である。即ち、図６には、図４に示す表示出力部１７の出力表示における別のレイアウトを示したものである。

図６において、表示出力部１７の下段には、一連の会話で使用予定、もしくは、外部記憶部２４内の一部のデータの縮小データ３２が複数表示されている。図６に示す例では、この縮小データ３２が複数表示されている状態の中で会話を行いながら、データを指定するものである。

図６に示す例では、会話における音声認識により抽出されたキーワードに合致するデータ「ａ」３４が強調されると共に、その元データ「Ａ」が外部記憶部２４から読み出されて、表示出力部１７のデータ表示部３３に表示される。また、指示部３５ａ及び３５ｂは、縮小データ３２の候補の切替を指示する際に操作されるものである。

第１の実施形態によれば、操作者は、予め会話に必要なデータ一覧を確認しながら会話を行うことができ、相手側にも同一表示状態を再現させることにより、より効果的な会話が実現可能となる。これにより、連続的な会話を中断することなく、快適なＴＶ電話システム、ＴＶ会議システムを実現することが可能となる。

（第２の実施形態）
図７は、第２の実施形態における表示出力部１７の出力表示の一例を示す図である。
第１の実施形態では、送信側の情報端末装置の外部記憶部（第１の記憶手段）２４に格納されたデータのみを検索対象としていたが、第２の実施形態では、相手側の情報端末装置の外部記憶部（第２の記憶手段）に格納されたデータも検索対象とするものである。

図７において、送信側の情報端末装置における表示出力部１７の下段には、当該情報端末装置に格納されている送信側の縮小データ（縮小画像データ）３６と、相手側の情報端末装置に格納されている相手側の縮小データ（縮小画像データ）３７が表示される。なお、この際、これらの縮小データがそれぞれ両者の情報端末装置に同時に通信ネットワーク２３を介して表示されている。このため、会話において認識されたキーワードに合致するデータを、それぞれの情報端末装置内の外部記憶部から検索し、合致したデータ「ｂ」３８が強調されると共に、その元データ「Ｂ」が表示出力部１７のデータ表示部３３に表示される。

（第３の実施形態）
図８は、第３の実施形態における表示出力部１７の出力表示の一例を示す図である。第３の実施形態は、第２の実施形態の更なる応用を示すものである。

第２の実施形態では、送信側及び相手側の情報端末装置の各外部記憶部内に格納された縮小データの一覧を、それぞれのデータ表示部に出力表示させていたが、各情報端末装置内に格納されたデータの中で、相手に見せたくないデータも含まれることがある。そこで、第３の実施形態では、図８に示すように、相手側の情報端末装置において送信側の情報端末装置に表示したくない禁止縮小データ４０ａ及び４０ｂは、送信側の情報端末装置からは視認できないように、データ表示部３３に表示される。

即ち、第３の実施形態では、それぞれの会話の中から認識されたキーワードに合致するデータが禁止縮小データ４０ａの場合は、当該データを格納している相手側の情報端末装置にはその元データが表示されるが、当該データを未格納な送信側の情報端末装置では、図８に示すように、元データがデータ表示部３３に表示されない。

この第３の実施形態の具体的な形態としては、例えば、図５のステップＳ２０７において相手側の情報端末装置の外部記憶部（第２の記憶手段）から読み出したデータに対して表示禁止の設定がなされていた場合、ステップＳ２０８では、当該データの表示出力部１７への表示を行わないようにする。また、例えば、ステップＳ２０７において自装置の外部記憶部（第１の記憶手段）２４から読み出したデータに対して表示禁止の設定がなされていた場合、ステップＳ２０７では、当該データの相手側の情報端末装置への送信を行わないようにする。

第３の実施形態によれば、一連の縮小データを基に会話をする際に、相手側に見られたくないデータを当該相手側に誤って見られてしまうということを回避でき、当該データを当該相手側に対して自動的に隠蔽することができる。なお、予め見れないように指示がされている場合でも、キーワード検索により一致した元データが自分の情報端末装置に表示された後、特定の操作処理を行って相手側に送信することにより、相手側で当該元データを表示可能とするように構成しても良い。

（第４の実施形態）
図９は、第４の実施形態に係る情報端末装置の駆動方法を示すフローチャートである。具体的に、この図９に示す処理は、図１の制御部１１で行われる。

続いて、ステップＳ３０２では、会話中の音声からデータ検索のキーワードを抽出する音声認識モードの設定がなされているか否かを判断する。この判断の結果、音声認識モードの設定がなされていない場合には、ステップＳ３１１に進む。一方、ステップＳ３０２の判断の結果、音声認識モードの設定がなされている場合には、ステップＳ３０３に進む。

ステップＳ３０２で音声認識モードが設定されていると判断された場合、続いて、ステップＳ３０３では、送信者あるいは相手側の会話を音声認識処理部２５で順次音声認識を行い、検索対象となるキーワードが発声されたか否かを判断する。この判断の結果、検索対象となるキーワードが発声されていない場合には、検索対象となるキーワードが発声されるまで、ステップＳ３０３で待機する。一方、ステップＳ３０３の判断の結果、検索対象となるキーワードが発声された場合には、ステップＳ３０４に進む。

ステップＳ３０４では、キーワードの認識処理を行う。そして、認識されたキーワードがキーワード保持部２６にその認識回数と共に格納される。

続いて、ステップＳ３０５では、キーワード保持部２６に格納されたステップＳ３０４で認識されたキーワードがＮ回（Ｎは、自然数）以上発声されたか否かを判断する。この判断の結果、ステップＳ３０４で認識されたキーワードがＮ回以上発声されていない場合には、ステップＳ３０３に戻る。一方、ステップＳ３０５の判断の結果、ステップＳ３０４で認識されたキーワードがＮ回以上発声された場合には、ステップＳ３０６に進む。

ステップＳ３０８では、当該元データを読み出す。続いて、ステップＳ３０９では、ステップＳ３０８で読み出した元データを表示出力部１７のデータ表示部３３に表示する。さらに、相手側の情報端末装置にステップＳ３０８で読み出された元データを送信し、当該相手側の情報端末装置の表示出力部に当該元データを出力表示させる。

続いて、ステップＳ３１０では、次なる検索キーワードが発声されたか否かを判断し、発声された場合には、ステップＳ３０４に戻って以降の処理を繰り返す。一方、ステップＳ３１０での判断の結果、次なる検索キーワードが発声されなかった場合には、ステップＳ３１１に進む。

ステップＳ３１１では、一連の会話を終了させるために、通信の切断処理を実行する。以上のステップＳ３０１〜ステップＳ３１１までの処理を経ることにより、第４の実施形態における表示出力部１７の出力表示動作が行われる。

第４の実施形態によれば、会話の中で連続的に発声される異なるキーワードに対して、所定回数（Ｎ回）発声されたキーワードの元データを検索することにより、処理が遅くなったり、不要な元データを読み出してしまうといった問題を回避することができる。これにより、検索する元データの精度を向上させることができる。なお、本実施形態において、当該キーワードの発声は、送信側、相手側のそれぞれの発声回数を計上する形態であっても良い。

（第５の実施形態）
図１０は、第５の実施形態に係る情報端末装置の駆動方法を示すフローチャートである。具体的に、この図５に示す処理は、図１の制御部１１で行われる。

図６で示した表示出力部１７の表示例では、検索対象となる縮小データ群を予め指定して会話を行う必要があった。第５の実施形態では、検索対象となるデータ群に対して、予め話者を対応させて記憶させておく。そして、送信側の情報端末装置に対して、話者が会話を開始することにより、音声認識処理部２５で話者が特定され、話者に対応したデータ群が呼び出されるように構成したものである。

まず、ステップＳ４０１では、送信側の情報端末装置と相手側（受信側）の情報端末装置とを、通信ネットワーク２３を介して画像データや音声データを含む各種のデータの送受信が可能な状態として、通信開始の処理を行う。

続いて、ステップＳ４０２では、会話中の音声からデータ検索のキーワードを抽出する音声認識モードの設定がなされているか否かを判断する。この判断の結果、音声認識モードの設定がなされていない場合には、ステップＳ４１１に進む。一方、ステップＳ４０２の判断の結果、音声認識モードの設定がなされている場合には、ステップＳ４０３に進む。

ステップＳ４０２で音声認識モードが設定されていると判断された場合、続いて、ステップＳ４０３では、送信者あるいは相手側の会話を音声認識処理部２５で順次音声認識を行い、検索対象となるキーワードが発声されたか否かを判断する。この判断の結果、検索対象となるキーワードが発声されていない場合には、検索対象となるキーワードが発声されるまで、ステップＳ４０３で待機する。一方、ステップＳ４０３の判断の結果、検索対象となるキーワードが発声された場合には、ステップＳ４０４に進む。

ステップＳ４０４では、キーワードが認識処理を行う。そして、認識されたキーワードがキーワード保持部２６にその話者の情報と共に格納される。

続いて、ステップＳ４０５では、ステップＳ４０４で認識されたキーワードに基づいて、キーワード保持部２６を参照することにより、話者を特定する。話者が特定されると、続いて、ステップＳ４０６では、外部記憶部２４に予め話者と関連させて記憶させていたデータ群が検索され、図６に示す縮小データ３２が表示される。

続いて、ステップＳ４０７では、外部記憶部２４内に、ステップＳ４０４で認識されたキーワードと一致したキーワードに係る元データが存在するか否かを判断する。この判断の結果、ステップＳ４０４で認識されたキーワードと一致したキーワードに係る元データが外部記憶部２４内に存在しない場合には、ステップＳ４０３に戻る。一方、ステップＳ４０７の判断の結果、ステップＳ４０４で認識されたキーワードと一致したキーワードに係る元データが外部記憶部２４内に存在する場合には、ステップＳ４０８に進む。

ステップＳ４０８では、当該元データを読み出す。続いて、ステップＳ４０９では、ステップＳ４０８で読み出した元データを表示出力部１７のデータ表示部３３に表示する。さらに、相手側の情報端末装置にステップＳ４０８で読み出された元データを送信し、当該相手側の情報端末装置の表示出力部に当該元データを出力表示させる。

続いて、ステップＳ４１０では、次なる検索キーワードが発声されたか否かを判断し、発声された場合には、ステップＳ４０４に戻って以降の処理を繰り返す。一方、ステップＳ４１０での判断の結果、次なる検索キーワードが発声されなかった場合には、ステップＳ４１１に進む。

ステップＳ４１１では、一連の会話を終了させるために、通信の切断処理を実行する。以上のステップＳ４０１〜ステップＳ４１１までの処理を経ることにより、第５の実施形態における表示出力部１７の出力表示動作が行われる。

第５の実施形態によれば、音声認識処理部２５の機能を利用して話者の特定をキーワードの認識と共に行うことにより、話者特定のデータを検索することができ、更なる会話の有効性が高められる。なお、本実施形態において、相手の話者を認識して、相手の話者と予め関連付けられたデータ群を読み出しても良いことは言うまでもない。

前述した各実施形態に係る情報端末装置を構成する図１の各手段、並びに情報端末装置の駆動方法を示した図５、図９及び図１０の各ステップは、コンピュータのＲＡＭやＲＯＭなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び当該プログラムを記録したコンピュータ読み取り可能な記憶媒体は本発明に含まれる。

具体的に、前記プログラムは、例えばＣＤ−ＲＯＭのような記憶媒体に記録し、或いは各種伝送媒体を介し、コンピュータに提供される。前記プログラムを記録する記憶媒体としては、ＣＤ−ＲＯＭ以外に、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等を用いることができる。他方、前記プログラムの伝送媒体としては、プログラム情報を搬送波として伝搬させて供給するためのコンピュータネットワーク（ＬＡＮ、インターネットの等のＷＡＮ、無線通信ネットワーク等）システムにおける通信媒体を用いることができる。また、この際の通信媒体としては、光ファイバ等の有線回線や無線回線などが挙げられる。

また、コンピュータが供給されたプログラムを実行することにより各実施形態に係る情報端末装置の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているＯＳ（オペレーティングシステム）或いは他のアプリケーションソフト等と共同して各実施形態に係る情報端末装置の機能が実現される場合や、供給されたプログラムの処理の全て、或いは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて各実施形態に係る情報端末装置の機能が実現される場合も、かかるプログラムは本発明に含まれる。

第１の実施形態に係る情報端末装置のハードウエア構成を示すブロック図である。従来例における表示出力部の出力表示の一例を示す図である。図２に示す従来例における表示出力部の出力表示動作を示すフローチャートである。第１の実施形態における表示出力部の出力表示の一例を示す図である。第１の実施形態に係る情報端末装置の駆動方法を示すフローチャートである。第１の実施形態における表示出力部の出力表示の他の一例を示す図である。第２の実施形態における表示出力部の出力表示の一例を示す図である。第３の実施形態における表示出力部の出力表示の一例を示す図である。第４の実施形態に係る情報端末装置の駆動方法を示すフローチャートである。第５の実施形態に係る情報端末装置の駆動方法を示すフローチャートである。

符号の説明

１１：制御部
１２：ＲＯＭ
１３：ＲＡＭ
１４：画像入力部
１５：音声入力部
１６：操作入力部
１７：表示出力部
１８：音声出力部
１９：画像符号化／復号化処理部
２０：音声符号化／復号化処理部
２１：多重／分離処理部
２２：回線インターフェース処理部
２３：通信ネットワーク
２４：外部記憶部
２５：音声認識処理部
２６：キーワード保持部
２７：送信側映像部
２８：相手側映像部
２９：データ一覧
３０、３４、３８：データ
３１、３３：データ表示部
３２：縮小データ
３５ａ、３５ｂ：指示部
３６：送信側の縮小データ
３７：相手側の縮小データ
４０ａ、４０ｂ：禁止縮小データ

Claims

音声データ及び画像データを含む各種のデータを伝送路を介して外部装置と送受信可能に構成された情報端末装置であって、
検索用のキーワードと関連付けられたデータを記憶する第１の記憶手段と、
前記情報端末装置及び前記外部装置のうちの少なくとも何れか一方に対して発声された音声を音声データとして入力する音声入力手段と、
前記音声入力手段により入力された音声データに基づいてキーワードを抽出する抽出手段と、
前記抽出手段で抽出したキーワードに係るデータを前記第１の記憶手段から読み出す読み出し手段と、
前記読み出し手段で読み出したデータを表示媒体に表示する表示手段と、
前記読み出し手段で読み出したデータを前記伝送路を介して前記外部装置に送信する送信手段と
を有することを特徴とする情報端末装置。
前記外部装置には、検索用のキーワードと関連付けられたデータを記憶する第２の記憶手段が具備されており、
前記読み出し手段は、前記抽出手段で抽出したキーワードに係るデータを、前記第１の記憶手段及び前記第２の記憶手段から読み出すことを特徴とする請求項１に記載の情報端末装置。
前記読み出し手段において前記第２の記憶手段から読み出したデータに対して表示禁止の設定がなされていた場合、前記表示手段は、当該データの前記表示媒体への表示を行わないことを特徴とする請求項２に記載の情報端末装置。
前記読み出し手段において前記第１の記憶手段から読み出したデータに対して表示禁止の設定がなされていた場合、前記送信手段は、当該データの前記外部装置への送信を行わないことを特徴とする請求項２又は３に記載の情報端末装置。
前記読み出し手段は、前記抽出手段により抽出された前記キーワードの回数が既定回数となった場合に、当該キーワードに係るデータを読み出すことを特徴とする請求項１乃至４の何れか１項に記載の情報端末装置。
前記第１の記憶手段及び前記第２の記憶手段に記憶されているデータには、話者に係る前記音声データの音声属性コードが関連付けられており、
前記抽出手段は、前記音声属性コードに対応したキーワードを抽出することを特徴とする請求項２乃至４の何れか１項に記載の情報端末装置。
音声データ及び画像データを含む各種のデータを伝送路を介して外部装置と送受信可能に構成され、検索用のキーワードと関連付けられたデータを記憶する第１の記憶手段を具備する情報端末装置の駆動方法であって、
前記情報端末装置及び前記外部装置のうちの少なくとも何れか一方に対して発声された音声を音声データとして入力する音声入力ステップと、
前記音声入力ステップにより入力された音声データに基づいてキーワードを抽出する抽出ステップと、
前記抽出ステップで抽出したキーワードに係るデータを前記第１の記憶手段から読み出す読み出しステップと、
前記読み出しステップで読み出したデータを表示媒体に表示する表示ステップと、
前記読み出しステップで読み出したデータを前記伝送路を介して前記外部装置に送信する送信ステップと
を有することを特徴とする情報端末装置の駆動方法。
請求項７に記載の情報端末装置の駆動方法の各ステップをコンピュータに実行させるためのプログラム。