JP2007193350A

Movatterモバイル変換

Info

Publication number: JP2007193350A
Application number: JP2007047403A
Authority: JP
Inventors: Ayako Minematsu; 彩子峰松
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-11-17
Filing date: 2007-02-27
Publication date: 2007-08-02

Abstract

【課題】ノン・ネイティブの英語の発音から、正確に英単語を識別する音声識別装置およびその方法を提供する。
【解決手段】ベクトルデータ生成部１６０およびラベル作成部１８２は、日本人が発音した英語の１センテンス分の音声データを処理し、ラベル列に変換する。候補単語作成部１８４は、１センテンス分のラベル列を、それぞれ１つ以上の英単語から構成される第１の候補単語に対応付ける。類似単語追加部１８６は、単語データベース部１６０を用いて、第１の候補単語の発音に類似する英単語、例えば、第１の候補単語readに対する類似単語lead（日本人は一般にｌとｒとを区別して発音しずらい）を検索し、得られた類似単語を第１の候補単語に付加して第２の候補単語とする。絞り込み部１８８は、ユーザの操作に応じて第２の候補単語のいずれかを最終的な識別結果として選択し、選択した英単語を接続して英文のテキストデータとして出力する。
【選択図】図３

Description

本発明は、特定の言語を母国語とする話者による他の特定の言語の話し声に含まれる後者の言語の単語それぞれを識別する音声識別装置およびその方法、例えば、日本人が話す英語の音声を識別し、音声に含まれる英単語の列を示すデータ（テキストデータ）として出力する音声識別装置およびその方法に関する。

また、本発明は、上記音声識別装置およびその方法の処理過程において得られるデータ（候補単語データ）を利用して、正しい発音を話者に教え、発音を矯正する発音矯正装置およびその方法に関する。

不特定話者が話す音声に含まれる単語それぞれを識別し、テキストデータとして出力する音声識別装置が用いられている。例えば、特開平０６−１２４８３号公報、特開平０８−５０４９３号公報および特開平０９−２２２９７(文献１〜３）等は、このような音声識別方法を開示する。

例えば、これら従来の音声識別方法を用い、英語の音声から英単語を識別する英語用音声識別装置により、日本人が発音した英語音声から英文のテキストデータを作成すると、識別率が低下してしまう。これは、英語には、日本語に存在しない音（th等）、あるいは、日本語においては区別しにくい音（l,r等）等があり、日本人は、一般に、このような英語の音を正確に発音できないので、英語用音声識別装置が不正確な発音をそのまま単語に置き換えてしまうためである。例えば、日本人が英語で"rice"と発音したつもりであっても、英語用の音声識別装置は、この音声を"lice"あるいは"louse"と識別してしまうことがある。

このような不具合は、上に示した例とは逆に、英語を母国語とするアメリカ人が、日本語の音声から日本文のテキストを作成する音声識別装置を用いる場合、あるいは、イギリス式の英語を母国語とする英国人が、アメリカ式英語用に調整された音声識別装置を用いる場合、あるいは、特定の人が何らかの理由で正確な発音をしにくくなった場合等、様々な場合に生じうる。しかしながら、上記各文献に開示された音声識別方法のいずれも、このような不具合を解決しえない。

ここで、話者の英語の発音が上達し、ネイティブスピーカーに近づけば、音声識別装置による識別率が向上することは言うまでもなく、しかも、話者にとって英会話が上達することは好ましいことである。

例えば、特開平４−５４９５６号公報は、話者の英語音声を識別し、識別した英語音声を話者に確認させる学習装置を開示する（文献４）。また、例えば、特開昭６０−１２３８８４号公報は、音声合成ＬＳＩを用い、話者に学習しようとする音声を聞かせる英語学習機を開示する（文献５）。その他、特公昭４４−７１６２号公報、特開平７−１１７８０７号公報、特開昭６１−１８０６８号公報、特開平８−２７５８８号公報、特開昭６２−１１１２７８号公報、特開昭６２−２９９９８５号公報、特開平３−７５８６９号公報、特公平６−２７９７１号公報、特公平８−１２５３５号公報および特開平３−２２６７８５号公報等、数多くの文献に、外国語の発音を学習するための学習装置が開示されている（文献６〜１５）。

しかしながら、これらの文献に開示された学習装置を用いても、提示された発音と自分の発音とを比較しなければならなかったり、自分の発音のどこが誤っているかが分からなかったりして、話者が充分な学習効果を必ずしも得ることはできない。
特開平０６−１２４８３号公報特開平０８−５０４９３号公報特開平０９−２２２９７号公報特開平４−５４９５６号公報特開昭６０−１２３８８４号公報特公昭４４−７１６２号公報特開平７−１１７８０７号公報特開昭６１−１８０６８号公報特開平８−２７５８８号公報特開昭６２−１１１２７８号公報特開昭６２−２９９９８５号公報特開平３−７５８６９号公報特公平６−２７９７１号公報特公平８−１２５３５号公報特開平３−２２６７８５号公報

本発明は、上述した従来技術の問題点に鑑みてなされたものであり、所定の言語を母国語としない話者（ノン・ネイティブ）による所定の言語の話し声に含まれる単語それぞれを識別し、話者が意図する所定の言語の単語に置換して、正確なテキストデータを作成することができる音声識別装置およびその方法を提供することを目的とする。

また、本発明は、話されている地域が異なる等のために、同一の言語の発音が変化したような場合であっても、いずれの地域の話者による話し声でも、話者が意図する単語に変換して、正確なテキストデータを作成することができる音声識別装置およびその方法を提供することを目的とする。また、本発明は、発音の個人差を補って、常に高い識別率を保つことができる音声識別装置およびその方法を提供することを目的とする。

さらに、本発明は、上記音声識別装置およびその方法の処理の過程で得られるデータを利用して話者の発音の問題点を指摘し、話者にネイティブスピーカの発音を学習させ、話者の発音を矯正する発音矯正装置およびその方法を提供することを目的とする。また、本発明は、話者の発音と正確な発音とを自動的に比較して誤りを指摘することができ、さらに、話者が発音をどのように矯正すべきかを示す詳細な情報を提示し、その発音を矯正することができる発音矯正装置およびその方法を提供することを目的とする。

［第１の音声識別装置]
上記目的を達成するために、本発明にかかる第１の音声識別装置は、話し声に含まれる１つ以上の単語を示す音声データから、前記単語それぞれを識別する音声識別装置であって、１つ以上の前記単語の音声データそれぞれに、これらの音声データの１つ以上それぞれを識別して得られる１つ以上の前記単語の組み合わせの候補（候補単語）の１組以上を対応付ける候補単語対応付け手段と、１つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる１つ以上の前記単語の組み合わせ（類似単語）の０組以上を対応付ける類似単語対応付け手段と、１つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語、および、前記候補単語それぞれに対応付けた前記類似単語のいずれかを選択し、前記単語の音声データそれぞれの識別結果とする音声データ識別手段とを有する。

好適には、前記音声データは、所定の言語の話し声に含まれる１つ以上の単語を示し、前記候補単語対応付け手段は、１つ以上の前記単語の音声データそれぞれに、これらの音声データの１つ以上それぞれを識別して得られる前記所定の言語の候補単語の１組以上を対応付け、前記類似単語対応付け手段は、１つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる前記所定の言語の類似単語の０組以上を対応付け、音声データ識別手段は、１つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語、および、前記候補単語それぞれに対応付けた前記類似単語のいずれかを選択し、１つ以上の前記単語の音声データそれぞれの識別結果とする。

好適には、前記候補単語対応付け手段は、音声データに対応付けた前記候補単語それぞれの確からしさを示す確率データを、音声データに対応付けた前記候補単語それぞれに付し、前記音声データ識別手段は、前記確率データの値が所定の範囲をとる前記候補単語のみを選択し、前記単語の音声データの識別結果とする。

好適には、前記候補単語対応付け手段は、前記類似単語それぞれに対応する発音の誤りを示す誤り情報を、音声データに対応付けた前記候補単語それぞれに付す。

［音声識別装置の作用]
本発明にかかる音声識別装置は、特定の言語（以下本項目において英語を例示する）以外の言語（同様に日本語を例示する）を母国語とし、主に話す話者（同様に日本人を例示する）が発音した英語の話し声（音声）に含まれる単語を識別し、英単語に置き換えてテキストデータを作成する。

本発明にかかる音声識別装置において、マイク等から入力され、ディジタルデータに変換された日本人による英語音声（音声データ）は、例えば、音の特徴（音の高さ、強さ、イントネーション等）ごとに量子化したベクトルデータに変換され、さらに、ラベルと呼ばれ、発音記号に類似する音のデータに変換されて、候補単語対応付け手段に対して出力される。

［候補単語対応付け手段]
候補単語対応付け手段は、ラベルに変換された音声データを１つの単語、あるいは、一連の複数の単語ごとに処理し、音声データと、音声データの識別結果の候補として、単独（１個）の英単語、あるいは、複数の英単語の組み合わせ（これらを総称して候補単語と記す）とを対応付ける。

［類似単語記憶手段]
類似単語記憶手段は、正確な英語の発音とは異なるが、日本人が英語を発音した場合に、音声データと対応しうる単独の英単語、あるいは、複数の英単語の組み合わせ（これらを総称して類似単語と記す）と、候補単語となりうる単独の英単語あるいは複数の英単語の組み合わせとを予め対応付けた、例えば、検索用辞書データを記憶する。一例を挙げると、この辞書データにおいては、日本人による不正確な英語の発音に対応するために、候補単語となりうる単独の英単語"lead"に、類似単語"read"（日本人が区別しにくいl,rを考慮したもの、一般に日本人は"r"の発音が不得手である）が対応付けられる。なお、英単語に対して類似単語が存在しない場合があるので、このような場合には、この辞書において、英単語に類似単語は対応付けられない。

［類似単語対応付け手段]
類似単語対応付け手段は、類似単語記憶手段が記憶した辞書データを検索し、候補単語に対応付けられた類似単語を読み出して、候補単語に対する類似単語の対応付けを行なう。上記例においては、日本人が発音した英単語"read"に対応する音声データに、英単語"lead"と、類似単語"read"とが対応付けられる。

［音声データ識別手段]
音声データ識別手段は、例えば、それまでに識別された英単語列に対する構文解析処理に基づいて、あるいは、ユーザの選択操作に応じて、音声データに対応付けられた候補単語および類似単語のいずれかを選択し、識別結果とする。

本発明にかかる音声識別装置の各構成要素は、次々に入力される音声データに対して、ここまでに述べた処理を順次、行ない、音声データに含まれる英単語を識別し、識別した英単語を接続したテキストデータを作成する。

なお、ここまでの説明では、日本人による英語の音声を例示したが、類似単語記憶手段が、アメリカ式の英語の発音とは異なるが、イギリス式の英語の発音である場合に、音声データと対応しうる類似単語を、候補単語に対応付けた辞書データを記憶する等の変更を加えることにより、本発明にかかる音声識別装置は、イギリス式の発音による英語音声、および、アメリカ式の発音による英語音声の両者を識別してテキストデータを生成することができる。

［所定の言語の範囲]
このように、上記「所定の言語」の範囲は、候補単語対応付け手段が、充分な識別率で、音声データと単語とを対応付けられる範囲として定義される。従って、例えば、通常、同一とされる言語であっても、地域的な隔離により発音が相互に異なってしまい、いずれかに適するように調整された候補単語対応付け手段のみでは充分な識別率を得られない複数の方言(例えば、アメリカ、イギリス、オーストラリアおよび南アフリカ等各国の英語、スペインおよび中南米等各国のスペイン語)は、上記「所定の言語」の同一範囲には含まれない。さらに、何らかの理由により、特定の人の発音が不明りょうになり、この人の母国語（主に話す言葉）に適するように調整された候補単語対応付け手段のみでは充分な識別率が得られなくなった場合も同様である。

［第２の音声識別装置]
また、本発明にかかる第２の音声識別装置は、所定の言語以外を主に話す話者による前記所定の言語の音声に含まれる前記所定の言語の１つ以上の単語を示す音声データから、前記所定の言語の単語の１つ以上それぞれを識別する音声識別装置であって、前記所定の言語の単語の音声データの１つ以上それぞれに、これらの音声データの１つ以上それぞれを識別して得られる前記所定の言語の単語、および、前記話者が話した可能性がある前記所定の言語の単語の１つ以上またはこれらのいずれかを対応付ける単語対応付け手段と、１つ以上の前記単語の音声データそれぞれに対応付けた単語のいずれかを選択し、１つ以上の前記単語の音声データそれぞれの識別結果とする音声データ識別手段とを有する。

［音声識別方法]
また、本発明にかかる第１の音声識別方法は、話し声に含まれる１つ以上の単語を示す音声データから、前記単語それぞれを識別する音声識別方法であって、１つ以上の前記単語の音声データそれぞれに、これらの音声データの１つ以上それぞれを識別して得られる１つ以上の前記単語の組み合わせの候補（候補単語）の１組以上を対応付けるステップと、１つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる１つ以上の前記単語の組み合わせ（類似単語）の０組以上を対応付けるステップと、１つ以上の前記単語の音声データそれぞれに対応付けた前記候補単語、および、前記候補単語それぞれに対応付けた前記類似単語のいずれかを選択し、前記単語の音声データそれぞれの識別結果とするステップとを含む。

また、本発明にかかる第２の音声識別方法は、所定の言語以外を主に話す話者による前記所定の言語の音声に含まれる前記所定の言語の１つ以上の単語を示す音声データから、前記所定の言語の単語の１つ以上それぞれを識別する音声識別方法であって、前記所定の言語の単語の音声データの１つ以上それぞれに、これらの音声データの１つ以上それぞれを識別して得られる前記所定の言語の単語、および、前記話者が話した可能性がある前記所定の言語の単語の１つ以上またはこれらのいずれかを対応付けるステップと、１つ以上の前記単語の音声データそれぞれに対応付けた単語のいずれかを選択し、１つ以上の前記単語の音声データそれぞれの識別結果とするステップとを含む。

［音声矯正装置]
また、本発明にかかる音声矯正装置は、単語を示す音声データを識別して得られる単語の候補（候補単語）を１個以上、対応付ける候補単語対応付け手段と、音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語（類似単語）を０個以上、対応付ける類似単語対応付け手段と、前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する発音矯正データ出力手段とを有する。

［発音矯正装置の作用]
本発明にかかる発音矯正装置において、候補単語対応付け手段および類似単語対応付け手段は、上述した本発明にかかる音声識別装置においてと同様に、音声データと、候補単語・類似単語とを対応付ける。

［発音矯正データ出力手段]
話者がネイティブに近い正しい発音をしている場合には、話者の意図した単語と音声データの識別結果とは候補単語に含まれることになる。一方、話者の発音が誤っていたり、不明瞭であったりすると、話者の意図した単語は候補単語に含まれるが、音声データの識別結果は類似単語に含まれるということになる。従って、予め話者に発音すべき単語を示し、この単語を発音させた場合に、この単語が音声データの識別結果において、類似単語と一致するということは、ユーザ（話者）の発音に何らかの誤り、あるいは、発音に不明瞭さがあることを意味する。

発音矯正データ出力手段は、話者に示した単語が類似単語と一致する場合に、話者に示した単語と一致する類似単語に対応付けられ、発音の誤り・不明瞭さを矯正する情報（例えば、ネイティブスピーカが正しい発音を行なう際の口および舌の動きを示す画像データ、および、ネイティブスピーカと比べて、話者の発音のどこが誤っているかを文章で示すテキストデータ）をモニタに表示し、話者に発音の矯正を促すとともに、話者の発音がネイティブスピーカの発音に近づくように学習を補助する。

［音声矯正方法]
また、本発明にかかる音声矯正方法は、単語を示す音声データを識別して得られる単語の候補（候補単語）を１個以上、対応付け、音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語（類似単語）を０個以上、対応付け、前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する。

［第１実施形態]
以下、本発明の第１の実施形態を説明する。なお、以下、説明の明確化および便宜のために、特に断らない限り、本発明にかかる音声識別処理が、日本人が話す英語を識別するために調整されている場合を具体例として説明する。

［コンピュータ１]
まず、図１を参照して、本発明にかかる音声識別処理を実現するコンピュータ１を説明する。図１は、本発明にかかる音声識別処理を実現するコンピュータ１の構成を例示する図である。図１に例示するように、コンピュータ１は、例えば、音声入出力機能を有するパーソナルコンピュータであって、ＣＰＵ、メモリおよびこれらの周辺装置等を含むコンピュータ本体１０、出力装置１００、光磁気（ｍｏ）ディスク装置、ハードディスク装置あるいはフロッピーディスク装置等の記憶装置１１０、および、入力装置１２０から構成される。出力装置１００は、ＣＲディスプレイ装置等のモニタ１０２、音声出力用のスピーカ１０４、プリンタ１０６等を含む。入力装置１２０は、マイク１２２、音声入力用ボード１２４、キーボード１２６およびマウス１２８等を含む。

［モニタ１０２]
出力装置１００において、モニタ１０２は、コンピュータ１のユーザに対して操作用のＧＵＩ画像、および、コンピュータ本体１０が音声を識別して得られたテキストデータ等を表示する。

［スピーカ１０４]
スピーカ１０４は、コンピュータ本体１０が音声を識別して得られたテキストデータを音声として出力するため等に用いられる。

［プリンタ１０６]
プリンタ１０６は、コンピュータ本体１０が音声を識別して得られたテキストデータのハードコピーを出力するため等に用いられる。

［記憶装置１１０]
記憶装置１１０は、コンピュータ本体１０による制御に従って動作し、コンピュータ本体１０が音声を識別して得られたテキストデータを記憶する。また、記憶装置１１０は、音声識別に必要なデータ（以下、このようなデータを「単語データ」と総称する）およびプログラム等を記憶し、記憶した単語データおよびプログラム等をコンピュータ本体１０に対して出力する。なお、記憶装置１１０に記憶される単語データは、例えば、音声識別プログラム１６により作成され、あるいは、フロッピーディスク等の記録媒体により供給され、ラベル列テーブル、インデックステーブル、単語レコード、類似単語レコードおよび誤り情報コードテーブル（ラベル列データを除くこれらの詳細は、図４〜図７を参照して後述する）を含む。

［マイク１２２]
マイク１２２は、ユーザが発音した話し声の音声を集音し、アナログ形式の音声信号に変換して音声入力用ボード１２４に対して出力する

［音声入力用ボード１２４]
音声入力用ボード１２４は、コンピュータ本体１０による制御に従って動作し、マイク１２２から入力された音声信号をサンプリングし、音声信号の波形に対応するディジタル形式の音声データに変換してコンピュータ本体１０に対して出力する。

［キーボード１２６，マウス１２８]
キーボード１２６およびマウス１２８は、例えば、モニタ１０２に表示されたＧＵＩに対するユーザの操作を受け入れて、操作入力としてコンピュータ本体１０に対して出力する。

［ソフトウェア１４]
以下、図２を参照して、本発明にかかる音声識別処理を実現するソフトウェアの構成を説明する。図２は、本発明にかかる音声識別処理を実現するソフトウェア１４の構成を示す図である。なお、図２においては、本発明にかかる音声識別処理の実現に関係がないソフトウェアの構成部分を省略してある。

図２に示すように、ソフトウェア１４は、ハードウェア（Ｈ／Ｗ）サポート部１４２、オペレーションシステム（ＯＳ）１４８およびアプリケーション部から構成される。ハードウェアサポート部１４２は、音声デバイスドライバ１４４および記憶デバイスドライバ１４６を含む。オペレーティングシステム１４８は、例えば、ＯＳ／２（ＩＢＭ社商品名）あるいはＷｉｎｄｏｗｓ（マイクロソフト社商品名）といった汎用ＯＳであって、音声インターフェース（ＩＦ）部１５０および記憶装置インターフェース部１５２を含む。また、ソフトウェア１４は、アプリケーション部として音声識別プログラム１６を含む。ソフトウェア１４のこれらの構成部分は、記憶装置１１０に記憶され、必要に応じてコンピュータ本体１０のメモリにロードされて実行される。

［音声デバイスドライバ１４４]
ハードウェアサポート部１４２において、音声デバイスドライバ１４４は、音声入力用ボード１２４を制御して、マイク１２２から入力される音声信号を音声データに変換させる。また、音声デバイスドライバ１４４は、音声入力用ボード１２４から入力された音声データを音声インターフェース部１５０に対して出力するインターフェース機能を実現する。また、音声デバイスドライバ１４４は、オペレーティングシステム１４８の音声インターフェース部１５０の制御に従って、音声入力用ボード１２４のサンプリング周期の変更等の設定変更、および、サンプリングの開始および終了等の動作制御を行なう。

［記憶デバイスドライバ１４６]
記憶デバイスドライバ１４６は、オペレーティングシステム１４８の記憶装置インターフェース部１５２からの要求（制御）に応じて、記憶装置１１０の動作を制御し、単語データおよび音声識別の結果として得られたテキストデータを記憶させ、あるいは、記憶装置１１０が記憶しているこれらのデータを読み出させる。また、記憶デバイスドライバ１４６は、記憶装置１１０から入力された単語データおよびテキストデータを、記憶装置インターフェース部１５２に対して出力し、あるいは、記憶装置インターフェース部１５２から入力されたこれらのデータを記憶デバイスドライバ１４６に対して出力するインターフェース機能を実現する。

［オペレーティングシステム１４８]
オペレーティングシステム１４８は、音声インターフェース部１５０および記憶装置インターフェース部１５２が実現する機能の他、コンピュータ本体１０におけるプログラムの実行制御を行なう。また、オペレーティングシステム１４８は、音声識別プログラム１６が出力するテキストデータおよびＧＵＩ画像をモニタ１０２に表示する処理、テキストデータを音声信号に変換してスピーカ１０４を介して出力する処理、プリンタ１０６に対するハードコピーを行なうために必要な処理、および、キーボード１２６およびマウス１２８に対するユーザの操作を受け入れる等を行なう。

［音声インターフェース部１５０]
オペレーティングシステム１４８において、音声インターフェース部１５０は、音声識別プログラム１６からの要求（制御）に応じて、音声デバイスドライバ１４４を制御する。また、音声インターフェース部１５０は、音声デバイスドライバ１４４から入力された音声データを音声識別プログラム１６に対して出力するインターフェース機能を実現する。

［記憶装置インターフェース部１５２]
記憶装置インターフェース部１５２は、記憶装置１１０の記憶領域を管理する。また、記憶装置インターフェース部１５２は、音声識別プログラム１６からの要求（制御）に応じて記憶デバイスドライバ１４６を制御し、音声識別プログラム１６から要求された単語データおよびテキストデータを記憶装置１１０から読み出させ、読み出された単語データおよびテキストデータを音声識別プログラム１６に対して出力する。また、記憶装置インターフェース部１５２は、音声識別プログラム１６から入力される単語データおよびテキストデータを、記憶デバイスドライバ１４６を介して記憶装置１１０の空き記憶領域に記憶させる。

［音声識別プログラム１６]
以下、図３を参照して音声識別プログラム１６を説明する。図３は、図２に示した音声識別プログラム１６の構成を示す図である。

図３に示すように、音声識別プログラム１６は、単語データベース部１６０、制御部１６２および音声識別部１８から構成される。音声識別部１８は、ベクトルデータ生成部１８０、ラベル作成部１８２、候補単語作成部１８４、類似単語追加部１８６および絞り込み部１８８を含む。音声識別プログラム１６は、これらの構成部分により、操作用のＧＵＩ画像を表示し、表示したＧＵＩ画像に対するユーザの操作に従って、音声インターフェース部１５０から入力される音声データを、記憶装置インターフェース部１５２から入力される単語データを用いて識別し、識別の結果として得られた単語列をテキストデータとしてオペレーティングシステム１４８を介して出力する。

［制御部１６２]
制御部１６２は、操作用のＧＵＩ画像をモニタ１０２に表示し、表示したＧＵＩ画像に対して、ユーザが入力装置１２０のキーボード１２６およびマウス１２８を用いて行なう操作をオペレーティングシステム１４８を介して受け入れる。また、制御部１６２は、受け入れた操作入力に応じて、オペレーティングシステム１４８の音声インターフェース部１５０および記憶装置インターフェース部１５２を制御する。

また、制御部１６２は、受け入れた操作入力に応じて単語データベース部１６０を制御して、候補単語作成部１８４が音声データと候補単語とを対応付けるために用いるラベル列テーブル、類似単語追加部１８６が類似単語を候補単語と対応付けるために用いるインデックステーブル、単語レコード、類似単語レコードおよび誤り情報コードテーブル（図４〜図７を参照して後述する）を含む単語データを作成あるいは更新させ、記憶装置インターフェース部１５２等を介して記憶装置１１０に記憶させる。

また、制御部１６２は、ＧＵＩ画像内に、音声データの各部分と対応付けた候補単語および類似単語を表示し、表示したこれらの単語に対する操作入力に応じて、候補単語および類似単語のいずれかを絞り込み部１８８に選択させ、最終的な識別結果とさせる。なお、制御部１６２による候補単語および類似単語の表示方法の例として、候補単語作成部１８４および類似単語追加部１８６が対応付けた候補単語をモニタ１０２に反転表示し、ユーザのキーボード１２６に対する操作に応じて候補単語および類似単語を変更して順次、表示する方法、あるいは、ユーザがモニタ１０２に表示された候補単語の誤り部分を見つけて、マウス１２８でクリックした場合に、クリックされた部分の候補単語と対応付けたウィンドウ内に、候補単語および類似単語の一覧を表示する等を挙げることができる。

［単語データベース部１６０]
単語データベース部１６０は、上述のように制御部１６２の制御に従って単語データを作成または更新し、記憶装置１１０に記憶させ、管理する。また、単語データベース部１６０は、候補単語作成部１８４に対して単語データ（ラベル列テーブル）を出力する。

また、単語データベース部１６０は、類似単語追加部１８６の要求に応じて単語データ（インデックステーブル、単語レコード、類似単語レコードおよび誤り情報コードテーブル;図４〜図７）を検索し、検索の結果として得られ、類似単語追加部１８６に入力された第１の候補単語に対応する単語レコード、類似単語レコードおよび誤り情報を類似単語追加部１８６に対して出力する。

［単語データ]
ここで、以下の説明の理解を容易にするために、図４〜図７を参照して、ラベル列テーブルを除く単語データ（インデックステーブル、単語レコード、類似単語レコードおよび誤り情報テーブル）を説明する。

［インデックステーブル]
図４は、単語データのインデックステーブルに含まれるデータを例示する図である。インデックステーブルは、単語データベース部１６０が、単語の先頭文字（Ａ〜Ｚ）により分類された単語レコードを検索するために用いられる。インデックステーブルは、図４に示すように、先頭文字Ａ〜Ｚそれぞれの記録領域の先頭を示すポインタと、先頭文字をそれぞれＡ〜Ｚとする単語レコードの数とが対応付けられて構成される。

［単語レコード]
図５は、単語データの単語レコードに含まれるデータを例示する図である。図５に示すように、単語レコードは、類似単語追加部１８６において、候補単語作成部１８４が作成した第１の候補単語データ［候補単語データ（１）]
と突き合わされ、比較される見出し単語(TarWord)、次の見出し単語へのポインタ(NextP)、単語レコードに含まれる類似単語の数(#Can)および類似単語レコード(CanWord)が対応付けられて構成される。

なお、図５においては、類似単語レコードが単語レコードに直接、対応付けた場合が示されているが、例えば、単語レコードに類似単語レコードのポインタを対応付け、類似単語レコードを単語レコードと別ファイルとする等、実現方法は問わない。また、単語レコードそれぞれの見出し単語(TarWord)を複数にして、類似単語追加部１８６が、連続した複数の単語に対応するラベルと、複数の単語を含む見出し単語とを対応付けられるようにしてもよい。

［類似単語レコード]
図６は、単語データの類似単語レコードに含まれるデータを例示する図である。図６に示すように、類似単語レコードは、入力単語数（#m；#mは１以上の整数)、入力候補単語(aWord, aWord-1,aWord-2,...,aWord-m-1)、出力単語数（#n；#nは０以上の整数）、類似単語(COWord,COWord-1,..,COWord-n)および誤りコード(ECode)が対応付けられて構成される。

これらの内、入力単語数 (#m)は、類似単語追加部１８６が、候補単語作成部１８４から入力された第１の候補単語を類似単語に対応付ける際に、前後いくつの候補単語を参照するかを示す(以下、第１の候補単語の後方のｍ−１文字を参照する場合を例として説明する)。

入力候補単語(aWord, aWord-1, aWord-2,...,aWord-m-1)は、候補単語作成部１８４から類似単語追加部１８６に連続して入力されたｍ個の第１の候補単語(TarWard, TarWord-1,...,TarWord-m-1)と突き合わされ、比較される単語列を示す。つまり、類似単語追加部１８６においては、第ｐ番目の第１の候補単語(TarWord)は、入力されても直ちに類似単語と対応付けされず、さらに類似単語追加部１８６にｍ−１個の第１の候補単語が入力された後に、第ｐ番目〜第ｐ＋ｍ−１番目のｍ個の連続した第１の候補単語(TarWard, TarWord-1,..., TarWord-m-1)それぞれと、類似単語レコードのｍ個の入力候補単語(aWord, aWord-1, aWord-2,..., aWord-m-1)それぞれとが比較され、これらが一致した場合にのみ、第ｐ番目の第１の候補単語（aWord = TarWord)と、類似単語レコード内で入力候補単語に続くｎ個の類似単語(COWord, COWard1,.., COWord-n)とが対応付けられる。なお、類似単語が存在しない場合には、出力単語数(#n)の値は０とされ、類似単語は類似レコード内に対応付けられない。

図６に示した類似単語レコードにおける第１の候補単語と類似単語との間のマッピング方法について、さらに説明する。第１の候補単語と類似単語との間の対応付け（マッピング）の方法としては、例えば、以下に示す４つの方法が考えられる。

［第１の方法]
１つの単語が別の１つの単語に誤って識別される場合に対応するために、１つの単語のみを含む第１の候補単語に、１つの単語のみを含む類似単語を対応付ける。第１の方法の例としては、第１の候補単語"read"の"r"が、正しく発音されなかった場合に備えて、第１の候補単語"read"と類似単語"lead"とを対応付けることが挙げられる。さらに、第１の方法をとる場合の対応付けの例としては、"sink"と"think"、"fell"と"fill"、"seat"と"sit"、"better"と"bitter"、"nut"と"not"、"fund"と"found"、"boat"と"bought"および"coal"と"call"との対応付け等を挙げることができる。

[第２の方法]
１つの単語が別の複数の単語に誤って識別される場合に対応するために、１つの単語のみを含む第１の候補単語に、複数の単語を含む類似単語を対応付ける。第２の方法の例としては、第１の候補単語"jumped"の"ed"が、正しく"t"と発音されなかった場合に備えて、第１の候補単語"jumped"と類似単語"jump","and"を対応付けることが挙げられる。さらに、第２の方法をとる場合の対応付けの例としては、"check in"と"chickin"との対応付け等を挙げることができる。

[第３の方法]
複数の単語が別の１つの単語に誤って識別される場合に対応するために、複数の単語を含む第１の候補単語に、１つの単語のみを含む類似単語を対応付ける。第３の方法の例としては、第１の候補単語 "have", "to"がつながって発音された場合に備えて、第１の候補単語"have","to"と類似単語"hat"を対応付けることが挙げられる。さらに、第３の方法をとる場合の対応付けの例としては、"Iwii"と"aisle"との対応付け等を挙げることができる。

[第４の方法]
複数の単語が別の複数の単語に誤って識別される場合に対応するために、複数の単語を含む第１の候補単語に、複数の単語を含む類似単語を対応付ける。第１〜第３の方法は、第４の方法に限定を加えた方法と考えることができるので、図６に示した類似単語レコードは、第４の方法に基づいて作成され、複数の単語を含む第１の候補単語に複数の単語を含む類似単語が対応付けてある。

類似単語は、コンピュータ１を利用する話者（ユーザ）の発音が不正確な場合に、候補単語の代わりに選択される。従って、絞り込み部１８８において、候補単語ではなく、類似単語が最終的に選ばれた場合には、話者は、英語の発音上、選ばれた類似単語に対応する誤りをしていることになる。誤りコード (ECode)は、このような観点から類似単語レコードに付加され、最終的に選択された類似単語に対応する発音上の誤りを符号の形式で示す。

[誤り情報コードテーブル]
図７は、単語データの誤り情報コードテーブルを例示する図である。図７に示すように、誤り情報コードテーブルは、誤りコード（ECode; 0, 1,2,...)と、誤りの内容を示す情報（例えば、「rをlと発音した」，「lをrと発音した」，「thをsと発音した」等の誤り情報）とが対応付けられて構成される。

[ベクトルデータ生成部１６０]
音声識別部１８において、ベクトルデータ生成部１６０（図３）は、音声インターフェース部１５０から入力される音声データを処理して、音声の複数の特徴（音の高さ、強さ、イントネーション等）それぞれについて量子化を行ない、これらの特徴それぞれを示す数値を含むベクトルデータを生成して制御部１６２に対して出力する。例えば、音声データのサンプリング周波数が１１ｋＨｚである場合、ベクトルデータ生成部１６０は、音声データを１／１００秒単位で処理し、音声データの複数の種類の特徴それぞれを量子化し、複数の要素からなるベクトルデータを生成する。

［ラベル作成部１８２]
ラベル作成部１８２は、ベクトルデータ生成部１６０から入力されたベクトルデータを、発音記号に類似するラベルと呼ばれるデータに変換し、１センテンス分ずつ候補単語作成部１８４に対して出力する。ラベル作成部１８２は、この変換処理を、例えば、色々な人（大人、子供、男、女等）の実際の話し声のサンプルから生成したラベルと、連続した複数のベクトルデータのパターンとを対応付けたラベルテーブルを用い、連続した複数のベクトルデータに対応するラベルを選択することにより行なう。ただし、「センテンス」という用語は、実際の文章内の実際のセンテンスに必ずしも対応せず、単に音声識別の処理単位を示す。

［候補単語作成部１８４]
候補単語作成部１８４は、音声データにおいて、１つ以上の英単語に対応する連続した１つ以上のラベル列を、英単語との対応を示すラベル列テーブルを用いて、ラベル列それぞれが示す１つ以上の英単語の組み合わせの１つ以上と対応付け、対応付けた英単語の組み合わせを第１の候補単語として類似単語追加部１８６に対して出力する。（以下、説明の簡略化のために、候補単語作成部１８４が、１つの英単語に対応するラベル列それぞれを、１つの英単語のみを含む第１の候補単語に対応付ける場合を例として説明する。）

ここで、例えば、候補単語作成部１８４は、ラベルが示す音をアルファベットに変換し、変換して得られたアルファベット列を英単語に変換するのではなく、ラベル列を直接、英単語（第１の候補単語）に変換する。つまり、候補単語作成部１８４は、例えば、第１の候補単語として"read"を作成する際に、ラベル列を"r", "e","a", "d"という４個のアルファベットに置換してから"read"という単語を第１の候補単語として対応付けるのではなく、ラベル列に直接に"read"という単語を対応付ける。

なお、候補単語作成部１８４は、作成した第１の候補単語を、図８に示す入力レコード(InWord)、および、図９に示す入力レコードマトリクス(InMatrix)の形式で、１センテンス分ずつ類似単語追加部１８６に対して出力する。図８は、候補単語作成部１８４が類似単語追加部１８６に出力する入力レコード(InWord)のデータ構造を示す図である。図９は、候補単語作成部１８４が類似単語追加部１８６に出力する入力レコードマトリクス(InMatrix)のデータ構造を示す図である。

図８に示すように、候補単語作成部１８４は、ラベル列と対応付けた単語およびその単語長を示すデータ(InWord)それぞれに、その単語が１つのセンテンスにおいて第ｉ番目であること、および、１つのセンテンスの第ｉ番目の第ｊ番目の第１の候補単語であることを示すデータを付加し、入力レコード(InWord)を作成して類似単語追加部１８６に対して出力する。ただし、ｉ，ｊは整数であって、ｉは最大単語数(Maxi)以下、ｊは最大候補数(Maxj)以下である。

さらに、候補単語作成部１８４は、図８に示すように、ラベル作成部１８２から入力されたラベル列と、選択した英単語に対応するラベル列テーブル内のラベル列との一致の程度、言いかえると、ラベル列が第１の候補単語を示している確率を示す確率データを作成し、入力レコードの単語およびその単語長を示すデータに付加して類似単語追加部１８６に対して出力する。

また、１センテンス分の入力レコード(InWord)の作成が終了すると、候補単語作成部１８４は、図９に示すように、そのセンテンス中に含まれる最大単語数(Maxi)、同一のラベル列（読み）に対して、最大いくつの第１の候補単語が対応付けられたかを示す最大候補数(Maxj)、および、第ｉ番目の単語に第ｊ番目の単語が存在するかを示すフラグFlg(ij)を示す入力レコードマトリクスを作成し、１センテンス分の入力レコードとともに類似単語追加部１８６に対して出力する。なお、候補単語作成部１８４が第ｉ番目の単語に対応するラベル列の第１の候補単語を選べなかった場合には、フラグFlg(i1)は、第ｉ番目の第１番目の単語が存在しない旨を示す値（例えば０）とされる。

［類似単語追加部１８６]
類似単語追加部１８６は、候補単語作成部１８４から入力された入力レコードそれぞれに対して、ラベル列と対応付けることはできないが、日本人による英語の発音の癖等を考慮して、第１の候補単語に類似する可能性がある英単語を第１の候補単語に付加し、第２の候補単語を生成して絞り込み部１８８に対して出力する。

さらに類似単語追加部１８６の動作を詳細に説明する。類似単語追加部１８６は、まず、候補単語作成部１８４から入力された１センテンス分の入力レコード(InWord)に含まれる第ｐ番目の第１の候補単語を順次、単語データベース部１６０に対して出力し、単語レコードの取得を要求する。単語データベース部１６０は、インデックステーブル（図４）を用いて単語レコード（図５）の検索を行ない、入力レコード(InWord)に含まれる単語と見出し単語(TarWord)が一致する単語レコードを取得し、類似単語追加部１８６に対して出力する。

類似単語追加部１８６は、第ｐ番目の第１の候補単語の単語インデックスを得ると、第ｐ番目から第ｐ＋ｍ−１番目の単語(InWord-p.j, InWord-p+1.j,...,InWord-p+m-1.j)と、単語データベース部１６０から入力される単語レコードに付加された類似単語レコード（図６）それぞれのｍ個の入力単語(aWord, aWord-1, aWord-2, ..., aWord-m-1)とを比較し、これらが一致した場合には、ｎ個の類似単語(COWord-1,COWord-2, ..., COWord-n)を第ｐ番目の第１の候補単語に付加して第２の候補単語を作成する。

なお、類似単語追加部１８６が、第１の候補単語に類似単語を付加して第２の候補単語を作成するのではなく、第１の候補単語を類似単語で置き換えて第２の候補単語を作成するように処理を変更することも可能である。この場合には、類似単語に第１の候補単語が含まれているか否かを問わない。

さらに、類似単語追加部１８６は、第１の候補単語に付加した類似単語レコードに対応する誤りコード(ECode)を単語データベース部１６０に対して出力し、誤りコードが示す誤り情報の取得を要求する。単語データベース部１６０は、この要求に応じて誤り情報コードテーブル（図７）を検索し、誤り情報を取得して類似単語追加部１８６に対して出力する。

図１０は、類似単語追加部１８６が絞り込み部１８８に出力する出力レコード(OutWord)のデータ構造を示す図である。図１１は、類似単語追加部１８６が絞り込み部１８８に出力する出力レコードマトリクス(OutMatrix)のデータ構造を示す図である。

なお、類似単語追加部１８６は、第２の候補単語、単語長を示すデータ、確率データおよび誤り情報（または誤り情報コード）と、その単語が１つのセンテンスにおいて第ｉ'番目であること、および、１つのセンテンスの第ｉ'番目の第ｊ'番目の第１の候補単語であることを示すデータを付加し、図１０に示すように、入力レコード（図８）と同様な形式をとる出力レコード(OutWord)の形式で絞り込み部１８８に対して出力する。

また、１センテンス分の出力レコード(OutWord)の作成が終了すると、類似単語追加部１８６は、図１１に示すように、入力レコードマトリクス（図９）と同様に、そのセンテンス中に含まれる最大単語数(Maxi')、同一のラベル列（読み）に対して、最大いくつの第２の候補単語が対応付けられたかを示す最大候補数(Maxj')、および、第ｉ'番目の単語に第ｊ'番目の単語が存在するかを示すフラグFlg(i'j')を示す出力レコードマトリクスを作成し、１センテンス分の出力レコードとともに絞り込み部１８８に対して出力する。

［絞り込み部１８８]
絞り込み部１８８は、出力レコードとして類似単語追加部１８６から入力された第２の候補単語をモニタ１０２に表示し、例えば、ユーザの操作に応じて、あるいは、それまでに識別した単語列の構文解析結果に基づいて、第２の候補単語のいずれかを、最終的な識別結果として選択し、選択した単語を並べたテキストデータを作成し、モニタ１０２、スピーカ１０４あるいはプリンタ１０６に対して出力する。

絞り込み部１８８によるテキストデータの作成についてさらに説明する。例えば、１つのセンテンスの第１番目の単語の第２の候補単語がｎ1個(OutWord-1.1, OutWord-1.2, ...,OutWord-1.n1)、第２番目の単語の第２の候補単語がｎ２個といったようにある場合には、絞り込み部１８８は、第１番目の単語の第２の候補単語のいずれか、および、第２番目の単語の第２の候補単語のいずれかといったように、各単語の第２の候補文字のいずれかを、単語の順番通りにモニタ１０２に表示する。

ユーザが、例えば、マウス１２８を用いてＧＵＩ画像のウィンドウ内に表示された第２の候補単語をクリックすると、制御部１６２は、クリックされた第２の候補単語を反転表示し、その後、ユーザが同じ部分をクリックするたびに、表示する第２の候補単語を変更する。ユーザが最終的に第２の候補単語を選択し、その旨の操作をマウス１２８あるいはキーボード１２６に対して行なったり、あるいは、次の単語の選択操作に移行すると、絞り込み部１８８は、最後に表示した第２の候補単語を最終的に選択された識別結果とする。ユーザは必要に応じてこの作業を繰り返し、絞り込み部１８８は、この作業に応じて単語の選択を行ない、テキストデータを作成する。

なお、絞り込み部１８８の処理を、第２の候補単語を表示する際に、単語の前後関係を考慮して、最終的な識別結果として選択される可能性が高い第２の候補単語のみをモニタ１０２に表示したり、あるいは、最終的な識別結果として選択される可能性が高い順番でモニタ１０２に表示させるようにしたりすると便利である。

便宜的に日本語を識別する場合を具体例として挙げて説明する。候補単語作成部１８４は、「あかいはな」という日本語の音声データから得られたラベルを、「たかい・はな（高い・花，高い・鼻）」と識別し、さらに、類似単語追加部１８６がこれらに類似単語「赤い・罠」を付加して、これら３種類を第２の候補単語として絞り込み部１８８に出力する可能性がある。このような場合、絞り込み部１８８において、第２の候補単語の前半の識別結果が「赤い」とされた場合に、後半の識別結果は、「花」、「鼻」および「罠」の順で確からしいと考えられる。このような場合、絞り込み部１８８の処理を、「赤い」という単語に続けて「花」，「鼻」のみを表示するようにしたり、「花」，「鼻」，「罠」の順番で表示するようにすると、ユーザの選択操作を最小限にすることができる。

また、絞り込み部１８８の処理を、類似単語追加部１８６から入力される出力レコードに付加された確率データを利用して、例えば、ユーザが設定する閾値以上の範囲の値をとる確率データに対応する第２の候補単語のみをモニタ１０２に表示するようにすると、最終的な識別結果として選択される可能性が高い第２の候補単語のみがモニタ１０２に表示されることとなり、ユーザの選択操作をより少なくすることができる。

［コンピュータ１の動作]
以下、図１２を参照して、コンピュータ１における音声識別処理を説明する。図１２は、コンピュータ１における本発明にかかる音声識別処理を示すフローチャート図である。なお、図１２においては、説明の簡略化のために、本発明にかかる音声識別処理の内、基本的な処理のみを示してあり、上述した確率データあるいは誤り情報を用いた処理は適宜、省略されている。

図１２に示すように、ステップ１００（Ｓ１００）において、音声識別プログラム１６のベクトルデータ生成部１６０およびラベル作成部１８２（図３）は、日本人ユーザが発音した１センテンス（単位）分の音声データを処理し、ラベル列に変換する。ベクトルデータ生成部１６０およびラベル作成部１８２が生成した１センテンス分のラベル列は、候補単語作成部１８４に入力される。

ステップ１０２（Ｓ１０２）において、候補単語作成部１８４は、ラベル作成部１８２から入力された１センテンス分のラベル列を第１の候補単語に対応付け、図８に示した入力レコード(InWordij)の形式で類似単語追加部１８６に対して出力し、さらに、図９に示した入力レコードマトリクス(InMatrix)を作成して類似単語追加部１８６に対して出力する。

ステップ１０４（Ｓ１０４）において、類似単語追加部１８６は、単語データベース部１６０に対して処理の対象となっている入力レコードに含まれる第１の候補単語の単語レコード（図５）の検索を要求する。単語データベース部１６０は、類似単語追加部１８６の要求に応じてインデックステーブル（図４）を用いて検索を行ない、検索の結果として第１の候補単語（入力レコード）に対応する単語レコードが得られた場合には、得られた単語レコードを類似単語追加部１８６に対して出力してＳ１０６の処理に進み、得られなかった場合にはＳ１１０の処理に進む。

ステップ１０６（Ｓ１０６）において、類似単語追加部１８６は、単語データベース部１６０から入力された単語レコードの類似単語レコード（図６）を処理し、第１の候補単語（入力レコード）に対応する類似単語を取得する。

ステップ１０８（Ｓ１０８）において、取得した類似単語を第１の候補単語に付加して第２の候補単語を作成する。

ステップ１１０（Ｓ１１０）において、類似単語追加部１８６は、１センテンスに含まれる入力レコードの全ての処理を終了したか否かを判断し、終了した場合にはＳ１１０の処理に進み、終了しない場合には、処理対象を次の入力レコードに変更してＳ１０４の処理に戻る。

ステップ１１２（Ｓ１１２）において、類似単語追加部１８６は、Ｓ１０８において作成された第２の候補単語を、図１０に示した出力レコードの形式で絞り込み部１８８に対して出力する。さらに、類似単語追加部１８６は、第２の候補単語に対応する出力レコードマトリクス（図１１）を作成し、絞り込み部１８８に対して出力する。絞り込み部１８８は、入力された第２の候補単語をモニタ１０２上のＧＵＩ画像のウィンドウ内に表示し、ユーザの操作に応じて最終的な識別結果を、英文のテキストデータとして出力する。

［変形例]
なお、絞り込み部１８８の処理を、ユーザが、類似単語追加部１８６において類似単語として第２の候補単語に付加された単語を最終的な識別結果として選択した場合に、選択された単語に付加された誤り情報をモニタ１０２に表示するようにすると、ユーザは、自分の英語の発音の欠点を知ることができ、コンピュータ１を音声識別装置として用いるほか、英語の発音の学習装置として用いることができる。誤り情報の表示方法としては、正しい発音をするための口の形を表示する、あるいは、正しい発音を音声合成してユーザに聞かせる等の方法が考えられる。

また、上述した第１の実施形態においては、日本人が発音した英語から英文テキストを識別する処理を例示したが、本発明にかかる音声識別処理は、このような場合に限定されず、例えば、アメリカ式英語を話すアメリカ人が、英国式英語用に調整された音声識別装置を用いてテキストを作成する等、同一の言語であっても発音が異なる場合、あるいは、個人の発音に癖があったり、不明りょうであったりする場合の識別率の低下に対処するために、広く応用することができる。

以上述べたように、本発明にかかる音声識別処理においては、候補単語作成部１８４が識別した第１の候補単語に、類似単語追加部１８６において類似単語を付加して第２の候補単語とするので、音声識別率が向上する。便宜的にコンピュータ１により日本語を識別する場合を具体例として説明する。例えば、ユーザが日本語で「あかいはな（赤い花）」と発音したつもりであっても、「あ」の発音が何らかの原因で不明りょうになって、ラベル作成部１８２が、「あかいはな」とも「たかいはな」ともつかないラベル列を生成することがある。

候補単語作成部１８４が、このラベル列に対応する第１の候補単語として「高い・鼻」を選択し、類似単語追加部１８６に出力した場合であっても、単語レコードが適切に作成されていれば、類似単語追加部１８６が第１の単語として「赤い・鼻」，「赤い・花」を第１の候補単語に付加して第２の候補単語とすることができる。従って、候補単語作成部１８４が作成した第１の候補単語には含まれていなかった本来の「赤い・花」もモニタ１０２に表示されることになり、ユーザは第２の候補単語の中から正しい識別結果を選択することができる。

また、通常、音声識別方法は、純粋な音声処理に文法的解析処理（文章中の特定の位置には名詞がおかれやすい等）や、言語モデル処理（並んだ単語の確からしさ）等が組み合わされて実現されるので、これらの処理を行なう前に、本発明にかかる音声識別方法で類似単語を追加しておくと、音声識別率が大幅に向上するなど、効果が非常に大きい。

［第２実施形態]
図３に示した音声識別プログラム１６において、音声識別の結果として候補単語が選択されるということは、ユーザ（話者）の発音がネイティブスピーカに比較的近く、本発明にかからない一般的な音声識別装置を用いても高い識別率で識別可能な程度に正確であることを意味し、反対に、類似単語が選択されるということは、話者の発音に誤り、あるいは、不明瞭さがあることを意味する。このことは、音声識別プログラム１６において、ユーザが意図した単語が類似単語に含まれる場合にも当てはまる。

従って、ユーザが意図した単語が、類似単語として識別された場合に、話者に対して発音がどのように誤っているか、正しく発音するにはどのようにしたらよいか等の情報（発音矯正情報）を提示することにより、話者の発音の学習を補助でき、話者の発音を矯正できることが分かる。以下、第２の実施形態として示す発音矯正方法は、この点に着目し、第１の実施形態として示した音声識別処理を変形し、話者の発音が不正確であると判断できる場合に、話者に発音矯正情報を示す画像表示するようにしたものである。

［コンピュータ２]
図１３は、本発明にかかる音声識別処理および発音矯正方法を実現するコンピュータ２の構成を示す図である。なお、特に断らない限り、以下の図面に示す構成部分は、これまでの図面に示した同一符号の構成部分と同じである。図１３に示すように、コンピュータ２は、コンピュータ１（図１）の入力装置１２０を入力装置１３０で置換した構成を採り、入力装置１３０は、入力装置１２０に画像入力用ボード１３２を追加した構成を採る。画像入力用ボード１３２は、例えば、発音矯正画像（図１９）に用いられる画像データをビデオカメラとり込むために用いられる。

［ソフトウェア２０]
図１４は、本発明にかかる音声識別処理および発音矯正方法を実現するソフトウェア２０を示す図である。図１４に示すように、ソフトウェア２０は、ソフトウェア１４（図２）における音声識別プログラム１６を音声識別・矯正プログラム２２で置換した構成を採る。ソフトウェア１４において各構成部分の間で入出力されるデータの他に、ソフトウェア２０においては、画像データがさらに入出力され、ソフトウェア１４における識別結果（テキストデータ）の代わりに、ユーザ（話者）の発音を矯正する発音矯正情報を示す画像（発音矯正画像）がモニタ１０２等に出力されるようになっている。

［音声識別・矯正プログラム２２]
図１５は、図１４に示した音声識別・矯正プログラム２２の構成を示す図である。図１５に示すように、音声識別・矯正プログラム２２は、音声識別プログラム１６（図３）および発音矯正プログラム２４から構成される（絞り込み部１８８は省略）。

［類似単語追加部１８６の変更点]
音声識別・矯正プログラム２２においては、音声識別プログラム１６においてと異なり、類似単語追加部１８６は、発音矯正プログラム２４の比較部２４０および発音矯正情報表示部２４２に対して類似単語レコード（図１８）を出力する。

［制御部１６２の変更点]
図１６は、図１５に示した制御部１６２が表示する発音指示画像を例示する図である。図１７（Ａ），（Ｂ）はそれぞれ、図１５に示した単語データベース部１６０が生成する矯正情報インデックスを例示する図であって、（Ａ）はｒの発音を矯正するための発音矯正画像を示し、（Ｂ）はｌの発音を矯正するための発音矯正画像を示す。図１８は、第２の実施形態において単語データベース部１６０が生成する類似単語レコードを示す図である。

制御部１６２は、図１６に例示するように、ユーザに発音すべき単語（図１６においては"read"）を示し、発音を促す発音指示画像（図１６においては「"read"と発音してみて下さい！」というテキストデータを含む画像）をさらに生成してモニタ１０２に表示し、ユーザに発音を指示した単語（正解単語）を比較部２４０に対して出力する。また、制御部１６２は、発音矯正画像表示部２４２から矯正情報コード(CCode;図１８)が入力された場合に、この矯正情報コードを単語データベース部１６０に対して出力し、この矯正情報コードが示す矯正情報インデックス（図１７（Ａ），（Ｂ））を単語データベース部１６０から得る。さらに、制御部１６２は、この矯正情報インデックスに含まれるｎ個のエントリ（ｎは整数；図１７（Ａ），（Ｂ）においてはｎ＝８）が示す画像データおよびテキストデータを記憶装置１１０から読み出して、発音矯正画像表示部２４２に対して出力する。

図１９は、図１７（Ａ）に例示した矯正情報インデックスが示す第１の発音矯正画像を例示する図である。なお、図１９においては、図示の簡略化のために、図１７（Ａ）に例示したエントリ５〜７に対応するテキストデータは省略されている。また、制御部１６２は、図１７（Ａ）に例示したような矯正情報インデックスに含まれるエントリと、図１９に例示するようなエントリそれぞれが示す画像データ(Image)およびテキストデータ(Text)とを対応付けて、記憶装置１１０に記憶する。

図１７（Ａ）に例示した矯正情報インデックスは、ユーザのｒの発音を矯正するために用いられ、発音の矯正すべき点を示すテキストデータ、ｒを発音する際の口の形を示す画像データ、ｌを発音する際の口の形を示す画像データ、ｒを発音するためのアドバイスを示すテキストデータ、ｒを含む単語の例、ｌを含む単語の例、ｒとｌとが現れる単語の例を示すテキストデータ、および、ｒとｌとが現れる文章の例を示すテキストデータをそれぞれ示すエントリ（エントリ１〜４，８）を含む。図１７（Ａ）に例示した矯正情報インデックスからは、図１９に例示するような発音矯正画像が生成され、モニタ１０２に表示される。

また、図１７（Ｂ）に例示した矯正情報インデックスは、ユーザのｌの発音を矯正するために用いられ、発音の矯正すべき点を示すテキストデータ、ｌを発音する際の口の形を示す画像データ、ｒを発音する際の口の形を示す画像データ、ｌを発音するためのアドバイスを示すテキストデータ、ｌを含む単語の例、ｒを含む単語の例、ｒとｌとが現れる単語の例を示すテキストデータ、および、ｒとｌとが現れる文章の例を示すテキストデータをそれぞれ示すエントリを含む。

［単語データベース部１６０の変更点]
単語データベース部１６０は、ソフトウェア１４においてと異なり、誤り情報コードテーブル（図７）の代わりに、図１７（Ａ），（Ｂ）に例示したような矯正情報インデックスを作成し、単語データとして記憶装置１１０にさらに記憶する。

また、単語データベース部１６０は、図１８に示すように、矯正情報インデックスのいずれかを示す矯正情報コード(CCode; correction code)を、誤りコード(ECode;図６)の代わりに類似単語レコードに付加し、記憶装置１１０に記憶する。また、単語データベース部１６０は、発音矯正画像表示部２４２から制御部１６２を介して矯正情報コードが入力された場合に、入力された矯正情報コード（図１８）に対応する矯正情報インデックス（図１７（Ａ），（Ｂ））を記憶装置１１０から読み出して、制御部１６２に対して出力する。

［比較部２４０]
比較部２４０（図１５）は、類似単語追加部１８６から入力される類似単語レコード（図１８）が示す類似単語レコードに含まれる類似単語それぞれと、制御部１６２から入力される正解単語とを比較し、正解単語が類似単語のいずれかと一致するか否かを判断する。比較部２４０は、正解単語が類似単語と一致する場合にはその旨を、一致しない場合にはその旨を発音矯正画像表示部２４２に対して通知する。

［発音矯正画像表示部２４２]
発音矯正画像表示部２４２は、比較部２４０が正解単語のいずれかと類似単語とが一致すると判定した場合に、類似単語レコード（図１８）に付加された矯正情報コード(CCode)が示す矯正情報インデックス（図１７（Ａ），（Ｂ））が示す画像データおよびテキストデータの取得を制御部１６２に要求する。制御部１６２が、この要求に応えて画像データおよびテキストデータを記憶装置１１０から読み出し、発音矯正画像表示部２４２に対して出力すると、発音矯正画像表示部２４２は、これらのデータを、図１９において符号（ａ）〜（ｅ）を付して例示したような位置に配置し、発音矯正画像を生成してモニタ１０２に表示する。

［音声識別・矯正プログラム２２の動作]
以下、音声識別・矯正プログラム２２の動作を説明する。図２０は、第２の実施形態における音声識別・矯正プログラム２２（図１５）の処理（Ｓ２０）を示すフローチャートである。

図２０において、ステップ２００（Ｓ２００）に示すように、ユーザの操作入力に応じて、制御部１６２が、例えば、図１６に示したように、"read"という単語の発音をユーザに促す発音指示画像をモニタ１０２に表示する。制御部１６２は、正解単語"read"を比較部２４０に対して出力する。ユーザが発音指示画像に応じて"read"と発音すると、音声識別プログラム１６のベクトルデータ作成部１８０、ラベルデータ作成部１８２、候補単語作成部１８４および類似単語追加部１８６（図１５）は、ユーザが発音した音声を識別し、類似単語レコードを比較部２４０および発音矯正画像表示部２４２に対して出力する。

ここで、第１の実施形態において例示したように、ユーザが正しく"read"と発音すると、候補単語作成部１８４は単語"read"を含む候補単語を類似単語追加部１８６に対して出力し、類似単語追加部１８６は、単語"lead"等を類似単語として含む類似単語レコード（図１８）を比較部２４０および発音矯正画像表示部２４２に対して出力する。反対に、例えば、ユーザが"r"の発音と"l"の発音とを区別できず、不正確な"read"の発音を行なうと、候補単語作成部１８４は、単語"read"の代わりに単語"lead"等を含む候補単語を類似単語追加部１８６に対して出力し、類似単語追加部１８６は、単語"read"等を類似単語として含む類似単語レコードを比較部２４０および発音矯正画像表示部２４２に対して出力する。

ステップ２０２（Ｓ２０２）において、比較部２４０は、制御部１６２から入力された正解単語と、類似単語追加部１８６から入力された類似単語レコードに含まれる類似単語それぞれとを比較し、正解単語が類似単語のいずれかと一致しない場合には、その旨を発音矯正画像表示部２４２に通知して"read"の発音の矯正・学習に関する処理を終了し、例えば次の単語の発音の矯正・学習に関する処理に進む。これ以外の場合には、比較部２４０は、正解単語が類似単語のいずれかと一致したことを発音矯正画像表示部２４２に通知して、Ｓ２０４の処理に進む。

ステップ２０４（Ｓ２０４）において、発音矯正画像表示部２４２は、類似単語レコードから矯正情報コード(CCode)を得る。さらに、発音矯正画像表示部２４２は、制御部１６２に対して矯正情報コードを出力し、発音矯正画像に用いる画像データおよびテキストデータの取得を要求する。制御部１６２は、発音矯正画像表示部２４２からの要求に応じて、単語データベース部１６０から、図１７（Ａ）に例示した矯正情報インデックスを得て、この矯正情報インデックスのエントリ（エントリ１〜４，８）それぞれが示す画像データおよびテキストデータを記憶装置１１０から読み出し、発音矯正画像表示部２４２に対して出力する。

ステップ２０６（Ｓ２０６）において、発音矯正画像表示部２４２は、制御部１６２から入力された矯正情報インデックスのエントリ（エントリ１〜４，８）それぞれに対応する画像データおよびテキストデータを、それぞれ図１９に例示する位置（ａ）〜（ｅ）に配置した発音矯正画像を生成し、モニタ１０２に表示し、"read"に関する処理を終了し、例えば次の単語の発音の矯正・学習に関する処理に進む。

［変形例]
なお、第２の実施形態においては、発音矯正情報がテキストデータおよび画像データのみを含む場合を例示したが、発音矯正情報が他の種類のデータを含んでいてもよい。例えば、発音矯正情報に正しい発音の音声データを含め、発音矯正情報（図１９）をモニタ１０２に表示するとともに、音声データをスピーカ１０４を介して出力するようにしてもよい。

また、第２の実施形態においては、類似単語と発音矯正情報コードとを対応付けて管理する場合を示したが、図６に示した類似単語レコードに含めて管理するように音声識別・矯正プログラム２２を構成してもよい。また、第２の実施形態においては、音声識別・矯正プログラム２２が発音矯正情報のみを出力する場合を示したが、発音矯正情報および誤り情報の両方を出力するように構成してもよい。また、第２の実施形態においては、制御部１６２が発音指示画像をモニタ１０２に表示し、発音矯正画像表示部２４２が発音矯正情報をモニタ１０２に表示する場合を例示したが、これらの構成部分のいずれかが、これら両方の画像をモニタ１０２に表示するように音声識別・矯正プログラム２２を構成してもよい。

また、発音矯正画像（図１９）に表示される全ての情報が矯正情報インデックス（図１７（Ａ），（Ｂ））に登録されている必要はない。例えば、図１７（Ａ）に示した矯正すべき点および再発音支持のテキストデータは、音声識別・矯正プログラム２２（図１５）の作り方に応じて、矯正情報インデックスに登録されていても、あるいは、矯正情報インデックスには登録されず、発音矯正画像に予め書き込まれていてもよい。

［第３実施形態]
以下、第３の実施形態として、第２の実施形態として示した発音矯正方法を応用した発音学習方法を説明する。この発音学習方法は、図２０に示した発音識別・矯正プログラム２２の動作を改良し、図１６および図１９に示した発音指示画像および発音の基礎を示す発音矯正画像の他に、発展的な学習を指示する発音矯正画像（図２１〜図２３）をさらに表示し、ユーザの発音学習の便宜を図ったものである。

図２１〜図２３は、それぞれ第３の実施形態として示す発音学習方法において用いられる第２〜第４の発音矯正画像を例示する図である。第３の実施形態において、発音識別・矯正プログラム２２は、図１６，１９に示した発音矯正画像に加え、図２１〜図２３に例示する発音矯正画像を表示する。

図２１に示す第２の発音矯正画像は、例えば、発音識別・矯正プログラム２２が、第１の発音矯正画像（図１９）を見てユーザが"read"を正しく発音したと判断した場合に表示され、ユーザが正しく"r","l"を区別して発音しているかを確認するために用いられる。なお、第２の発音矯正画像は、ユーザが第１の発音矯正画像に応じてユーザが正しく"read"と発音するまでは表示されず、ユーザが第２の発音矯正画像に示された単語"write","raw", "long", "light"の全てを正しく発音できるようになるまで繰り返し表示される。また、第２の発音矯正画像は、第１の発音矯正画像において省略されていた矯正情報インデックス（図１７（Ａ））のエントリ５，６を含んでいる。

図２２に示す第３の発音矯正画像は、例えば、発音識別・矯正プログラム２２が、第２の発音矯正画像（図２１）内の各単語をユーザが正しく発音したと判断した場合に表示され、ユーザが"r","l"を区別するためのさらに進んだ練習を行なうために用いられる。なお、第３の発音矯正画像は、ユーザが第２の発音矯正画像に示された各単語の全てをユーザが正しく発音するまでは表示されず、第３の発音矯正画像に示されたセンテンス"writeletters", "great troubleの全てをユーザが正しく発音できるようになるまで繰り返し表示される。また、第２の発音矯正画像は、第１の発音矯正画像において省略されていた矯正情報インデックス（図１７（Ａ））のエントリ７を含んでいる。

図２３に示す第４の発音矯正画像は、例えば、発音識別・矯正プログラム２２が、第３の発音矯正画像（図２２）内のセンテンスの全てをユーザが正しく発音したと判断した場合に表示され、ユーザが"r","l"を区別して発音できるようになったことを確認するために用いられる。なお、第４の発音矯正画像は、ユーザが第３の発音矯正画像に示されたセンテンスの全てをユーザが正しく発音するまでは表示されず、第４の発音矯正画像に示されたセンテンス"Theriver rose several feet and finally overflowed its banks."をユーザが正しく発音できるようになるまで繰り返し表示される。

[音声識別・矯正プログラム２２の動作]
以下、第３の実施形態における音声識別・矯正プログラム２２の動作を説明する。図２４は、第３の実施形態における音声識別・矯正プログラム２２（図１５）の動作（Ｓ３０）を示すフローチャートである。図２５は、図２４に示した学習項目のリストアップ処理（Ｓ３００）において作成される学習項目リストを例示する図である。

図２４に示すように、ステップ３００（Ｓ３００）において、音声識別・矯正プログラム２２は、図２０に示したように、正解単語と類似単語とを比較し、類似単語と一致する正解単語を求める。さらに、音声識別・矯正プログラム２２は、求めた正解単語において、ユーザが苦手とする発音（例えば"r","th"）を決定し、例えば図２５に例示するように、学習項目としてリストアップする。

ステップ３０２（Ｓ３０２）において、音声識別・矯正プログラム２２は、Ｓ３００の処理においてリストアップした学習項目がまだ学習されずに残っているか否かを判断する。音声識別・矯正プログラム２２は、学習項目が残っている場合にはＳ３０４の処理に進み、これ以外の場合には処理を終了する。

ステップ３０４（Ｓ３０４）において、音声識別・矯正プログラム２２は、Ｓ３００の処理においてリストアップした学習項目のひとつを取り出す。ステップ３０６（Ｓ３０６）において、音声識別・矯正プログラム２２は、第２の実施形態に示したように、発音指示画像（図１６）および発音矯正画像（図１９）を表示し、ユーザに発音を学習させる。

ステップ３０８（Ｓ３０８）において、音声識別・矯正プログラム２２は、ユーザの音声を識別し、識別の結果として得られた単語が候補単語と一致する場合にはユーザが正しく発音したと判断してＳ３１０の処理に進み、これ以外の場合にはユーザが正しく発音しなかったと判断してＳ３０６の処理に戻る。

ステップ３１０（Ｓ３１０）において、音声識別・矯正プログラム２２は、学習に用いていない応用問題（第２〜第４の発音矯正画像；図２１〜図２３）があるか否かを判断する。応用問題が残っている場合には発音識別・矯正プログラム２２はＳ３１２の処理に進み、これ以外の場合にはＳ３０２の処理に戻る。

ステップ３１２（Ｓ３１２）において、音声識別・矯正プログラム２２は、第２〜第４の発音矯正画像のいずれかを表示し、ユーザに発音を学習させる。ステップ３１４（Ｓ３１４）において、音声識別・矯正プログラム２２は、ユーザが正しく発音できたか否かを判断し、ユーザの発音が正しい場合にはＳ３１６の処理に進み、これ以外の場合にはＳ３１２の処理に戻る。

ステップ３１６（Ｓ３１６）において、音声識別・矯正プログラム２２は、ユーザの発音に、Ｓ３００の処理においてリストアップされた学習項目以外の誤りがあるか否かを判断する。このような誤りがある場合には、音声識別・矯正プログラム２２はＳ３１８の処理に進み、これ以外の場合にはＳ３１０の処理に戻る。

ステップ３１８（Ｓ３１８）において、音声識別・矯正プログラム２２は、Ｓ３１６の処理において見つかったユーザの発音上の誤りを学習項目に加え、Ｓ３１０の処理に戻る。

以上説明したように、本発明にかかる音声識別装置およびその方法によれば、上述した従来技術の問題点に鑑みてなされたものであり、所定の言語を母国語としない話者（ノン・ネイティブ）による所定の言語の話し声に含まれる単語それぞれを識別し、話者が意図する所定の言語の単語に置換して、正確なテキストデータを作成することができる。

また、本発明にかかる音声識別装置およびその方法によれば、話されている地域が異なる等のために、同一の言語の発音が変化したような場合であっても、いずれの地域の話者による話し声でも、話者が意図する単語に変換して、正確なテキストデータを作成することができる。また、本発明にかかる音声識別装置およびその方法によれば、発音の個人差を補って、常に高い識別率を保つことができる。

さらに、本発明にかかる発音矯正装置およびその方法によれば、本発明にかかる上記音声識別装置およびその方法の処理の過程で得られるデータを利用して話者の発音の問題点を指摘することができ、また、話者にネイティブスピーカの発音を学習させ、話者の発音を矯正することができる。また、本発明にかかる発音矯正装置およびその方法によれば、話者の発音と正確な発音とを自動的に比較して誤りを指摘することができ、さらに、話者がどのように発音を矯正すべきかを示す詳細な情報を提示し、その発音を矯正することができる。

符号の説明

１，２・・・コンピュータ
１０・・・コンピュータ本体
１００・・・出力装置
１０２・・・モニタ
１０４・・・スピーカ
１０６・・・プリンタ
１２０，１３０・・・入力装置
１２２・・・マイク
１２４・・・音声入力用ボード
１２６・・・キーボード
１２８・・・マウス
１３２・・・画像入力用ボード
１１０・・・記憶装置
１４，２０・・・ソフトウェア
１４２・・・ハードウェアサポート部
１４４・・・音声デバイスドライバ
１４６・・・記憶デバイスドライバ
１４８・・・オペレーティングシステム
１５０・・・音声インターフェース部
１５２・・・記憶装置インターフェース部
１６・・・音声識別プログラム
１６０・・・単語データベース部
１６２・・・制御部
１８・・・音声識別部
１８０・・・ベクトルデータ生成部
１８２・・・ラベル作成部
１８４・・・候補単語作成部
１８６・・・類似単語追加部
１８８・・・絞り込み部
２２・・・音声識別・矯正プログラム
２４・・・発音矯正プログラム
２４０・・・比較部
２４２・・・発音矯正画像表示部

Claims

単語を示す音声データを識別して得られる単語の候補（候補単語）を１個以上、対応付ける候補単語対応付け手段と、
音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語（類似単語）を０個以上、対応付ける類似単語対応付け手段と、
前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する発音矯正データ出力手段と
を有する発音矯正装置。
単語を示す音声データを識別して得られる単語の候補（候補単語）を１個以上、対応付け、
音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語（類似単語）を０個以上、対応付け、
前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する
発音矯正方法。
単語を示す音声データを識別して得られる単語の候補（候補単語）を１個以上、対応付ける候補単語対応付けステップと、
音声データに対応付けた前記候補単語それぞれに、前記候補単語それぞれの発音に対応しうる単語（類似単語）を０個以上、対応付ける類似単語対応付けステップと、
前記音声データが示す単語と、この音声データに対応付けられた前記候補単語それぞれに対応付けられた前記類似単語とが一致する場合に、前記音声データが示す単語と同じ前記類似単語に対応し、前記音声データが示す単語の発音を矯正する発音矯正データを出力する発音矯正データ出力ステップと
をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な記録媒体。