【発明の詳細な説明】 〔産業上の利用分野〕 本発明は機械翻訳装置、特に自然言語処理に対する機
械翻訳の原文解析過程における構文木データの管理に関
する。Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a machine translation apparatus, and more particularly to management of syntax tree data in a process of analyzing a source text of a machine translation for natural language processing.
従来の機械翻訳装置は、機械翻訳の解析時に作り出さ
れる構文木のデータは、1種類のポインタによるツリー
として構成されており、解析中に生じる構文木の修正の
際には係受けの非交差条件を考慮しながら多数のポイン
タを張り替える複雑な処理をプログラムで行う必要があ
った。In a conventional machine translation apparatus, data of a syntax tree created at the time of analysis of machine translation is configured as a tree with one type of pointer. It is necessary to perform a complicated process of replacing a large number of pointers in a program while taking into account the above.
第3図は従来の構文木データの管理方式を示す例であ
り、第3図(A)は原文の係受け関係を最も近くにかか
ると解釈した場合の構文木であり、第3図(B)は、そ
れを一部分だけ修正した構文木である。また、第3図
(C)は第3図(A)の構文木を正しく修正した最終的
な構文木である。FIG. 3 shows an example of a conventional syntax tree data management method, and FIG. 3 (A) shows a syntax tree when the dependency relation of the original sentence is interpreted to be closest. ) Is a syntax tree obtained by partially modifying the syntax tree. FIG. 3C is a final syntax tree obtained by correctly correcting the syntax tree of FIG. 3A.
ここでは、以下の文を例として考えている。 Here, the following statement is considered as an example.
「彼は町へ本を買いに行った。」 原文を解析しながら構文木を生成する過程において、
途中で構文木は何度も修正される。一般には、まず構文
解析を行い、各文節間の係受けを最も近くにかかると解
釈して第3図(A)のように、構文木を生成する。"He went to town to buy a book." In the process of generating a parse tree while parsing the original text,
The parse tree is modified many times along the way. In general, first, a syntax analysis is performed, and a syntax tree is generated as shown in FIG.
この構文木では、「彼は」、「町へ」、「本を」の3
つの文節はいずれも「買いに」へかかり、「買いに」
は、「行った」にかかるという解釈がされている。しか
しながら、次に意味解析を行うと、「町へ」という場所
を表す語と「行った」という移動を表す語の係受け関係
がわかるので、構文木を修正する必要がでてくる。In this syntax tree, "he", "to the town", "book"
The two clauses go to "buy" and "buy"
Is interpreted as "going". However, when the semantic analysis is performed next, the dependency relationship between the word representing the place “to the town” and the word representing the movement “go” has been known, and it is necessary to correct the syntax tree.
その際、単純に「町へ」を「行った」にかけるだけで
はなく、係受けの非交差条件に違反しないかどうかチェ
ックしなければならない。非交差条件とは、原文の順番
に従って並べた文節間の係受け関係は、お互いに交差す
ることがないという自然言語処理では最も基本的な法則
である。「町へ」を単純に「行った」にかかるように修
正した構文木が、第3図(B)であるが、これを見ると
わかるように、「町へ」と「行った」の係受けと「彼
は」と「買いに」の係受けがお互いに交差してしまう。In doing so, it is necessary not only to simply call “to the town” for “going”, but also to check that the non-intersection condition of the modification is not violated. The non-intersection condition is the most basic rule in natural language processing that the dependency relation between clauses arranged according to the order of the original sentence does not cross each other. The syntax tree in which “to the town” is simply modified to “go” is shown in FIG. 3 (B). Uke and "he" and "buy" intersect each other.
従って、「町へ」を「行った」のに単純にかけると非
交差条件に違反するため、さらに、「彼は」を「行っ
た」にかけるように修正しなければならない。この修正
を行った最終的な結果が第3図(c)である。Thus, simply applying "to town" to "go" violates the non-crossing condition, and must be further modified to call "he" to "go". The final result of this correction is shown in FIG.
このように、従来のデータ管理方式による構文木で
は、係受けの修正を一箇所行う度に非交差条件をチェッ
クして、新たに必要となった係受けの修正を行わなけれ
ばならなかった。As described above, in the syntax tree based on the conventional data management method, the non-intersection condition must be checked each time the modification of the modification is performed at one place, and the modification of the modification required newly has to be performed.
上述した従来の機械翻訳装置においては、構文木のデ
ータが1種類のポインタによるツリーとして構成されて
おり、解析の過程で生じる構文木の修正の際には、自然
言語が持つ係受けの非交差条件の違反を判断するプログ
ラムを用意し、それによる条件チェックを行いながら複
雑なポインタの操作を行う必要があった。In the above-described conventional machine translation apparatus, the data of the syntax tree is configured as a tree of one type of pointer, and when the syntax tree is modified in the course of analysis, the non-intersection of the dependency that the natural language has It was necessary to prepare a program for judging violation of the condition, and perform complicated pointer operations while checking the condition.
さらに、機械翻訳による解析結果を補うために人手で
構文木の修正を行うことも各種試みられているが、その
際の係受けの非交差条件のチェックも容易となるような
構文木の構成方法が求められていた。In addition, various attempts have been made to manually correct the syntax tree in order to supplement the analysis result by machine translation, but a syntax tree construction method that makes it easy to check the non-intersection condition of the dependency at that time. Was required.
本発明の機械翻訳装置は、翻訳対象文を入力する入力
装置と、この入力装置から入力された文において、係受
け関係の係り先となる文節から該係受け関係の係り元と
なる文節の内の最も近くの文節へ向けて親子ポインタを
張るとともに、同一の係り先の文節に対する係り元の文
節の内の最も近くの文節同士間に文の後ろから前に向け
て兄弟ポインタを張り、その後、ある文節の係り先を変
更するにあたり、当該ある文節へ向けて指される親子ポ
インタ又は兄弟ポインタを切断するとともに、新たに係
り先となる文節から親子ポインタが出ていれば該親子ポ
インタが指す文節から前記ある文節へ向けて兄弟ポイン
タを接続することにより、一方、新たに係り先となる文
節から親子ポインタが出ていなければ該係り先となる文
節から前記ある文節へ向けて親子ポインタを接続するこ
とにより、構文木データを生成する原文解析部と、この
原文解析部により生成された構文木データに基づき訳文
を生成する訳文生成部とを備えたことを特徴とする。A machine translation device according to the present invention includes an input device for inputting a translation target sentence, and, in a sentence input from the input device, a phrase that is a destination of the dependency relationship and a phrase that is a source of the dependency relationship. , A parent-child pointer is set to the nearest clause, and a sibling pointer is set from the back to the front of the sentence between the closest clauses of the source clauses for the same destination clause. In changing the destination of a certain clause, the parent-child pointer or sibling pointer pointed to the certain clause is cut off, and if a parent-child pointer comes out of the new destination clause, the phrase indicated by the parent-child pointer From the target phrase to the certain phrase, if the parent-child pointer does not appear from the new destination phrase, An original sentence analysis unit that generates syntax tree data by connecting parent and child pointers toward the target, and a translated sentence generation unit that generates a translated sentence based on the syntax tree data generated by the original text analysis unit. .
次に、本発明について図面を参照して説明する。 Next, the present invention will be described with reference to the drawings.
第1図は本発明の一実施例の構成を示すブロック図で
ある。FIG. 1 is a block diagram showing the configuration of one embodiment of the present invention.
1は翻訳対象文を入力するための入力装置、2は入力
された原文を解析し、2種類のポインタによって構成さ
れる構文木を生成する原文解析部、3は解析結果から訳
文を生成するための訳文生成部、4は訳文を出力するた
めの出力装置である。また、5は原文を解析する際に用
いる単語の知識を格納する入力言語辞書、6は原文を解
析するための文法知識を格納する入力言語知識ベース、
7は訳文を生成する際に用いる単語の知識を格納する出
力言語辞書、8は訳文を生成するための文法知識を格納
する出力言語知識ベースである。1 is an input device for inputting a translation target sentence, 2 is an original sentence analysis unit that analyzes the input original sentence, and generates a syntax tree composed of two types of pointers, and 3 is a source for generating a translated sentence from the analysis result. Is an output device for outputting a translated sentence. 5 is an input language dictionary for storing knowledge of words used when analyzing the original sentence, 6 is an input language knowledge base for storing grammatical knowledge for analyzing the original sentence,
Reference numeral 7 denotes an output language dictionary for storing knowledge of words used when generating a translation, and reference numeral 8 denotes an output language knowledge base for storing grammatical knowledge for generating a translation.
以下に動作概要を説明する。 The outline of the operation will be described below.
入力装置1は、翻訳対象の文章を入力するためのもの
であり、一般的にはCRTとキーボードである。しかし、
他にOCR入力装置や、文書処理を行う他システムの出力
ファイルを読み込むための装置である場合も考えられ
る。The input device 1 is for inputting a text to be translated, and is generally a CRT and a keyboard. But,
In addition, an OCR input device or a device for reading an output file of another system that performs document processing may be used.
入力された翻訳対象文は、一文単位に切り出され、原
文解析部2によって解析が行われる。原文解析部2で
は、入力言語辞書5中の入力言語の単語情報、入力言語
知識ベース6中の入力言語の文法知識を用いて解析を行
い、原文の構造及び意味を表現する構文木が作成され
る。The input translation target sentence is cut out in units of one sentence, and is analyzed by the original sentence analysis unit 2. The source sentence analysis unit 2 performs analysis using the word information of the input language in the input language dictionary 5 and the grammatical knowledge of the input language in the input language knowledge base 6 to create a syntax tree expressing the structure and meaning of the source sentence. You.
この構文木は原文解析の過程で少しずつ修正を繰り返
しながら作成されるが、本発明では構文木のデータ構造
として2種類のポインタを用いることにより、その修正
・作成処理を容易に行うことができる。詳細について
は、後述する。This syntax tree is created while iteratively modifying it in the course of the original sentence analysis. In the present invention, by using two types of pointers as the data structure of the syntax tree, the modification / creation process can be easily performed. . Details will be described later.
訳文生成部3は、原文解析部2による解析結果と出力
言語辞書7中の出力言語の単語情報、出力言語知識ベー
ス8の出力言語の文法知識を用いて訳文の生成を行う。The translated sentence generation unit 3 generates a translated sentence using the analysis result of the original sentence analysis unit 2, the word information of the output language in the output language dictionary 7, and the grammar knowledge of the output language of the output language knowledge base 8.
出力装置4は、訳文生成部3から訳出された文章を出
力するためのものであり、一般的にはプリンタである
が、CRTである場合や、他のシステムへの入力として使
用するためにファイルの形で出力する場合もある。The output device 4 is for outputting sentences translated from the translated sentence generation unit 3, and is generally a printer, but is a CRT or a file for use as an input to another system. May be output in the form of
次に、第2図を用いて、本発明で行われる構文木デー
タの管理方式を説明する。第2図(A)は原文の係受け
関係を最も近くにかかると解釈した場合の構文木であ
り、第2図(B)は、それを正しく修正した最終的な構
文木である。Next, a management method of syntax tree data performed in the present invention will be described with reference to FIG. FIG. 2 (A) shows a syntax tree when the dependency relation of the original sentence is interpreted as being closest, and FIG. 2 (B) shows a final syntax tree in which it is correctly corrected.
ここでは、第3図の場合と同様に以下の文を例として
考えている。Here, as in the case of FIG. 3, the following sentence is considered as an example.
「彼は町へ本を買いに行った。」 本発明で採用される構文木データの管理方式では、構
文木を表現するために2種類のポインタを使用する。ま
ず、一般の係受け関係を親子、それを表すポインタを親
子ポインタと呼び、第2図中では実線で表す。また、同
一の文節にかかるもの同士を兄弟、その間をつなぐポイ
ンタを兄弟ポインタと呼び、第2図中では点線で表す。
親子ポインタは、係受け関係にある文節の内で最も近く
の文節に対してのみ張られ、兄弟ポインタは同一の文節
にかかるもの同士の内で最も近くの文節に対して、文の
後ろから前に向けて張られる。"He went to town to buy a book." In the syntax tree data management method adopted in the present invention, two types of pointers are used to represent the syntax tree. First, a general dependency relationship is referred to as a parent-child relationship, and a pointer representing the relationship is referred to as a parent-child pointer. In addition, pointers relating to the same phrase are referred to as siblings, and a pointer connecting them is referred to as a sibling pointer, and is indicated by a dotted line in FIG.
The parent-child pointer is set only for the closest clause in the clauses in the dependency relationship, and the sibling pointer is set for the closest clause in the same clause, from the back to the front of the sentence. It is stretched toward.
第2図(A)は、構文解析を行い、原文の係受け関係
を最も近くにかかると解釈した場合の構文木で、第3図
(A)に相当する。この構文木では、「本を」から「町
へ」に向けて及び「町へ」から「彼は」に向けてそれぞ
れ兄弟ポインタが張られ、「本を」と「買いに」の間及
び「買いに」と「行った」の間には、それぞれ親子ポイ
ンタが張られる。FIG. 2 (A) shows a syntax tree in the case where the parsing is performed and the dependency relation of the original sentence is interpreted to be the closest, and corresponds to FIG. 3 (A). In this syntax tree, sibling pointers are set from "book" to "town" and from "town" to "he", respectively, between "book" and "buy" and " A parent-child pointer is set between "buy" and "go".
次に、意味解析を行うと「町へ」という場所を表す語
と「行った」という移動を表す語の係受け関係がわかる
ので、構文木を修正する必要がでてくるが、それは、単
に「町へ」と「本を」の間の兄弟ポインタを削除し、代
わりに、「町へ」と「行った」の間の親子関係を作り出
せばよい。すなわち、「行った」には既に「買いに」と
の間に親子ポインタがあるので、「買いに」と「町へ」
の間に新たな兄弟ポインタを生成すればよい。この際、
係受けの非交差条件は全く考慮する必要がない。この結
果が第2図(B)であるが、これを見てわかるように、
非交差条件は自然に反映されており、第3図(C)に相
当する結果が得られている。Next, a semantic analysis reveals the dependency relationship between the word “place to town” and the word “move”, so it is necessary to correct the syntax tree. The sibling pointer between "to town" and "book" can be deleted, and instead a parent-child relationship between "to town" and "going" can be created. In other words, since "going" already has a parent-child pointer between "to buy", "to buy" and "to town"
It is sufficient to generate a new sibling pointer during. On this occasion,
There is no need to consider any non-crossing conditions of the dependency. The result is FIG. 2 (B). As can be seen from FIG.
The non-crossing condition is naturally reflected, and a result corresponding to FIG. 3 (C) is obtained.
なお、ある文節の係り先を修正する場合、まず、親と
の係受け関係を切る。もし、該文節が親子ポインタで指
されていれば、それを切断し、該文節が兄弟ポインタで
指されていればそれを切断する。次に新しい親との係受
け関係を作る。もし、新しい親に親子ポインタが出てい
れば、その子供に新たに兄弟ポインタを接続するか、そ
の子供にすでに接続されている兄弟ポインタの先端に兄
弟ポインタで結合するかし、一方、新しい親に親子ポイ
ンタがなければ親子ポインタで結合する。Note that when modifying the dependency of a certain phrase, first, the dependency relationship with the parent is cut. If the phrase is pointed to by a parent-child pointer, it is cut off, and if the phrase is pointed to by a sibling pointer, it is cut off. Next, create a dependency relationship with the new parent. If the new parent has parent-child pointers, either attach a new sibling pointer to the child, or attach a sibling pointer to the tip of the sibling pointer that is already connected to the child. If there is no parent-child pointer in, join with the parent-child pointer.
以上説明したように、本発明は、2種類のポインタを
用いて構文木データの管理を行うことにより、機械翻訳
の原文解析部で非交差条件のチェックを意識することな
く構文木の生成・修正ができ、処理の効率化・高速化を
実現している。As described above, the present invention manages the syntax tree data using two types of pointers, so that the source tree analysis unit of machine translation can generate and correct the syntax tree without being conscious of checking the non-intersection condition. And achieves more efficient and faster processing.
さらに、構文木中の各文節が最大でも2つのポインタ
しか持たないので、データ領域サイズが圧縮されるとい
う効果も見込まれる。Further, since each clause in the syntax tree has at most two pointers, the effect of reducing the data area size can be expected.
第1図は本発明の構成を示すブロック図、第2図は従来
の構文木データの管理方式を示す図、第3図は本発明で
行われる構文行データの管理方式を示す図である。 1……入力装置、2……原文解析部、3……訳文生成
部、4……出力装置、5……入力言語辞書、6……入力
言語知識ベース、7……出力言語辞書、8……出力言語
知識ベース。FIG. 1 is a block diagram showing the configuration of the present invention, FIG. 2 is a diagram showing a conventional syntax tree data management method, and FIG. 3 is a diagram showing a syntax line data management method performed in the present invention. 1 ... input device 2 ... original sentence analysis unit 3 ... translated sentence generation unit 4 ... output device 5 ... input language dictionary 6 ... input language knowledge base 7 ... output language dictionary 8 ... … Output language knowledge base.
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2232880AJP2794919B2 (en) | 1990-09-03 | 1990-09-03 | Machine translation equipment |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2232880AJP2794919B2 (en) | 1990-09-03 | 1990-09-03 | Machine translation equipment |
| Publication Number | Publication Date |
|---|---|
| JPH04112365A JPH04112365A (en) | 1992-04-14 |
| JP2794919B2true JP2794919B2 (en) | 1998-09-10 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2232880AExpired - LifetimeJP2794919B2 (en) | 1990-09-03 | 1990-09-03 | Machine translation equipment |
| Country | Link |
|---|---|
| JP (1) | JP2794919B2 (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7577562B2 (en)* | 2004-11-04 | 2009-08-18 | Microsoft Corporation | Extracting treelet translation pairs |
| Publication number | Publication date |
|---|---|
| JPH04112365A (en) | 1992-04-14 |
| Publication | Publication Date | Title |
|---|---|---|
| JP3905179B2 (en) | Document translation apparatus and machine-readable medium | |
| JPS62163173A (en) | Mechanical translating device | |
| JPS638864A (en) | translation device | |
| JPH0261763A (en) | machine translation device | |
| CN119149720A (en) | Text factual proofreading method and system based on large language model | |
| JP2794919B2 (en) | Machine translation equipment | |
| JPS6180362A (en) | translation device | |
| JPS6310265A (en) | translation device | |
| JPH0635961A (en) | Document summerizing device | |
| JP3197110B2 (en) | Natural language analyzer and machine translator | |
| JP3113257B2 (en) | Machine translation equipment | |
| JPS63136265A (en) | machine translation device | |
| JP3316884B2 (en) | Language translator | |
| JP3050575B2 (en) | Natural language automatic translator | |
| US20030088858A1 (en) | Closed-loop design methodology for matching customer requirements to software design | |
| JPH061468B2 (en) | Japanese sentence proofreading device | |
| JP4092861B2 (en) | Natural language pattern creation apparatus and method | |
| JP2019152712A (en) | Analyzer and program | |
| JPH07262194A (en) | Machine translation device | |
| JPS6244875A (en) | machine translation device | |
| JPS6349974A (en) | Input device for machine translation sentence | |
| JPH03228178A (en) | Automatic translation system | |
| JPH11143876A (en) | Bidirectional machine translation device | |
| JPH01233667A (en) | Mechanical translation device | |
| JPH04369730A (en) | Source program conversion tool generation system |
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text:PAYMENT UNTIL: 20080626 Year of fee payment:10 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text:PAYMENT UNTIL: 20090626 Year of fee payment:11 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text:PAYMENT UNTIL: 20100626 Year of fee payment:12 |