Movatterモバイル変換


[0]ホーム

URL:


JP2004178167A - Information retrieval method and device - Google Patents

Information retrieval method and device
Download PDF

Info

Publication number
JP2004178167A
JP2004178167AJP2002342147AJP2002342147AJP2004178167AJP 2004178167 AJP2004178167 AJP 2004178167AJP 2002342147 AJP2002342147 AJP 2002342147AJP 2002342147 AJP2002342147 AJP 2002342147AJP 2004178167 AJP2004178167 AJP 2004178167A
Authority
JP
Japan
Prior art keywords
answer
attribute
document
documents
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002342147A
Other languages
Japanese (ja)
Other versions
JP4089399B2 (en
Inventor
Satohiko Matsunaga
聡彦 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co LtdfiledCriticalOki Electric Industry Co Ltd
Priority to JP2002342147ApriorityCriticalpatent/JP4089399B2/en
Publication of JP2004178167ApublicationCriticalpatent/JP2004178167A/en
Application grantedgrantedCritical
Publication of JP4089399B2publicationCriticalpatent/JP4089399B2/en
Anticipated expirationlegal-statusCritical
Expired - Fee Relatedlegal-statusCriticalCurrent

Links

Images

Landscapes

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information retrieval device by which a user can adequately verify whether the result of information retrieval is right. <P>SOLUTION: The information retrieval device outputs an answer in response to a question sentence inputted, and retrieves at least one document corresponding to the question sentence from a plurality of documents preliminarily stored, and then selects at least one answer from the documents thus retrieved. Then, the information retrieval device determines the relation between the question sentence and each of the documents, at least one document, used for selecting the answer among the documents thus retrieved, and outputs at least one document having very close relation together with the answer concerned. This information retrieval device performs the method like this. <P>COPYRIGHT: (C)2004,JPO

Description

Translated fromJapanese

【0001】
【発明の属する技術分野】
本発明は、複数の文書等の大量の情報群の中から所望する情報を検索抽出する情報検索方法及び装置に関する。
【0002】
【従来の技術】
特開2001−290552号公報は、「情報検索システム」と題して、多量の文書の中から利用者が所望する文書を検索して出力すると共に、当該文書中から所望する個所を出力する情報検索システムを開示している。
また、特開2000−112970号公報は、「情報検索装置」と題して、検索依頼の質問文を解析し、この質問文に対する回答として最適と判定した文書、即ち根拠文書を検索して表示する装置を開示している。かかる装置においては、利用者は、検索装置により同時に表示される回答を選択する際に利用し、この回答に正当性の根拠を与える根拠文書により検索結果の正当性を確認していた。
【0003】
【発明が解決しようとする課題】
しかし、上記の方法若しくは装置によっては、正当性の根拠文書としてふさわしくない文書を表示される場合が有り、利用者は、実際には正解しているが根拠文書を見て不正解であると誤解してしまう可能性がある。また、複数の根拠文書を表示される場合でも、その中に根拠としてふさわしい文書が有ったとしても先にふさわしくない不適切な文書が表示されてしまうと、確認に時間がかかってしまうという問題があった。
【0004】
本発明は、以上の問題点に鑑みてなされたものであり、その目的は、利用者が検索結果の正当性を適正に確認し得る情報検索装置を提供することである。
【0005】
【課題を解決するための手段】
本発明による情報検索方法は、入力される質問文に応じて回答を出力する情報検索方法であり、該質問文に対応する少なくとも1つの文書を予め保持されている複数の文書の中から検索する文書検索ステップと、該検索された文書から少なくとも1つの回答を選択する回答選択ステップと、該検索された文書のうちで該回答の選択に利用した少なくとも1つの文書の各々について、該質問文との関連性を判定する関連性判定ステップと、該関連性が高い少なくとも1つの文書を、該回答と共に出力する回答出力ステップと、を含むことを特徴とする。
【0006】
本発明による情報検索装置は、入力される質問文に応じて回答を出力する情報検索装置であり、該質問文に対応する少なくとも1つの文書を予め保持されている複数の文書の中から検索する文書検索手段と、該検索された文書から少なくとも1つの回答を選択する回答選択手段と、該検索された文書のうちで該回答の選択に利用した少なくとも1つの文書の各々について、該質問文との関連性を判定する関連性判定手段と、該関連性が高い少なくとも1つの文書を、該回答と共に出力する回答出力手段と、を含むことを特徴とする。
【0007】
【発明の実施の形態】
本発明の実施例について添付の図面を参照して詳細に説明する。
図1は、本発明の実施例であり、情報検索装置10の構成を示している。ここで、情報検索装置10には、本装置の管理を行う管理者が操作する管理端末31と、検索を行う利用者が操作する利用者端末32とが接続される。情報検索装置10と管理端末31又は利用者端末32との間は、インターネット等のネットワークを介して接続されても良い。また、情報検索装置10に複数の利用者端末32を接続し、同時に複数の検索サービスを提供する形態も可能である。
【0008】
情報検索装置10は、質問文解析処理部11と、文書検索処理部12と、属性付与部13と、回答属性・関連回答属性対応表14と、回答生成処理部15と、文書データベース16と、回答属性・関連回答属性対応表14の作成及び登録を行うための対応表作成部20と、を含む。情報検索装置10は、通常のコンピュータにより実現され得る。
【0009】
質問文解析処理部11は、利用者が利用者端末22を介して入力した自然文による質問文を解析して、該質問文から利用者の質問意図を推定し対応する回答の属性、即ち回答属性を決定する機能と、該質問文を単語に区切り、不要語を削除することで検索のためのキーワード及び検索式を決定する機能とを有する。
文書検索処理部12は、質問文解析処理部11において得られるキーワードを検索キーとして文書データベースを検索し該当する文書を取得する機能を有する。
【0010】
属性付与部13は、検索された文書中の語句に属性を付与する機能を有する。ここで、属性とは、語句または文の特徴及び性質を意味する。属性の付与の方法は、自然文を解析する手段である形態素解析等の言語解析手段を単独で又は複数用いて行う。
回答生成処理部15は、属性付与部13により語句に属性を付与された文書から回答を抽出する機能を有する。1つの回答について抽出に利用した文書、即ち根拠文書が複数存在する場合、かかる根拠文書間に優先順位付けをする。この優先順位付けは、回答属性・関連回答属性対応表14に従って決定される。
【0011】
回答属性・関連回答属性対応表14は、語句又は文の属性間の関連性を定めるテーブルである。ここで、回答属性とは、質問の対象となる文又は語句の属性を意味する。属性間の関連性とは、意味的に従属し得る性質を意味する。
この対応表により、回答属性が指定されると、その属性に関連する複数の関連属性が得られる。対応関係の定義は、随時追加、削除され得る。例えば「人」の場合は人間の特徴、性質、所属に関する属性を関連属性とし、「地名(住所)」、「肩書き」等を関連回答属性となし得る。従って、「金額」、「割合」といった属性は特徴、性質となりにくいので好ましくは関連回答属性に入れない。
【0012】
文書データベース16は、複数の文書ファイルが格納される。尚、語句に属性付けしていない文書ファイルを格納している場合には、予めタグ付けされている文書を登録しておいても良い。この場合、情報検索装置10内の属性付与部13は必要とはならない。また、文書データベース16を情報検索装置10の内部に一体化せずに、インターネット等のネットワークを介して複数の文書をアクセス可能として文書データベース16を分散配置する構成も可能である。
【0013】
対応表作成部20は、属性付与部22と、関連度判定部23と、属性格納部21と、文書データ集24、を含む。属性付与部22は、属性付与部13と同様の機能を有する。属性格納部21は、作成する回答属性のリストを格納する機能を有する。これは、属性付与部13で使用している属性一覧を使用しても良い。また、属性格納部21は、関連回答属性の作成処理中に、関連回答属性の共起頻度数を一時的に保存する機能を有し、この共起頻度数の初期状態は0に設定されている。関連度判定部23は、属性付与部22からの出力を利用して属性間の関連度合いを計算する。
【0014】
文書データ集24は、回答属性・関連回答属性対等表14の作成する上で標本対象となる文書のファイル群である。従って、特に専門分野の文書を扱う情報検索装置において、分野ごとに標本対象となる文書を選択することで、関連回答属性を分野毎に変えることが可能となる。尚、回答属性・関連回答属性対等表14の設定は管理者により直接設定することも可能である。
【0015】
図2は、図1に示される情報検索装置10における回答属性・関連回答属性対応表14の値を設定する処理手順を示している。この処理手順は、主に対応表作成部20において実行される。
情報検索装置10は、文書データ集24から1文を選択する(ステップS21)。本実施例では1文内で共起頻度を計算する。1文内の共起頻度を検索する方法に代えて、1つの段落内或いは1つの文書内の共起頻度を求める等の方法も可能である。ここで、共起頻度とは、ある属性の語句と他の属性の語句とが共に同一文、同一段落若しくは同一文書中に出現する回数を意味する。
【0016】
次に、情報検索装置10は、属性付与部22において、選択された1文の各語句に属性を付与する。例えば、「日本一の面積の湖は滋賀県の琵琶湖で約670平方キロメートルある。」という文については、「滋賀県」:「地名(都道府県名)」、「琵琶湖」:「地名(湖沼名)」、「約670平方キロメートル」:「面積」となる。
【0017】
次に、情報選択装置10は、該選択された1文の各語句に付与された属性のうちの1つの属性を選択する(ステップS23)。次いで、共起をカウントする(ステップS24)。即ち、ステップS23において選択された属性以外の属性の出現数をカウントする。先の例の「日本一の面積の湖は滋賀県の琵琶湖で約670平方キロメートルある。」について見ると、選択された1つの属性「地名(都道府県名)」と共に、「地名(湖沼名)」、「面積」の属性を持つ語句が各々1つずつ存在することからそれぞれ1カウントアップされる。
【0018】
次に、選択した1文について共起カウントが未だに処理されていない属性が有るか否かを判定する(ステップS25)。未処理の属性が無く全ての属性について共起カウントしたと判定されればステップS26に進み、未処理の属性がある場合ステップS23へ戻る。先の例においては、属性「地名(都道府県名)」を処理した段階では未処理の属性(「面積」)があるのでステップS23に戻り、未処理の属性を処理した後にステップS26に進む。共起カウントの結果は、図3に示される如き共起頻度結果テーブルにまとめられる。
【0019】
次に、情報検索装置10は、文書データ集24の処理対象の全文についてステップS24の処理を実行したか否かを判定する(ステップS26)。全文処理済みであるならステップS27へ進み、未処理の文が存在するならばステップS21へ移る。次いで、情報検索装置10は、回答属性・関連回答属性対応表14を登録する(ステップS27)。この登録に際しては、管理端末31の操作者による関連属性の任意の追加又は取捨選択を可能としても良い。
【0020】
図3は、共起頻度結果テーブルの例を示している。ここで、1つの属性に対応して、関連属性:共起頻度の形式にて、複数の関連属性が並べて記録される。複数の属性は、好ましくは頻度の高い順に並べられる。図3の例においては、例えば、属性「人名」に対応して、関連属性の共起頻度数が「地名」:5、「年齢」:20、「電話番号」:10と記録される。
【0021】
図4は、回答属性・関連回答属性対応表の登録画面の例を示している。ここで、回答属性と複数の関連回答属性との組み合わせを共起頻度の高い順に表示されている。関連属性の各々にチェックボックスがあり、管理端末31を操作する管理者は、表示される属性のうちで関連属性として登録したい場合に当該属性のチェックボックスをチェックする。管理者が登録したい属性に全てチェックして、登録ボタンを押すと新たな回答属性・関連回答属性対応表14が登録される。
【0022】
先の例においては、例えば、「人名」の関連属性の共起頻度数が「地名」:5、「年齢」:20、「電話番号」:10となった場合は図4に示されるように、年齢、電話番号、地名の順に表示される。この3つの属性について全てチェックし登録すると「人名」の関連属性は共起頻度数が高い順に「年齢」、「電話番号」、「地名」とが設定登録される。
【0023】
図5は、回答属性・関連回答属性対等表の例を示している。(a)に示される例1の対応表は、図4に示される登録画面において登録指示がなされた結果として得られる値が設定されている。(b)に示される例2の対応表は、他の例を示している。
図6は、図1に示される情報検索装置10において情報検索を実行する処理手順を示している。利用者が利用者端末22上で質問文を入力し検索指示すると質問文が情報検索装置10に送られ処理が始まる。
【0024】
先ず、情報検索装置10は、質問文解析処理部11において、質問文を入力する(ステップS11)。該質問文に対して、質問文解析処理がなされる(ステップS12)。質問文解析処理としては、形態素解析を行い、形態素のうち不要語を削除しキーワードを決定して検索式を生成する。さらに質問文から質問意図を解析する。ここで、利用者が「日本一の面積の湖はどこですか?」と質問した場合について説明する。この質問文は、「日本一/の/面積/の/湖/は/どこ/です/か」のように区切られる。形態素のうち「の」「は」などの付属語、質問意図の「どこ」は不要語とし、検索キーワードは「日本一」「面積」「湖」とする。「〜の湖はどこですか」より名称を知りたいということがわかり、回答属性が「地名(湖沼名)」に決定される。
【0025】
次に、情報検索装置10は、文書検索処理部12において、質問文解析処理部11からの出力されるキーワードで文書データベース16に対して文書検索処理する(ステップS13)。先の例では、「日本一」「面積」「湖」をキーワードにして文書データベース16が検索される。検索の結果として、図7に示されるような文書が該当する文書として検索される。
【0026】
次に、情報検索装置10は、属性付与部13において、文書検索処理部12により検索されて該当した文書に対して、その自立語に属性を付与する(ステップSl4)。図7に示される例では、文書番号1の文書の場合「摩周湖」:「地名(湖沼名)」、「日本一」:「一般名詞」、「面積」:「一般名詞」、「北海道」:「地名(都道府県名)」となる。同様に文書番号2、3は「琵琶湖」:「地名(湖沼名)」、「そば」:「一般名詞」、「ホテル」:「一般名詞」、「建つ」:「動詞」、「約670平方キロメートル」:「面積」となる。「一般名詞」、「動詞」の属性を付与された語句については以降の処理において無視される。
【0027】
次に、情報検索装置10は、回答生成処理部15において、回答個別選択を実行する(ステップS15)。即ち、ステップS12で求めた回答属性と、ステップSl4で付与された属性とにおいて、合致するものがあるかを調べ、合致していればその属性値の語句を1つの回答とする。先の例では、文書集合(文書番号1〜3)から属性が「地名(湖沼名)」である語句を含む文書及び語句を選択する。回答は「摩周湖」、「琵琶湖」となる。回答が複数となった場合は、出現数が多い語句ほど優先回答侯補とする。「琵琶湖」が文書2及び3に含まれているので優先回答侯補とする。
【0028】
次に、情報処理装置10は、利用文書の数の判定を行う(ステップS16)。即ち、1つの回答について抽出に利用した文書が複数存在する場合(利用文書数>1)にはステップS17に進む。抽出に利用した文書数が1に等しい又は無い場合(利用文書数≦1)にはステップS18へ進む。先の例では、回答:「摩周湖」は抽出に利用した文書数が1であるのでステップS18へ進み、回答:「琵琶湖」は抽出に利用した文書数が2であるのでステップS17へ進む。
【0029】
次に、情報検索装置10は、利用文書の中から関連性を考慮した根拠文書の決定を実行する(ステップSl7)。即ち、回答属性・関連回答属性対応表14を参照して、回答属性を指定して関連回答属性を得ることで、文書中の関連回答属性の数をカウントする。先の例では、「地名(湖沼名)」の関連回答属性として「地名」、「面積」を得る(図5の(b)参照)。そして、ステップSl5において回答として選択した語句のある文書番号2及び3で「地名」、「面積」属性が付与された語句数をカウントする。文書番号2の文書には0回、文書番号3の文書には2回存在する。よって回数が多い文書番号3の文書を根拠文書とする。
【0030】
次に、情報処理装置10は、根拠文書を決定していない回答が存在するか否かを判定する(ステップS18)。もし、根拠文書決定していない回答が存在する場合にはステップS1に戻り上記と同様な処理を続ける。根拠文書決定していない回答が存在しない場合にはステップSl9に進む。
次に、情報検索装置10は、回答文生成を実行する(ステップS19)。ステップSl5で決定した回答と、ステップS17において決定した根拠文書とを使用し利用者端末32に表示する回答文を生成する(ステップS19)。次いで、これを利用者端末32に表示する(ステップS20)。
【0031】
図8は、利用者端末32に表示される回答文の表示例を示している。根拠文書中の関連回答属性値、質問文中の語句にマークをつけるようにするのが望ましい。本図の例では、回答個所選択で抽出した回答全てについて優先度の高い語句から表示するようにしているが、最も高い語句とその根拠のみを表示するなど多様なレイアウトが想定される。
【0032】
以上のように、本発明の実施例においては、回答属性と関連回答属性対応表を設け、回答に対応する関連回答属性の語句を多く持つ文書を優先的に根拠文書として表示するようにしたので利用者は回答があっているかどうか確認作業を行いやすくなる。又、利用者が質問に対する回答そのものでなく、関連語句等の回答に関わる説明をむしろ知りたい場合にも、直ぐに所望の情報が得られる。
【0033】
又、本実施例の情報検索装置においては、情報検索は、「・・は何ですか?」のように自然文により情報検索を指示することができる。検索のためのキーワードと共にAND、OR或いはNOTの如き論理記号を組み合わる論理式を入力するような初心者に難しい操作を必要としない。
尚、本実施例では、自然文による質問文に対応して根拠文書と共に回答を提供する情報検索装置として説明したが、直接文書を検索する文書検索装置として実現されても良い。この場合には、回答属性は該当文書のタイトルであり、根拠文書は該当文書に相応する。又、利用者端末と情報検索装置とは別異の装置としたが情報検索装置と同一のコンピュータとするなど、利用者端末及び情報検索装置間の構成はこれに限定されず多様な形態となし得る。更に、回答属性・関連回答属性対応表の設定にかかわる部分は、情報検索を提供するコンピュータとは別異のコンピュータに実装する形態も本発明の範囲内である。
【0034】
【発明の効果】
以上のように、本発明による情報検索装置においては、利用者の質問に対する回答にその根拠文書が、関連性を考慮した適切な方法で選択されて共に出力される。これにより、利用者は回答結果の正当性を適正に確認し得る。
【図面の簡単な説明】
【図1】本発明の実施例であり、情報検索装置の構成を示しているブロック図である。
【図2】図1に示される情報検索装置における回答属性・関連回答属性対応テーブルの作成を実行する処理手順を示しているフローチャートである。
【図3】共起頻度結果テーブルの例を示している図である。
【図4】回答属性・関連回答属性対応表の登録画面例を示している図である。
【図5】回答属性・関連回答属性対応表の2つの例を示している図である。
【図6】図1に示される情報検索装置における情報検索を実行する処理手順を示しているフローチャートである。
【図7】根拠文書の構成例を示している図である。
【図8】根拠文書の表示例を示している図である。
【符号の説明】
10 情報検索装置
11 質問文解析処理部
12 文書検索処理部
13 属性付与部
14 回答属性・関連回答属性対応表
15 回答生成処理部
16 文書データベース
20 対応表作成部
21 属性格納部
22 属性付与部
23 関連度判定部
31 管理端末
32 利用者端末
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information search method and apparatus for searching and extracting desired information from a large amount of information such as a plurality of documents.
[0002]
[Prior art]
Japanese Patent Application Laid-Open No. 2001-290552 entitled "Information Retrieval System" is an information retrieval system which retrieves and outputs a document desired by a user from a large number of documents and outputs a desired location from the document. Disclose system.
Japanese Patent Application Laid-Open No. 2000-112970 analyzes a question sentence of a search request entitled "Information Retrieval Apparatus", and searches and displays a document determined to be optimal as an answer to this question sentence, that is, a base document. An apparatus is disclosed. In such an apparatus, a user uses the information to select an answer displayed simultaneously by the search apparatus, and confirms the validity of the search result by a basis document that provides a basis for the answer.
[0003]
[Problems to be solved by the invention]
However, depending on the method or device described above, a document that is not appropriate as the basis document of legitimacy may be displayed, and the user misunderstands that the answer is actually correct but is incorrect when looking at the basis document. Could be done. In addition, even when a plurality of documents are displayed, even if there is a document that is appropriate as the basis, if an inappropriate document that is not appropriate is displayed first, it takes a long time to confirm. was there.
[0004]
The present invention has been made in view of the above problems, and an object of the present invention is to provide an information search device that allows a user to properly confirm the validity of a search result.
[0005]
[Means for Solving the Problems]
An information search method according to the present invention is an information search method for outputting an answer in accordance with an input question message, and searches at least one document corresponding to the question message from a plurality of documents stored in advance. A document search step, an answer selection step of selecting at least one answer from the searched documents, and, for each of at least one of the searched documents used for selecting the answer, And a response output step of outputting at least one document having a high relevance together with the response.
[0006]
An information search device according to the present invention is an information search device that outputs an answer in response to an input question message, and searches at least one document corresponding to the question message from a plurality of documents stored in advance. Document search means, answer selection means for selecting at least one answer from the searched documents, and, for each of at least one of the searched documents used for selecting the answer, And a response output unit that outputs at least one document having a high relevance together with the response.
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Embodiments of the present invention will be described in detail with reference to the accompanying drawings.
FIG. 1 shows an embodiment of the present invention, and shows a configuration of aninformation retrieval apparatus 10. Here, amanagement terminal 31 operated by an administrator who manages the present apparatus and auser terminal 32 operated by a user who performs a search are connected to theinformation search apparatus 10. Theinformation search device 10 and themanagement terminal 31 or theuser terminal 32 may be connected via a network such as the Internet. In addition, a form in which a plurality ofuser terminals 32 are connected to theinformation search device 10 and a plurality of search services are provided at the same time is also possible.
[0008]
Theinformation search device 10 includes a question sentence analysis processing unit 11, a document search processing unit 12, anattribute assignment unit 13, an answer attribute / related answer attribute correspondence table 14, an answer generation processing unit 15, adocument database 16, A correspondence table creating unit 20 for creating and registering the answer attribute / related answer attribute correspondence table 14. Theinformation search device 10 can be realized by a normal computer.
[0009]
The question sentence analysis processing unit 11 analyzes a question sentence based on a natural sentence input by the user via theuser terminal 22, estimates the question intention of the user from the question sentence, and sets the attribute of the corresponding answer, that is, the answer It has a function of determining an attribute and a function of dividing a question sentence into words and deleting unnecessary words to determine a keyword and a search formula for search.
The document search processing unit 12 has a function of searching a document database using the keyword obtained in the question sentence analysis processing unit 11 as a search key and acquiring a corresponding document.
[0010]
Theattribute assigning unit 13 has a function of assigning an attribute to a phrase in the searched document. Here, the attribute means the characteristics and properties of a word or sentence. The attribute is assigned by using one or more language analyzing means such as morphological analysis which is a means for analyzing a natural sentence.
The answer generation processing unit 15 has a function of extracting an answer from a document in which an attribute has been assigned to a word by theattribute assigning unit 13. If there are a plurality of documents used for extraction for one answer, that is, a plurality of basis documents, the priorities are assigned to the basis documents. This prioritization is determined according to the answer attribute / related answer attribute correspondence table 14.
[0011]
The answer attribute / related answer attribute correspondence table 14 is a table that determines the relevance between attributes of words or sentences. Here, the answer attribute means an attribute of a sentence or a phrase to be asked. The relationship between attributes means a property that can be semantically dependent.
When an answer attribute is designated by the correspondence table, a plurality of related attributes related to the attribute are obtained. The definition of the correspondence relationship can be added or deleted at any time. For example, in the case of "person", attributes related to human characteristics, properties, and affiliations can be set as related attributes, and "place name (address)", "title", and the like can be set as related answer attributes. Therefore, attributes such as “money” and “ratio” are unlikely to be characteristics and properties, and therefore are preferably not included in the related answer attribute.
[0012]
Thedocument database 16 stores a plurality of document files. If a document file that has not been attributed to a word is stored, a tagged document may be registered in advance. In this case, theattribute assigning unit 13 in theinformation search device 10 is not required. Further, a configuration is also possible in which thedocument database 16 is distributed and arranged so that a plurality of documents can be accessed via a network such as the Internet, without integrating thedocument database 16 inside theinformation search device 10.
[0013]
The correspondence table creation unit 20 includes anattribute assignment unit 22, a relevance determination unit 23, anattribute storage unit 21, and a document data collection 24. Theattribute assigning unit 22 has the same function as theattribute assigning unit 13. Theattribute storage unit 21 has a function of storing a list of answer attributes to be created. For this, an attribute list used by theattribute assigning unit 13 may be used. Theattribute storage unit 21 has a function of temporarily storing the co-occurrence frequency of the related answer attribute during the process of creating the related answer attribute. The initial state of the co-occurrence frequency is set to 0. I have. The degree-of-association determination unit 23 calculates the degree of association between attributes using the output from theattribute providing unit 22.
[0014]
The document data collection 24 is a file group of documents to be sampled in preparing the answer attribute / related answer attribute equality table 14. Therefore, in an information retrieval apparatus that handles documents in a specialized field, it is possible to change the related answer attribute for each field by selecting a document to be sampled for each field. The setting of the answer attribute / related answer attribute equality table 14 can also be directly set by the administrator.
[0015]
FIG. 2 shows a processing procedure for setting values of the answer attribute / related answer attribute correspondence table 14 in theinformation search device 10 shown in FIG. This processing procedure is mainly executed in the correspondence table creating unit 20.
Theinformation retrieval device 10 selects one sentence from the document data collection 24 (Step S21). In this embodiment, the co-occurrence frequency is calculated within one sentence. Instead of searching for the co-occurrence frequency in one sentence, a method of finding the co-occurrence frequency in one paragraph or one document is also possible. Here, the co-occurrence frequency means the number of times that a word of a certain attribute and a word of another attribute appear in the same sentence, the same paragraph or the same document.
[0016]
Next, in theinformation retrieval device 10, theattribute assigning unit 22 assigns an attribute to each word of the selected one sentence. For example, the sentence "Lake with the largest area in Japan is about 670 square kilometers in Lake Biwa in Shiga Prefecture" is: "Shiga prefecture": "place name (prefecture name)", "Biwa lake": "place name (lake name) "," About 670 square kilometers ":" area ".
[0017]
Next, theinformation selection device 10 selects one of the attributes assigned to each phrase of the selected one sentence (step S23). Next, co-occurrence is counted (step S24). That is, the number of appearances of attributes other than the attribute selected in step S23 is counted. Looking at the previous example, "Lake with the largest area in Japan is about 670 square kilometers in Lake Biwa in Shiga Prefecture." Looking at one selected attribute "Place name (prefecture name)", "Place name (lake name)" , "Area" is counted up by one because each word has an attribute of "area".
[0018]
Next, it is determined whether or not there is an attribute for which the co-occurrence count has not yet been processed for the selected one sentence (step S25). If it is determined that there is no unprocessed attribute and all the attributes have been co-occurred, the process proceeds to step S26. If there is an unprocessed attribute, the process returns to step S23. In the above example, since there is an unprocessed attribute (“area”) at the stage when the attribute “place name (prefecture name)” is processed, the process returns to step S23, and proceeds to step S26 after processing the unprocessed attribute. The results of the co-occurrence count are summarized in a co-occurrence frequency result table as shown in FIG.
[0019]
Next, theinformation search device 10 determines whether or not the processing of step S24 has been performed for all the texts to be processed in the document data collection 24 (step S26). If all sentences have been processed, the process proceeds to step S27. If there is an unprocessed sentence, the process proceeds to step S21. Next, theinformation search device 10 registers the answer attribute / related answer attribute correspondence table 14 (step S27). In this registration, the operator of themanagement terminal 31 may be allowed to arbitrarily add or select related attributes.
[0020]
FIG. 3 shows an example of the co-occurrence frequency result table. Here, a plurality of related attributes are recorded side by side in a format of related attribute: co-occurrence frequency corresponding to one attribute. The plurality of attributes are preferably arranged in descending order of frequency. In the example of FIG. 3, for example, the co-occurrence frequency of the related attribute is recorded as “place name”: 5, “age”: 20, and “telephone number”: 10, corresponding to the attribute “person name”.
[0021]
FIG. 4 shows an example of a registration screen of the answer attribute / related answer attribute correspondence table. Here, combinations of the answer attribute and a plurality of related answer attributes are displayed in descending order of co-occurrence frequency. There is a check box for each of the related attributes, and the administrator who operates themanagement terminal 31 checks the check box of the attribute to be registered as a related attribute among the displayed attributes. When the administrator checks all the attributes to be registered and presses the registration button, a new answer attribute / related answer attribute correspondence table 14 is registered.
[0022]
In the above example, for example, if the co-occurrence frequency of the related attribute of “person name” is “place name”: 5, “age”: 20, and “telephone number”: 10, as shown in FIG. , Age, phone number, and place name. When all three attributes are checked and registered, "age", "telephone number", and "place name" are set and registered in relation to the "person name" in descending order of the co-occurrence frequency.
[0023]
FIG. 5 shows an example of an answer attribute / related answer attribute equality table. In the correspondence table of Example 1 shown in (a), values obtained as a result of a registration instruction being given on the registration screen shown in FIG. 4 are set. The correspondence table of Example 2 shown in (b) shows another example.
FIG. 6 shows a processing procedure for executing an information search in theinformation search device 10 shown in FIG. When the user inputs a question sentence on theuser terminal 22 and gives a search instruction, the question sentence is sent to theinformation search device 10 and processing starts.
[0024]
First, theinformation retrieval device 10 inputs a question sentence in the question sentence analysis processing unit 11 (step S11). Question sentence analysis processing is performed on the question sentence (step S12). In the question sentence analysis process, morphological analysis is performed, unnecessary words are deleted from the morphemes, keywords are determined, and a search formula is generated. Furthermore, the question intention is analyzed from the question sentence. Here, a case where the user asks "Where is the largest lake in Japan?" This question sentence is divided as "Japan's best / of / area / of / lake / is / where / is /?" Of the morphemes, ancillary words such as “no” and “ha” and “where” in the question intention are unnecessary words, and the search keywords are “best in Japan”, “area”, and “lake”. It is understood that the user wants to know the name from "Where is the lake?", And the answer attribute is determined as "place name (lake name)".
[0025]
Next, theinformation search device 10 causes the document search processing unit 12 to perform a document search process on thedocument database 16 using the keyword output from the question sentence analysis processing unit 11 (step S13). In the above example, thedocument database 16 is searched using the keywords “Japan best”, “area”, and “lake”. As a result of the search, a document as shown in FIG. 7 is searched as a corresponding document.
[0026]
Next, in theinformation search device 10, theattribute assigning unit 13 assigns an attribute to the independent word to the corresponding document searched by the document search processing unit 12 (step S14). In the example shown in FIG. 7, in the case of the document ofdocument number 1, "Lake Mashu": "Place name (lake name)", "Japan": "General noun", "Area": "General noun", "Hokkaido" : "Place name (prefecture name)". Similarly,document numbers 2 and 3 are “Lake Biwa”: “place name (lake name)”, “Soba”: “general noun”, “hotel”: “general noun”, “building”: “verb”, “about 670 square kilometers” ":" Area ". Words to which the attributes of “general noun” and “verb” are added are ignored in the subsequent processing.
[0027]
Next, in theinformation search device 10, the answer generation processing unit 15 performs individual answer selection (step S15). That is, it is checked whether there is a match between the answer attribute obtained in step S12 and the attribute given in step S14, and if they match, the word of the attribute value is regarded as one answer. In the above example, a document and a phrase including a phrase whose attribute is “place name (lake name)” are selected from the document set (document numbers 1 to 3). The answers are "Lake Mashu" and "Lake Biwa". When there are a plurality of answers, words and phrases having a larger number of appearances are set as priority answer candidates. “Biwako” is included inDocuments 2 and 3, so it will be the priority answer candidate.
[0028]
Next, theinformation processing apparatus 10 determines the number of used documents (step S16). That is, if there are a plurality of documents used for extraction for one answer (the number of used documents> 1), the process proceeds to step S17. If the number of documents used for extraction is equal to or not equal to 1 (the number of used documents ≦ 1), the process proceeds to step S18. In the previous example, the answer: "Lake Mashu" uses 1 document for the extraction, and the process proceeds to step S18. The answer: "Biwako" uses 2 documents for the extraction, and the process proceeds to step S17.
[0029]
Next, theinformation retrieval device 10 determines a base document in consideration of the relevance from the used documents (step S17). That is, the number of the related answer attributes in the document is counted by referring to the answer attribute / related answer attribute correspondence table 14 and specifying the answer attribute to obtain the related answer attribute. In the above example, “place name” and “area” are obtained as the related answer attributes of “place name (lake name)” (see FIG. 5B). Then, the number of words to which the “place name” and “area” attributes are assigned indocument numbers 2 and 3 having the word selected as the answer in step S15 is counted. The document ofdocument number 2 exists 0 times, and the document ofdocument number 3 exists twice. Therefore, the document ofdocument number 3 with a large number of times is set as the base document.
[0030]
Next, theinformation processing apparatus 10 determines whether or not there is an answer for which the basis document has not been determined (step S18). If there is an answer for which the base document has not been determined, the process returns to step S1 and the same processing as described above is continued. If there is no answer for which the basis document has not been determined, the process proceeds to step S19.
Next, theinformation search device 10 executes generation of an answer sentence (step S19). Using the answer determined in step S15 and the evidence document determined in step S17, an answer sentence to be displayed on theuser terminal 32 is generated (step S19). Next, this is displayed on the user terminal 32 (step S20).
[0031]
FIG. 8 shows a display example of an answer sentence displayed on theuser terminal 32. It is desirable to mark related answer attribute values in the base document and words in the question sentence. In the example of this figure, all the answers extracted by selecting the answer part are displayed from the words having the highest priority. However, various layouts are assumed, such as displaying only the highest words and the basis thereof.
[0032]
As described above, in the embodiment of the present invention, the answer attribute and the related answer attribute correspondence table are provided, and a document having many words of the related answer attribute corresponding to the answer is preferentially displayed as the basis document. It is easier for the user to check whether the answer has been received. Further, even when the user wants to know not only the answer to the question but also the explanation related to the answer such as a related phrase, desired information can be obtained immediately.
[0033]
Further, in the information search device of the present embodiment, the information search can be instructed by a natural sentence such as "What is ..?". There is no need for a beginner to perform a difficult operation such as inputting a logical expression such as AND, OR or NOT together with a keyword for search.
Although the present embodiment has been described as an information search device that provides an answer together with a base document in response to a natural sentence question sentence, it may be implemented as a document search device that directly searches a document. In this case, the answer attribute is the title of the document, and the base document corresponds to the document. In addition, the configuration between the user terminal and the information search device is not limited to this, and the user terminal and the information search device are different devices, but the configuration is not limited to this. obtain. Furthermore, the form in which the part related to the setting of the answer attribute / related answer attribute correspondence table is implemented on a computer different from the computer that provides the information search is also within the scope of the present invention.
[0034]
【The invention's effect】
As described above, in the information search device according to the present invention, the answer document to the user's question is selected and output together with the basis document by an appropriate method in consideration of the relevance. Thus, the user can properly confirm the validity of the answer result.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of an information search device according to an embodiment of the present invention.
FIG. 2 is a flowchart showing a processing procedure for creating an answer attribute / related answer attribute correspondence table in the information search device shown in FIG. 1;
FIG. 3 is a diagram illustrating an example of a co-occurrence frequency result table.
FIG. 4 is a diagram showing an example of a registration screen of a response attribute / related answer attribute correspondence table.
FIG. 5 is a diagram showing two examples of an answer attribute / related answer attribute correspondence table.
FIG. 6 is a flowchart showing a processing procedure for executing an information search in the information search device shown in FIG. 1;
FIG. 7 is a diagram showing a configuration example of a basis document.
FIG. 8 is a diagram showing a display example of a basis document.
[Explanation of symbols]
Reference Signs List 10 Information retrieval device 11 Question sentence analysis processing unit 12 Documentsearch processing unit 13 Attribute assignment unit 14 Reply attribute / related answer attribute correspondence table 15 Replygeneration processing unit 16 Document database 20 Correspondencetable creation unit 21Attribute storage unit 22 Attribute assignment unit 23Relevance determination unit 31Management terminal 32 User terminal

Claims (9)

Translated fromJapanese
入力される質問文に応じて回答を出力する情報検索方法であって、
前記質問文に対応する少なくとも1つの文書を予め保持されている複数の文書の中から検索する文書検索ステップと、
前記検索された文書から少なくとも1つの回答を選択する回答選択ステップと、
前記検索された文書のうちで前記回答の選択に利用した少なくとも1つの文書の各々について、前記質問文との関連性を判定する関連性判定ステップと、
前記関連性が高い少なくとも1つの文書を、前記回答と共に出力する回答出力ステップと、
を含むことを特徴とする情報検索方法。
An information retrieval method for outputting an answer according to an input question sentence,
A document search step of searching at least one document corresponding to the question from a plurality of documents stored in advance;
An answer selecting step of selecting at least one answer from the searched document;
A relevancy determining step of determining, for each of the at least one document used for selecting the answer among the retrieved documents, a relevance to the question sentence;
An answer output step of outputting at least one highly relevant document together with the answer;
An information search method characterized by including:
前記文書検索ステップは、前記質問文に含まれるキーワードと、前記複数の文書の各々に含まれるキーワードとの一致により検索することを特徴とする請求項1記載の情報検索方法。2. The information search method according to claim 1, wherein in the document search step, a search is performed by matching a keyword included in the question sentence with a keyword included in each of the plurality of documents.前記回答選択ステップは、前記検索された文書に含まれる語句のうちから前記質問文の回答属性に一致する属性を有する1つ又は複数の語句を抽出し、それらの出現頻度に従って前記1つ又は複数の語句のうちの少なくとも1つの語句を前記回答に選択することを特徴とする請求項1記載の情報検索装置。The answer selecting step extracts one or a plurality of phrases having an attribute that matches the answer attribute of the question sentence from the phrases included in the searched document, and extracts the one or more phrases according to their appearance frequency. 2. The information retrieval apparatus according to claim 1, wherein at least one of the words is selected as the answer.前記関連性判定ステップは、前記回答の選択に利用した少なくとも1つの文書の各々について、前記質問文の回答属性に関連性を有する1つ又は複数の属性の各々に一致する属性を有する語句の出現頻度を計算し、前記出現頻度に応じて前記関連性を判定することを特徴とする請求項1記載の情報検索方法。In the relevancy determination step, for each of the at least one document used for selecting the answer, the appearance of a phrase having an attribute that matches each of one or more attributes having relevance to the answer attribute of the question sentence 2. The information search method according to claim 1, wherein a frequency is calculated, and the relevancy is determined according to the appearance frequency.前記予め保持されている複数の文書の各々に含まれる1つ又は複数の語句の各々に属性を予め付与するステップを更に含むことを特徴とする請求項3又は4記載の情報検索方法。5. The information search method according to claim 3, further comprising a step of giving an attribute to each of one or more words included in each of the plurality of documents held in advance.前記回答属性と関連性を有する属性とを対応付ける対応表を予め設定するステップを更に含み、前記関連性判定ステップは、前記回答属性と関連性を有する少なくとも1つの属性の各々を前記対応表から認識して出現頻度を計算することを特徴とする請求項4記載の情報検索方法。The method further includes a step of setting in advance a correspondence table that associates the answer attribute with an attribute having a relevance, wherein the relevancy determination step recognizes at least one attribute having a relevance with the answer attribute from the correspondence table. The information retrieval method according to claim 4, wherein the frequency of appearance is calculated by performing the following.前記回答属性と関連性を有する属性とを対応付ける対応表を予め設定するステップは、複数の標本文、標本段落又は標本文書にあって、互いに異なる属性を有する語句が共に出現する頻度に従って関連性の高低を定めることを特徴とする請求項6記載の情報検索方法。The step of presetting a correspondence table for associating the answer attribute with an attribute having relevance includes, in a plurality of sample sentences, sample paragraphs or sample documents, relevance in accordance with the frequency at which words having different attributes appear together. 7. The information retrieval method according to claim 6, wherein the height is determined.前記回答出力ステップは、前記質問文の回答属性に関連性を有する属性の語句にマーク付けして前記文書を出力することを特徴とする請求項4記載の情報検索方法。5. The information retrieval method according to claim 4, wherein the answer output step outputs the document by marking a word of an attribute having relevance to an answer attribute of the question sentence.入力される質問文に応じて回答を出力する情報検索装置であって、
前記質問文に対応する少なくとも1つの文書を予め保持されている複数の文書の中から検索する文書検索手段と、
前記検索された文書から少なくとも1つの回答を選択する回答選択手段と、
前記検索された文書のうちで前記回答の選択に利用した少なくとも1つの文書の各々について、前記質問文との関連性を判定する関連性判定手段と、
前記関連性が高い少なくとも1つの文書を、前記回答と共に出力する回答出力手段と、
を含むことを特徴とする情報検索装置。
An information search device that outputs an answer according to an input question sentence,
Document search means for searching at least one document corresponding to the question from a plurality of documents stored in advance;
Answer selection means for selecting at least one answer from the searched document;
Relevance determining means for determining, for each of at least one document used for selecting the answer among the retrieved documents, the relevance to the question sentence;
Answer output means for outputting at least one highly relevant document together with the answer,
An information retrieval device characterized by including:
JP2002342147A2002-11-262002-11-26 Information retrieval method and apparatusExpired - Fee RelatedJP4089399B2 (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
JP2002342147AJP4089399B2 (en)2002-11-262002-11-26 Information retrieval method and apparatus

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
JP2002342147AJP4089399B2 (en)2002-11-262002-11-26 Information retrieval method and apparatus

Publications (2)

Publication NumberPublication Date
JP2004178167Atrue JP2004178167A (en)2004-06-24
JP4089399B2 JP4089399B2 (en)2008-05-28

Family

ID=32704279

Family Applications (1)

Application NumberTitlePriority DateFiling Date
JP2002342147AExpired - Fee RelatedJP4089399B2 (en)2002-11-262002-11-26 Information retrieval method and apparatus

Country Status (1)

CountryLink
JP (1)JP4089399B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2006134019A (en)*2004-11-052006-05-25Fuji Xerox Co LtdInformation processing system, information processor, information processing method and computer program
JP2012068687A (en)*2010-09-212012-04-05Yahoo Japan CorpInformation processing device, method and program
JP2013196385A (en)*2012-03-192013-09-30Toshiba CorpService controller, service control method and service control program
JP2017157207A (en)*2016-03-012017-09-07ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. Search result broadcasting method and apparatus based on artificial intelligence

Cited By (5)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2006134019A (en)*2004-11-052006-05-25Fuji Xerox Co LtdInformation processing system, information processor, information processing method and computer program
JP2012068687A (en)*2010-09-212012-04-05Yahoo Japan CorpInformation processing device, method and program
JP2013196385A (en)*2012-03-192013-09-30Toshiba CorpService controller, service control method and service control program
JP2017157207A (en)*2016-03-012017-09-07ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. Search result broadcasting method and apparatus based on artificial intelligence
US10810272B2 (en)2016-03-012020-10-20Beijing Baidu Netcom Science And Technology Co., Ltd.Method and apparatus for broadcasting search result based on artificial intelligence

Also Published As

Publication numberPublication date
JP4089399B2 (en)2008-05-28

Similar Documents

PublicationPublication DateTitle
US9361361B2 (en)Interactively entering data into the database
US6996561B2 (en)System and method for interactively entering data into a database
JP5066963B2 (en) Database construction device
JP2005025525A (en)Information search system, information search method and information search program
JPH11224256A (en) Information retrieval method and recording medium recording information retrieval program
JP4057962B2 (en) Question answering apparatus, question answering method and program
JP3908634B2 (en) Search support method and search support device
JP2000330979A (en)Method for analyzing electronic document to be retrieved and electronic document registration system
JP4089399B2 (en) Information retrieval method and apparatus
JPH08171569A (en)Document retrieval device
JPH1145261A (en) Information retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP2005031950A (en) Information search device, information search method and program
JPH1145254A (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP2010266970A (en) Information search device, information search method, dictionary creation device, and program
JP2009217741A (en)Metadata attachment method, device, and metadata attachment program
JPH07134720A (en)Method and device for presenting relative information in sentence preparing system
JP4034503B2 (en) Document search system and document search method
JPH1145266A (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JP7688440B2 (en) Program, method, information processing device, and system
KR20020059555A (en)Searching engine and searching method
JPH1145249A (en) Information retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
CN119848311A (en)Method and system for generating shortcut answer options based on question parsing
JP2003263458A (en) Text analysis method and apparatus
CN118132717A (en)Question-answer knowledge base construction method, device, equipment and medium based on non-question-answer pairs

Legal Events

DateCodeTitleDescription
A621Written request for application examination

Free format text:JAPANESE INTERMEDIATE CODE: A621

Effective date:20041029

A977Report on retrieval

Free format text:JAPANESE INTERMEDIATE CODE: A971007

Effective date:20070724

A131Notification of reasons for refusal

Free format text:JAPANESE INTERMEDIATE CODE: A131

Effective date:20070731

A521Written amendment

Free format text:JAPANESE INTERMEDIATE CODE: A523

Effective date:20070927

A131Notification of reasons for refusal

Free format text:JAPANESE INTERMEDIATE CODE: A131

Effective date:20071030

A521Written amendment

Free format text:JAPANESE INTERMEDIATE CODE: A523

Effective date:20071217

TRDDDecision of grant or rejection written
A01Written decision to grant a patent or to grant a registration (utility model)

Free format text:JAPANESE INTERMEDIATE CODE: A01

Effective date:20080205

A61First payment of annual fees (during grant procedure)

Free format text:JAPANESE INTERMEDIATE CODE: A61

Effective date:20080218

R150Certificate of patent or registration of utility model

Free format text:JAPANESE INTERMEDIATE CODE: R150

FPAYRenewal fee payment (event date is renewal date of database)

Free format text:PAYMENT UNTIL: 20110307

Year of fee payment:3

LAPSCancellation because of no payment of annual fees

[8]ページ先頭

©2009-2025 Movatter.jp