Movatterモバイル変換


[0]ホーム

URL:


JP2005189955A - Document processing method, document processing apparatus, control program, and recording medium - Google Patents

Document processing method, document processing apparatus, control program, and recording medium
Download PDF

Info

Publication number
JP2005189955A
JP2005189955AJP2003427609AJP2003427609AJP2005189955AJP 2005189955 AJP2005189955 AJP 2005189955AJP 2003427609 AJP2003427609 AJP 2003427609AJP 2003427609 AJP2003427609 AJP 2003427609AJP 2005189955 AJP2005189955 AJP 2005189955A
Authority
JP
Japan
Prior art keywords
document
word
feature word
coincidence
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003427609A
Other languages
Japanese (ja)
Inventor
Eiichiro Toshima
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon IncfiledCriticalCanon Inc
Priority to JP2003427609ApriorityCriticalpatent/JP2005189955A/en
Publication of JP2005189955ApublicationCriticalpatent/JP2005189955A/en
Withdrawnlegal-statusCriticalCurrent

Links

Images

Landscapes

Abstract

Translated fromJapanese

【課題】 認識誤りや入力ミスを含む文書を処理するために有効な特徴語検出法を提供すること。
【解決手段】 文書内の語と重要語保持手段に保持されている重要語との一致度を算出し、一致度に基づいて文書の特徴語を検出し、特徴語に基づいて文書に各種処理を施す。
【選択図】 図24
PROBLEM TO BE SOLVED: To provide a feature word detection method effective for processing a document including recognition errors and input errors.
A degree of coincidence between a word in a document and an important word held in the important word holding unit is calculated, a feature word of the document is detected based on the degree of coincidence, and various processing is performed on the document based on the feature word. Apply.
[Selection] FIG.

Description

Translated fromJapanese

本発明は、文書の処理を行う方法、装置、制御プログラム及び記録媒体に関するものである。  The present invention relates to a method, apparatus, control program, and recording medium for processing a document.

コンピュータ及びネットワークの発達に伴って大量の電子化ドキュメントのデータベースへの蓄積が進展しつつあり、それに伴って大量の電子化文書データベース上のドキュメントに対する電子処理、例えば文書検索、自動文書要約、自動文書分類への期待が高まってきている。この要約、分類のような文書加工技術においては、文書内容の概念特徴を把握する必要があり、そのために各文書からキーワードを抽出する技術が必要であり、これまでにも多数の提案がなされている。  Along with the development of computers and networks, the accumulation of a large amount of digitized documents in a database is progressing, and along with that, electronic processing on documents in a large amount of digitized document databases, such as document retrieval, automatic document summarization, automatic document Expectations for classification are increasing. In document processing techniques such as summarization and classification, it is necessary to grasp the conceptual features of the document content, and for that purpose, a technique for extracting keywords from each document is necessary. Many proposals have been made so far. Yes.

例えば、特許文献1においては、入力文書を形態素解析して複合語を抽出し、複合語から専門用語の特徴に着目して専門用語を抽出するシステムが提案されている。また、特許文献2においては、与えられた文字列データからキーワードを抽出し、それらの出現状態を考慮してキーワードを重み付けして要約に役立てる技術が提案されている。  For example,Patent Document 1 proposes a system that extracts a compound word by morphological analysis of an input document, and extracts a technical term from the compound word by paying attention to characteristics of the technical term.Patent Document 2 proposes a technique for extracting a keyword from given character string data, weighting the keyword in consideration of the appearance state thereof, and using it for summarization.

ここで紹介された技術はすべてもともと電子的に作成された文書(電子文書)に対する処理であり、紙文書をスキャンし文字認識されたテキストに対する処理ではなかった。  All of the techniques introduced here are processes for electronically created documents (electronic documents), and not for texts that have been recognized by scanning paper documents.

最近になって、紙の形で保管されてきた過去のレガシードキュメントを電子化しようという、紙文書デジタル化の動きが加速しつつある。このような紙文書デジタル化において検索処理を行うためにはテキスト情報を抽出する必要があり、OCRをかけることになる。ところが、OCRは100%の精度を保証できないので、認識誤りが紛れ込むことを避けられない。認識誤りは文書の電子処理に多くの問題を引き起こす。  Recently, the movement of digitizing paper documents to digitize past legacy documents stored in paper form is accelerating. In order to perform a search process in such a paper document digitization, it is necessary to extract text information, and an OCR is applied. However, since OCR cannot guarantee 100% accuracy, it is inevitable that recognition errors will be mixed. Recognition errors cause many problems in electronic processing of documents.

例えば、検索においては、検索漏れなどが発生してしまう。例えば、「超写真画質」という文字列を含む紙文書があったとする。この紙文書にOCRをかけると電子テキスト化することができるが、それは若干の認識誤りを含み、例えば、「超写真白質」と認識されているかもしれない。この場合を「超写真画質」でこの文書を検索することはできなくなってしまう。要約、分類等の文書加工処理においても、この認識誤りは処理精度が劣化する原因となる。  For example, a search omission occurs in the search. For example, it is assumed that there is a paper document including a character string “super photo quality”. When this paper document is subjected to OCR, it can be converted into an electronic text, which includes some recognition errors and may be recognized as, for example, “superphoto white matter”. In this case, it becomes impossible to search for this document with “super photo quality”. Even in document processing such as summarization and classification, this recognition error causes processing accuracy to deteriorate.

OCRされた文書に対する文書処理についても、やはり多数の手法が提案されている。  A number of methods have also been proposed for document processing on OCR documents.

特許文献3は、OCRされた文書の検索について工夫を提案している。検索インデキシング時に文字認識候補を含めて索引化し、検索時に文字の類似性を考慮しながら検索しようというものである。しかし、このように、情報が実際に必要な実行時に曖昧性を考慮する方式では、多数の認識候補を保有するメモリに対する負担、処理実行時の負荷が大きく、高度な文書処理に適用するには限界がある。ドキュメントから特徴抽出する段階で、もっと正確に文書特徴をとらえてキーワードを抽出しておく必要がある。  Patent Document 3 proposes a device for searching for OCR documents. Indexing is performed including character recognition candidates at the time of search indexing, and the search is performed while considering the similarity of characters at the time of search. However, in this way, the method that considers ambiguity at the time of execution when information is actually needed has a large burden on the memory holding many recognition candidates and a large load at the time of processing execution. There is a limit. At the stage of extracting features from the document, it is necessary to extract the keywords more accurately by capturing the document features.

また特許文献4は、スキャンされOCRされた文書からキーワードを抽出し、それを利用してもう一度もとのOCR結果に対して認識支援し、検索できるようにしようというものである。しかし、この方式では該当文書にただ一度しか出現しないキーワードについては無力であり、また2度以上出現してもすべてについて誤認識が発生しているときには役に立たないことになってしまう。
特開平3−116374号公報特開平8−329118号公報特開平6−089330号公報特開平6−4716号公報
Japanese Patent Laid-Open No. 2004-228561 is intended to extract a keyword from a scanned and OCR document and use it to recognize and support the original OCR result once again so that it can be searched. However, this method is incapable of keywords that appear only once in the document, and is not useful when erroneous recognition occurs for all of the keywords that appear more than once.
Japanese Patent Laid-Open No. 3-116374 JP-A-8-329118 JP-A-6-089330 JP-A-6-4716

本発明が解決しようとする課題は、スキャンされ文字認識された、文字認識の第1候補しか含まない文書に対して、有効なキーワード抽出を行って文書の概念特徴を正確に把握し、認識誤り部分の単語が正常に認識できる文書加工手段を実現することにあり、そのために、必要なキーワードのセットの作成を、スキャンされたものではなく電子的に作成された文書の解析によって行い、使用者の負荷を大幅に軽減することにある。  The problem to be solved by the present invention is to perform effective keyword extraction on a scanned document that contains only the first candidate for character recognition, accurately grasp the conceptual features of the document, and recognize errors. The purpose is to realize a document processing means that can recognize the word of the part normally. For this purpose, the necessary keyword set is created by analyzing the electronically created document, not the scanned one, and the user It is to greatly reduce the load.

上記の目的を達成するために本発明は、文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップと、前記特徴語検出ステップで検出した特徴語に基づいて文書を要約する要約ステップとを有することを特徴とする。  In order to achieve the above object, the present invention provides a degree-of-match calculation step for calculating a degree of coincidence between a word in a document and an important word held in the important word holding means, and a feature of the document based on the degree of coincidence. A feature word detecting step for detecting a word; and a summarizing step for summarizing the document based on the feature word detected in the feature word detecting step.

また本発明は、複数の文書を入力する入力ステップと、記入力ステップで入力された文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップと、前記特徴語検出ステップで検出した特徴語に基づいて文書を分類する分類ステップとを有することを特徴とする。  Further, the present invention provides an input step for inputting a plurality of documents, a coincidence degree calculating step for calculating the coincidence degree between the words in the document inputted in the input step and the important words held in the important word holding means, And a feature word detecting step of detecting a feature word of the document based on the degree of coincidence, and a classification step of classifying the document based on the feature word detected in the feature word detecting step.

また本発明は、文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、前記一致度に基づいて文書の特徴語を検出する特徴語検出手段と、前記特徴語検出手段で検出した特徴語に基づいて文書を要約する要約手段とを有することを特徴とする。  The present invention also provides a degree-of-match calculation means for calculating a degree of coincidence between a word in a document and an important word held in the important word holding means, and a feature word detection for detecting a feature word of the document based on the degree of coincidence. And summarizing means for summarizing the document based on the feature words detected by the feature word detecting means.

また本発明は、複数の文書を入力する入力手段と、記入力手段で入力された文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、前記一致度に基づいて文書の特徴語を検出する特徴語検出手段と、前記特徴語検出手段で検出した特徴語に基づいて文書を分類する分類手段とを有することを特徴とする。  Further, the present invention provides an input means for inputting a plurality of documents, a coincidence degree calculating means for calculating a coincidence degree between a word in the document input by the input means and an important word held in the important word holding means, And a feature word detecting means for detecting a feature word of the document based on the degree of coincidence, and a classifying means for classifying the document based on the feature word detected by the feature word detecting means.

本発明によれば、認識誤りや入力ミスを含む文書に対しても有効な特徴語を検出することで、精度の高い文書処理を可能にすることができる。  According to the present invention, it is possible to perform highly accurate document processing by detecting effective feature words even for documents including recognition errors and input errors.

以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。  DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

(実施例)
図1は本発明を適用した文字処理装置の構成を示すブロック図である。図示の構成において、CPUはマイクロプロセッサであり、文書要約、文書分類等の文書加工処理や文書検索処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。マイクロプロセッサCPUが表示手段に対する制御も司る。BUSはバスであり、マイクロプロセッサCPUの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。RAMは書込み可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶に用いる。ROMは読出し専用の固定メモリである。マイクロプロセッサCPUによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをRAMにロードし、マイクロプロセッサCPUに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。
(Example)
FIG. 1 is a block diagram showing the configuration of a character processing apparatus to which the present invention is applied. In the configuration shown in the figure, the CPU is a microprocessor that performs operations such as document processing such as document summarization and document classification, and document search processing, logical judgment, etc., and each component connected to the bus via the bus. Control. The microprocessor CPU also controls the display means. BUS is a bus, and transfers an address signal and a control signal for instructing each component to be controlled by the microprocessor CPU. In addition, data transfer between each component is performed. The RAM is a writable random access memory and is used for primary storage of various data from each component. The ROM is a read-only fixed memory. A boot program by the microprocessor CPU is stored. The boot program loads a control program stored in the hard disk into the RAM when the system is started, and causes the microprocessor CPU to execute it. The control program will be described in detail later with reference to a flowchart.

入力装置はキーボード、およびマウス等である。表示装置はCRT、あるいは液晶ディスプレイ等である。スキャナは紙ドキュメントを読み込んでデジタル化する等の処理を行う装置である。HDはハードディスクであり、CPUにより実行される制御プログラム、形態素解析を行うための形態素解析辞書、文書の特徴を表現し得る単語を記憶した重要単語辞書、検索・要約・分類等の処理が行われる対象となる文書を記憶した文書データベース、重要単語辞書に格納される重要単語を自動収集できるよう基準となる文書を格納する基準文書データベース、文書を概念検索できるように各単語を概念ベクトル化した単語ベクトル辞書、概念検索を行う際にインデックスとして使用される概念検索索引、文書分類を行う際にインデックスとして使用される概念分類索引、キーワード検索処理を行う際にインデックスとして使用されるキーワード検索索引、文書から重要単語を抽出する際にワークエリアとして使用される一致重要単語リスト、各文字間の類似性を格納した文字類似度データベース等が格納される。  The input device is a keyboard and a mouse. The display device is a CRT or a liquid crystal display. A scanner is a device that performs processing such as reading and digitizing a paper document. The HD is a hard disk, which executes processing such as a control program executed by the CPU, a morphological analysis dictionary for performing morphological analysis, an important word dictionary storing words that can represent document features, search / summarization / classification, etc. Document database that stores the target document, reference document database that stores the reference document so that important words stored in the important word dictionary can be automatically collected, and words that have each word converted into a concept vector so that documents can be conceptually searched A vector dictionary, a concept search index used as an index when performing a concept search, a concept classification index used as an index when performing document classification, a keyword search index used as an index when performing keyword search processing, and a document Matching important word list used as a work area when extracting important words from DOO, character similarity database or the like which stores the similarity between each character is stored.

リムーバブル外部記憶装置はフロッピー(登録商標)ディスクやCD、DVD等の外部記憶にアクセスするためのドライブ等である。上記HDと同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムは、これらの外部記憶装置から必要に応じてHDにコピーすることもできる。通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。  The removable external storage device is a drive for accessing an external storage such as a floppy (registered trademark) disk, CD, or DVD. It is an apparatus that can be used in the same manner as the HD and exchanges data with other document processing apparatuses through these recording media. The control program stored in the hard disk can be copied from these external storage devices to the HD as necessary. The communication device is a network controller. A device for exchanging data with the outside via a communication line.

かかる各構成要素からなる本発明文書加工処理装置においては、入力装置からの各種の入力に応じて作動するものであって、入力装置からの入力が供給されるとまずインタラプト信号がマイクロプロセッサCPUに送られ、それに伴って、CPUがROMまたはRAM内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。  The document processing apparatus according to the present invention composed of such components operates in response to various inputs from the input device. When an input from the input device is supplied, an interrupt signal is first sent to the microprocessor CPU. Along with this, the CPU reads various instructions stored in the ROM or RAM, and various controls are performed by executing the instructions.

図2は本発明を適用した文書加工処理装置の文書要約処理の処理結果を表示する表示装置の画面構成例を示したものである。パネル21には、要約前のオリジナルの文書内容が表示される。ユーザの指示に基づいて要約処理が行われると要約結果がパネル22に表示される。  FIG. 2 shows a screen configuration example of a display device that displays the processing result of the document summarization processing of the document processing apparatus to which the present invention is applied. Thepanel 21 displays the original document content before summarization. When the summarization process is performed based on a user instruction, a summary result is displayed on thepanel 22.

図3は文書分類の処理例を示した図である。分類処理の表示方法にはいろんなビューに従って様々なバリエーションが考えられるが、それらの表示を行うもととなる基本データとしては、各文書に対しそれがどの分類に属するかという分類IDが対応付けられているデータである。図3はそのデータの持ち方の例を示しており、31は文書IDであり、各文書をユニークに識別するデータを記憶する。32は文書タイトルであり、その文書のタイトルを記憶する。33は分類IDであり該文書が属する分類の分類IDを記憶する。  FIG. 3 is a diagram showing an example of document classification processing. There are various variations in the display method of the classification process according to various views. As basic data on which the display is performed, a classification ID indicating which classification it belongs to is associated with each document. Data. FIG. 3 shows an example of how to hold the data.Reference numeral 31 denotes a document ID, which stores data for uniquely identifying each document. Adocument title 32 stores the title of the document.Reference numeral 33 denotes a classification ID, which stores the classification ID of the classification to which the document belongs.

図4は文書の特徴を表現し得る重要単語(キーワード)のリストを格納した重要単語辞書の構成を示したものである。各重要単語にはユニークな単語IDが対応付けられ、その表記が記憶される。専門用語等の複合語も多く登録される。本実施例においては、重要単語辞書は、基準文書から自動収集されて作成されるが、予め標準的にある程度の語数が用意されており、自動収集したものがそれに追加されるように構成されてもよい。あるいは、ユーザが個別に編集して作成されたものが更に加わるという実施形態も考えられる。本実施例においては自動収集されて作成された重要単語辞書を主体に説明するが、それに対して更にユーザ登録する機能が提供されても本質的には差し支えない。  FIG. 4 shows the structure of an important word dictionary that stores a list of important words (keywords) that can express the characteristics of a document. Each important word is associated with a unique word ID and its notation is stored. Many compound words such as technical terms are also registered. In this embodiment, the important word dictionary is automatically collected and created from the reference document. However, a certain number of words are prepared in advance as standard, and the automatically collected word dictionary is configured to be added thereto. Also good. Alternatively, an embodiment in which a user's individual edit and creation are added is also conceivable. In this embodiment, an important word dictionary automatically collected and created will be mainly described. However, a function for registering a user may be provided for the dictionary.

各重要単語には重要度情報も付与されている。重要度情報は、その単語をどの程度重視すればよいかを示す数値であり、例えば文書全体での頻度が考えられる。あるいは、tf・idf値なども考えられる。  Importance information is also given to each important word. The importance level information is a numerical value indicating how much importance should be given to the word. For example, the frequency of the entire document can be considered. Alternatively, a tf · idf value or the like is also conceivable.

重要単語であるから、日本語において使用されるありとあらゆる単語が収集されたものではなく、ある程度、分野によって偏って使用される単語が登録される。例えば、「人」「日」「事」「物」などの単語は、通常どのような文書であっても使用される単語であり、普通は重要単語として登録されない。必然的に固有名詞や専門用語が重点的に登録されることになる。アルゴリズムの都合上、短い単語の曖昧マッチングは困難であるので、需要単語としては比較的長い単語が望ましい。  Since it is an important word, not every word used in Japanese is collected, but a word that is biased depending on the field to some extent is registered. For example, words such as “person”, “day”, “thing”, and “thing” are usually used in any document, and are not usually registered as important words. Inevitably, proper nouns and technical terms will be registered with emphasis. Since it is difficult to perform ambiguous matching of short words for the convenience of the algorithm, relatively long words are desirable as demand words.

例えば、「構文」という専門用語との曖昧マッチングをとる場合を考える。OCRドキュメントに認識誤りがあり、例えば「構」が誤認識されていると「?文」とのマッチングを取ることになり「散文」「漢文」「悪文」「証文」「英文」等無数の単語の可能性が出てきてしまう。これに対し、例えば「構文解析」という専門用語では、仮にOCRが「構」の部分を誤認識しても他の部分は正常である可能性が高く「?文解析」となる。これであれば、可能性があるのは「構文解析」ぐらいなので、正しく重要単語を抽出することができる。  For example, consider the case where fuzzy matching with the technical term “syntax” is taken. If there is a recognition error in the OCR document, for example, if the “sentence” is misrecognized, it will be matched with “? Sentence” and countless words such as “prose”, “kanji”, “bad”, “certificate”, “English” etc. The possibility of coming out. On the other hand, for example, in the technical term “syntax analysis”, even if the OCR “glyph” is misrecognized, the other part is likely to be normal and becomes “? Sentence analysis”. In this case, since there is only a possibility of “syntactic analysis”, important words can be extracted correctly.

図中、単語ID=8(「構文の解析」)のように複数文節からなる文字列も含んでいる。これは、短い単語の重要単語を抽出することが困難なので、共起関係を含めた文字列を登録することで、回避しようという仕組みである。この場合「構文」は短すぎるのでその用例である「構文の解析」「構文の関係」などの文字列を登録し、処理するのである。  In the figure, a character string consisting of a plurality of clauses such as word ID = 8 (“syntax analysis”) is also included. This is a mechanism to avoid by registering a character string including a co-occurrence relationship because it is difficult to extract an important word of a short word. In this case, since the “syntax” is too short, character strings such as “syntax analysis” and “syntax relations” which are examples thereof are registered and processed.

図5は文書データベースに格納される文書の構成を示した図である。文書はスキャナからスキャンされたビットマップイメージ(スキャンドキュメント)と、それに対してOCRが施されたOCRドキュメントからなり、この両方が対応付けられて文書データベースに格納される。OCRドキュメントはスキャンドキュメントのビットマップが文字認識された第1候補が格納されており、必然的に認識誤りを含んでいる。図中“BJシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。なお、文書データベースにおいては、各文書はユニークな文書IDで識別される。  FIG. 5 is a diagram showing the structure of a document stored in the document database. The document consists of a bitmap image (scanned document) scanned from the scanner and an OCR document that has been subjected to OCR, and both are stored in the document database in association with each other. The OCR document stores the first candidate in which the bit map of the scanned document is character-recognized, and necessarily includes a recognition error. In the figure, the character string that should be “BJ Series” is “8 Series”, and the character string that should be “Super Photo Quality” is “Super Photo White”. In the document database, each document is identified by a unique document ID.

このようなOCRドキュメントに対し通常の形態素解析処理をかけると多数の解析エラー個所(未知語)が発生し、十分な情報が得られない。例えば“BJシリーズ”“超写真画質”という文字列は認識誤りを含んでいるので、このままではこれらの単語を重要単語として抽出できない。結果として「BJシリーズ」等の検索要求に対し、この文書をヒットさせることができないことになる。  When ordinary morphological analysis processing is applied to such an OCR document, a large number of analysis error locations (unknown words) occur, and sufficient information cannot be obtained. For example, since the character strings “BJ series” and “superphoto image quality” include recognition errors, these words cannot be extracted as important words as they are. As a result, this document cannot be hit in response to a search request such as “BJ series”.

あらゆる複合語が重要単語に採用されるわけではない。例えば、アルゴリズムの都合上、文字数のある程度長い文字列でないといけないので、ある文字数を超えるもののみが採用される。  Not all compound words are adopted as important words. For example, for the convenience of the algorithm, it must be a character string having a certain number of characters, so that only a character string exceeding a certain number of characters is adopted.

図6は基準文書データベースに格納される基準文書の例を示した図である。基準文書は重要単語を自動収集する目的で使用されるので、できるだけ解析誤りが発生しない文書が望ましい。そこでOCRドキュメントではなく、初めから電子的に作成されたテキストファイルなどのドキュメントが使用される。図に基準文書の例を示すが、これに形態素解析をかけた場合、形態解析辞書に登録されている単語については単語切りが行われ、単語が登録されていない部分は未知語として出力される。図中「/」で示されるのは文節の境界である。形態素解析では単に文節の境界だけでなく文節内の単語構造が出力される。この解析結果に基づいて、複合語(長単位語)が抽出され、このうち重要単語としてふさわしい長単位語が重要単語辞書に登録されることになる。図中、重要単語に採用される長単位語の例が矩形で囲まれて表示され、未知語は更にメッシュ付きで表示されている。この未知語の部分からも重要単語としてふさわしい単語が抽出され重要単語辞書に登録することになる。  FIG. 6 is a diagram showing an example of the reference document stored in the reference document database. Since the reference document is used for the purpose of automatically collecting important words, it is desirable that the document does not cause an analysis error as much as possible. Therefore, not an OCR document but a document such as a text file created electronically from the beginning is used. An example of a reference document is shown in the figure, but when morphological analysis is applied to this, a word is registered for a word registered in the morphological analysis dictionary, and a portion where no word is registered is output as an unknown word . In the figure, “/” indicates the boundary between phrases. In the morphological analysis, not only the boundary between clauses but also the word structure in the clause is output. Based on the analysis result, compound words (long unit words) are extracted, and long unit words suitable as important words are registered in the important word dictionary. In the figure, examples of long unit words adopted as important words are displayed surrounded by a rectangle, and unknown words are further displayed with a mesh. A word suitable as an important word is also extracted from the unknown word portion and registered in the important word dictionary.

図7は単語ベクトル辞書の構成を示したものである。単語ベクトルは、語義ベースの各単語の意味を意味ベクトル(意味分類ごとの特徴量のリスト)であり、単語ベクトル辞書はその集合である。各次元は1つの意味分類を表現する。各単語(語義)は各次元の意味分類をどの程度含意しているかという値(=特徴量)を記憶する。例えば、次元3は「宇宙・空」、次元4は「取引・売買」、次元7は「身振り・動作」という意味分類をそれぞれ表している。単語7は「フォーム」という単語を表している。単語7の次元3は0であり、これは「フォーム(帳票)」という単語には「宇宙・空」の意味分類に関係する意味を全く持っていないことを意味する。単語7の次元4の値は大きく、次元7の値は小さい。これは「フォーム(帳票)」が「取引・売買」の意味を強く持っているが、「身振り・動作」の意味は弱いことを意味する。これに対し、単語8の次元4は小さく、次元7が大きい。これは「フォーム(姿勢)」が「身振り・動作」の意味を強く持っているが、「取引・売買」の意味は弱いことを意味する。このように単語ベクトル辞書により、語義別の各単語の意味するものが分かる。  FIG. 7 shows the configuration of the word vector dictionary. A word vector is a semantic vector (a list of feature quantities for each semantic classification), and the word vector dictionary is a set of meanings of each word based on meaning. Each dimension represents one semantic classification. Each word (meaning) stores a value (= feature value) indicating how much the semantic classification of each dimension is implied. For example,dimension 3 represents “space / sky”,dimension 4 represents “transaction / trading”, anddimension 7 represents “gesture / motion”. Theword 7 represents the word “form”. Thedimension 3 of theword 7 is 0, which means that the word “form” has no meaning related to the meaning classification of “space / sky”. The value ofdimension 4 ofword 7 is large and the value ofdimension 7 is small. This means that “form (form)” has a strong meaning of “dealing / trading” but “gesturing / motion” is weak. On the other hand, thedimension 4 of theword 8 is small and thedimension 7 is large. This means that “form (posture)” has a strong meaning of “gesture / motion”, but “transaction / trading” has a weak meaning. In this way, the word vector dictionary shows what each word means.

文書の意味はその中でどのような単語が使用されたかによって決定されると解釈し、各文書の意味は、その文書を構成する単語の意味ベクトルを加算していくことで求める。このときベクトルの次元は単語の意味ベクトルと同じであり、ある意味分類を表現する。加算されて得られたベクトルをノルム=1で正規化し、これを文書ベクトルと呼んで文書データベースに格納する。  It is interpreted that the meaning of a document is determined by what word is used in the document, and the meaning of each document is obtained by adding the meaning vectors of the words constituting the document. At this time, the dimension of the vector is the same as the meaning vector of the word, and represents a certain semantic classification. The vector obtained by the addition is normalized by norm = 1, and this is called a document vector and stored in the document database.

図8は概念検索索引を示したものである。概念検索索引は、各文書に対して該文書に対応する概念ベクトル(=文書ベクトル)を記憶するものである。各文書ベクトルは、各文書がどのような意味内容を表現しているかを示す。例えば、文書ID=6949の次元4、次元7の特徴量はそれぞれ0.009、0.425であり、文書ID=6953の次元4、次元8の特徴量はそれぞれ0.362、0.008であることが分かる。これにより文書ID=6949は「取引・売買」の意味分類をほとんど含んでない文章であり、文書ID=6953は「身振り・動作」の意味分類をほとんど含んでいない文章であることが分かる。  FIG. 8 shows a concept search index. The concept search index stores a concept vector (= document vector) corresponding to each document for each document. Each document vector indicates what semantic content each document represents. For example, the feature amounts ofdimension 4 anddimension 7 of document ID = 6949 are 0.009 and 0.425, respectively, and the feature amounts ofdimension 4 anddimension 8 of document ID = 6953 are 0.362 and 0.008, respectively. I understand that there is. As a result, it can be seen that the document ID = 6949 is a sentence that hardly includes the semantic classification of “transaction / trading”, and the document ID = 6953 is a sentence that hardly includes the semantic classification of “gesture / motion”.

図9は概念分類索引を示したものである。概念分類索引の構成は概念検索索引の構成と酷似している。各分類カテゴリに対して該カテゴリに対応する概念ベクトル(=文書ベクトル)を記憶するものである。各文書ベクトルは、各分類がどのような意味内容を表現しているかを示す。なお、分類カテゴリを特定するのは分類IDであるが処理の類似性から書くカテゴリを文書とみなし、分類IDを文書IDとも称するものとする。例えば、分類ID(文書ID)=4の次元4、次元7の特徴量はそれぞれ0.009、0.425であり、分類ID=8の次元4、次元8の特徴量はそれぞれ0.362、0.008であることが分かる。これにより分類ID=4は「取引・売買」の意味分類をほとんど含んでない分類であり、分類ID=8は「身振り・動作」の意味分類をほとんど含んでいない分類であることが分かる。  FIG. 9 shows a concept classification index. The structure of the concept classification index is very similar to the structure of the concept search index. For each classification category, a concept vector (= document vector) corresponding to the category is stored. Each document vector indicates what semantic content each classification represents. The classification category is specified by the classification ID, but the category written from the similarity of processing is regarded as the document, and the classification ID is also referred to as the document ID. For example, the feature quantities ofdimension 4 anddimension 7 with classification ID (document ID) = 4 are 0.009 and 0.425, respectively, and the feature quantities ofdimension 4 anddimension 8 with classification ID = 8 are 0.362, respectively. It turns out that it is 0.008. As a result, it can be seen that the classification ID = 4 is a classification that hardly includes the semantic classification of “transaction / trading”, and the classification ID = 8 is a classification that hardly includes the semantic classification of “gesture / motion”.

図10は、キーワード検索索引の構成を示した図である。キーワード検索の要求に対して指定キーワードが含まれる文書を検索するときのために準備作成されたインデックスである。各重要単語に対して、その単語を含む文書を列挙した構造となっている。各単語IDに対し、その単語を含む文書の文書IDが位置(文書中での先頭から文字位置)とともに格納される。図から、例えば、単語ID=1の単語は、文書ID=4の文書の先頭から0文字の文字位置、すなわち、文書の先頭に存在することが分かる。このインデックスを参照することによりどの単語がどの文書のどの位置に存在するかを把握することができる。  FIG. 10 is a diagram showing the configuration of the keyword search index. This is an index prepared for searching for a document including a specified keyword in response to a keyword search request. For each important word, the structure includes a list of documents including the word. For each word ID, the document ID of the document containing the word is stored together with the position (character position from the beginning in the document). From the figure, it can be seen that, for example, the word with word ID = 1 exists at the character position of 0 characters from the top of the document with document ID = 4, that is, at the top of the document. By referring to this index, it is possible to grasp which word exists in which position in which document.

なお、この検索索引の構成は論理構成を示しているだけである。実際の検索処理においては高速検索が可能なように適切にフォーマットに構成され、例えば、データの多重化等による高速化等がなされることになる。  Note that the configuration of this search index only shows the logical configuration. In the actual search process, the format is appropriately configured so that high-speed search is possible. For example, the speed is increased by data multiplexing or the like.

図11は一致重要単語リストの構成を示した図である。一致重要単語リストは、ある文書の特徴抽出処理の途中において一時的に管理作成されるテーブルであり、恒久的に存在する情報ではない。1文書の処理ごとに内容がクリアされる。リストはある文書に対してどの単語がどの位置に存在すると考えられるかを、その解釈による一致スコアと一致率とともに示している。111は単語IDであり、存在すると考えられる重要単語のIDを示している。112は開始位置、113は終了位置であり、その間に重要単語が存在することを示している。114は一致スコアであり、該当の重要単語とマッチングをとった場合のスコアが格納される。115は一致率であり、そのマッチングの妥当性を示す値が格納される。例えば、1行目は単語ID=5の単語が、文書先頭から21の位置から29の位置まで存在する可能性があり、その一致スコアは18、一致率は2であることを示している。  FIG. 11 is a diagram showing the configuration of the matched important word list. The matching important word list is a table that is temporarily managed and created during the feature extraction process of a document, and is not information that exists permanently. The contents are cleared every time one document is processed. The list shows which word is considered to be located at which position for a document, along with a matching score and a matching rate according to the interpretation. 111 is a word ID, indicating the ID of an important word that is considered to exist. Reference numeral 112 denotes a start position and 113 denotes an end position, which indicates that an important word exists between them.Reference numeral 114 denotes a matching score, which stores a score when matching is performed with the relevant important word.Reference numeral 115 denotes a matching rate, and a value indicating the validity of the matching is stored. For example, the first line indicates that there is a possibility that a word with the word ID = 5 exists from the 21st position to the 29th position from the top of the document, the matching score is 18, and the matching rate is 2.

図12は文字類似度データベースである。OCRの観点から見て類似した形態を持つ文字をデータベース化したものである。121で示す基準文字に対し類似した文字群が122で示す類似文字に格納される。例えば、1行目は、「B」という文字は「8」や「乃」という文字と類似していることを表現している。また2行目は「王」は「壬」や「生」と類似していることを表現している。  FIG. 12 is a character similarity database. This is a database of characters having similar forms from the viewpoint of OCR. A character group similar to the reference character indicated by 121 is stored in the similar character indicated by 122. For example, the first line expresses that the letter “B” is similar to the letters “8” and “no”. The second line expresses that “King” is similar to “Kyo” and “Life”.

図13は本発明における一致スコアと一致率の算出方法の例を示した図である。一致スコアは比較する文字列の先頭(k=1)から末尾(k=n)までのスコアを1からnまで積算したものであり、各スコアはk番目の文字の一致が、不一致のとき0、完全に一致するとき2(すなわち、比較元の文字と比較先の文字が正確に一致したとき)、文字類似度データベースを参照して一致したとき1(すなわち、比較元の文字と比較先の文字は一致しなかったが、文字類似度データベースを調べるとこの2つの文字が類似しているとして登録されていたとき)、とする。これに基づくと「BJシリーズ」と「8○シリーズ」を比較する際には、一致スコア=1+0+2+2+2+2=9となる。(「B」と「8」は、図10に示すように文字類似度データベースにおいて類似している)  FIG. 13 is a diagram showing an example of a method for calculating the coincidence score and the coincidence rate in the present invention. The match score is obtained by accumulating the scores from the beginning (k = 1) to the end (k = n) of the character strings to be compared from 1 to n, and each score is 0 when the match of the kth character does not match. , 2 when they completely match (that is, when the comparison source character and the comparison destination character exactly match), and 1 when matching with reference to the character similarity database (that is, the comparison source character and the comparison destination character The characters do not match, but when the character similarity database is examined, the two characters are registered as being similar). Based on this, when comparing the “BJ series” and the “8 series”, the coincidence score = 1 + 0 + 2 + 2 + 2 + 2 = 9. ("B" and "8" are similar in the character similarity database as shown in FIG. 10)

一致率は、1文字あたりの一致スコアであり、一致スコアを比較文字数で割ったものである。例えば、先の「BJシリーズ」と「8○シリーズ」の場合は比較文字数が6文字なので、一致率は、9÷6=1.5と求められる。  The coincidence rate is a coincidence score per character, and is obtained by dividing the coincidence score by the number of comparison characters. For example, in the case of the previous “BJ series” and “8o series”, since the number of comparison characters is 6, the matching rate is calculated as 9 ÷ 6 = 1.5.

図14は文書と文書の概念的類似性を判定する際の概念類似度の算出方法を示した図である。概念検索処理は、検索クエリに対して概念的に類似するドキュメントを文書データベースから探してくる処理である。本実施例では検索クエリを1つの文書とみなしてその文書ベクトルを求め(=クエリベクトル)、検索対象文書データベース上の文書の文書ベクトルと該クエリベクトルとの余弦測度を求め、概念類似度としている。  FIG. 14 is a diagram showing a method for calculating the concept similarity when determining the conceptual similarity between documents. Concept search processing is processing for searching a document database for documents that are conceptually similar to a search query. In this embodiment, the search query is regarded as one document and its document vector is obtained (= query vector), and the cosine measure between the document vector of the document in the search target document database and the query vector is obtained, and the concept similarity is obtained. .

文書ベクトルXは各次元にx1〜xnの値を持つn次元のベクトルである。クエリベクトルQも同様にn次元のベクトルである。余弦測度による類似度をSD(X,Q)、と表すことにする。余弦測度SD(X,Q)は両ベクトルの内積を両ベクトルのノルムの積で割った値となる。両ベクトルがノルム=1で正規化されている本実施例では、SD(X,P)は内積そのものに相当する。よって両ベクトルに対し、同次元特徴量の積の総和で求めることができる。  The document vector X is an n-dimensional vector having values x1 to xn in each dimension. Similarly, the query vector Q is an n-dimensional vector. The similarity based on the cosine measure is expressed as SD (X, Q). The cosine measure SD (X, Q) is a value obtained by dividing the inner product of both vectors by the product of the norms of both vectors. In this embodiment in which both vectors are normalized with norm = 1, SD (X, P) corresponds to the inner product itself. Therefore, the sum of the products of the same dimension feature values can be obtained for both vectors.

上述の動作をフローチャートに従って説明する。図15は本発明文書加工装置の動作、より具体的にはマイクロプロセッサCPUの処理手順を示すフローチャートである。ステップS15−1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示灯を行う処理である。ステップS15−2はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをマイクロプロセッサCPUにおいて待つ処理である。キーが打鍵されると、ステップS15−3においてマイクロプロセッサCPUがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップS15−4という形でまとめて表現している。図16、図19、図22、図23、図24、図25で詳述する重要単語収集処理、文書登録処理、キーワード検索実行処理、概念検索実行処理、要約実行処理、分類実行処理がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、スキャナから文書を読み込んでOCRをかける処理などがある。ステップS15−5は上記の各処理の結果、変更された部分を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。  The above operation will be described with reference to a flowchart. FIG. 15 is a flowchart showing the operation of the document processing apparatus of the present invention, more specifically, the processing procedure of the microprocessor CPU. Step S15-1 is a system initialization process, which initializes various parameters and performs an initial screen indicator lamp. Step S15-2 is a process in which the microprocessor CPU waits for an interrupt to be generated when any key is pressed from an input device such as a keyboard. When the key is pressed, the microprocessor CPU discriminates this key in step S15-3, and branches to various processes according to the type of the key. A plurality of branch destination processes corresponding to various keys are collectively expressed in the form of step S15-4. The important word collection processing, document registration processing, keyword search execution processing, concept search execution processing, summary execution processing, and classification execution processing described in detail in FIG. 16, FIG. 19, FIG. 22, FIG. 23, FIG. Be part of the previous. Other processes include a process of reading a document from a scanner and applying OCR, although details are not described. Step S15-5 is a display process for displaying the changed part as a result of each of the above processes. This is a process that is usually performed widely, such as expanding display contents into display patterns and outputting them to a buffer.

図16はステップS15−4の一部である重要単語収集処理を詳細化したフローチャートである。まず、ステップS16−1において、基準文書を1文書取得する。次いでステップS16−2において基準文書が取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップS16−3に進む。ステップS16−3において、取得された基準文書に形態素解析をかける。その結果、解析できた個所は文節列として得られ、解析できなかった個所は未知語として得られる。ステップS16−4において、図17に詳述する長単位重要単語収集処理を行い、上記生成された文節列から基準を満たす重要単語候補を収集する。次にステップS16−5において、図18に詳述する未知語重要単語収集処理を行い、上記生成された未知語から基準を満たす重要単語候補を収集する。ステップS16−6、S16−7は、これまでに得られた重要単語候補に対して所定の判定基準のふるいをかけ有用な重要単語のみを残す処理である。S16−6は重要単語頻度判定であり、総出現頻度がある程度大きい重要語のみを残す処理である。総頻度のあまり高くない単語(極端な場合頻度1の単語)は、その文書の特徴自体は良くあらわしているが、他文書との比較に関しては無力であり、文書の特徴を利用する文書加工処理を行う上ではあまり役に立たないことになってしまう。このステップはそのような単語を重要単語から除外する。次のS16−7は重要単語偏在性判定であり、文書によってその単語が使用されるかどうかが偏在しているかどうかを判定し、偏在するもののみを残す処理である。偏在していない単語は多くの文書で普遍的に使用される単語であり、ある文書の特徴を表現するには不適切である。ある単語が偏在しているかどうかは、例えば、偏在率=1−(該当単語が含まれる基準文書数)/(基準文書の総数)で判定することができる。偏在率が所定の値、例えば0.8以上のもののみを残せば、適度に偏在しているものを残していることになる。ステップS16−8において、この残された重要単語の候補を重要単語辞書に登録する。重要単語採用判定で落とされた単語は登録されない。その後、ステップS16−1にループし、次の基準文書を取得する。  FIG. 16 is a flowchart detailing the important word collection processing which is a part of step S15-4. First, in step S16-1, one reference document is acquired. Next, in step S16-2, it is determined whether or not the reference document has been completely acquired. If it has been completed, the process directly returns. If it has been normally acquired, the process proceeds to step S16-3. In step S16-3, morphological analysis is applied to the acquired reference document. As a result, the part that could be analyzed is obtained as a phrase string, and the part that could not be analyzed is obtained as an unknown word. In step S16-4, a long unit important word collection process detailed in FIG. 17 is performed, and important word candidates satisfying the criteria are collected from the generated phrase string. Next, in step S16-5, an unknown word important word collection process detailed in FIG. 18 is performed, and important word candidates satisfying the criteria are collected from the generated unknown words. Steps S <b> 16-6 and S <b> 16-7 are processes that leave only useful important words by filtering the important word candidates obtained so far with a predetermined criterion. S16-6 is an important word frequency determination, which is a process for leaving only important words having a certain total appearance frequency. A word whose total frequency is not very high (in the extreme case, a word with a frequency of 1) shows the characteristics of the document itself, but is incapable of comparison with other documents, and is a document processing process that uses the characteristics of the document. Will not be very useful in doing. This step excludes such words from the important words. The next S16-7 is an important word unevenness determination, which is a process of determining whether or not the word is used unevenly by a document and leaving only unevenly distributed words. Unbiased words are words that are universally used in many documents and are inappropriate for expressing the characteristics of a document. Whether or not a certain word is unevenly distributed can be determined by, for example, the uneven distribution rate = 1− (number of reference documents including the corresponding word) / (total number of reference documents). If only an uneven distribution rate is left at a predetermined value, for example, 0.8 or more, an uneven distribution is left. In step S16-8, the remaining important word candidates are registered in the important word dictionary. The words dropped by the important word adoption decision are not registered. Thereafter, the process loops to step S16-1 to acquire the next reference document.

図17はステップS16−4の長単位重要単語収集処理を詳細化したフローチャートである。まず、ステップS17−1において、該当基準文書から1文節取得する。次いでステップS17−2において文節が既に取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップS17−3に進む。ステップS17−3において、取得された文節が重要単語の品詞の基準、表記の基準を満たしているかどうか判定する。この段階で、例えば、名詞、サ変名詞、接頭語、接尾語、役職名、姓、名などの品詞が残され、形容詞、動詞などの品詞は落とされる。表記のチェックでは、例えば、漢字、カタカナなどがのこされ、ひらがな交じりの単語は落とされる。この判定結果に基づき、ステップS17−4において、NGならばステップS17−1に分岐する。ステップS17−5において、取得された文節が表記長の基準を満たしているかどうか判定する。この段階で、例えば、表記長が5文字以下の単語は落とされる。この判定結果に基づき、ステップS17−6において、NGならばステップS17−1に分岐する。ステップS17−7において、取得された文節が前方の文節との連接品詞の基準を満たしているかどうか判定する。この段階で、例えば、名詞+接頭語、接尾語+名詞、名+姓、役職名+名詞などの異常な組み合わせが落とされ、姓+名、接頭語+名詞、名詞+接尾語、姓+役職名などの正常な長単位語のみが残される。この判定結果に基づき、ステップS17−8において、NGならばステップS17−1に分岐する。ステップS17−9において、上記の判定基準をすべてクリアした場合に、前方文節とこの文節の語幹とで合成される長単位語を重要単語の候補として出力する。その後、ステップS17−1にループし、次の文節取得に移る。  FIG. 17 is a flowchart detailing the long unit important word collection processing in step S16-4. First, in step S17-1, one phrase is acquired from the corresponding reference document. Next, in step S17-2, it is determined whether or not the phrase has already been acquired. If completed, the process returns as it is. If it has been acquired normally, the process proceeds to step S17-3. In step S17-3, it is determined whether or not the acquired phrase satisfies the part-of-speech criterion and the notation criterion of the important word. At this stage, for example, parts of speech such as nouns, sub-variable nouns, prefixes, suffixes, job titles, surnames, and first names are left, and parts of speech such as adjectives and verbs are dropped. In the check of notation, for example, kanji, katakana, etc. are written, and hiragana mixed words are dropped. Based on the determination result, if it is NG in step S17-4, the process branches to step S17-1. In step S17-5, it is determined whether the acquired phrase satisfies the notation length criterion. At this stage, for example, words with a notation length of 5 characters or less are dropped. Based on the determination result, if it is NG in step S17-6, the process branches to step S17-1. In step S17-7, it is determined whether or not the acquired phrase satisfies the criterion of the part of speech connected to the preceding phrase. At this stage, for example, abnormal combinations such as noun + prefix, suffix + noun, first name + last name, job title + noun are dropped, and last name + first name, prefix + noun, noun + suffix, surname + job title Only normal long unit words such as names are left. Based on this determination result, if it is NG in step S17-8, the process branches to step S17-1. In step S17-9, when all the above criteria are cleared, the long unit word synthesized by the forward phrase and the stem of this phrase is output as an important word candidate. Thereafter, the process loops to step S17-1, and proceeds to acquisition of the next phrase.

図18はステップS16−5の未知語重要単語収集処理を詳細化したフローチャートである。まず、ステップS18−1において、該当基準文書から未知語を1単語取得する。次いでステップS18−2において未知語が既に取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップS18−3に進む。ステップS18−3において、取得された未知語が重要単語の品詞の基準、表記の基準を満たしているかどうか判定する。なお、未知語であるから品詞はあくまでも推定された品詞である。品詞の推定は、例えば、後続する助詞による行われる。この段階で、例えば、名詞などの品詞が残され、形容詞、動詞などの品詞は落とされる。表記のチェックでは、例えば、漢字、カタカナなどがのこされ、ひらがな交じりの単語は落とされる。この判定結果に基づき、ステップS18−4において、NGならばステップS18−1に分岐する。ステップS18−5において、取得された未知語が表記長の基準を満たしているかどうか判定する。この段階で、例えば、表記長が5文字以下の未知語は落とされる。この判定結果に基づき、ステップS18−6において、NGならばステップS18−1に分岐する。ステップS18−7において、取得された未知語が前方の文節との連接品詞の基準を満たしているかどうか判定する。この段階で、例えば、接尾語+名詞、役職名+名詞などの異常な組み合わせが落とされ、姓+名、接頭語+名詞などの正常な組み合わせのみが残される。この判定結果に基づき、ステップS18−8において、NGならばステップS18−1に分岐する。ステップS18−9において、この残された未知語を重要単語の候補として出力する。その後、ステップS18−1にループし、次の文節取得に移る。  FIG. 18 is a flowchart detailing the unknown word important word collection processing in step S16-5. First, in step S18-1, one unknown word is acquired from the corresponding reference document. Next, in step S18-2, it is determined whether or not the unknown word has already been acquired. If completed, the process returns as it is. If it has been acquired normally, the process proceeds to step S18-3. In step S18-3, it is determined whether or not the acquired unknown word satisfies the part-of-speech criterion and the notation criterion of the important word. Note that the part of speech is an estimated part of speech because it is an unknown word. The estimation of the part of speech is performed by, for example, a subsequent particle. At this stage, for example, parts of speech such as nouns are left, and parts of speech such as adjectives and verbs are dropped. In the check of notation, for example, kanji, katakana, etc. are written, and hiragana mixed words are dropped. Based on the determination result, if it is NG in step S18-4, the process branches to step S18-1. In step S18-5, it is determined whether the acquired unknown word satisfies the notation length criterion. At this stage, for example, unknown words having a notation length of 5 characters or less are dropped. Based on the determination result, if it is NG in step S18-6, the process branches to step S18-1. In step S18-7, it is determined whether or not the acquired unknown word satisfies the criteria for the part of speech of the preceding phrase. At this stage, for example, abnormal combinations such as suffix + noun and post name + noun are dropped, and only normal combinations such as surname + first name, prefix + noun are left. Based on the determination result, if it is NG in step S18-8, the process branches to step S18-1. In step S18-9, the remaining unknown words are output as important word candidates. Thereafter, the process loops to step S18-1, and proceeds to acquisition of the next phrase.

図19はステップS15−4の一部である文書登録処理を詳細化したフローチャートである。ステップS19−1において、登録が指定された紙文書をスキャナから読み取り、デジタル化し、ビットマップドキュメントを生成する。ステップS19−2において、該ビットマップに対して文字認識をかけ、文字コードテキスト化し、OCRドキュメントを生成する。ステップS19−3において、図20に詳述する重要単語抽出処理を行い、該OCRドキュメントから重要単語を抽出する。重要単語は一致重要単語リストに出力され、渡される。ステップS19−4において、文書ベクトル生成処理を行い、ステップS19−3で抽出された重要単語群に基づき単語ベクトル辞書検索を行い、単語ベクトルを求め、その総和から文書ベクトルを生成する。なお、語義の特定できない単語についてはその表記を持つすべての語義の単語ベクトルに頻度別の重みをつけて加算することになる。ステップS19−5において、上記生成された重要単語群及び文書ベクトルを検索索引の形に加工し、キーワード検索索引と概念検索索引を作成する。ステップS19−6において該当文書データのビットマップドキュメント及びOCRドキュメントを文書データベースに登録し、文書データベースのインデックスを更新する。  FIG. 19 is a detailed flowchart of the document registration process which is a part of step S15-4. In step S19-1, a paper document designated for registration is read from the scanner and digitized to generate a bitmap document. In step S19-2, the bitmap is subjected to character recognition, converted into character code text, and an OCR document is generated. In step S19-3, the important word extraction process detailed in FIG. 20 is performed to extract the important words from the OCR document. The important words are output to the matching important word list and passed. In step S19-4, a document vector generation process is performed, a word vector dictionary search is performed based on the important word group extracted in step S19-3, a word vector is obtained, and a document vector is generated from the sum. For words whose meaning cannot be specified, weights according to frequency are added to all meaning word vectors having the notation. In step S19-5, the generated important word group and document vector are processed into a search index form to create a keyword search index and a concept search index. In step S19-6, the bitmap document and the OCR document of the corresponding document data are registered in the document database, and the document database index is updated.

図20はステップS19−3の重要単語抽出処理を詳細化したフローチャートである。まず、ステップS20−1において一致重要単語リストを初期設定してクリアする。ステップS20−2において該当文書を形態素解析辞書に基づいて形態素解析する。ここでの形態素解析はOCRドキュメントが対象なので、多数の未知語が発生することになり、これは後ほど利用する。ステップS20−3において、未知語とならずに正常に解析できた部分から重要単語を抽出する。これは解析結果を先頭からスキャンして重要単語辞書に記載される重要単語の表記と一致するものを検出することに行われる。重要単語辞書には複数文節からなるような文字列の登録もあるので、マッチングの際には解析結果から複数文節を取り出して重要単語とマッチングする処理を含んでいる。ここでの文字列マッチングは、正常に解析できて認識誤りが無い部分のマッチング処理なので、曖昧マッチングではない通常の完全マッチングを行う。マッチングそのものは通常のマッチング処理なので、ここでは特に手続きの詳細を述べない。抽出された重要単語はステップS20−4において一致重要単語リストに登録される。ステップS20−5において先ほどの形態素解析から出力された多数の未知語のうち先頭の未知語を取得する。ステップS20−6において未知語が既に取得し尽くされたかを判定し、未知語がもはや無いときはリターンする。未知語が正常に取得できたときはステップS20−7に進み、該当未知語に対して図21に詳述する曖昧マッチング処理を行い、未知語部分から重要単語を抽出する。形態素解析の精度にもよるが、一般に未知語の範囲は正確に判定されないことが多いのでここでは多少のマージンを見込んで広い目の範囲を未知語として曖昧マッチング処理に渡せばよい。処理が終了すると、一致重要単語リストに検出重要単語が出力される。その後、ステップS20−8に進み、次の未知語を取得して、ステップS20−6にループする。  FIG. 20 is a flowchart detailing the important word extraction process in step S19-3. First, in step S20-1, the matching important word list is initialized and cleared. In step S20-2, the corresponding document is analyzed based on the morphological analysis dictionary. Since the morphological analysis here is for an OCR document, a large number of unknown words are generated, which will be used later. In step S20-3, an important word is extracted from a portion that can be normally analyzed without becoming an unknown word. This is performed by scanning the analysis result from the top and detecting the one that matches the notation of the important word described in the important word dictionary. Since the important word dictionary also includes registration of character strings consisting of a plurality of phrases, the matching includes processing for extracting a plurality of phrases from the analysis result and matching with the important words. Since the character string matching here is a matching process for a portion that can be normally analyzed and has no recognition error, normal full matching that is not ambiguous matching is performed. Since the matching itself is a normal matching process, details of the procedure are not described here. The extracted important words are registered in the matching important word list in step S20-4. In step S20-5, the first unknown word is acquired from the many unknown words output from the previous morphological analysis. In step S20-6, it is determined whether unknown words have already been acquired. If there are no more unknown words, the process returns. When the unknown word has been successfully acquired, the process proceeds to step S20-7, and the ambiguous matching process detailed in FIG. 21 is performed on the unknown word to extract the important word from the unknown word portion. Although it depends on the accuracy of morphological analysis, the range of unknown words is generally not accurately determined. Therefore, it is only necessary to pass a wide range of eyes as an unknown word to the ambiguous matching process with some margin. When the processing is completed, the detected important word is output to the matching important word list. Then, it progresses to step S20-8, acquires the next unknown word, and loops to step S20-6.

図21はステップS20−7の曖昧マッチング処理を詳細化したフローチャートである。ステップS21−1において、重要単語辞書から最初の重要単語を1つ取得する。ステップS21−2において重要単語が正常に取得できたかを判定し、取得できなかったときはリターンする。取得できたときはステップS21−3に進み、図13に示される算出式に従って該当未知語と該当重要単語との一致スコアを算出する。未知語内の比較先頭位置は正確には特定できないので先頭位置を変えて何箇所かの一致スコアを算出し、最も良いスコアを採用する。ステップS21−4において、やはり図13に示される算出式に従って一致率を算出する。ステップS21−5において該一致スコアが許容される閾値を満たしているかどうかを判定する。なお、閾値は予め定められているものとし、図13で算出される一致率においては、例えば値1を採用する。閾値の条件を満たしていない場合はこの重要単語を一致重要単語リストに登録せずにスキップするためステップS21−7にスキップする。満たしている場合は登録すべきなので、ステップS21−6に進み、該当重要単語を一致重要単語リストに登録する。登録後、ステップS21−7に進む。ステップS21−7において重要単語辞書から次の重要単語を取得し、ステップS21−2にループする。  FIG. 21 is a flowchart detailing the fuzzy matching process in step S20-7. In step S21-1, one first important word is acquired from the important word dictionary. In step S21-2, it is determined whether or not the important word has been normally acquired. If it has not been acquired, the process returns. If it can be obtained, the process proceeds to step S21-3, and a matching score between the corresponding unknown word and the corresponding important word is calculated according to the calculation formula shown in FIG. Since the comparison head position in the unknown word cannot be specified accurately, the head position is changed to calculate several matching scores, and the best score is adopted. In step S21-4, the coincidence rate is calculated according to the calculation formula shown in FIG. In step S21-5, it is determined whether or not the coincidence score satisfies an allowable threshold value. It is assumed that the threshold is determined in advance, and for example, thevalue 1 is adopted as the coincidence rate calculated in FIG. If the threshold condition is not satisfied, skip to step S21-7 to skip this important word without registering it in the matching important word list. Since it should be registered if it is satisfied, the process proceeds to step S21-6, and the relevant important word is registered in the matching important word list. After registration, the process proceeds to step S21-7. In step S21-7, the next important word is acquired from the important word dictionary, and the process loops to step S21-2.

図22はステップS15−4の一部であるキーワード検索実行処理を詳細化したフローチャートである。ステップS22−1において、ユーザの検索クエリを取得する。ここにおいてユーザは自然文、あるいは複数のキーワードの入力、あるいは既存の文書指定の形で指示する。指示の方法に応じて、クエリのテキストストリングを入手する。例えば、既存の文書を指定した場合はその文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップS22−2においてクエリの解析を行い、キーワードを抽出する。ステップS22−3において、キーワード検索索引にアクセスし、検索クエリとのマッチングを行う。検索クエリから抽出されたキーワードがキーワード検索索引に存在するかをサーチし、キーワードが存在する文書の文書IDを出力する。検索処理において通常に行われる処理であり、ここでは詳細な説明は割愛する。最後にステップS22−4において検索クエリと合致する文書の文書IDをもとに、検索結果としてリストアップして表示する。その後、リターンする。  FIG. 22 is a flowchart detailing the keyword search execution process which is a part of step S15-4. In step S22-1, a user search query is acquired. Here, the user gives an instruction in the form of natural text, input of a plurality of keywords, or specification of an existing document. Depending on the method of instruction, obtain the text string of the query. For example, when an existing document is designated, the document is accessed, an appropriate format change is performed to convert the content of the document into a text file, and the text string is sent to the next step and thereafter. In step S22-2, the query is analyzed and keywords are extracted. In step S22-3, the keyword search index is accessed and matching with the search query is performed. Search whether the keyword extracted from the search query exists in the keyword search index, and output the document ID of the document in which the keyword exists. This process is normally performed in the search process, and a detailed description thereof is omitted here. Finally, in step S22-4, based on the document ID of the document that matches the search query, the search results are listed and displayed. Then return.

図23はステップS15−4の一部である概念検索実行処理を詳細化したフローチャートである。ステップS23−1はユーザの検索クエリ入力処理であり、ここにおいてユーザは自然文の入力、あるいは既存文書の指定の形で指示する。指示の方法に応じて、クエリのテキストストリングを入手する。例えば、既存の文書を指定した場合はその文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップS23−2はクエリベクトルの生成処理であり、図26に詳述する如く検索クエリのクエリベクトルを得る。ステップS23−3において、概念検索を行うための概念検索索引を取得し、次のステップ23−4にその索引を渡す。ステップ23−4において、渡された概念検索索引に基づいて、図27に詳述するように、クエリベクトルと対象文書ベクトルとから概念類似度を生成し、その関連付けられたリストを作成する。ステップS23−5は、ステップS23−4で作成されたリストを概念類似度に応じてソートし、文書をランキングする処理である。ステップS23−6はステップS23−5でランキングされた文書を検索結果としてリストアップして表示する処理である。その際に、ステップS23−4で求められた概念類似度の値も同時に表示する。  FIG. 23 is a detailed flowchart of the concept search execution process that is a part of step S15-4. Step S23-1 is a user search query input process, in which the user gives an instruction in the form of inputting a natural sentence or specifying an existing document. Depending on the method of instruction, obtain the text string of the query. For example, when an existing document is designated, the document is accessed, an appropriate format change is performed to convert the content of the document into a text file, and the text string is sent to the next step and thereafter. Step S23-2 is a query vector generation process, and a query vector of a search query is obtained as described in detail in FIG. In step S23-3, a concept search index for performing concept search is acquired, and the index is passed to the next step 23-4. In step 23-4, based on the passed concept search index, concept similarity is generated from the query vector and the target document vector as shown in detail in FIG. 27, and an associated list is created. Step S23-5 is a process of sorting the list created in step S23-4 according to the concept similarity and ranking the documents. Step S23-6 is a process of listing and displaying the documents ranked in step S23-5 as search results. At that time, the concept similarity value obtained in step S23-4 is also displayed.

図24はステップS15−4の一部である要約実行処理を詳細化したフローチャートである。ステップS24−1において、要約されるべき元の文章を取得し、ステップS24−2において、入力文章を解析する。このとき入力文章から重要単語が抽出され、各重要単語の重要度情報も取得される。ステップS23−4において、入力文章を構成する各文の重要度が付与される。重要度は重要単語の重要度、重要単語が各文に出現する度数などにおうじて定められる。例えば、その文に出現するすべての重要単語に対して、各重要単語の重要度を総和したものなどを使用すればよい。ステップS24−4において、該各文に付与された重要度に基づいて各文をランキングしてソートする。そして、各文を重要度の高い順に所定数だけ抽出する。ステップS24−5において、該抽出された文を元の入力文章の順番に再構成し、要約文として出力する。  FIG. 24 is a flowchart detailing the summary execution process which is a part of step S15-4. In step S24-1, the original sentence to be summarized is acquired, and in step S24-2, the input sentence is analyzed. At this time, important words are extracted from the input sentence, and importance information of each important word is also acquired. In step S23-4, the importance of each sentence constituting the input sentence is given. The importance is determined according to the importance of the important word, the frequency at which the important word appears in each sentence, and the like. For example, the sum of the importance of each important word may be used for all the important words appearing in the sentence. In step S24-4, each sentence is ranked and sorted based on the importance assigned to each sentence. Then, a predetermined number of sentences are extracted in descending order of importance. In step S24-5, the extracted sentences are reconstructed in the order of the original input sentences and output as summary sentences.

図25はステップS15−4の一部である分類実行処理を詳細化したフローチャートである。ステップS25−1は1文書取得処理であり、ここにおいて文書データベースから1文書ずつ文書のテキストストリングを入手する。例えば、文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップS25−2は文書が取得できたかどうかを判定する処理であり、判定できたときは次のステップS25−3に進むが、取得できなかった場合は、文書データベースのすべての文書の分類処理が完了したことを意味するので、リターンする。ステップS25−3はクエリベクトルの生成処理であり、文書のテキストストリングをクエリとし、それから図26に詳述する如くクエリベクトルを得る。ステップS25−4において、分類処理を行うための概念分類索引を取得し、次のステップ25−5にその索引を渡す。ステップ25−5において、渡された概念分類索引に基づいて、図27に詳述するように、クエリベクトルと対象文書ベクトルとから概念類似度を生成し、その関連付けられたリストを作成する。ステップS25−6は、ステップS25−6で作成されたリストを概念類似度に応じてソートし、文書(この場合は分類カテゴリ)をランキングする処理である。ステップS25−7はステップS25−6でランキングされた分類カテゴリの第1候補を、元の文書IDと関連付けて出力する処理である。そしてステップS25−8において次の文書に進み、ステップS25−1にループする。  FIG. 25 is a flowchart detailing the classification execution process which is a part of step S15-4. Step S25-1 is a document acquisition process, in which a text string of a document is obtained from the document database one document at a time. For example, the document is accessed, the format is changed appropriately, the contents of the document are converted into a text file, and the text string is sent to the subsequent steps. Step S25-2 is a process for determining whether or not a document has been acquired. If it has been determined, the process proceeds to the next step S25-3. If it has not been acquired, classification processing for all documents in the document database is performed. It means that it is complete, so return. Step S25-3 is a query vector generation process, which uses a text string of a document as a query, and obtains a query vector as described in detail in FIG. In step S25-4, a concept classification index for performing classification processing is acquired, and the index is passed to the next step 25-5. In step 25-5, based on the passed concept classification index, concept similarity is generated from the query vector and the target document vector as shown in detail in FIG. 27, and the associated list is created. Step S25-6 is a process of sorting the list created in step S25-6 according to the concept similarity and ranking the documents (in this case, classification categories). Step S25-7 is a process of outputting the first category category candidate ranked in step S25-6 in association with the original document ID. In step S25-8, the process proceeds to the next document and loops to step S25-1.

図26はステップS23−2の処理であるクエリベクトル生成処理を詳細化したフローチャートである。ステップS26−1はユーザ指定の検索クエリから単語を抽出する処理であり、形態素解析用辞書を使用して形態素解析を行う。解析後、ステップS26−2において、解析結果に基づいて各単語の多義解消を行う。多義解消の手法として、これまでにも各種の方法が提案されているので、それに従う。例えば、係り受け解析結果と共起データベースとのマッチングによる多義解消、ユーザプロファイルとの概念マッチングに基づく多義解消などが考えられる。十分に多義解消されなかった単語については、複数個語義が出力される。次いで、ステップS26−3において、検索クエリの文書ベクトルを生成する。ステップS26−1、S26−2で抽出された単語及び特定された語義から単語ベクトル辞書を検索し、単語ごとの次元別の特徴量を得てその総和から文書ベクトルを生成する、ステップS19−4と同様の処理である。  FIG. 26 is a detailed flowchart of the query vector generation process that is the process of step S23-2. Step S26-1 is a process for extracting words from a search query specified by the user, and performs morphological analysis using a morphological analysis dictionary. After the analysis, in step S26-2, the ambiguity of each word is resolved based on the analysis result. Various methods have been proposed to solve the ambiguity, so follow it. For example, ambiguity elimination based on matching between the dependency analysis result and the co-occurrence database, ambiguity elimination based on concept matching with the user profile, and the like can be considered. A plurality of meanings are output for words that are not sufficiently ambiguous. Next, in step S26-3, a document vector of the search query is generated. A word vector dictionary is searched from the word extracted in steps S26-1 and S26-2 and the specified meaning, and a feature vector for each dimension is obtained for each word, and a document vector is generated from the sum, step S19-4 Is the same process.

図27はステップS25−5の処理を詳細化したフローチャートである。ステップS27−1において、概念検索索引を取得し、例えばRAM上にロードする。ステップS27−2において、該概念検索索引から文書ベクトルを順番に取得する。ステップS27−3において取得された文書ベクトルと検索クエリのクエリベクトルとから概念類似度を算出する。ステップS27−4において、該算出された概念類似度を文書IDと関連付けてリストの形でRAMにストアする。処理が進むごとにこのリストが追加されていくことになる。ステップS27−5において、概念検索索引内に未処理の文書があるかどうかを判定し、残りが存在する場合はステップS27−6に分岐し、存在しない場合は、これまでにストアされた文書と概念類似度の関連付けられたリストを出力としてリターンする。ステップS27−6において、概念検索索引中の次の文書の処理に移り、ステップS27−2にループする。このように検索クエリとの概念類似度判定を繰り返す。  FIG. 27 is a flowchart detailing the process of step S25-5. In step S27-1, a concept search index is acquired and loaded onto, for example, a RAM. In step S27-2, document vectors are sequentially acquired from the concept search index. The concept similarity is calculated from the document vector acquired in step S27-3 and the query vector of the search query. In step S27-4, the calculated concept similarity is stored in the RAM in the form of a list in association with the document ID. This list will be added each time processing proceeds. In step S27-5, it is determined whether there is an unprocessed document in the concept search index. If there is a remaining document, the process branches to step S27-6. Returns an associated list of concept similarities as output. In step S27-6, the process proceeds to the next document in the concept search index, and the process loops to step S27-2. In this way, the concept similarity determination with the search query is repeated.

本実施例の文書加工装置の全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the document processing apparatus of a present Example.文書要約処理の表示画面構成例を示した図である。It is the figure which showed the example of a display screen structure of a document summary process.文書分類の処理結果の例を示した図である。It is the figure which showed the example of the processing result of document classification.本実施例の文書加工装置における重要単語辞書の構成を示した図である。It is the figure which showed the structure of the important word dictionary in the document processing apparatus of a present Example.本実施例の文書加工装置における文書データベースに格納されるスキャンドキュメントとOCRドキュメントの内容を説明した図である。It is the figure explaining the content of the scan document and OCR document stored in the document database in the document processing apparatus of a present Example.本実施例の文書加工装置における基準文書データベースに格納される基準文書の内容を説明した図である。It is the figure explaining the content of the reference | standard document stored in the reference | standard document database in the document processing apparatus of a present Example.本実施例の文書加工装置における単語ベクトル辞書の構成を示した図である。It is the figure which showed the structure of the word vector dictionary in the document processing apparatus of a present Example.本実施例の文書加工装置における概念検索索引の構成を示した図である。It is the figure which showed the structure of the concept search index in the document processing apparatus of a present Example.本実施例の文書加工装置における文書分類処理を行うための概念分類索引の構成を示した図である。It is the figure which showed the structure of the concept classification | category index for performing the document classification | category process in the document processing apparatus of a present Example.本実施例の文書加工装置におけるキーワード検索索引の構成を示した図である。It is the figure which showed the structure of the keyword search index in the document processing apparatus of a present Example.本実施例の文書加工装置における一致重要単語リストの構成を示した図である。It is the figure which showed the structure of the coincidence important word list | wrist in the document processing apparatus of a present Example.本実施例の文書加工装置における文字類似度データベースの構成を示した図である。It is the figure which showed the structure of the character similarity database in the document processing apparatus of a present Example.本実施例の文書加工装置における一致スコアと一致率の算出式を示した図である。It is the figure which showed the calculation formula of the coincidence score and coincidence rate in the document processing apparatus of a present Example.本実施例の文書加工装置における概念類似度の算出方法を示した図である。It is the figure which showed the calculation method of the concept similarity in the document processing apparatus of a present Example.本実施例の文書加工装置全体の処理手順の一例を示すフローチャートであるIt is a flowchart which shows an example of the process sequence of the whole document processing apparatus of a present Example.重要単語収集処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of an important word collection process.長単位重要単語収集処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a long unit important word collection process.未知語重要単語収集処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of an unknown word important word collection process.文書登録処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a document registration process.重要単語抽出処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of an important word extraction process.曖昧マッチング処理の処理手順の一例を示すフローローチャートである。It is a flowchart which shows an example of the process sequence of an ambiguous matching process.キーワード検索実行処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a keyword search execution process.概念検索実行処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a concept search execution process.要約実行処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a summary execution process.分類実行処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a classification execution process.クエリベクトル生成処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a query vector production | generation process.概念類似度生成処理の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the process sequence of a concept similarity generation process.

Claims (10)

Translated fromJapanese
文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、
前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップと、
前記特徴語検出ステップで検出した特徴語に基づいて文書を要約する要約ステップとを有することを特徴とする文書処理方法。
A degree of coincidence calculating step for calculating a degree of coincidence between a word in the document and an important word held in the important word holding means;
A feature word detection step of detecting a feature word of a document based on the degree of coincidence;
And a summarizing step for summarizing the document based on the feature words detected in the feature word detecting step.
前記要約ステップは、前記特徴語検出ステップで検出された特徴語に基づいて文書内の各文の重要度を決定し、重要度の高い順に所定数の文を抽出することで文書を要約することを特徴とする請求項1記載の文書処理方法。  The summarizing step determines the importance of each sentence in the document based on the feature word detected in the feature word detecting step, and summarizes the document by extracting a predetermined number of sentences in descending order of importance. The document processing method according to claim 1. 複数の文書を入力する入力ステップと、
前記入力ステップで入力された文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、
前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップと、
前記特徴語検出ステップで検出した特徴語に基づいて文書を分類する分類ステップとを有することを特徴とする文書処理方法。
An input step for entering multiple documents;
A degree of coincidence calculating step for calculating the degree of coincidence between the word in the document input in the input step and the important word held in the important word holding unit;
A feature word detection step of detecting a feature word of a document based on the degree of coincidence;
And a classification step of classifying the document based on the feature word detected in the feature word detection step.
前記特徴語検出ステップで検出された特徴語に基づいて文書ベクトルを生成するベクトル生成ステップと、
前記入力ステップで入力された複数の文書間で、前記ベクトル生成ステップで生成された文書ベクトルの類似度を算出する算出ステップとを更に有し、
前記分類ステップは、前記算出ステップで算出された文書ベクトルの類似度に基づいて文書を分類することを特徴とする請求項3記載の文書処理方法。
A vector generation step of generating a document vector based on the feature word detected in the feature word detection step;
A calculation step of calculating the similarity of the document vector generated in the vector generation step between the plurality of documents input in the input step;
4. The document processing method according to claim 3, wherein the classification step classifies the document based on the similarity of the document vector calculated in the calculation step.
文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、
前記一致度に基づいて文書の特徴語を検出する特徴語検出手段と、
前記特徴語検出手段で検出した特徴語に基づいて文書を要約する要約手段とを有することを特徴とする文書処理装置。
A degree of coincidence calculating means for calculating the degree of coincidence between the words in the document and the important words held in the important word holding means;
Feature word detection means for detecting a feature word of a document based on the degree of coincidence;
A document processing apparatus comprising: summarizing means for summarizing a document based on the feature words detected by the feature word detecting means.
前記要約手段は、前記特徴語検出手段で検出された特徴語に基づいて文書内の各文の重要度を決定し、重要度の高い順に所定数の文を抽出することで文書を要約することを特徴とする請求項5記載の文書処理装置。  The summarizing means determines the importance of each sentence in the document based on the feature word detected by the feature word detecting means, and summarizes the document by extracting a predetermined number of sentences in descending order of importance. The document processing apparatus according to claim 5. 複数の文書を入力する入力手段と、
前記入力手段で入力された文書内の語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、
前記一致度に基づいて文書の特徴語を検出する特徴語検出手段と、
前記特徴語検出手段で検出した特徴語に基づいて文書を分類する分類手段とを有することを特徴とする文書処理装置。
An input means for inputting a plurality of documents;
A degree of coincidence calculating means for calculating the degree of coincidence between the word in the document input by the input means and the important word held in the important word holding means;
Feature word detecting means for detecting a feature word of a document based on the degree of coincidence;
A document processing apparatus comprising: classifying means for classifying a document based on the feature word detected by the feature word detecting means.
前記特徴語検出手段で検出された特徴語に基づいて文書ベクトルを生成するベクトル生成手段と、
前記入力手段で入力された複数の文書間で、前記ベクトル生成手段で生成された文書ベクトルの類似度を算出する算出手段とを更に有し、
前記分類手段は、前記算出手段で算出された文書ベクトルの類似度に基づいて文書を分類することを特徴とする請求項7記載の文書処理装置。
Vector generation means for generating a document vector based on the feature words detected by the feature word detection means;
A calculation unit that calculates a similarity between the document vectors generated by the vector generation unit among a plurality of documents input by the input unit;
8. The document processing apparatus according to claim 7, wherein the classification unit classifies the document based on the similarity of the document vector calculated by the calculation unit.
請求項1乃至4のいずれか1つに記載の文書処理方法をコンピュータに実行させるための制御プログラム。  A control program for causing a computer to execute the document processing method according to claim 1. 請求項9に記載の制御プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。  A computer-readable storage medium storing the control program according to claim 9.
JP2003427609A2003-12-242003-12-24 Document processing method, document processing apparatus, control program, and recording mediumWithdrawnJP2005189955A (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
JP2003427609AJP2005189955A (en)2003-12-242003-12-24 Document processing method, document processing apparatus, control program, and recording medium

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
JP2003427609AJP2005189955A (en)2003-12-242003-12-24 Document processing method, document processing apparatus, control program, and recording medium

Publications (1)

Publication NumberPublication Date
JP2005189955Atrue JP2005189955A (en)2005-07-14

Family

ID=34786831

Family Applications (1)

Application NumberTitlePriority DateFiling Date
JP2003427609AWithdrawnJP2005189955A (en)2003-12-242003-12-24 Document processing method, document processing apparatus, control program, and recording medium

Country Status (1)

CountryLink
JP (1)JP2005189955A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2007122145A (en)*2005-10-252007-05-17Just Syst Corp E-mail evaluation apparatus and e-mail evaluation method
JP2012221293A (en)*2011-04-112012-11-12Nippon Telegr & Teleph Corp <Ntt>Document summarization device, document summarization method, and program
JP2017174059A (en)*2016-03-232017-09-28株式会社東芝Information processor, information processing method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2007122145A (en)*2005-10-252007-05-17Just Syst Corp E-mail evaluation apparatus and e-mail evaluation method
JP2012221293A (en)*2011-04-112012-11-12Nippon Telegr & Teleph Corp <Ntt>Document summarization device, document summarization method, and program
JP2017174059A (en)*2016-03-232017-09-28株式会社東芝Information processor, information processing method, and program

Similar Documents

PublicationPublication DateTitle
US5794177A (en)Method and apparatus for morphological analysis and generation of natural language text
US5850561A (en)Glossary construction tool
US8024175B2 (en)Computer program, apparatus, and method for searching translation memory and displaying search result
JPH11110416A (en)Method and device for retrieving document from data base
JP3791877B2 (en) An apparatus for searching information using the reason for referring to a document
JPH0797373B2 (en) Document matching system
US9558234B1 (en)Automatic metadata identification
WO1997004405A9 (en)Method and apparatus for automated search and retrieval processing
WO2009154570A1 (en)System and method for aligning and indexing multilingual documents
CN100511232C (en)Document retrieving device and method thereof
Kettunen et al.Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
US7647303B2 (en)Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
EP1745396B1 (en)Document information mining tool
JP3831357B2 (en) Parallel translation information creation device and parallel translation information search device
JP2007122403A (en) Automatic extraction device, extraction method and extraction program for document title and related information
JP2004334766A (en) Word classification device, word classification method, and word classification program
JP3198932B2 (en) Document search device
JP3617096B2 (en) Relational expression extraction apparatus, relational expression search apparatus, relational expression extraction method, relational expression search method
Kempken et al.Comparison of distance measures for historical spelling variants
CN113486155B (en)Chinese naming method fusing fixed phrase information
JP2005189955A (en) Document processing method, document processing apparatus, control program, and recording medium
JP4640593B2 (en) Multilingual document search device, multilingual document search method, and multilingual document search program
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
JP2006227823A (en) Information processing apparatus and control method thereof
JP2002189734A (en) Search term extraction device and search term extraction method

Legal Events

DateCodeTitleDescription
A300Application deemed to be withdrawn because no request for examination was validly filed

Free format text:JAPANESE INTERMEDIATE CODE: A300

Effective date:20070306


[8]ページ先頭

©2009-2025 Movatter.jp