Movatterモバイル変換


[0]ホーム

URL:


WO2015063873A1 - Information retrieval system and information retrieval method - Google Patents

Information retrieval system and information retrieval method
Download PDF

Info

Publication number
WO2015063873A1
WO2015063873A1PCT/JP2013/079337JP2013079337WWO2015063873A1WO 2015063873 A1WO2015063873 A1WO 2015063873A1JP 2013079337 WJP2013079337 WJP 2013079337WWO 2015063873 A1WO2015063873 A1WO 2015063873A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
document
information
information processing
processing apparatus
Prior art date
Application number
PCT/JP2013/079337
Other languages
French (fr)
Japanese (ja)
Inventor
直人 秋良
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所filedCritical株式会社日立製作所
Priority to PCT/JP2013/079337priorityCriticalpatent/WO2015063873A1/en
Priority to JP2015544681Aprioritypatent/JP6140835B2/en
Publication of WO2015063873A1publicationCriticalpatent/WO2015063873A1/en

Links

Images

Classifications

Definitions

Landscapes

Abstract

 Without constructing a database, the present invention retrieves, with high accuracy, the proprietor of a document about a topic for which information is desired. An inputted query is transmitted to other PCs connected to a network, and a document conforming to the query is retrieved by a plurality of other PCs using both text and an image in the document. A plurality of retrieval results received by a PC at the transmission source of the query are displayed together with person information and related-document information.

Description

情報検索システムおよび情報検索方法Information search system and information search method
 本発明は、ユーザが入力したクエリを用いて、ネットワークに接続されている他のPCの文書情報を検索することが可能な情報検索システムに関する。The present invention relates to an information retrieval system capable of retrieving document information of another PC connected to a network using a query input by a user.
 企業内の情報共有が進まない理由のひとつとして、情報が欲しくても誰が情報を保有しているか分からないという問題が挙げられる。この問題を解決するために、欲しい情報の所有者を探すKnowWhoシステムが登場し、誰にコンタクトをとれば欲しい情報が得られるかをキーワードなどで容易に検索できるようになった。One of the reasons why information sharing within a company does not progress is the problem of not knowing who owns the information even if they want information. In order to solve this problem, a KnowWho system for searching for the owner of the desired information has appeared, and it has become possible to easily search with a keyword or the like who can contact the desired information.
 しかし、KnowWhoシステムで人物を検索するために用いられるデータは、キーワードが含まれているデータの所有者が、必ずしも最適な情報の保有者とは限らない。例えば、掲示板やメールのデータを検索対象とした場合、情報を保有していないユーザが問い合わせなどで記載したデータが検索されてしまい、所望のユーザが得られない場合がある。However, in the data used for searching for a person in the KnowWho system, the owner of the data including the keyword is not necessarily the optimal information holder. For example, when a bulletin board or mail data is a search target, a user who does not have information is searched for data described by an inquiry, and a desired user may not be obtained.
 そこで、特許文献1では、記事を検索対象としたKnowWhoシステムにおいて、記事間のリンク情報を活用し、情報の保有者をスコア付けすることで、欲しい保有者を取得する方法が述べられている。Therefore,Patent Document 1 describes a method of acquiring a desired holder by using the link information between articles and scoring the owner of information in the KnowWho system for searching for articles.
特開2007-241889号公報JP 2007-241889 A
 特許文献1や従来のKnowWhoシステムでは、メール、掲示板、共有文書などを検索対象としていたが、情報の網羅性やプライバシーの点でデータの構築が困難であるという問題があった。具体的には、検索対象とされた文書の作成者が、自分のPCのみに保存されている文書の公開は控えたいという課題があった。KnowWhoシステムでは、情報の保有者を探すための情報源が、活用可否を判定する要となるため、従来のKnowWhoシステムでは、共有文書など、情報保有者が公開しても構わない文書や、公開可能な情報が用いられていた。InPatent Document 1 and the conventional KnowWho system, e-mails, bulletin boards, shared documents, and the like are targeted for retrieval, but there is a problem that it is difficult to construct data in terms of completeness of information and privacy. Specifically, there is a problem that the creator of a document to be searched does not want to publish a document stored only on his / her PC. In the KnowWho system, it is necessary to determine whether or not the information source for searching for the information owner can be used. Therefore, in the conventional KnowWho system, a document that can be disclosed by the information owner, such as a shared document, or a disclosure Possible information was used.
 また、テキストのみを用いた検索では、キーワードが示すトピックの記事が多い場合に、人物の特定に用いる検索結果に文書を絞り込むことが困難であるという問題があった。Also, in a search using only text, there is a problem that it is difficult to narrow down a document to a search result used for specifying a person when there are many articles on a topic indicated by a keyword.
 そこで、本発明にかかるKnowWhoシステムでは、プライバシーに配慮しつつ、高精度に情報の保有者を検索することを目的とする。Therefore, the KnowWho system according to the present invention aims to search for information holders with high accuracy while considering privacy.
 上記課題を解決するための手段としては、本明細書中に記載したさまざまな形態があるが、その一例として請求の範囲に記載の構成を採用することができる。すなわち、ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを有する情報検索システムであって、それぞれの情報処理装置は、ユーザーからの検索要求を受け付ける入力部と、ユーザの作成した文書を蓄積する記憶部と、記憶部内の文書を検索する検索部と、検索結果である文書の数を出力する出力部と、他の情報処理装置からの検索結果をまとめた最終検索結果を表示する表示部と、を有し、第1の情報処理装置の入力部が検索要求を受け付けると、第1の処理装置は管理装置へ検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報を送信し、管理装置は、ポリシー情報において指定された第2の情報処理装置に検索要求を送信し、第2の情報処理装置の検索部は、第2の処理装置の記憶部を検索し、検索要求に合致する文書の数、または検索要求に適合する情報の多さを示すスコアを検索結果として管理装置へ出力し、第1の情報処理装置は、管理装置から送信された第2の情報処理装置からの結果を元に、検索要求に合致する文書を保存している第2の情報処理装置のユーザを、最終検索結果として表示することを特徴とする。As means for solving the above-mentioned problems, there are various modes described in the present specification, and the configuration described in the claims can be adopted as an example. That is, an information search system having a management device and first and second information processing devices connected via a network, each information processing device including an input unit that receives a search request from a user, and a user A storage unit that stores documents created by the user, a search unit that searches for documents in the storage unit, an output unit that outputs the number of documents as search results, and a final search that summarizes search results from other information processing devices A display unit for displaying a result, and when the input unit of the first information processing apparatus accepts the search request, the first processing apparatus sends the search request to the management apparatus and the second information processing apparatus as a search target The management apparatus transmits a search request to the second information processing apparatus specified in the policy information, and the search unit of the second information processing apparatus stores the memory of the second processing apparatus. Part A search is performed and a score indicating the number of documents that match the search request or the amount of information that matches the search request is output to the management apparatus as a search result. The first information processing apparatus receives the first information transmitted from the management apparatus. Based on the result from theinformation processing apparatus 2, the user of the second information processing apparatus that stores a document that matches the search request is displayed as a final search result.
 または、ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを用いた情報検索方法であって、第1の情報処理装置がユーザからの検索要求を受け付けるステップと、第1の情報処理装置が管理装置へ、検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報とを送信するステップと、管理装置が、ポリシー情報において指定された第2の情報処理装置に検索要求を送信するステップと、第2の情報処理装置が、第2の情報処理装置の記憶部に記憶されている文書を検索するステップと、第2の情報処理装置が、検索要求に合致する文書の数を検索結果として管理装置へ送信するステップと、管理装置が、検索結果を元に検索要求に合致する文書を保存している第2の情報処理装置のユーザを、第1の情報処理装置へ送信するステップと、第1の情報処理装置が、第2の情報処理装置のユーザを最終検索結果として表示するステップと、を有することを特徴とする。Or an information search method using a management device and first and second information processing devices connected via a network, wherein the first information processing device accepts a search request from a user; A first information processing device transmitting a search request and policy information specifying a second information processing device to be searched to the management device; and a second information processing specified by the management device in the policy information. A step of transmitting a search request to the device, a step of the second information processing device searching for a document stored in a storage unit of the second information processing device, and a second information processing device responding to the search request A step of transmitting the number of matching documents to the management apparatus as a search result; and a user of the second information processing apparatus that stores a document that matches the search request based on the search result. Transmitting to the information processing apparatus, the first information processing apparatus, and having a step of displaying a user of the second information processing apparatus as a final search result.
 本発明によれば、PCに保存されている文書を活用することで、KnowWho用のデータベースを構築することがなくKnowWhoシステムが実現できる効果がある。また、文書中の画像を活用することで高精度に情報の保有者を検索できる効果がある。According to the present invention, there is an effect that a KnowWho system can be realized without using a database for KnowWho by utilizing a document stored in a PC. In addition, there is an effect that information holders can be searched with high accuracy by utilizing images in a document.
本発明の実施の形態の文書検索システムの構成を示す図である。It is a figure which shows the structure of the document search system of embodiment of this invention.本発明の実施の形態のPCの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of PC of embodiment of this invention.検索用DBの一例を示す図である。It is a figure which shows an example of DB for search.検索用DB(画像)の一例を示す図である。It is a figure which shows an example of DB for search (image).検索用DB(レイアウト)の一例を示す図である。It is a figure which shows an example of DB for search (layout).文書情報DBの一例を示す図である。It is a figure which shows an example of document information DB.画像からエッジパターンのヒストグラムを生成する一例を示す図である。It is a figure which shows an example which produces | generates the histogram of an edge pattern from an image.本発明の実施の形態の管理サーバの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the management server of embodiment of this invention.PC情報の一例を示す図である。It is a figure which shows an example of PC information.本発明の実施の形態の文書を検索する手順を示すフローチャートである。It is a flowchart which shows the procedure which searches the document of embodiment of this invention.クエリの入力画面の一例を示す図である。It is a figure which shows an example of the input screen of a query.検索結果の表示画面の一例を示す図である。It is a figure which shows an example of the display screen of a search result.検索処理の流れの例を示したシーケンス図である。It is the sequence diagram which showed the example of the flow of a search process.
 次に、本発明の第一の実施の形態について、図面を参照して説明する。Next, a first embodiment of the present invention will be described with reference to the drawings.
 図1は、本発明の実施の文書検索システムの一例を示す構成図である。図1において、文書検索システムは、ユーザが文書作成業務等に使用する複数のPC101と、複数のPC101の情報を管理する管理サーバ102と、PC101と管理サーバ102を接続するネットワーク103を主体に構成される。FIG. 1 is a configuration diagram showing an example of a document search system according to an embodiment of the present invention. In FIG. 1, the document search system mainly includes a plurality of PCs 101 used by a user for document creation work, amanagement server 102 that manages information of the plurality of PCs 101, and anetwork 103 that connects the PC 101 and themanagement server 102. Is done.
 次に、PC101の構成要素について、図2乃至図7を参照しながら以下に説明する。本実施例の検索システムは、検索を行うユーザによってPC端末101に入力されたクエリに適合する文書を、ネットワークを介して接続された他のPC101の記憶部内から検索するシステムである。具体的には、各PC101は図2に示すように、CPU201、メモリ202、入力部203、表示部204、通信部205および記憶部210を含む計算機で構成される。記憶部210には、OS211と、文書データ212と、検索用DB213と、文書情報DB214と、文書解析プログラム215と、文書検索プログラム216と、画像検索プログラム217と、人物検索プログラム218と、共有管理プログラム219と、画面表示プログラム220とが格納される。Next, the components of the PC 101 will be described below with reference to FIGS. The search system according to the present embodiment is a system that searches a storage unit of another PC 101 connected via a network for a document that matches a query input to the PC terminal 101 by a user who performs a search. Specifically, each PC 101 includes a computer including aCPU 201, amemory 202, aninput unit 203, adisplay unit 204, acommunication unit 205, and astorage unit 210, as shown in FIG. Thestorage unit 210 includes an OS 211,document data 212, a search DB 213, a document information DB 214, adocument analysis program 215, a document search program 216, animage search program 217, aperson search program 218, and a shared management. A program 219 and a screen display program 220 are stored.
 ユーザPC101から文書の検索要求を受け付けた管理サーバは、検索要求とともに受信した、他のPC101を検索対象として指定するポリシー情報に従い、検索要求を他のPC101へと送信する。他のPC101は、管理サーバ102から受信した検索要求にしたがって、自ら記憶部に蓄積された文書データを検索し、検索結果をユーザPCへと送信する。尚、詳細は後述する処理の手順に記載するが、多量の検索要求が生じた場合に、各々のPC101の負荷が高くなることを防止するために、過去の検索履歴を管理サーバに蓄積し、一定期間内に検索された同じ検索要求があった場合には、その検索履歴の結果を参照するなど、代替処理で取得した検索結果をユーザPCへと送信する構成にすることも可能である。The management server that has received the document search request from the user PC 101 transmits the search request to the other PC 101 in accordance with the policy information that is received together with the search request and designates the other PC 101 as the search target. The other PC 101 searches the document data stored in the storage unit according to the search request received from themanagement server 102, and transmits the search result to the user PC. Although details will be described in the processing procedure described later, in order to prevent an increase in the load on each PC 101 when a large number of search requests occur, the past search history is stored in the management server, When there is the same search request searched within a certain period, it is possible to send the search result acquired by the alternative process to the user PC, such as referring to the search history result.
 なお、代替処理における負荷を低減する方法についての詳細は後述する。原則としては、負荷に応じて、検索方法を変更(キーワード検索のみ、レイアウトの類似のみ)する。また、負荷が高い場合は、検索できない旨を返信するか、負荷が低くなるまで処理をペンディングして、検索要求者に、ペンディング中であることを通知してもよい。また、負荷に応じて、管理サーバで代理処理を行う構成としても良い。Details of the method for reducing the load in the alternative process will be described later. As a rule, the search method is changed according to the load (only keyword search, layout similarity only). Further, when the load is high, a message that the search cannot be performed is returned, or the process may be pending until the load becomes low, and the search requester may be notified that the search is in progress. Moreover, it is good also as a structure which performs a proxy process with a management server according to load.
 文書データ212には、たとえば、マイクロソフト社のMicrosoft Office(登録商標)などの文書作成ソフトにより作成された文書が保存されており、ファイルシステム上に、ファイルの形式で保存されている。尚、文書検索システムは、文書データ212の参照のみ行い、更新は行わない。記憶部210に蓄積された文書データは、原則として、そのPC101の所有者が作成した文書である。ここで、本明細書でいう文書とは、テキストと、画像と、その構造情報を蓄積したファイルのことを示し、たとえば、メール、webページ、会議資料、報告書などのコンピュータに保存されるコンテンツを総称して、文書と記載する。文書中に複数のページがある場合には、ページ毎にトピックが異なることがあるため、1ページを1文書として扱っても構わない。また、テキストおよび図面で構成されるMicrosoft Office(登録商標)などの文書ソフトにより作成された文書については、ページの見た目を画像にしたものをレイアウトと呼び、図形や写真などのように色または形状などで構成される文書に含まれる画像を図面と呼ぶ。In thedocument data 212, for example, a document created by document creation software such as Microsoft Office (registered trademark) of Microsoft Corporation is stored, and is stored in a file format on the file system. Note that the document search system only refers to thedocument data 212 and does not update it. In principle, the document data stored in thestorage unit 210 is a document created by the owner of the PC 101. Here, the document referred to in the present specification refers to a file in which text, an image, and structural information thereof are stored, for example, content stored in a computer such as an email, a web page, a conference material, and a report. Are collectively referred to as documents. When there are a plurality of pages in a document, the topic may be different for each page, so one page may be handled as one document. In addition, for documents created with document software such as Microsoft Office (registered trademark) that consists of text and drawings, the appearance of the page is called an “layout”, and it is a color or shape such as a figure or photograph. An image included in a document composed of the above is called a drawing.
 検索用DB213には、複数の文書の検索用の情報が登録されており、文書検索プログラム216で検索可能な形式で格納されている。検索用の情報は、図3に例を示すように、文書IDと、テキストと、キーワードリストと、画像リストと、ファイルタイプと、属性情報とが登録される。また、図4および図5に例を示すように、文書に含まれる図形や写真などの画像から取得した画像の見た目の特徴を数値化した画像特徴量と、文書のレイアウトの見た目の特徴を数値化した画像特徴量などが登録される。尚、文書からの画像およびレイアウトの取得は、文書解析プログラム215を用いて取得する。この画像特徴量に関しては、画像検索プログラム217の説明で詳細を述べる。In the search DB 213, information for searching a plurality of documents is registered and stored in a format that can be searched by the document search program 216. As shown in FIG. 3, the search information includes a document ID, a text, a keyword list, an image list, a file type, and attribute information. Also, as shown in FIG. 4 and FIG. 5, an image feature value obtained by quantifying an appearance feature of an image acquired from an image such as a graphic or a photograph included in the document, and an appearance feature of the document layout are numerical values. Registered image feature quantities and the like. The image and layout are acquired from the document using thedocument analysis program 215. Details of this image feature amount will be described in the description of theimage search program 217.
 文書情報DB214には、図6に例を示すように、文書IDと、ファイルパスと、検索可否および閲覧可否を示す情報と、文書作成者の情報とが登録される。検索可否と閲覧可否の初期値は、各PCのユーザ、すなわち文書の作成者が指定した値が登録されており、作成者からの要求に応じて、検索可否と閲覧可否との検索許可情報および公開許可情報を更新する。In the document information DB 214, as shown in the example of FIG. 6, a document ID, a file path, information indicating whether or not search is possible and whether or not browsing is possible, and document creator information are registered. As the initial values of search availability and browsing availability, values designated by the users of each PC, that is, the creator of the document, are registered, and search permission information of search availability and browsing availability according to a request from the creator, Update publishing permission information.
 実際に検索を行う検索部(CPU201)は検索可とされた文書のみを検索し、検索否となっている文書については検索対象から除外する。また、閲覧可否についてのフラグである公開許可情報については、後述する共有管理プログラム219が行い、検索を行うユーザ端末の識別情報等を用いて、検索を行ったユーザを示すユーザ端末101が当該文書を閲覧可能と設定されているか否かを判定する。The search unit (CPU 201) that actually performs the search searches only the documents that can be searched, and excludes the documents that are not searchable from the search target. In addition, the public permission information, which is a flag regarding whether or not browsing is possible, is performed by the sharing management program 219 described later, and the user terminal 101 indicating the user who performed the search uses the identification information of the user terminal that performs the search. Whether or not is set to be viewable.
 ファイルパスは、文書データ212から文書IDを取得する場合などに用いる。また、文書作成者の情報は、文書作成者が別の手段で取得できる場合などに格納し、他のPC101から検索要求を受信した場合に、PC101の所有者が作成した文書以外を除外するためなどに用いる。The file path is used when obtaining the document ID from thedocument data 212. Further, the document creator information is stored when the document creator can be obtained by another means, and when a search request is received from another PC 101, documents other than those created by the owner of the PC 101 are excluded. Used for etc.
 文書解析プログラム215は、文書作成ソフトの提供元が提供しているライブラリ、またはオープンソースのライブラリなどを用いて、文書構造から文書中のテキストや画像を抽出する。例えば、Microsoft Office(登録商標)の文書ファイルや、マイクロソフト社が提供しているSDK、PDFファイルであれば公知のオープンソースプログラムを利用して解析することができる。文書のファイルから、テキストと画像が取得できれば、どのようなプログラムを用いても構わない。尚、スキャナで読み込んだPDFなどの文書を解析する場合は、文書構造情報がないため、レイアウトおよび抽出可能な文書属性情報のみを抽出する。尚、レイアウトから文書構造を推定する文書構造解析ソフトウェアを使用し、図面領域とテキスト領域を推定し、テキスト領域からOCRを使用してテキストを取得した結果を、文書構造がある文書と同様に扱ってもよい。また、文書構造がない場合に、文書構造がある文書から、レイアウトが類似している文書を検索し、レイアウトが類似している文書がある場合は、その文書がオリジナルのファイルだと仮定し、その文書から文書構造を取得しても構わない。Thedocument analysis program 215 extracts text and images in the document from the document structure using a library provided by the document creation software provider or an open source library. For example, a Microsoft Office (registered trademark) document file or an SDK or PDF file provided by Microsoft Corporation can be analyzed using a known open source program. Any program may be used as long as text and images can be acquired from a document file. When a document such as a PDF read by a scanner is analyzed, since there is no document structure information, only the layout and extractable document attribute information are extracted. The document structure analysis software that estimates the document structure from the layout is used to estimate the drawing area and text area, and the text obtained from the text area using OCR is handled in the same way as a document with a document structure. May be. In addition, when there is no document structure, a document with a similar layout is searched for a document with a document structure. If there is a document with a similar layout, it is assumed that the document is an original file, The document structure may be acquired from the document.
 次に、文書検索プログラム216は、記憶部210に蓄積された文書データ212を定期的に確認し、新規ファイルや更新ファイルを検出すると、文書解析プログラム215で、テキストおよび画像を取得し、取得したテキストを形態素解析し、形態素解析結果の単語を検索用のインデックス情報として検索用DB213に登録する。また、プログラムを実行しているPC101や、他のPC101から検索要求があった場合には、検索要求に適合する文書を検索する。また、検索要求がテキストの場合は、単語の分布が類似している文書を検索する方式である概念検索で、検索要求に適合する文書を検索する。なお、文書が検索できれば、文書検索の方式は、どのような方式を用いても構わない。Next, the document search program 216 periodically checks thedocument data 212 stored in thestorage unit 210, and when a new file or update file is detected, thedocument analysis program 215 acquires and acquires text and images. The text is subjected to morphological analysis, and the morphological analysis result word is registered in the search DB 213 as search index information. If there is a search request from the PC 101 executing the program or another PC 101, a document that matches the search request is searched. Further, when the search request is text, a document that matches the search request is searched by a concept search that is a method for searching for documents having similar word distributions. Note that any document search method may be used as long as the document can be searched.
 文書検索は、検索クエリの種類および検索要求者が指定した検索方法に応じて、第一乃至第五の検索方法で検索する。Document search is performed by the first to fifth search methods according to the type of search query and the search method specified by the search requester.
 第一の検索方法は、全文検索による検索で、検索要求として入力されたキーワードを含む文書を、検索用DBに登録されているキーワードの情報と照合することで検索し、キーワードを含む文書またはページの数と、キーワードの数を検索結果として出力する。ここで、レイアウトが酷似する文書は、バックアップ目的での複製や、編集過程での異なるバージョンの文書である可能性が高いため、その場合は、レイアウトが酷似する文書の中で、更新日時が最新の文書のみ採用し、それ以外の文書は検索対象から除外する。尚、レイアウトが酷似する文書は、画像検索プログラム217で、検索用DB213に登録されているレイアウトの画像特徴量間の距離が閾値よりも小さいかどうかで判定する。The first search method is a full-text search, which searches a document containing a keyword entered as a search request by matching it with the keyword information registered in the search database, and includes a document or page containing the keyword. And the number of keywords are output as search results. Here, documents with very similar layouts are likely to be duplicated for backup purposes or different versions of documents during the editing process. Only those documents are adopted, and other documents are excluded from the search target. A document whose layout is very similar is determined by theimage search program 217 based on whether the distance between the image feature amounts of the layout registered in the search DB 213 is smaller than a threshold value.
 第二の検索方法は、検索要求として入力された画像の類似画像を含む文書またはページの数を検索結果として出力する。尚、レイアウトが酷似する文書は、第一の検索方法と同様に、検索結果から除外する。尚、文書中の図面の大きさは、文書中の図面の重要性を示すと仮定し、類似画像を含む領域の割合を併せて検索結果として出力してもよい。The second search method outputs the number of documents or pages that contain images similar to the image input as the search request as a search result. Note that documents with very similar layouts are excluded from the search results as in the first search method. Note that it is assumed that the size of the drawing in the document indicates the importance of the drawing in the document, and the ratio of regions including similar images may be output together as a search result.
 第三の検索方法は、検索要求として入力されたレイアウトの画像と類似するレイアウト、すなわち入力されたレイアウトに対応する文書の数を検索結果として出力する。尚、入力されたレイアウトの画像と、検索用DBに登録されている画像特徴量は、ページ番号の相違や画像の取得方法の違いなどで完全一致しないことが多いため、画像検索プログラム217で、距離が閾値よりも小さい画像特徴量を検索することで、レイアウトが類似しているかどうかを判定する。The third search method outputs a layout similar to the layout image input as a search request, that is, the number of documents corresponding to the input layout, as a search result. In many cases, the image layout program and the image feature amount registered in the search DB do not completely match due to differences in page numbers or image acquisition methods. It is determined whether or not the layout is similar by searching for an image feature amount whose distance is smaller than the threshold.
 第四の検索方法は、検索要求として入力された文書のファイルと内容が類似している領域の総和を検索結果として出力する。まず、検索要求として入力されたファイルから、文書解析プログラム215で、各々のページから、テキストと図面を取得する。次に、検索用DBに登録されているテキストを対象として、文書検索プログラムで概念検索を行い、取得したテキストと類似度が閾値よりも大きい段落またはページを特定する。次に、検索用DB213に登録されている画像を対象として、画像検索プログラム217で、取得した図面と類似する図面を検索し、取得した図面と距離が閾値よりも小さい図面を特定する。次に、特定したテキストの領域および図面の領域が、検索要求の内容を示す領域であると仮定し、その領域の総和を、検索結果として出力する。The fourth search method outputs the sum of areas similar in content to the document file input as the search request as a search result. First, text and a drawing are acquired from each page by adocument analysis program 215 from a file input as a search request. Next, a concept search is performed using a document search program for text registered in the search DB, and a paragraph or page having a similarity greater than a threshold value with the acquired text is specified. Next, for an image registered in the search DB 213, theimage search program 217 searches for a drawing similar to the acquired drawing, and specifies a drawing whose distance from the acquired drawing is smaller than a threshold value. Next, assuming that the specified text area and drawing area are areas indicating the contents of the search request, the sum of the areas is output as a search result.
 第五の検索方法は、検索要求として入力された文書のファイルと内容が類似している文書の数を検索結果として出力する。まず、第四の検索方法と同様に、検索要求として入力した文書と内容が類似している段落などのテキスト領域と、図面を特定する。次に、検索要求から取得したテキストと、特定した領域のテキストとの類似度を取得し、その類似度に、検索要求から取得した図面と、特定した図面との類似度を加算する。類似度でなく距離の場合は、距離dをexp(-d)などで類似度に変換する。尚、同じ文書内に図面が複数ある場合は、その数だけ類似度を加算する。尚、テキスト間の類似度と図面間の類似度の両方が反映された方式であれば、どのような方式を用いても構わない。 画像検索プログラム217は、検索要求されたクエリ画像の画像特徴量と、検索対象となる文書中の各画像の画像特徴量とのベクトル間の距離を計算し、クエリ画像と特徴量空間における距離が小さい画像を、見た目の類似度が高い画像として取得する。本実施例において、画像特徴量は、画像から生成した画像の見た目の特徴を表す多次元ベクトルを利用している。例えば、画像の画素値情報を用いて、画像中のエッジパターンの分布を示す多次元ベクトルを生成し、主成分分析法などを用いて多次元ベクトルを次元圧縮して数十~数百次元程度のベクトルを生成し、画像の検索用データとすることができる。ここで、エッジパターンの分布は、図6に例を示す図のように、特徴的なエッジパターンを予め複数設定し、格子状に領域分割を行い、各領域内に含まれるエッジパターン数を計数することによって多次元ベクトルを生成し、主成分分析法を用いて次元圧縮することにより生成される。尚、画像の見た目の特徴を示す特徴量であれば、MPEG-7で規定されているエッジヒストグラム特徴やSIFT特徴など他の特徴量を用いても構わない。また、ベクトル間の距離の計算は、自乗距離など、ベクトル間の類似度を計算できれば、どのような方式を用いても構わない。The fifth search method outputs the number of documents whose contents are similar to the document file input as the search request as the search result. First, as in the fourth search method, a text region such as a paragraph whose contents are similar to those of a document input as a search request and a drawing are specified. Next, the similarity between the text acquired from the search request and the text in the specified area is acquired, and the similarity between the drawing acquired from the search request and the specified drawing is added to the similarity. When the distance is not the similarity, the distance d is converted into the similarity by exp (−d) or the like. When there are a plurality of drawings in the same document, the similarity is added by the number. Any method may be used as long as both the similarity between texts and the similarity between drawings are reflected. Theimage search program 217 calculates the distance between vectors of the image feature amount of the query image requested for search and the image feature amount of each image in the document to be searched, and the distance between the query image and the feature amount space is calculated. A small image is acquired as an image with high visual similarity. In the present embodiment, the image feature amount uses a multidimensional vector representing the appearance feature of the image generated from the image. For example, a multi-dimensional vector indicating the distribution of edge patterns in an image is generated using pixel value information of the image, and the multi-dimensional vector is dimensionally compressed using principal component analysis or the like to be on the order of tens to hundreds of dimensions. This vector can be generated and used as image search data. Here, for the distribution of edge patterns, as shown in the example of FIG. 6, a plurality of characteristic edge patterns are set in advance, the area is divided into a grid pattern, and the number of edge patterns included in each area is counted. To generate a multidimensional vector and compress the dimensions using the principal component analysis method. It should be noted that other feature amounts such as edge histogram features and SIFT features defined in MPEG-7 may be used as long as the feature amounts indicate the appearance characteristics of the image. The calculation of the distance between the vectors may be any method as long as the similarity between the vectors such as the square distance can be calculated.
 ここで、画像検索結果は、類似度が高い順に出力されるため、検索結果の上位N個または類似度がX以上の画像というように、目的に合わせて検索結果を抽出して利用する。また、画像検索プログラム217は、類似画像が同一グループとなるように、画像を分類する機能を有する。グループ分けは、グループ分けの対象となる画像特徴量を、k-meansアルゴリズムで指定した個数に分類することで実現する。尚、画像特徴量が少数の場合は、画像特徴量間の距離をすべて求め、事前に定めた閾値以下の組合せを同じグループとするようなグループ分けの方法を用いても構わない。例えば、100個の画像特徴量がある場合、100C2=21通りの組合せで画像特徴量間の距離を算出し、距離が閾値よりも小さい画像特徴量間をまとめることで、グループ分けを行う。尚、AとBが近い場合で、AまたはBと近いCがある場合は、AとBとCは同一グループとする。 人物検索プログラム218は、他のPC101に管理サーバ102経由またはダイレクトに検索要求を送信し、検索要求に適合する情報すなわち文書を所有している人物を検索する。また、他のPC101から検索要求を受信した場合は、検索要求に適合する文書の有無を、文書検索プログラム216で検索し、検索結果を検索要求の送信元に送信する。また、他のPC101から検索要求を受信した場合は、文書検索プログラム216で、検索要求を受信したPC101の記憶部に保存されている検索用DBから検索要求に適合する文書を検索し、文書数など送信可能な範囲に情報を絞り込んだ検索結果を検索要求を送信したPC101に、管理サーバ経由またはダイレクトに送信する。即ち、人物検索プログラム000は、実行しているPC101の検索要求から、他のPC101に検索要求を送信する処理と、他のPC101から受信した検索要求の処理の両方を行う。Here, since the image search results are output in descending order of similarity, the search results are extracted and used according to the purpose, such as top N search results or images having a similarity of X or more. Theimage search program 217 has a function of classifying images so that similar images are in the same group. Grouping is realized by classifying the image feature quantities to be grouped into the number specified by the k-means algorithm. When there are a small number of image feature amounts, a grouping method may be used in which all the distances between the image feature amounts are obtained and combinations equal to or less than a predetermined threshold value are set as the same group. For example, when there are 100 image feature amounts, the distance between the image feature amounts is calculated with 100C2 = 21 combinations, and grouping is performed by collecting the image feature amounts whose distance is smaller than the threshold. When A and B are close and there is C close to A or B, A, B and C are in the same group. Theperson search program 218 transmits a search request to another PC 101 via themanagement server 102 or directly, and searches for information that matches the search request, that is, a person who owns the document. When a search request is received from another PC 101, the document search program 216 searches for a document that matches the search request, and transmits the search result to the search request transmission source. When a search request is received from another PC 101, the document search program 216 searches the search DB stored in the storage unit of the PC 101 that has received the search request for a document that matches the search request, and the number of documents. The search result narrowed down to the transmittable range is transmitted to the PC 101 that transmitted the search request via the management server or directly. That is, the person search program 000 performs both a process of transmitting a search request to another PC 101 from a search request of the PC 101 being executed and a process of a search request received from another PC 101.
 共有管理プログラム219は、ファイルの閲覧要求を受信すると、文書情報DB214を参照し、他のPC101に公開可能なファイルかどうか判定し、公開可能な場合は、閲覧要求元のPC101にファイルを送信する。また、プログラムを実行しているPC101から他のPC101のファイルの閲覧要求があった場合は、他のPC101にファイルの閲覧要求を送信し、ファイルを取得する。尚、共有管理プログラム219は、他のPC101からファイルの閲覧要求があった場合のみ実行されるため、人物の検索のみを行う場合や、他のPC101に公開可能なファイルがない場合には、省略しても構わない。When the sharing management program 219 receives a file browsing request, the sharing management program 219 refers to the document information DB 214 to determine whether the file can be disclosed to other PCs 101. . When there is a request for browsing a file of another PC 101 from the PC 101 executing the program, the file browsing request is transmitted to the other PC 101 to acquire the file. Note that the share management program 219 is executed only when there is a file browsing request from another PC 101, so it is omitted when searching only for people or when there is no file that can be disclosed to another PC 101. It doesn't matter.
 尚、人物検索プログラム218および共有管理プログラム219は、事前に設定した認証方法などで、事前に設定したポリシーに適合しない他のPC101からの検索要求や閲覧要求を拒否する手段を有する。Note that theperson search program 218 and the share management program 219 have means for rejecting a search request or a browse request from another PC 101 that does not conform to a preset policy, such as an authentication method set in advance.
 画面表示プログラム220は、表示部204に、クエリ入力画面および検索結果画面などを表示させる。尚、PC101に有線または無線のネットワークで接続されているタブレットPCなど、別の装置の画面に結果を表示しても構わない。The screen display program 220 causes thedisplay unit 204 to display a query input screen, a search result screen, and the like. The result may be displayed on the screen of another device such as a tablet PC connected to the PC 101 via a wired or wireless network.
 次に、管理サーバ102の構成要素について、図8乃至図9を参照しながら以下に説明する。
PC101の情報を管理し、PC101から閲覧要求を受信すると、ネットワーク103に接続されている複数のPC101の情報を送信する管理サーバ102は、図8に例を示す構成図のように、CPU801、メモリ802、入力部803、表示部804、通信部805および記憶部810を含む計算機で構成される。記憶部810には、OS811と、PC情報812と、PC管理プログラム813とが格納される。管理サーバ102は、検索要求元のPC101と検索要求を受信するPC101の間を仲介する役割を持ち、ネットワーク103に接続されているPC101の情報を管理する役割を持つ。また、PC101がシャットダウンされている場合は、検索要求の送信先のPC101に代行して、管理サーバ102に保存されている検索履歴または、検索用データを利用して検索を行う機能を有する。
Next, components of themanagement server 102 will be described below with reference to FIGS.
When themanagement server 102 manages the information of the PC 101 and receives the browsing request from the PC 101, themanagement server 102 that transmits the information of the plurality of PCs 101 connected to thenetwork 103 includes aCPU 801, 802, a computer including aninput unit 803, adisplay unit 804, acommunication unit 805, and a storage unit 810. The storage unit 810 stores an OS 811, PC information 812, and a PC management program 813. Themanagement server 102 has a role of mediating between the search request source PC 101 and the PC 101 that receives the search request, and has a role of managing information of the PC 101 connected to thenetwork 103. Further, when the PC 101 is shut down, it has a function of performing a search using search history or search data stored in themanagement server 102 on behalf of the search request destination PC 101.
 PC情報812には、イントラネットなどのネットワーク103に接続されているPC101の情報が登録され、図9に例を示すように、PC101を識別するIDと、PC101のIPアドレスと、PC101を利用しているユーザと、ユーザが所属しているグループと、ユーザが情報を保有している分野のトピックを示すキーワードと、接続を拒否するPC101の情報とが登録される。ユーザと、グループと、キーワードは、検索対象のPC101を絞り込みする場合に参照情報として利用する。また、接続を拒否するPC101の情報は、特定のPCからの検索を拒否したい場合に、必要に応じてPC101毎に設定する。In the PC information 812, information of the PC 101 connected to thenetwork 103 such as an intranet is registered. As shown in FIG. 9, an ID for identifying the PC 101, an IP address of the PC 101, and the PC 101 are used. A user, a group to which the user belongs, a keyword indicating a topic in a field in which the user holds information, and information of the PC 101 that refuses connection. The user, the group, and the keyword are used as reference information when the search target PC 101 is narrowed down. Further, the information of the PC 101 that refuses connection is set for each PC 101 as necessary when it is desired to refuse a search from a specific PC.
 PC管理プログラム813は、PC101からネットワークに接続されているPC101の一覧情報の取得要求を受信すると、PC情報812を参照し、接続可能なPC101の一覧を、IPアドレスなど接続に必要な情報と共に、取得要求元のPC101に送信する。また、PC管理プログラム813は、定期的にPC情報812に登録されているPC101が起動しているかどうかを確認し、起動していないPCは、送信するデータから除外する。When the PC management program 813 receives an acquisition request for list information of the PCs 101 connected to the network from the PC 101, the PC management program 813 refers to the PC information 812, and displays a list of connectable PCs 101 together with information necessary for connection such as an IP address. It is transmitted to the acquisition request source PC 101. Further, the PC management program 813 periodically checks whether the PC 101 registered in the PC information 812 is activated, and excludes the PC that has not been activated from the data to be transmitted.
 尚、管理サーバ103は、同様の処理をPC101で実現することで、省略しても構わない。Themanagement server 103 may be omitted by realizing the same processing on the PC 101.
 次に、本発明の文書を検索する手順を、図10に示すフローチャートを用いて説明する。Next, the procedure for searching for a document of the present invention will be described with reference to the flowchart shown in FIG.
 まず、人物または文書を検索しようとしているユーザのPC101で、画面表示プログラム202が、表示部204に、図11に例を示すクエリ入力画面を表示させ、検索要求であるクエリを取得する(S1001)。尚、クエリは、キーワード、テキスト、画像、ファイル、キーワードと画像、テキストと画像の組合せの何れでも構わない。First, on the PC 101 of the user who is searching for a person or a document, thescreen display program 202 displays a query input screen shown in FIG. 11 on thedisplay unit 204, and acquires a query that is a search request (S1001). . The query may be a keyword, text, image, file, keyword and image, or a combination of text and image.
 次に、人物検索プログラム218が、管理サーバ102に、ネットワーク103に接続されているPC101の情報の取得要求を送信し、管理サーバ102から受信したネットワークに接続されているPC101の各々に、検索要求をクエリの情報と共に送信し、検索要求の送信先のPC101の人物検索プログラム218が検索要求を受信する(S1002)。ここで、検索要求の送信は、管理サーバ102経由で送信しても、検索要求の送信先のPC101にダイレクトに送信しても構わない。また、PC情報812に登録されている図9に登録されている接続拒否のユーザの情報に、該当するPC101である場合は、管理サー102または検索要求の送信先のPC101が、該検索要求を拒否する。Next, theperson search program 218 transmits an information acquisition request for the PC 101 connected to thenetwork 103 to themanagement server 102, and sends a search request to each of the PCs 101 connected to the network received from themanagement server 102. Is transmitted together with the query information, and theperson search program 218 of the PC 101 that is the transmission destination of the search request receives the search request (S1002). Here, the search request may be transmitted via themanagement server 102 or directly to the search request transmission destination PC 101. Further, in the case of the PC 101 corresponding to the connection refusal user information registered in FIG. 9 registered in the PC information 812, themanagement server 102 or the search request destination PC 101 sends the search request. I refuse.
 次に、検索要求先のPC101が受信した検索要求に適合する文書を、文書検索プログラム216で検索する(S1003)。ここで、検索方法は、構成の説明で記載したように、検索要求の種類に応じて、第一乃至第五の方法を選択して検索する。図6に例を示す検索用DB213の情報を参照し、検索が許可されていない場合は、その文書を検索対象から除外する。Next, the document search program 216 searches for a document that matches the search request received by the search request destination PC 101 (S1003). Here, as described in the description of the configuration, the search method is performed by selecting the first to fifth methods according to the type of search request. The information in the search DB 213 shown in FIG. 6 is referred to, and if the search is not permitted, the document is excluded from the search target.
 次に、ステップS1003で取得した文書検索の結果から、検索要求との類似度が閾値以上の文書の数、検索要求に含まれる画像の類似画像が含まれている領域の割合、検索要求で指定されたキーワードが含まれる文書数など、検索要求との適合した文書の量を表す結果を、重要度として取得し(S1004)、検索要求の送信元のPC101に、重要度を含む検索結果の情報、および、文書のレイアウトの画像特徴量と日付情報等を、管理サーバ102経由またはダイレクトに送信する(S1005)。ここで、レイアウトの画像特徴量は、他の文書との類似性の判断に用いるが、文書の内容は復元できない情報のため、情報が漏れる心配はない。また、文書ファイル自体は送信しないので、ネットワーク103に負荷をかけることはなく、検索される側の他のPC101から文書に関する情報が漏洩することもない。Next, from the document search result acquired in step S1003, the number of documents whose similarity to the search request is greater than or equal to the threshold, the ratio of the areas containing similar images included in the search request, specified by the search request The result indicating the amount of documents that match the search request, such as the number of documents that contain the keyword, is acquired as the importance (S1004), and the search result information including the importance is obtained in the PC 101 that is the source of the search request. Then, the image feature amount and date information of the document layout are transmitted via themanagement server 102 or directly (S1005). Here, the image feature amount of the layout is used to determine similarity with other documents, but since the contents of the document cannot be restored, there is no fear of information leaking. Further, since the document file itself is not transmitted, no load is applied to thenetwork 103, and information on the document is not leaked from the other PC 101 to be searched.
 次に、検索要求101を送信したPC101の人物検索プログラム218が、人物の重要度を取得するステップ1004で取得した重要度を受信する(S1006)。尚、検索要求の送信先のPC101がN台である場合は、N台から重要度を受信するまで、処理を待つが、事前に定めた時間を経過しても重要度が受信できない場合は、そのPC101の結果は無視することで、検索要求を送信したPC101の待ち時間を一定時間に抑止する。尚、検索要求を受信したPC101の負荷を防止するため、管理サーバやPC101に検索履歴を蓄積し、一定時間内に同じ検索要求が送信された場合には、その履歴から重要度を受信しても構わない。また、画像を用いる検索の場合は、内容の推定が困難な画像特徴量の性質を利用し、レイアウトまたは図面の画像特徴量を管理サーバ102に登録し、PC101と同様の構成を管理サーバ102に追加することで、管理サーバで検索を代行してもよい。Next, theperson search program 218 of the PC 101 that has transmitted the search request 101 receives the importance acquired in step 1004 for acquiring the importance of the person (S1006). If the number of PCs 101 to which the search request is sent is N, the process waits until the importance is received from N, but if the importance cannot be received even after a predetermined time has passed, By ignoring the result of the PC 101, the waiting time of the PC 101 that transmitted the search request is suppressed to a certain time. In order to prevent the load on the PC 101 that has received the search request, the search history is accumulated in the management server or the PC 101, and when the same search request is transmitted within a certain time, the importance is received from the history. It doesn't matter. Further, in the case of a search using images, the feature of the image feature amount whose content is difficult to estimate is used, the image feature amount of the layout or drawing is registered in themanagement server 102, and the same configuration as the PC 101 is stored in themanagement server 102. By adding, the search may be performed on the management server.
 次に、重要度の高い検索結果について、共有管理プログラム219で、人物と併せて表示するページのサムネイル、キーワード、画像などを取得し、画面表示プログラム220で、ディスプレイなどの表示部204に、図12に例を示すように、検索結果を表示させる(S1007)。尚、サムネイル、キーワード、画像の取得は、文書の所有者のPC101に取得要求を送信し、文書の所有者のPC101の共有管理プログラム219が、文書情報DB214を参照し、公開可能である場合は取得要求元のPC101に、サムネイル、キーワード、画像を送信する。ここで、公開可能なレベルを、サムネイル、キーワード、画像で個別に設定しても構わない。また、公開不可となっている場合は、解像度を下げるなど不鮮明化したサムネイル画像や、事前に定めた表示可能な単語集合を表示しても構わない。また、文書検索プログラム216または画像検索プログラム217で、公開不可の文書と類似した画像またはテキストを含む、ユーザがユーザPC101の中に所有している類似文書を、関連情報として表示しても構わない。なお、ユーザから、関連情報として提示している文書の詳細を表示する要求を受けた場合は、共有管理プログラム219が、関連情報の所有者のPC101にファイルの取得要求を送信し、送信先のPC101の共有管理プログラム219が、取得要求を受信し、取得要求を受けたファイルを、取得要求元のPC101に送信し、取得要求元のPC101がファイルを受信することで、表示部204に表示させる。
尚、クエリが複数ある場合は、上記ステップS1001乃至ステップS1007の処理を、終了の指示があるまで繰り返す(S1008)。
Next, with respect to the search result having a high degree of importance, the share management program 219 acquires a thumbnail, a keyword, an image, and the like of the page to be displayed together with the person. As shown in FIG. 12, the search result is displayed (S1007). Note that thumbnails, keywords, and images can be acquired by sending an acquisition request to the PC 101 of the document owner, and the share management program 219 of the PC 101 of the document owner can refer to the document information DB 214 and release it. A thumbnail, a keyword, and an image are transmitted to the PC 101 as the acquisition request source. Here, the publicly available levels may be set individually for thumbnails, keywords, and images. In addition, when it is impossible to publish, it is possible to display a thumbnail image that is blurred, such as by reducing the resolution, or a set of words that can be displayed in advance. In addition, the document search program 216 or theimage search program 217 may display similar documents owned by the user in the user PC 101 that include images or texts similar to unpublishable documents as related information. . When the user receives a request to display the details of the document presented as the related information, the sharing management program 219 transmits a file acquisition request to the PC 101 of the related information owner, and the transmission destination The share management program 219 of the PC 101 receives the acquisition request, transmits the file that has received the acquisition request to the PC 101 that is the acquisition request source, and causes thedisplay unit 204 to display the file when the acquisition request source PC 101 receives the file. .
If there are a plurality of queries, the processing from step S1001 to step S1007 is repeated until an end instruction is given (S1008).
 上記処理の流れの例を、図13に示す。検索例1では、複数のPC101に検索要求を送信し、その結果を表示すると同時に、管理サーバへ検索履歴を登録し、同じ検索要求が生じた場合には、管理サーバ102が検索を代行する。検索例2では、検索例2に加えて、人物を検索した根拠を確認したい場合に、公開可能な範囲で重要度の算出の根拠となった文書の情報を検索要求元のPC101に表示する。An example of the above processing flow is shown in FIG. In search example 1, a search request is transmitted to a plurality of PCs 101, the result is displayed, and at the same time, a search history is registered in the management server. When the same search request occurs, themanagement server 102 performs the search. In search example 2, in addition to search example 2, when it is desired to confirm the basis for searching for a person, the document information that is the basis for calculating the importance within a publicly available range is displayed on PC 101 of the search request source.
 以上を踏まえ、本実施例に記載の文書検索システムは、ネットワークを介して接続された管理装置と第1および第2の処理装置とを有する情報検索システムであって、それぞれの前記情報処理装置は、ユーザーからの検索要求を受け付ける入力部と、ユーザの作成した文書を蓄積する記憶部と、記憶部内の文書を検索する検索部と、検索結果である文書の数を出力する出力部と、他の情報処理装置からの検索結果をまとめた最終検索結果を表示する表示部と、を有し、第1の処理装置の入力部が検索要求を受け付けると、第1の処理装置は管理装置へ検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報を送信し、管理装置は、ポリシー情報において指定された第2の情報処理装置に前記検索要求を送信し、第2の処理装置の前記検索部は、第2の処理装置の記憶部を検索し、検索要求に合致する文書の数を検索結果として管理装置へ出力し、第1の情報処理装置は、管理装置から送信された第2の情報処理装置からの結果を元に、検索要求に合致する文書を保存している第2の情報処理装置のユーザを、最終検索結果として表示することを特徴とする。Based on the above, the document search system described in the present embodiment is an information search system having a management device and first and second processing devices connected via a network, and each of the information processing devices includes: An input unit that accepts a search request from a user, a storage unit that accumulates documents created by the user, a search unit that searches for documents in the storage unit, an output unit that outputs the number of documents that are search results, and others And a display unit that displays a final search result obtained by collecting the search results from the information processing apparatus. When the input unit of the first processing apparatus accepts a search request, the first processing apparatus searches to the management apparatus. The request and the policy information specifying the second information processing device to be searched are transmitted, and the management device transmits the search request to the second information processing device specified in the policy information, and the second processing device The search unit searches the storage unit of the second processing device, outputs the number of documents matching the search request to the management device as a search result, and the first information processing device is transmitted from the management device Based on the result from the second information processing apparatus, the user of the second information processing apparatus that stores a document that matches the search request is displayed as a final search result.
 または、ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを用いた情報検索方法であって、第1の情報処理装置がユーザからの検索要求を受け付けるステップと、第1の情報処理装置が管理装置へ、検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報とを送信するステップと、管理装置が、ポリシー情報において指定された第2の情報処理装置に検索要求を送信するステップと、第2の情報処理装置が、第2の情報処理装置の記憶部に記憶されている文書を検索するステップと、第2の情報処理装置が、検索要求に合致する文書の数を検索結果として管理装置へ送信するステップと、管理装置が、検索結果を元に検索要求に合致する文書を保存している第2の情報処理装置のユーザを、第1の情報処理装置へ送信するステップと、第1の情報処理装置が、第2の情報処理装置のユーザを最終検索結果として表示するステップと、を有することを特徴とする。Or an information search method using a management device and first and second information processing devices connected via a network, wherein the first information processing device accepts a search request from a user; A first information processing device transmitting a search request and policy information specifying a second information processing device to be searched to the management device; and a second information processing specified by the management device in the policy information. A step of transmitting a search request to the device, a step of the second information processing device searching for a document stored in a storage unit of the second information processing device, and a second information processing device responding to the search request A step of transmitting the number of matching documents to the management apparatus as a search result; and a user of the second information processing apparatus that stores a document that matches the search request based on the search result. Transmitting to the information processing apparatus, the first information processing apparatus, and having a step of displaying a user of the second information processing apparatus as a final search result.
 本実施例の文書検索システムまたは文書検索方法を用いることで、PC101のユーザが、ユーザが所持している文書を検索できるだけでなく、欲しい情報が含まれる文書を保有している他のPC101のユーザを検索できるという効果がある。また、公開許可情報等のフラグがない場合は原則として、検索を行うユーザのPC101には文書情報を送信しないため、情報漏えいの可能性を低下させることができる。さらに、編集されても類似することが多い画像を用いることで、高精度に関連する文書即ち人物が検索できるという効果がある。By using the document search system or the document search method of the present embodiment, the user of the PC 101 can search not only for the document owned by the user but also the user of another PC 101 that holds the document containing the desired information. It is possible to search. In addition, when there is no flag such as public permission information, in principle, document information is not transmitted to the PC 101 of the user who performs the search, so the possibility of information leakage can be reduced. Furthermore, the use of images that are often similar even after being edited has the effect of making it possible to search for highly relevant documents, that is, persons.
 201 CPU
 202 主メモリ
 203 入力部
 204 表示部
 205 通信部
 210 記憶部
 211 OS
 212 文書データ
 213 検索用DB
 214 文書情報DB
 215 文書解析プログラム
 216 文書検索プログラム
 217 画像検索プログラム
 218 人物検索プログラム
 219 共有管理プログラム
 220 画面表示プログラム
 801 CPU
 802 主メモリ
 803 入力部
 804 表示部
 805 通信部
 810 記憶部
 811 OS
 812 PC情報
 813 PC管理プログラム。
201 CPU
202Main memory 203Input unit 204Display unit 205Communication unit 210 Storage unit 211 OS
212 Document data 213 Search DB
214 Document information DB
215 Document analysis program 216Document search program 217Image search program 218 Person search program 219 Share management program 220 Screen display program 801 CPU
802Main memory 803Input unit 804Display unit 805 Communication unit 810 Storage unit 811 OS
812 PC information 813 PC management program.

Claims (8)

  1.  ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを有する情報検索システムであって、
     それぞれの前記情報処理装置は、ユーザーからの検索要求を受け付ける入力部と、ユーザの作成した文書を蓄積する記憶部と、前記記憶部内の文書を検索する検索部と、検索結果である文書の数を出力する出力部と、他の情報処理装置からの検索結果をまとめた最終検索結果を表示する表示部と、を有し、
     前記第1の情報処理装置の前記入力部が検索要求を受け付けると、前記第1の処理装置は前記管理装置へ検索要求と検索対象となる前記第2の情報処理装置を指定するポリシー情報を送信し、
     前記管理装置は、前記ポリシー情報において指定された前記第2の情報処理装置に前記検索要求を送信し、
     前記第2の情報処理装置の前記検索部は、前記第2の処理装置の前記記憶部を検索し、前記検索要求に合致する文書の数を検索結果として前記管理装置へ出力し、
     前記第1の情報処理装置は、前記管理装置から送信された前記第2の情報処理装置からの結果を元に、前記検索要求に合致する文書を保存している前記第2の情報処理装置のユーザを、最終検索結果として表示する、情報検索システム。
    An information search system having a management device and first and second information processing devices connected via a network,
    Each of the information processing devices includes an input unit that receives a search request from a user, a storage unit that stores a document created by the user, a search unit that searches for a document in the storage unit, and the number of documents that are search results And an output unit for displaying the final search result that summarizes the search results from other information processing devices,
    When the input unit of the first information processing apparatus accepts a search request, the first processing apparatus transmits a search request and policy information specifying the second information processing apparatus to be searched to the management apparatus. And
    The management device transmits the search request to the second information processing device specified in the policy information,
    The search unit of the second information processing apparatus searches the storage unit of the second processing apparatus, and outputs the number of documents that match the search request to the management apparatus as a search result;
    The first information processing apparatus stores the document that matches the search request based on the result from the second information processing apparatus transmitted from the management apparatus. An information search system that displays users as final search results.
  2.  請求項1に記載の情報検索システムであって、
     前記文書に対し、前記第1の情報処理装置のユーザへの公開を許可する情報が付されている場合には、前記第2の情報処理装置は、前記検索結果とともに前記文書を前記管理装置へ出力し、前記第1の情報処理装置のユーザへの公開を許可する情報が付されていない場合には、前記第2の情報処理装置は前記文書に用いられている画像の画像特徴量を抽出し、前記検索結果とともに前記画像特徴量を前記管理装置へ出力し、
     前記第1の情報処理装置は、前記管理装置から送信された前記検索結果に基づき、前記画像特徴量を用いて前記第1の情報処理装置の前記記憶部内から前記文書に類似する文書を検索し、最終結果として前記第2の情報処理装置のユーザと、前記文書または前記文書に類似する文書とを表示する
    ことを特徴とする情報検索システム。
    The information search system according to claim 1,
    When the document is provided with information that permits the first information processing device to be disclosed to the user, the second information processing device sends the document to the management device together with the search result. When there is no information that is output and permits the disclosure of the first information processing device to the user, the second information processing device extracts an image feature amount of the image used in the document And outputting the image feature amount together with the search result to the management device,
    The first information processing apparatus searches for a document similar to the document from the storage unit of the first information processing apparatus using the image feature amount based on the search result transmitted from the management apparatus. An information search system that displays the user of the second information processing apparatus and the document or a document similar to the document as a final result.
  3.  ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを用いた情報検索方法であって、
     前記第1の情報処理装置がユーザからの検索要求を受け付けるステップと、
     前記第1の情報処理装置が前記管理装置へ、前記検索要求と検索対象となる前記第2の情報処理装置を指定するポリシー情報とを送信するステップと、
     前記管理装置が、前記ポリシー情報において指定された前記第2の情報処理装置に前記検索要求を送信するステップと、
     前記第2の情報処理装置が、前記第2の情報処理装置の記憶部に記憶されている文書を検索するステップと、
     前記第2の情報処理装置が、前記検索要求に合致する前記文書の数を検索結果として前記管理装置へ送信するステップと、
     前記管理装置が、前記検索結果を元に前記検索要求に合致する文書を保存している前記第2の情報処理装置のユーザを、前記第1の情報処理装置へ送信するステップと、
     前記第1の情報処理装置が、前記第2の情報処理装置のユーザを最終検索結果として表示するステップと、を有することを特徴とする情報検索方法。
    An information search method using a management device and first and second information processing devices connected via a network,
    The first information processing apparatus accepting a search request from a user;
    The first information processing apparatus transmitting the search request and policy information specifying the second information processing apparatus to be searched to the management apparatus;
    The management device transmitting the search request to the second information processing device specified in the policy information;
    The second information processing apparatus searching for a document stored in a storage unit of the second information processing apparatus;
    The second information processing apparatus transmitting the number of documents that match the search request to the management apparatus as a search result;
    The management device transmitting a user of the second information processing device that stores a document that matches the search request based on the search result to the first information processing device;
    The first information processing apparatus includes a step of displaying a user of the second information processing apparatus as a final search result.
  4.  請求項5に記載の情報検索方法であって、
     前記第2の情報処理装置は、前記文書に対し、前記第1の情報処理装置のユーザへの公開を許可する公開許可情報が付されているかを判定するステップと、
     前記公開許可情報に基づき、前記文書または前記文書に用いられている画像の画像特徴量を前記検索結果とともに前記管理装置へ送信するステップと、をさらに有し、
     前記第1の情報処理装置は、前記最終検索結果に加え、前記文書または前記第1の情報処理装置の記憶部から検索された前記文書に類似する類似文書を表示することを特徴とする情報検索方法。
    The information search method according to claim 5,
    The second information processing apparatus determines whether or not the document is provided with public permission information permitting the document to be disclosed to a user of the first information processing apparatus;
    Transmitting the image feature quantity of the image used for the document or the document together with the search result to the management device based on the disclosure permission information, and
    The first information processing apparatus displays, in addition to the final search result, a similar document similar to the document or the document retrieved from the storage unit of the first information processing apparatus. Method.
PCT/JP2013/0793372013-10-302013-10-30Information retrieval system and information retrieval methodWO2015063873A1 (en)

Priority Applications (2)

Application NumberPriority DateFiling DateTitle
PCT/JP2013/079337WO2015063873A1 (en)2013-10-302013-10-30Information retrieval system and information retrieval method
JP2015544681AJP6140835B2 (en)2013-10-302013-10-30 Information search system and information search method

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
PCT/JP2013/079337WO2015063873A1 (en)2013-10-302013-10-30Information retrieval system and information retrieval method

Publications (1)

Publication NumberPublication Date
WO2015063873A1true WO2015063873A1 (en)2015-05-07

Family

ID=53003523

Family Applications (1)

Application NumberTitlePriority DateFiling Date
PCT/JP2013/079337WO2015063873A1 (en)2013-10-302013-10-30Information retrieval system and information retrieval method

Country Status (2)

CountryLink
JP (1)JP6140835B2 (en)
WO (1)WO2015063873A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2017097823A (en)*2015-11-192017-06-01財團法人資訊工業策進會Search server, terminal equipment, and search method to be used for distributed network
JP2017199343A (en)*2016-04-252017-11-02富士ゼロックス株式会社Calculation execution method for visualizing related document and person during document browsing in desktop camera-projector system, program, and calculation processing system
JP7145550B1 (en)2022-04-262022-10-03アックスタイムズ株式会社 Business report sales system, business report sales method and its program

Citations (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2003271638A (en)*2002-03-142003-09-26Toshiba Corp Profile search device and profile search method
JP2006023961A (en)*2004-07-072006-01-26Fuji Xerox Co LtdComputer program for presenting document-registering person, and device and method for presenting document-registering person

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP3722672B2 (en)*2000-06-302005-11-30シャープ株式会社 Designated word related person information extracting device, computer-readable recording medium recording designated word related person information extracting program, and set word related person frequency counting device
JP4331177B2 (en)*2006-03-102009-09-16株式会社東芝 Information search system, information search method, and information search program
JP4869804B2 (en)*2006-06-212012-02-08株式会社日立製作所 Information sharing control system
US20080195586A1 (en)*2007-02-092008-08-14Sap AgRanking search results based on human resources data
JP2008234550A (en)*2007-03-232008-10-02Nec CorpExpert information retrieval device, expert information retrieval method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2003271638A (en)*2002-03-142003-09-26Toshiba Corp Profile search device and profile search method
JP2006023961A (en)*2004-07-072006-01-26Fuji Xerox Co LtdComputer program for presenting document-registering person, and device and method for presenting document-registering person

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUJI XEROX CO., LTD.: "ArcSuite Tsukattemiyo ArcSuite", DOCUMENT PRODUCT & SUPPLY COMPANY HUMAN INTERFACE DESIGN KAIHATSUBU, 31 March 2003 (2003-03-31), pages 59 - 62*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2017097823A (en)*2015-11-192017-06-01財團法人資訊工業策進會Search server, terminal equipment, and search method to be used for distributed network
JP2017199343A (en)*2016-04-252017-11-02富士ゼロックス株式会社Calculation execution method for visualizing related document and person during document browsing in desktop camera-projector system, program, and calculation processing system
JP7145550B1 (en)2022-04-262022-10-03アックスタイムズ株式会社 Business report sales system, business report sales method and its program
JP2023162060A (en)*2022-04-262023-11-08アックスタイムズ株式会社Business report selling system, business report selling method, and program thereof

Also Published As

Publication numberPublication date
JPWO2015063873A1 (en)2017-03-09
JP6140835B2 (en)2017-05-31

Similar Documents

PublicationPublication DateTitle
US6883001B2 (en)Document information search apparatus and method and recording medium storing document information search program therein
US9361320B1 (en)Modeling big data
US9031992B1 (en)Analyzing big data
JP5353148B2 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
US20180253439A1 (en)Characterizing files for similarity searching
JP2010073114A6 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
AU2009201514A1 (en)Annotation system and method
US20180107689A1 (en)Image Annotation Over Different Occurrences of Images Using Image Recognition
KR102146116B1 (en)A method of unstructured big data governance using open source analysis tool based on machine learning
WO2011001584A1 (en)Information classification device, information classification method, and information classification program
JP6140835B2 (en) Information search system and information search method
US12093222B2 (en)Data tagging and synchronisation system
JP2009211603A (en)Document search system
US11838360B2 (en)Sharing of data share metrics to customers
KR20220022065A (en)Sharing Methods for Clustering User Searched Image and Implementation Thereof
US9542457B1 (en)Methods for displaying object history information
US20170034266A1 (en)System and Method for the Departmentalization of Structured Content on a Website (URL) through a Secure Content Management System
JP2004164331A (en) Image search method, image search device, and image search program
Yanagi et al.Interactive re-ranking for cross-modal retrieval based on object-wise question answering
US20070244861A1 (en)Knowledge management tool
US9348978B2 (en)Universal content traceability
US11941136B2 (en)Information processing apparatus and non-transitory computer readable medium
JPH11282874A (en)Information filtering method and device
CN117730320A (en)System and method for mapping network environments to monitor and/or detect fraudulent entity networks using cross-account clusters
CN113032518A (en)Information processing apparatus, storage medium, and information processing method

Legal Events

DateCodeTitleDescription
121Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number:13896278

Country of ref document:EP

Kind code of ref document:A1

ENPEntry into the national phase

Ref document number:2015544681

Country of ref document:JP

Kind code of ref document:A

NENPNon-entry into the national phase

Ref country code:DE

122Ep: pct application non-entry in european phase

Ref document number:13896278

Country of ref document:EP

Kind code of ref document:A1


[8]ページ先頭

©2009-2025 Movatter.jp