Movatterモバイル変換


[0]ホーム

URL:


JP2006099341A - Update history generation device and program - Google Patents

Update history generation device and program
Download PDF

Info

Publication number
JP2006099341A
JP2006099341AJP2004283723AJP2004283723AJP2006099341AJP 2006099341 AJP2006099341 AJP 2006099341AJP 2004283723 AJP2004283723 AJP 2004283723AJP 2004283723 AJP2004283723 AJP 2004283723AJP 2006099341 AJP2006099341 AJP 2006099341A
Authority
JP
Japan
Prior art keywords
information
document
time
update date
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004283723A
Other languages
Japanese (ja)
Inventor
Masayoshi Fukazawa
真義 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
Original Assignee
Bank of Tokyo Mitsubishi UFJ Trust Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Tokyo Mitsubishi UFJ Trust CofiledCriticalBank of Tokyo Mitsubishi UFJ Trust Co
Priority to JP2004283723ApriorityCriticalpatent/JP2006099341A/en
Publication of JP2006099341ApublicationCriticalpatent/JP2006099341A/en
Withdrawnlegal-statusCriticalCurrent

Links

Images

Landscapes

Abstract

<P>PROBLEM TO BE SOLVED: To realize retrieval of retrieval object information based on an accurate update period for information of retrieval object on a web document. <P>SOLUTION: A URI (uniform resource identifier) of a summary document including attribute information such as a title, a summary sentence, an update date and the like for each item of a corresponding web document is collected and stored beforehand, and the URI of the summary document is fetched in (130). The acquisition of the summary document is attempted (132). If the document is acquired (yes for 136), whether or not the same summary document has been acquired in the past is determined (140, 142). If the document has not been acquired in the past, the attribute information and the final update date for each item of the web document are extracted from the summary document acquired this time, are associated with the URI of the web document, and are registered in a DB as update history information (144, 146). If the summary document has been acquired in the past, the update history information and the final update date which have been already registered in the DB are compared (148), if there is no match, attribute information and final update date corresponding to an item updated after the final update date set in the update history information are extracted, and the update history information is updated by the extracted information. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

Translated fromJapanese

本発明は更新履歴生成装置及びプログラムに係り、特に、ウェブ文書の更新を検知して更新履歴を生成する更新履歴生成装置、及び、コンピュータを前記更新履歴生成装置として機能させるための更新履歴生成プログラムに関する。  The present invention relates to an update history generation apparatus and program, and in particular, an update history generation apparatus that detects an update of a web document and generates an update history, and an update history generation program for causing a computer to function as the update history generation apparatus About.

インターネット上で公開されている膨大な情報の中から所望の情報を検索するための有用なツールとして検索エンジンが知られている。一般的な検索エンジンである全文検索型検索エンジンでは、ウェブ文書の内容をデータベースに保存しておき、キーワードが指定されて検索が要求されると、指定されたキーワードでデータベースを検索して結果を出力する。全文検索型検索エンジンにおけるウェブ文書の収集・保存は検索ロボットによって行われ、検索ロボットはリンクを辿っていくことで多数のウェブ文書を順次閲覧し、未収集のウェブ文書や更新されたウェブ文書を発見する毎に、発見したウェブ文書の内容をデータベースへ保存したり、データベースに既に保存されている情報の更新を行う。  A search engine is known as a useful tool for searching for desired information from a vast amount of information published on the Internet. A full-text search engine, which is a general search engine, saves the contents of a web document in a database. When a keyword is specified and a search is requested, the database is searched with the specified keyword and the result is returned. Output. Collection and storage of web documents in a full-text search type search engine is performed by a search robot. The search robot sequentially browses many web documents by following links, and collects uncollected web documents and updated web documents. Every time it is discovered, the content of the found web document is saved in the database, or information already saved in the database is updated.

また、ウェブ文書の検索に関して、特許文献1には、インターネット上のウェブサイトに適時アクセスしてウェブページ情報を取得し、取得したウェブページ情報からテキストデータを抽出すると共に、ウェブページ画面の画像データを生成し、生成した画像データをデータベースに記録すると共に、抽出したテキストデータと、ウェブページ画面のURLと、取得年月日と、画像データのファイル名とを互いに関係付けてデータベースに記録しておき、ユーザ端末からの検索閲覧要求に応じてデータベースを検索し、該当するウェブページのテキストあるいは画像データをユーザ端末へ送信する技術が開示されている。  Regarding web document search, Patent Document 1 discloses that web page information is acquired by accessing a website on the Internet in a timely manner, text data is extracted from the acquired web page information, and image data of the web page screen is also acquired. The generated image data is recorded in the database, and the extracted text data, the URL of the web page screen, the acquisition date, and the file name of the image data are recorded in the database in association with each other. In addition, a technique is disclosed in which a database is searched in response to a search browsing request from a user terminal, and text or image data of a corresponding web page is transmitted to the user terminal.

また、特許文献2には、リンク含有コンテンツがパソコンで表示されている状態で特定のリンクが指し示されると、特定のリンクのURI(Uniform Resource Identifier)がシステムサーバへ転送され、システムサーバは、ウェブサーバに対して転送されたURIのステータス情報を要求し、ステータス情報を取得できなかった場合は、データベースに蓄積するコンテンツに関する情報にコンテンツが存在しないという情報を挿入し、ステータス情報を取得した場合は、データベースに蓄積されているlast-modified情報を取得し、ステータス情報のLast-modified情報と比較し、一致しない場合はLast-modified情報及びデータベースのコンテンツに関する情報をオンデマンド更新することで、データベースの情報の更新頻度を向上させる技術が開示されている。
特開2002−073609号公報特開2003−050735号公報
Further, in Patent Document 2, when a specific link is indicated in a state where the link-containing content is displayed on a personal computer, a URI (Uniform Resource Identifier) of the specific link is transferred to the system server. When requesting the status information of the transferred URI to the web server, if the status information could not be acquired, the information indicating that the content does not exist is inserted into the information related to the content stored in the database, and the status information is acquired. Retrieves the last-modified information stored in the database, compares it with the last-modified information in the status information, and if it does not match, updates the information on the last-modified information and the contents of the database on demand. A technique for improving the update frequency of the information is disclosed.
JP 2002-073609 A JP 2003-050735 A

ところで、インターネットを利用した情報収集のニーズとして、例えば新たにリリースした個人向け商品が一般個人にどのように評価されているのかを知りたい、或いは、旅行に出かける際に訪問先の最近の評判やおすすめのお店といった最新情報を知りたい、といったニーズが存在している。しかしながら、上記のようなニーズでは、収集する情報が新しい情報であることが肝要であり、また収集対象の情報が、例えば個人が運営しているウェブサイト等のように、リンク数に基づくランク付けにおいて下位にランク付けされるウェブページ(以下、このようなウェブページを「マイナーなウェブページ」と称する)から発信されている情報であることが多く、既存の技術ではこのような情報を収集することは困難であった。  By the way, as information gathering needs using the Internet, for example, you want to know how newly released personal products are evaluated by ordinary individuals, or when you go on a trip, There is a need to know the latest information such as recommended shops. However, for the above needs, it is important that the information to be collected is new information, and the information to be collected is ranked based on the number of links, such as websites operated by individuals. In many cases, the information is transmitted from a web page ranked in the lower rank (hereinafter, such a web page is referred to as a “minor web page”), and existing technology collects such information. It was difficult.

すなわち、前述した全文検索型検索エンジンでは、検索ロボットによるウェブ文書の閲覧・収集・保存が一巡する迄に膨大な時間がかかるため、或るウェブ文書が更新されてからこのウェブ文書の更新後の内容がデータベースに反映される迄にも長い時間がかかる。このため、全文検索型検索エンジンを利用して或るキーワードで検索を行った際に、例えば前記キーワードを含む文章が最近(例えば数日前に)追加されたウェブ文書が存在していたとしても、このようなウェブ文書は上記の検索では抽出されないので、存在を検知することができない。また、全文検索型検索エンジンでは、個々のウェブページを個々のウェブページへのリンク数に基づいてランク付けしていることが多く(例えばhttp://www.google.co.jp/)、検索によって抽出されたウェブページをランクの降順に表示するので、目的の情報を発信しているマイナーなウェブページが検索によって抽出されたとしても、表示された検索結果からこのウェブページの情報を見つけ出すには非常に手間がかかるという問題もある。  That is, in the above-described full-text search type search engine, it takes an enormous amount of time to browse, collect, and save a web document by a search robot. Therefore, after a web document is updated, It takes a long time before the contents are reflected in the database. For this reason, even when there is a web document in which a sentence including the keyword is recently added (for example, several days ago) when a search is performed with a keyword using a full-text search type search engine, Since such a web document is not extracted by the above search, its presence cannot be detected. In addition, full-text search engines often rank individual web pages based on the number of links to individual web pages (eg http://www.google.com/). The web pages extracted by are displayed in descending order of rank, so even if a minor web page sending the desired information is extracted by search, the information on this web page can be found from the displayed search results. There is also a problem that takes a lot of time.

また、特許文献1に記載の技術は、全文検索型の検索において、過去にネットワーク上で公開されたウェブページ情報をユーザが検索閲覧することを可能とする技術であり、上述したように、或るウェブ文書が更新されてからこのウェブ文書の更新後の内容がデータベースに反映される迄に長い時間がかかるという問題は解決されていないので、情報の新しさを重要視して情報を収集するための検索には不向きである。  The technique described in Patent Document 1 is a technique that enables a user to search and browse web page information that has been published on the network in the past in a full-text search type search. Since it has not been solved the problem that it takes a long time for the updated content of the web document to be reflected in the database after the web document is updated, information is collected with emphasis on the newness of the information. It is not suitable for searching.

また、ウェブ文書の検索において、ウェブ文書が更新されているか否かの判断には、例えば特許文献2に記載のlast-modified情報やこれに類する情報(最終更新日時情報と称する)が用いられるが、この最終更新日時情報は対応するウェブ文書が更新される毎に、その更新箇所がウェブ文書上の何れの箇所であるかに拘らず更新される。このため、検索条件としてキーワードに加えてウェブ文書の最終更新日時の範囲を指定することで、検索対象のウェブ文書を絞り込んだとしても、検索によって抽出された個々のウェブ文書のうち指定した前記キーワードが存在する部分が最後に更新された日時が、指定した最終更新日時の範囲に入っているとは限らないという問題がある。また同様に、キーワードを指定して検索を行うことで抽出された複数のウェブ文書を、個々のウェブ文書の最終更新日時情報が表す最終更新日時の新しい順に並べ替えた場合にも、並べ替え後の個々のウェブ文書の順序が、個々のウェブ文書のうち前記キーワードが存在する部分が最後に更新された日時の新しい順に一致しているとは限らないという問題がある。  Further, in the search for a web document, for example, the last-modified information described in Patent Document 2 or information similar thereto (referred to as last update date / time information) is used to determine whether the web document has been updated. The last update date / time information is updated every time the corresponding web document is updated, regardless of the location on the web document. Therefore, even if the search target web document is narrowed down by specifying the range of the last update date and time of the web document in addition to the keyword as a search condition, the specified keyword among the individual web documents extracted by the search There is a problem that the date and time at which the portion where the “” exists is last updated is not necessarily within the range of the specified last update date and time. Similarly, when a plurality of web documents extracted by performing a search by specifying a keyword are rearranged in the order of the last update date and time represented by the last update date and time information of each web document, There is a problem in that the order of the individual web documents does not necessarily match the newest order of the date and time when the keyword exists in the individual web documents.

本発明は上記事実を考慮して成されたもので、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索を実現可能な更新履歴生成装置及び更新履歴生成プログラムを得ることが目的である。  The present invention has been made in consideration of the above facts, and the update of the web document is reflected in the search results in a shorter time, and the search object based on the exact update time of the information to be searched on the web document It is an object to obtain an update history generation device and an update history generation program that can realize the search of the above information.

上記目的を達成するために請求項1記載の発明に係る更新履歴生成装置は、ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段と、前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段と、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段と、を含んで構成されている。  In order to achieve the above object, an update history generating apparatus according to the invention described in claim 1 requests a web server to deliver a web document, and summarizes information representing a summary of contents for each item of the web document, The summary information and the update corresponding to the item updated each time the web document is updated, including update date / time information representing the update date / time for each item and last update date / time information representing the last update date / time of the web document The first location information representing the location of the summary document set in the web document is sequentially received from the web server for the web document including the summary document in which the date and time information and the last date and time information are updated. Whether the document information is included is monitored, and when the first location information is detected, communication with the web server is disconnected and the detected first location information is stored in the first memory. The summary document is periodically acquired from a web server based on first location information stored in the first storage unit and first location information stored in the first storage unit. And when the summary document acquired by the second acquisition unit is a summary document acquired for the first time, the summary information for each item of the web document from the acquired summary document and the summary document Update date information and the last update date information are extracted and stored as update history information in the second storage means, and the summary document acquired by the second acquisition means is a summary document that has been acquired in the past, The last update date and time information included in the corresponding update history information stored in the second storage means is the last update date and time represented by the last update date and time information included in the acquired summary document. The summary information corresponding to the specific item of the web document updated after the last update date and time represented by the last update date and time information included in the corresponding update history information, Update date / time information is extracted from the acquired summary document and added to the update history information, and last date / time information included in the corresponding update history information is changed to final update date / time information included in the acquired summary document. Update history generation means for updating to the last update date and time to be expressed.

ウェブ文書の中には、ウェブ文書の各項目毎の内容の要約を表す要約情報と、ウェブ文書の各項目毎の更新日時を表す更新日時情報と、ウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に、更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書が前記ウェブ文書と別に存在しているウェブ文書がある。この種のウェブ文書では、対応する要約文書の場所を表す第1場所情報(例えばURL(Uniform Resource Locator)等のURI)がウェブ文書中に設定される。なお、上記の要約文書としては、例えば請求項2に記載したように、RSS(RDF(Resource Description Framework) Site Summary又はRich Site Summary又はReally simple Syndication)フォーマット又はATOMフォーマットに従って記述されたXML文書が挙げられる。この場合、要約情報には、ウェブ文書のうち更新された部分のタイトルと該部分の要約文が含まれる。  In the web document, summary information indicating a summary of the contents of each item of the web document, update date information indicating the update date and time of each item of the web document, and last update date and time indicating the last update date and time of the web document There is a web document that includes information, and each time the web document is updated, there is a summary document corresponding to the updated item, and a summary document in which the update date information and the last date information are updated. . In this type of web document, first location information (for example, a URI such as a URL (Uniform Resource Locator)) indicating the location of the corresponding summary document is set in the web document. As the above summary document, for example, as described in claim 2, an XML document described in accordance with RSS (RDF (Resource Description Framework) Site Summary, Rich Site Summary, or Really Simple Syndication) format or ATOM format can be cited. It is done. In this case, the summary information includes the title of the updated part of the web document and the summary sentence of the part.

請求項1記載の発明は上記のようなウェブ文書の要約文書を利用しており、請求項1記載の発明に係る第1取得手段は、ウェブサーバに対してウェブ文書の配信を要求し、ウェブサーバから順次受信するウェブ文書の情報に前述の第1場所情報が含まれているか否かを監視し、第1場所情報を検知するとウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う。これにより、第1記憶手段には、対応する要約文書が存在しているウェブ文書について、対応する要約文書の場所を表す第1場所情報が各々記憶される。また、第2取得手段は、第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから要約文書を定期的に取得する。  The invention according to claim 1 uses the summary document of the web document as described above, and the first acquisition unit according to claim 1 requests the web server to deliver the web document, and It monitors whether or not the above-mentioned first location information is included in the information of the web document sequentially received from the server. When the first location information is detected, the communication with the web server is disconnected and the detected first location information is detected. Is stored in the first storage means for each unspecified web document. Thereby, the first storage unit stores the first location information indicating the location of the corresponding summary document for the web document in which the corresponding summary document exists. The second acquisition unit periodically acquires the summary document from the web server based on the first location information stored in the first storage unit.

そして更新履歴生成手段は、第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、取得された要約文書からウェブ文書の各項目毎の要約情報及び更新日時情報と最終更新日時情報を各々抽出し、更新履歴情報として第2記憶手段に記憶させる。また更新履歴生成手段は、第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する要約情報及び更新日時情報を、取得された要約文書から抽出して更新履歴情報に追加すると共に、対応する更新履歴情報に含まれる最終日時情報を取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する。  The update history generation means, when the summary document acquired by the second acquisition means is a summary document acquired for the first time, summarize information and update date / time information for each item of the web document from the acquired summary document, Each last update date / time information is extracted and stored in the second storage means as update history information. The update history generation unit is a summary document that has been acquired in the past by the summary document acquired by the second acquisition unit, and the last update date and time indicated by the last update date and time information included in the acquired summary document is When it is later than the last update date and time represented by the last update date and time information included in the corresponding update history information stored in the second storage unit, the last update date and time information included in the corresponding update history information represents Summary information and update date / time information corresponding to a specific item of a web document updated after the last update date / time are extracted from the acquired summary document and added to the update history information, and are included in the corresponding update history information. The last date and time information is updated to the last updated date and time represented by the last updated date and time information included in the acquired summary document.

このように、請求項1記載の発明では、ウェブ文書の各項目毎の内容の要約を表す要約情報とウェブ文書の各項目毎の更新日時を表す更新日時情報とウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書を利用し、ウェブ文書の任意の項目の項目が更新されて対応する要約文書のうち前記項目に対応する要約情報及び更新日時情報が更新される毎に、これらの情報を要約文書から抽出して更新履歴情報に追加するので、第2記憶手段には、対応する要約文書が存在しているウェブ文書について、該ウェブ文書の更新履歴を表す更新履歴情報が各々記憶されることになる。  Thus, according to the first aspect of the present invention, the summary information representing the summary of the contents of each item of the web document, the update date information representing the update date and time of each item of the web document, and the last update date and time of the web document are represented. An item of any item in the Web document using the summary information that includes the last update date and time information and the summary information corresponding to the item updated each time the Web document is updated, and the update date and time information and the summary document in which the last date and time information is updated. The information is extracted from the summary document and added to the update history information every time the summary information and the update date / time information corresponding to the item are updated in the corresponding summary document. For each web document in which the corresponding summary document exists, update history information representing the update history of the web document is stored.

更新履歴情報に含まれる個々の要約情報は、ウェブ文書の各項目毎の最新の内容の要約を表しているのでウェブ文書に対する検索に利用可能であり、例えば指定されたキーワードが更新履歴情報の中の特定の要約情報中に存在していた場合、当該更新履歴情報に対応するウェブ文書本体にも指定されたキーワードが含まれていると判断できる。また更新履歴情報には、ウェブ文書の各項目毎の情報として、要約情報に加えて更新日時情報も設定されているので、指定されたキーワードが更新履歴情報の中の特定の要約情報中に存在していた場合に、この特定の要約情報に対応する更新日時情報を参照することで、ウェブ文書本体のうち指定されたキーワードを含む部分(項目)が更新された日時(指定されたキーワードを含む文章等がウェブ文書本体上で更新された日時)を判断することができる。  The individual summary information included in the update history information represents a summary of the latest contents of each item of the web document and can be used for searching the web document. For example, a specified keyword is included in the update history information. If it exists in the specific summary information, it can be determined that the specified keyword is also included in the web document body corresponding to the update history information. The update history information also includes update date and time information in addition to the summary information as information for each item in the web document, so the specified keyword exists in the specific summary information in the update history information. The date and time when the portion (item) containing the specified keyword in the main body of the web document is updated by referring to the update date and time information corresponding to the specific summary information (including the specified keyword). Date and time when the text or the like was updated on the main body of the web document.

これにより、キーワードと更新日時の範囲が検索条件として指定された場合にも、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用し、「要約情報に指定されたキーワードが含まれ、対応する更新日時情報が表す更新日時が指定された更新日時の範囲内」という条件に合致する要約情報と更新日時情報の組が含まれている更新履歴情報を検索することにより、指定されたキーワードを含む文章等が指定された更新日時の範囲内に更新されたウェブ文書を検索することができ、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現することができる。  Thus, even when the range of the keyword and the update date / time is specified as the search condition, the update history information stored in the second storage means according to the first aspect of the invention is used and the “keyword specified in the summary information” is used. By searching for update history information that includes a set of summary information and update date / time information that matches the condition of `` within the range of update date / time specified by the update date / time specified by the corresponding update date / time information '', Web documents that have been updated within the range of the specified update date and time, including text that includes the specified keyword, can be searched, and search target information on the Web document (for example, text that includes the specified keyword) It is possible to search for information to be searched based on an accurate update time.

また、第1取得手段は、ウェブサーバから順次受信するウェブ文書の情報に第1場所情報が含まれているか否かを監視し、第1場所情報を検知すると(情報を受信しているウェブ文書が対応する要約文書が存在しているウェブ文書であることを検知すると)ウェブサーバとの通信を切断するので、ウェブ文書本体の情報を全て取得する場合と比較して極めて短い時間で通信が終了する。また、第2取得手段もウェブ文書本体よりも確実に情報量が少ない要約文書を取得するので、ウェブ文書本体の情報を全て取得する場合と比較して短時間で通信が終了する。従って、従来の検索ロボットによる情報収集と比較して情報収集に要する時間が短時間で済むので、より短い周期で情報収集(第1記憶手段に記憶されている第1場所情報及び第2記憶手段に記憶されている更新履歴情報の更新)を行うことができ、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用すれば、ウェブ文書の更新がより短い時間で検索結果に反映される検索を実現することができる。  The first acquisition means monitors whether or not the first location information is included in the information of the web document sequentially received from the web server, and detects the first location information (the web document receiving the information). (If it detects that the corresponding summary document exists), the communication with the web server is cut off, so the communication is completed in a very short time compared to the case where all the information of the web document body is acquired. To do. In addition, since the second acquisition unit also acquires the summary document with a smaller amount of information than the web document main body, the communication is completed in a shorter time than when all the information of the web document main body is acquired. Therefore, since the time required for information collection can be shortened in comparison with the information collection by the conventional search robot, the information collection (the first location information stored in the first storage means and the second storage means is performed in a shorter cycle). Update history information stored in the second storage means can be updated, and the update history information stored in the second storage means according to the invention of claim 1 can be used to search for updates of web documents in a shorter time. Searches reflected in the results can be realized.

このように、請求項1記載の発明によれば、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索を実現することが可能となる。また、指定されたキーワードを含むウェブ情報が検索により複数抽出された場合に、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用し、個々のウェブ文書に対応する更新履歴情報のうち、指定されたキーワードを含む要約情報に対応する更新日時情報を参照することで、個々のウェブ文書のうち指定されたキーワードを含む部分(項目)の正確な更新日時を判断することができるので、ウェブ文書上での検索対象の情報の正確な更新時期に基づいて、検索結果(検索によって抽出された複数のウェブ文書)を並べ替えることも可能となる。  Thus, according to the first aspect of the present invention, the update of the web document is reflected in the search result in a shorter time, and the search target based on the accurate update time of the information to be searched on the web document is reflected. Information retrieval can be realized. Further, when a plurality of pieces of web information including the specified keyword are extracted by a search, the update history information stored in the second storage means according to the invention of claim 1 is used to update each web document. By referring to the update date / time information corresponding to the summary information including the specified keyword in the history information, it is possible to determine the exact update date / time of the part (item) including the specified keyword in each Web document. Therefore, it is possible to rearrange the search results (a plurality of web documents extracted by the search) based on the accurate update time of the information to be searched on the web document.

なお、請求項1記載の発明において、例えば請求項3に記載したように、検索条件としてキーワード及び更新日時の範囲が指定されると、第2記憶手段に記憶されている更新履歴情報のうち、更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ要約情報に前記指定されたキーワードが含まれている要約情報及び更新日時情報を検索し、該当する要約情報及び更新日時情報を検索結果として出力する検索手段を設けることが好ましい。これにより、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現することができ、指定したキーワードを含みかつ最近更新された新しい情報の収集を所望している場合にも、例えば更新日時の範囲として現在の日時を含む比較的狭い範囲を指定する等により、指定したキーワードは含むものの該キーワードを含む部分とは別の部分が更新されたことで最終更新日時が最近の日時となっているウェブ文書を検索対象から除外させ、指定したキーワードを含みかつ該キーワードを含む文章が最近更新されたウェブ文書のみを検索させることができる。  In the invention described in claim 1, for example, as described in claim 3, when a keyword and a range of update date / time are specified as a search condition, among update history information stored in the second storage unit, Search for summary information and update date information in which the update date and time indicated by the update date and time information is within the range of the specified update date and time and the specified keyword includes the specified keyword, and the corresponding summary information and update date and time It is preferable to provide search means for outputting information as a search result. This makes it possible to search for information to be searched based on the exact update time of information to be searched on a web document (for example, a sentence including the specified keyword), and includes the specified keyword and recently updated. Even if it is desired to collect new information, the specified keyword is included in the update date and time range, but a relatively narrow range including the current date and time is included. The web document whose last update date / time is the latest date / time is updated from the search, and only the web documents that include the specified keyword and the text that includes the keyword have been recently updated are searched. be able to.

また、ウェブ文書の中には、ウェブ文書の発信者の氏名を表す氏名情報、発信者の電子メールのアドレスを表すメールアドレス情報が設定された発信者識別文書が前記ウェブ文書と別に存在しているウェブ文書がある。この種のウェブ文書では、対応する発信者識別文書の場所を表す第2場所情報(例えばURL等のURI)がウェブ文書中に設定される。なお、上記の要約文書としては、例えば請求項5に記載したように、FOAFフォーマットに従って記述されたXML文書が挙げられる。  Further, in the web document, there is a sender identification document in which name information indicating the name of the sender of the web document and mail address information indicating the address of the sender's e-mail are set. There is a web document. In this type of web document, second location information (for example, a URI such as a URL) indicating the location of the corresponding caller identification document is set in the web document. Examples of the summary document include an XML document described according to the FOAF format, as described in claim 5.

請求項1記載の発明において、上記の発信者識別文書を利用し、例えば請求項4に記載したように、第1取得手段は、ウェブサーバから順次受信するウェブ文書の情報に上記の第2場所情報が含まれているか否かも監視し、第1場所情報又は第2場所情報を検知すると、検知した場所情報を、該場所情報に対応する文書の種別を表す種別情報及びウェブ文書の場所を表す第3場所情報と対応付けて第1記憶手段に記憶させ、第2取得手段は、第1記憶手段に記憶されている第2場所情報に基づいてウェブサーバからの発信者識別文書の取得も定期的に行い、更新履歴生成手段は、更新履歴情報を第3場所情報と対応付けて第2記憶手段に記憶させると共に、第2取得手段によって取得された発信者識別文書が初めて取得された発信者識別文書である場合には、取得された発信者識別文書から氏名情報及びメールアドレス情報を抽出し、第3場所情報と対応付け発信者情報として第2記憶手段に記憶させ、第2取得手段によって取得された発信者識別文書が過去にも取得が行われた発信者識別文書であり、かつ取得された発信者識別文書に含まれる氏名情報及びメールアドレス情報が、第2記憶手段に記憶されている対応する発信者情報に含まれる氏名情報又はメールアドレス情報と相違している場合には、対応する発信者情報に含まれる氏名情報又はメールアドレス情報を、取得された発信者識別文書に含まれる氏名情報又はメールアドレス情報へ更新するようにしてもよい。  In the invention described in claim 1, the sender identification document is used, and, for example, as described in claim 4, the first acquisition means includes the second location in the information of the web document sequentially received from the web server. Whether the information is included is also monitored, and when the first location information or the second location information is detected, the detected location information represents the type information indicating the type of the document corresponding to the location information and the location of the web document. Corresponding to the third location information is stored in the first storage means, and the second acquisition means periodically acquires the sender identification document from the web server based on the second location information stored in the first storage means. The update history generation means stores the update history information in association with the third location information in the second storage means, and the sender from which the caller identification document acquired by the second acquisition means is acquired for the first time. Identification document In some cases, name information and e-mail address information are extracted from the acquired sender identification document, stored in the second storage means as third place information and associated sender information, and acquired by the second acquisition means The caller identification document is a caller identification document that has been acquired in the past, and the name information and the mail address information included in the acquired caller identification document are stored in the second storage means. If the name information or email address information included in the sender information is different from the name information or email address information included in the corresponding sender information, the name information included in the acquired sender identification document or You may make it update to mail address information.

請求項4記載の発明では、対応する発信者識別文書が存在しているウェブ文書については発信者識別文書が定期的に取得され、発信者識別文書に含まれる氏名情報及びメールアドレス情報が発信者情報として第2記憶手段に記憶されると共に、発信者識別文書に含まれる氏名情報又はメールアドレス情報が変更される毎に、発信者情報として記憶している氏名情報又はメールアドレス情報が更新される。また、請求項4記載の発明では、更新履歴情報がウェブ文書の場所を表す第3場所情報と対応付けて第2記憶手段に記憶されると共に、発信者情報も第3場所情報と対応付けて第2記憶手段に記憶される。このため、対応する要約文書に加えて対応する発信者識別文書も存在しているウェブ文書については、対応する更新履歴情報及び発信者情報が第2記憶手段に各々記憶されると共に、これらが同一の第3場所情報によって対応付けされることになる。従って、或る検索条件に基づく検索によって抽出されたウェブ文書が、第2記憶手段に発信者情報が記憶されているウェブ文書であった場合に、第3場所情報をキーとして対応する発信者情報を特定することができ、前記ウェブ文書の発信者の氏名及び電子メールのアドレスを認識することが可能となる。  In the invention described in claim 4, the sender identification document is periodically acquired for the web document in which the corresponding sender identification document exists, and the name information and the mail address information included in the sender identification document are the sender. The name information or the mail address information stored as the sender information is updated every time the name information or the mail address information included in the sender identification document is changed. . In the invention according to claim 4, the update history information is stored in the second storage means in association with the third location information indicating the location of the web document, and the sender information is also associated with the third location information. Stored in the second storage means. For this reason, for the web document in which the corresponding sender identification document exists in addition to the corresponding summary document, the corresponding update history information and the sender information are respectively stored in the second storage means, and these are the same. The third place information is associated with each other. Therefore, when the web document extracted by the search based on a certain search condition is a web document in which the sender information is stored in the second storage means, the sender information corresponding to the third place information as a key And the name of the sender of the web document and the e-mail address can be recognized.

また、請求項4記載の発明において、例えば請求項6に記載したように、検索条件としてキーワード及び更新日時の範囲が指定されると、第2記憶手段に記憶されている更新履歴情報のうち、更新日時情報が表す更新日時が指定された更新日時の範囲内で、かつ要約情報に指定されたキーワードが含まれている要約情報及び更新日時情報を検索し、該当する要約情報及び更新日時情報を検索結果として出力すると共に、検索結果として出力する要約情報及び更新日時情報を含む更新履歴情報と同一の第3場所情報と対応付けられて第2記憶手段に記憶されている発信者情報を検索し、該当する発信者情報が抽出された場合は、抽出された発信者情報に含まれる氏名情報及びメールアドレス情報を、要約情報及び前記更新日時情報と共に出力する検索手段を設けることが好ましい。これにより、先に説明した請求項3記載の発明と同様に、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現できると共に、検索によって抽出されたウェブ文書が、対応する発信者識別文書が存在しているウェブ文書であった場合には、前記ウェブ文書の発信者の氏名及び電子メールアドレスも出力されることになるので、検索によって抽出されたウェブ文書の発信者へ電子メールを送信することも可能となる。  Further, in the invention described in claim 4, for example, as described in claim 6, when a keyword and a range of update date / time are specified as a search condition, among update history information stored in the second storage unit, Search for summary information and update date / time information that includes the keyword specified in the summary information within the range of the update date / time specified by the update date / time information, and find the corresponding summary information and update date / time information. The sender information stored in the second storage means is output in association with the third location information that is the same as the update history information including the summary information and the update date / time information that is output as the search result. When the corresponding sender information is extracted, the name information and the mail address information included in the extracted sender information are output together with the summary information and the update date / time information. It is preferable to provide a search means. Thus, as in the invention described in claim 3 described above, the search target information is searched based on the accurate update time of the search target information (for example, a sentence including the specified keyword) on the web document. When the web document extracted by the search is a web document in which the corresponding sender identification document exists, the name and e-mail address of the sender of the web document are also output. Therefore, it is possible to send an e-mail to the sender of the web document extracted by the search.

請求項7記載の発明に係る更新履歴生成プログラムは、第1記憶手段及び第2記憶手段を備えたコンピュータを、ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段、前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段、及び、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段として機能させる。  The update history generation program according to the invention of claim 7 requests a computer including a first storage unit and a second storage unit to distribute a web document to a web server, and the contents of each item of the web document The update information for each item, the update date information for the update date for each item, and the last update date information for the last update date of the web document. For a web document in which there is a summary document whose corresponding summary information and the update date and time information and the final date and time information are updated, first location information indicating the location of the summary document set in the web document includes: It is monitored whether it is included in the information of the web document received sequentially from the web server, and when the first location information is detected, the communication with the web server is disconnected. , Based on the first location information stored in the first storage means, first acquisition means for each of the unspecified web documents storing the detected first location information in the first storage means A second acquisition unit that periodically acquires the summary document from the server; and if the summary document acquired by the second acquisition unit is a summary document acquired for the first time, a web page is acquired from the acquired summary document. The summary information and the update date / time information and the last update date / time information for each item of the document are extracted and stored as update history information in the second storage unit, and the summary document acquired by the second acquisition unit is stored in the past. Is a summary document that has been acquired, and the last update date and time represented by the last update date and time information included in the acquired summary document is stored in the second storage means. If it is later than the last update date and time indicated by the last update date and time information included in the history information, the web document updated after the last update date and time indicated by the last update date and time information included in the corresponding update history information is displayed. The summary information and the update date / time information corresponding to a specific item are extracted from the acquired summary document and added to the update history information, and the final date / time information included in the corresponding update history information is acquired. It is made to function as an update history generation means for updating to the last update date and time represented by the last update date and time information included in the summary document.

請求項7記載の発明に係る更新履歴生成プログラムは、第1記憶手段及び第2記憶手段を備えたコンピュータを、上記の第1取得手段、第2取得手段及び更新履歴生成手段として機能させるためのプログラムであるので、上記コンピュータが請求項7記載の発明に係る更新履歴生成プログラムを実行することにより、上記コンピュータが請求項1に記載の更新履歴生成装置として機能することになり、請求項1記載の発明と同様に、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索が実現可能になる。  An update history generation program according to a seventh aspect of the invention is a program for causing a computer including a first storage unit and a second storage unit to function as the first acquisition unit, the second acquisition unit, and the update history generation unit. Since it is a program, when the computer executes the update history generation program according to the invention described in claim 7, the computer functions as the update history generation device described in claim 1. Similar to the invention of the present invention, the update of the web document is reflected in the search result in a shorter time, and the search of the search target information based on the accurate update time of the search target information on the web document can be realized. .

以上説明したように本発明は、ウェブ文書の各項目毎の内容の要約を表す要約情報と各項目毎の更新日時を表す更新日時情報とウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される要約文書の場所を表す第1場所情報が、ウェブ文書の配信を要求することでウェブサーバから順次受信するウェブ文書の情報に含まれているか否かを監視し、第1場所情報を検知すると通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う行うと共に、第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから要約文書を定期的に取得し、取得した要約文書が初めて取得した要約文書である場合には、取得した要約文書から各項目毎の要約情報及び更新日時情報と最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、取得した要約文書が過去にも取得が行われた要約文書であり、かつ取得した要約文書に含まれる最終更新日時情報が表す最終更新日時が、第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する要約情報及び更新日時情報を抽出して更新履歴情報に追加し、対応する更新履歴情報に含まれる最終日時情報を取得した要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新するようにしたので、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索が実現可能となる、という優れた効果を有する。  As described above, the present invention includes summary information that represents a summary of the contents of each item of the web document, update date information that represents the update date and time of each item, and last update date and time information that represents the last update date and time of the web document. The summary document corresponding to the item updated every time the web document is updated, and the web document in which the update date / time information and the final date / time information are updated exist in the summary document set in the web document. It is monitored whether or not the first place information representing the place is included in the information of the web document sequentially received from the web server by requesting the delivery of the web document, and the communication is disconnected when the first place information is detected. At the same time, the detected first location information is stored in the first storage means for each unspecified web document, and based on the first location information stored in the first storage means. If the summary document is periodically obtained from the web server and the obtained summary document is the first summary document obtained, the summary information, update date information, and last update date information for each item from the obtained summary document. Are extracted and stored in the second storage means as update history information, and the acquired summary document is a summary document that has been acquired in the past, and the last update date and time information included in the acquired summary document represents If the date and time is later than the last update date and time represented by the last update date and time information included in the corresponding update history information stored in the second storage unit, the last update date and time information included in the corresponding update history information The summary information and update date / time information corresponding to the specific item of the web document updated after the last update date / time indicated by is extracted and added to the update history information, and included in the corresponding update history information. The latest update date / time information is updated to the latest update date / time indicated by the last update date / time information included in the acquired summary document. The search target information can be searched based on the accurate update time of the search target information.

以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1には本実施形態に係るコンピュータ・システム10が示されている。コンピュータ・システム10は、多数台のウェブ・サーバ12及び多数台のクライアント端末14が接続されたインターネット16に、本発明に係る更新履歴生成装置として機能する収集・検索サーバ18が接続されて構成されている。ウェブ・サーバ12はHDD(ハード・ディスク・ドライブ)等の記憶手段にウェブ文書の情報(及び後述する要約文書や発信者識別文書の情報)を保管しており、クライアント端末14等から所定のウェブ文書の場所(URI)が指定されて所定のウェブ文書の情報の配信がインターネット16経由で要求される毎に、要求元のクライアント端末14等へ所定のウェブ文書の情報を送信する処理を行うことで、記憶手段に保管しているウェブ文書をインターネット16上に公開している。なお、クライアント端末14はパーソナル・コンピュータ(PC)であってもよいし、インターネット16にアクセスする機能を備えた携帯端末であってもよい。  Hereinafter, an example of an embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a computer system 10 according to the present embodiment. The computer system 10 is configured by connecting a collection /search server 18 functioning as an update history generation apparatus according to the present invention to theInternet 16 to which a large number ofweb servers 12 and a large number ofclient terminals 14 are connected. ing. Theweb server 12 stores web document information (and summary document and sender identification document information described later) in storage means such as an HDD (hard disk drive). Every time a document location (URI) is specified and distribution of information on a predetermined web document is requested via theInternet 16, a process of transmitting the information on the predetermined web document to theclient terminal 14 or the like as a request source is performed. Thus, the web document stored in the storage means is published on theInternet 16. Theclient terminal 14 may be a personal computer (PC) or a portable terminal having a function of accessing theInternet 16.

収集・検索サーバ18は、例えばワークステーション等のコンピュータから成り、CPU18A、ROM18B、RAM18C、入出力ポート18Dを備え、これらがアドレスバス、データバス、制御バス等のバス18Eを介して互いに接続されている。また入出力ポート18Dには、通信制御装置20、ディスプレイ22、マウス24、キーボード26、HDD28が各々接続されており、収集・検索サーバ18は通信制御装置20を介してインターネット16に接続されている。また、通信制御装置20にはPC等から成り、ディスプレイ等から成る表示装置、キーボードやマウス等から成る入力装置を備えたクライアント端末30が接続されている。なお、図1ではクライアント端末30が収集・検索サーバ18に直接接続された構成が示されているが、これに限られるものではなく、クライアント端末30はLAN等のネットワークを介して収集・検索サーバ18に接続されていてもよい。  The collection /retrieval server 18 includes a computer such as a workstation, and includes aCPU 18A, aROM 18B, aRAM 18C, and an input / output port 18D, which are connected to each other via abus 18E such as an address bus, a data bus, and a control bus. Yes. The input / output port 18D is connected to a communication control device 20, adisplay 22, amouse 24, akeyboard 26, and anHDD 28, and the collection /search server 18 is connected to theInternet 16 via the communication control device 20. . The communication control device 20 is connected to aclient terminal 30 including a display device such as a PC and an input device such as a keyboard and a mouse. Although FIG. 1 shows a configuration in which theclient terminal 30 is directly connected to the collection /search server 18, the present invention is not limited to this, and theclient terminal 30 is connected to the collection / search server via a network such as a LAN. 18 may be connected.

収集・検索サーバ18のHDD28には、メタ情報URI収集処理を行うためのメタ情報URI収集プログラム、更新履歴情報収集処理を行うための更新履歴情報収集プログラム及び発信者情報収集処理を行うための発信者情報収集プログラムが各々インストールされている(上記各処理については後述する)。これらのプログラムは請求項7に記載の更新履歴生成プログラムに対応しており、収集・検索サーバ18のCPU18Aがこれらのプログラムを実行することで、収集・検索サーバ18は本発明に係る更新履歴生成装置として機能する。また、詳細は後述するが、収集・検索サーバ18のHDD28の記憶領域には、URI情報DB(データベース)、更新履歴情報DB、発信者情報DBが各々記憶されている。  TheHDD 28 of the collection /search server 18 has a meta information URI collection program for performing a meta information URI collection process, an update history information collection program for performing an update history information collection process, and a transmission for performing a sender information collection process. Each person information collection program is installed (the above processes will be described later). These programs correspond to the update history generation program according to claim 7, and when theCPU 18A of the collection /search server 18 executes these programs, the collection /search server 18 generates the update history according to the present invention. Functions as a device. Although details will be described later, a URI information DB (database), an update history information DB, and a sender information DB are stored in the storage area of theHDD 28 of the collection /search server 18.

次に本実施形態の作用として、収集・検索サーバ18のCPU18Aがメタ情報URI収集プログラムを実行することで収集・検索サーバ18によって行われるメタ情報URI収集処理について、図2のフローチャートを参照して説明する。なお、このメタ情報URI収集処理は、RSSフォーマット又はATOMフォーマットに従って記述されたXML文書である要約文書及びFOAFフォーマットに従って記述されたXML文書である発信者識別文書が存在しているウェブ文書を探索し、該当するウェブ文書に対応する要約文書や発信者識別文書のURIを収集してURI情報DBに記憶させる処理であり、収集・検索サーバ18によって常時又は定期的に実行される。このメタ情報URI収集処理は、本発明に係る第1取得手段(詳しくは請求項4に記載の第1取得手段)に相当する処理である。また、本実施形態では上記の要約文書と発信者識別文書を「メタ情報」と総称している。  Next, as an operation of the present embodiment, a meta information URI collection process performed by the collection /search server 18 when theCPU 18A of the collection /search server 18 executes the meta information URI collection program will be described with reference to the flowchart of FIG. explain. This meta information URI collection process searches for a web document in which a summary document that is an XML document described according to the RSS format or the ATOM format and a sender identification document that is an XML document described according to the FOAF format exist. In this process, URIs of summary documents and sender identification documents corresponding to the corresponding web document are collected and stored in the URI information DB, and are always or periodically executed by the collection /search server 18. This meta information URI collection process is a process corresponding to the first acquisition means (specifically, the first acquisition means described in claim 4) according to the present invention. In the present embodiment, the summary document and the sender identification document are collectively referred to as “meta information”.

ステップ100では多数台のウェブ・サーバ12によってインターネット16上で公開されている膨大な数のウェブ文書のうち、アクセス(情報取得)を行うウェブ文書のURIを決定する。このURIの決定は、例えばURIとしてURLを用いる場合には、スキーム名として「http」と設定すると共に、サーバ名としては公開されている多数のサーバ名の中から任意のサーバ名を選択・設定し、ウェブ・サーバ12内でのHTML文書の場所(パス)を表すパス名は乱数等を用いて設定することで行うことができる。ステップ102ではステップ100で決定したURIに対応するウェブ文書の配信を、該ウェブ文書を保管しているウェブ・サーバ12に対して要求する。ステップ104では、上記のウェブ・サーバ12と通信が可能か否か判定する。ステップ100で決定したURIに対応するウェブ文書が存在していない場合や、決定したURIに対応するウェブ文書は存在しているものの、該ウェブ文書を保管しているウェブ・サーバ12が稼働していなかった等の場合には上記判定が肯定され、何ら処理を行うことなくステップ126へ移行する。  Instep 100, the URI of a web document to be accessed (information acquisition) is determined from among a large number of web documents published on theInternet 16 by a large number ofweb servers 12. For example, when a URL is used as a URI, “http” is set as a scheme name, and an arbitrary server name is selected and set as a server name from many public server names. The path name indicating the location (path) of the HTML document in theweb server 12 can be set by using a random number or the like. Instep 102, theweb server 12 storing the web document is requested to distribute the web document corresponding to the URI determined instep 100. Instep 104, it is determined whether or not communication with theweb server 12 is possible. When there is no web document corresponding to the URI determined instep 100, or there is a web document corresponding to the determined URI, theweb server 12 storing the web document is operating. If not, the above determination is affirmed, and the routine proceeds to step 126 without performing any processing.

一方、ステップ104の判定が肯定された場合はステップ106へ移行し、ウェブ・サーバ12から送信されるウェブ文書(HTML文書)の情報をインターネット16経由で順次受信すると共に、受信した情報の中に文字列「</HEAD>」及び文字列「<BODY>」が存在しているか否か判定する。判定が否定された場合はステップ108へ移行し、ウェブ文書の情報の受信が終了したか否か判定する。この判定も否定された場合はステップ106に戻り、何れかの判定が肯定される迄ステップ106、108を繰り返す。例として図5に示すように、対応するメタ情報が存在しているウェブ文書(HTML文書)には文字列「</HEAD>」及び文字列「<BODY>」が存在しており、この文字列「</HEAD>」及び文字列「<BODY>」の前に各メタ文書のURI等が設定されたリンク情報が各々存在している。ステップ108の判定が肯定された場合、ウェブ・サーバ12から情報を受信したウェブ文書にはリンク情報が設定されておらず、対応するメタ情報が存在していないと判断できるので、何ら処理を行うことなくステップ126へ移行する。  On the other hand, if the determination instep 104 is affirmed, the process proceeds to step 106 where information on web documents (HTML documents) transmitted from theweb server 12 is sequentially received via theInternet 16 and the received information is included in the received information. It is determined whether the character string “</ HEAD>” and the character string “<BODY>” exist. If the determination is negative, the process proceeds to step 108, and it is determined whether or not the reception of the web document information is completed. If this determination is also denied, the process returns to step 106, and steps 106 and 108 are repeated until either determination is affirmed. As an example, as shown in FIG. 5, the web document (HTML document) in which the corresponding meta information exists includes a character string “</ HEAD>” and a character string “<BODY>”. The link information in which the URI of each meta document is set before the column “</ HEAD>” and the character string “<BODY>” exists. If the determination instep 108 is affirmative, it can be determined that the link information is not set in the web document that has received information from theweb server 12 and the corresponding meta information does not exist, and therefore, no processing is performed. Without proceeding to step 126.

また、ステップ106の判定が肯定された場合(文字列「</HEAD>」及び文字列「<BODY>」を検知した場合)はステップ110へ移行し、ウェブ・サーバ12から既に受信した情報をメモリ(RAM18C等)に保存し、ウェブ・サーバ18との通信を切断する。上記の文字列</HEAD>及び文字列<BODY>は通常、ウェブ文書の情報のうちの先頭に近い位置に存在しており(従ってリンク情報も先頭に近い位置に存在している)、ステップ106の判定が肯定されると通信を切断することで、ウェブ・サーバ12との通信は非常に短い時間で完了する。ステップ112では、ステップ110でメモリに保存した受信済み情報に対し、各種メタ情報(RSSフォーマットに従って記述された要約文書(以下、RSS要約文書と称する)、ATOMフォーマットに従って記述された要約文書(以下、ATOM要約文書と称する)及びFOAFフォーマットに従って記述された発信者識別文書)に対応するリンク情報を検索し、該当するリンク情報が存在していた場合にはメタ情報のURIを抽出する。なお、RSS要約文書に対応するリンク情報とATOM要約情報に対応するリンク情報が各々存在していた場合、何れか一方のリンク情報(例えばATOM要約情報に対応するリンク情報)のURIのみを抽出するようにしてもよい。  If the determination instep 106 is affirmative (when the character string “</ HEAD>” and the character string “<BODY>” are detected), the process proceeds to step 110 and information already received from theweb server 12 is obtained. The data is stored in a memory (RAM 18C or the like), and communication with theweb server 18 is disconnected. The above character string </ HEAD> and character string <BODY> usually exist at a position close to the beginning of the information of the web document (so that the link information also exists near the beginning), and step When the determination of 106 is affirmed, the communication with theweb server 12 is completed in a very short time by disconnecting the communication. In step 112, for the received information stored in the memory instep 110, various meta information (summary document described in accordance with the RSS format (hereinafter referred to as RSS summary document), summary document described in accordance with the ATOM format (hereinafter referred to as “summary document”). The link information corresponding to the ATOM summary document) and the sender identification document described according to the FOAF format) is searched, and if the corresponding link information exists, the URI of the meta information is extracted. If link information corresponding to the RSS summary document and link information corresponding to the ATOM summary information exist, only the URI of one of the link information (for example, link information corresponding to the ATOM summary information) is extracted. You may do it.

具体的には、図5に示すように、RSS要約文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/rss+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)がRSS要約文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出してRSS要約文書のURIとしてメモリ等に一時保存する。また、ATOM要約文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/atom+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)がATOM要約文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出してATOM要約文書のURIとしてメモリ等に一時保存する。また、発信者識別文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/rdf+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)が発信者識別文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出して発信者識別文書のURIとしてメモリ等に一時保存する。なお、上記の各メタ文書のURIのうち、RSS要約文書のURI及びATOM要約文書のURIは本発明に係る第1場所情報に、発信者識別文書のURIは本発明に係る第2場所情報に対応している。  Specifically, as shown in FIG. 5, the link information of the RSS summary document is sandwiched between the character string “<LINK” and the character string “/>”, and the character string “type =“ application / rss + xml ”. ], And a character string (“http: //...” In the example of FIG. 5) sandwiched between the character string “href =” and the character ““ ”is RSS. It represents the URI of the summary document. In step 112, if there is a character string corresponding to the above condition in the information of the web document, the character string is extracted and temporarily stored in a memory or the like as the URI of the RSS summary document. The link information of the ATOM summary document is a character string sandwiched between the character string “<LINK” and the character string “/>” and including the character string “type =“ application / atom + xml ””. Among the columns, a character string (“http: //...” In the example of FIG. 5) sandwiched between the character string “href =” and the character “” ”represents the URI of the ATOM summary document. In step 112, if a character string corresponding to the above condition exists in the information of the web document, the character string is extracted and temporarily stored in a memory or the like as the URI of the ATOM summary document. The link information of the caller identification document is a character string sandwiched between the character string “<LINK” and the character string “/>” and including the character string “type =“ application / rdf + xml ””. Among the character strings, a character string (“http: //...” In the example of FIG. 5) sandwiched between the character string “href =” and the character ““ ”represents the URI of the sender identification document. . In step 112, when a character string corresponding to the above condition exists in the information of the web document, the character string is extracted and temporarily stored in a memory or the like as the URI of the caller identification document. Of the URIs of each meta document, the URI of the RSS summary document and the URI of the ATOM summary document are in the first location information according to the present invention, and the URI of the sender identification document is in the second location information according to the present invention. It corresponds.

次のステップ114では、ステップ112の処理により、少なくとも1つのメタ情報のURIを抽出できたか否か判定する。判定が否定された場合、ウェブ・サーバ12から情報を受信したウェブ文書には対応するメタ情報が存在していないと判断できるので、何ら処理を行うことなくステップ126へ移行する。また、ステップ114の判定が肯定された場合はステップ116へ移行し、ウェブ文書のURIをキーとしてURI情報DBを検索する。そしてステップ118では、ステップ116の検索によって該当するURI情報が抽出されたか否か判定する。  In thenext step 114, it is determined whether or not at least one URI of meta information has been extracted by the process of step 112. If the determination is negative, it can be determined that the corresponding meta-information does not exist in the web document that has received the information from theweb server 12, and therefore the process proceeds to step 126 without performing any processing. If the determination instep 114 is affirmed, the process proceeds to step 116, and the URI information DB is searched using the URI of the web document as a key. Instep 118, it is determined whether or not the corresponding URI information is extracted by the search instep 116.

本実施形態に係るメタ情報URI収集処理では、対応するメタ情報が存在している新たなウェブ文書が発見される毎に、例として図6(A)に示すように、該ウェブ文書から抽出したメタ情報のURIをウェブ文書のURIと対応付け、URI情報DBにURI情報として登録しているので、ステップ116の検索によって該当するURI情報が抽出されなかった場合、今回の処理対象であるウェブ文書は、対応するメタ情報が存在している新たなウェブ文書であると判断できる。このため、ステップ118の判定が否定された場合はステップ120へ移行し、処理対象のウェブ文書から取得してメモリに一時保存しているメタ情報のURIを、メタ情報の種別(RSS要約文書/ATOM要約文書/発信者識別文書)を表す情報及びウェブ文書のURIと対応付け、URI情報DBにURI情報(図6(A)も参照)として新規に登録した後にステップ126へ移行する。このように、URI情報DBを記憶するHDDは本発明に係る第1記憶手段(詳しくは請求項4に記載の第1記憶手段)に対応している。また、対応するメタ情報が存在しているウェブ文書のURI(URI情報DBに登録するURI情報に含まれるウェブ文書のURI)は本発明に係る第3場所情報に対応している。  In the meta information URI collection processing according to the present embodiment, each time a new web document in which the corresponding meta information exists is discovered, it is extracted from the web document as shown in FIG. 6A as an example. Since the URI of the meta information is associated with the URI of the web document and registered as the URI information in the URI information DB, if the corresponding URI information is not extracted by the search instep 116, the web document to be processed this time Can be determined to be a new web document in which the corresponding meta information exists. Therefore, if the determination instep 118 is negative, the process proceeds to step 120, where the URI of the meta information acquired from the processing target web document and temporarily stored in the memory is changed to the meta information type (RSS summary document / After the information representing the ATOM summary document / sender identification document) and the URI of the web document are associated with each other and newly registered as URI information (see also FIG. 6A), the process proceeds to step 126. Thus, the HDD that stores the URI information DB corresponds to the first storage means according to the present invention (specifically, the first storage means described in claim 4). Further, the URI of the web document in which the corresponding meta information exists (the URI of the web document included in the URI information registered in the URI information DB) corresponds to the third location information according to the present invention.

一方、ステップ116の検索によって該当するURI情報が抽出された場合には、今回の処理対象であるウェブ文書は、メタ情報URI収集処理によって過去にURI情報の登録が行われたウェブ文書であると判断できるので、ステップ118の判定が肯定されてステップ122へ移行し、処理対象のウェブ文書から取得してメモリに一時保存しているメタ情報のURIを、先のステップ116の検索によって抽出されたURI情報に設定されているメタ情報のURIと比較し、今回取得したメタ情報のURIがURI情報に設定されているメタ情報URIと一致しているか否か判定する。なお、処理対象のウェブ文書から複数種のメタ情報のURIが抽出された場合、上記のURIの比較はメタ情報の種別毎に行われる。  On the other hand, when the corresponding URI information is extracted by the search instep 116, the web document to be processed this time is a web document in which the URI information has been registered in the past by the meta information URI collection process. Since the determination instep 118 is affirmed and the process proceeds to step 122, the URI of the meta information obtained from the processing target web document and temporarily stored in the memory is extracted by the search in theprevious step 116. Compared with the URI of the meta information set in the URI information, it is determined whether or not the URI of the meta information acquired this time matches the meta information URI set in the URI information. When URIs of a plurality of types of meta information are extracted from the web document to be processed, the above URI comparison is performed for each type of meta information.

ステップ122の判定が肯定された場合は何ら処理を行うことなくステップ126へ移行する。また、メタ情報のURIが変更されたり、新たなメタ情報が追加されていた場合には、ステップ122の判定が否定されてステップ124へ移行し、処理対象のウェブ文書から取得したメタ情報のURIを、ステップ116の検索によって抽出されたURI情報の中に同一種別のURIが存在していれば該URIに上書きし、前記URI情報の中に同一種別のURIが存在していなければ前記URI情報に追加することでURI情報DBに登録する。次のステップ126では、メタ情報URI収集処理を終了するか否か判定する。判定が否定された場合はステップ100に戻り、ステップ100以降の処理を繰り返す。また、ステップ126の判定が肯定されると処理を終了する。  If the determination instep 122 is affirmed, the process proceeds to step 126 without performing any processing. If the URI of the meta information has been changed or new meta information has been added, the determination instep 122 is denied and the process proceeds to step 124, where the URI of the meta information acquired from the web document to be processed If the same type URI exists in the URI information extracted by the search instep 116, the URI is overwritten. If the same type URI does not exist in the URI information, the URI information Is added to the URI information DB. In thenext step 126, it is determined whether or not to end the meta information URI collection process. When determination is denied, it returns to step 100 and repeats the process afterstep 100. FIG. If the determination atstep 126 is affirmative, the process ends.

上記のメタ情報URI収集処理により、対応するメタ情報(RSS要約文書、ATOM要約文書及び発信者識別文書の少なくとも1つ)が存在しているウェブ文書を発見する毎に、該ウェブ文書からメタ情報のURIを取得し、取得したURIがURI情報DBに未登録であればURI情報DBに新規又は上書きして登録することが繰り返されるので、URI情報DBは、インターネット16に公開されているウェブ文書のうち対応するメタ情報が存在しているウェブ文書の各々について、対応するメタ情報の最新のURIが登録されている状態に保たれることになる。  Whenever a web document in which corresponding meta information (at least one of RSS summary document, ATOM summary document, and sender identification document) is found by the above-described meta information URI collection process, meta information is extracted from the web document. If the obtained URI is not registered in the URI information DB, it is repeatedly registered to be new or overwritten in the URI information DB. Therefore, the URI information DB is a web document published on theInternet 16. For each of the web documents in which the corresponding meta information exists, the latest URI of the corresponding meta information is kept registered.

次に、収集・検索サーバ18のCPU18Aが更新履歴情報収集プログラムを実行することで収集・検索サーバ18によって行われる更新履歴情報収集処理について、図3のフローチャートを参照して説明する。なお、この更新履歴情報収集処理は、URI情報DBにURIが記憶されているRSS要約文書又はATOM要約文書を取得し、取得した要約文書から抽出した情報を更新履歴情報DBに更新履歴情報として記憶させる処理であり、この更新履歴情報収集処理も先に説明したメタ情報URI収集処理と同様、収集・検索サーバ18によって常時又は定期的に実行される。  Next, update history information collection processing performed by the collection /search server 18 when theCPU 18A of the collection /search server 18 executes the update history information collection program will be described with reference to the flowchart of FIG. This update history information collection process acquires an RSS summary document or ATOM summary document in which a URI is stored in the URI information DB, and stores information extracted from the acquired summary document as update history information in the update history information DB. This update history information collection process is also executed by the collection /retrieval server 18 at regular or regular intervals in the same manner as the meta information URI collection process described above.

ステップ130では、URI情報DBからRSS要約文書又はATOM要約文書のURIを取り込み、次のステップ132では、ステップ130で取り込んだURIに対応する要約文書の配信を、該要約文書を保管しているウェブ・サーバ12に対して要求する。ステップ134では上記のウェブ・サーバ12と通信が可能か否か判定する。例えばウェブ・サーバ12が稼働していなかった等の場合には前記判定が肯定され、何ら処理を行うことなくステップ156へ移行する。また、ステップ134の判定が肯定された場合はステップ136へ移行し、ウェブ・サーバ12からの情報の受信を待ち、情報を受信すると該情報をメモリに一時保存させた後に、要約文書の情報を上記のウェブ・サーバ12から取得できたか否か判定する。なお、上述したステップ130〜ステップ136は本発明に係る第2取得手段に対応している。  Instep 130, the URI of the RSS summary document or the ATOM summary document is fetched from the URI information DB. In thenext step 132, the summary document corresponding to the URI fetched instep 130 is distributed, and the web storing the summary document is stored. Request toserver 12 Instep 134, it is determined whether or not communication with theweb server 12 is possible. For example, if theweb server 12 is not operating, the determination is affirmed, and the process proceeds to step 156 without performing any processing. On the other hand, if the determination instep 134 is affirmative, the process proceeds to step 136, waits for the reception of information from theweb server 12, and when the information is received, the information is temporarily stored in the memory, and then the information of the summary document is stored. It is determined whether or not it has been acquired from theweb server 12 described above.Steps 130 to 136 described above correspond to the second acquisition unit according to the present invention.

ウェブ・サーバ12から受信した情報が、指定されたURIに対応する要約文書が存在していないことを意味する情報であった場合には、例えばウェブ文書の情報中のリンク情報の記述が誤っていた等の原因が考えられるので、上記判定が肯定されてステップ138へ移行し、ステップ130で取り込んだ要約文書のURIをURI情報DBから削除した後にステップ156へ移行する。なお、ステップ138において、削除したURIが設定されていたURI情報が、前記削除したURIのみがメタ情報のURIとして設定された情報であった場合には、当該URI情報自体もURI情報DBから削除する。  If the information received from theweb server 12 is information indicating that there is no summary document corresponding to the specified URI, for example, the description of the link information in the information of the web document is incorrect. The above determination is affirmed and the process proceeds to step 138. After the URI of the summary document fetched instep 130 is deleted from the URI information DB, the process proceeds to step 156. Instep 138, if the URI information in which the deleted URI is set is information in which only the deleted URI is set as the URI of the meta information, the URI information itself is also deleted from the URI information DB. To do.

一方、ウェブ・サーバ12から受信してメモリに一時保存させた情報が要約文書の情報であった場合には、ステップ136の判定が肯定されてステップ140へ移行し、先のステップ130で取り込んだ要約文書のURIと対応付けられてURI情報DBに記憶されているウェブ文書(上記の要約文書に対応するウェブ文書)のURIをキーにして更新履歴情報DBを検索する。そしてステップ142では、ステップ140の検索によって該当する更新履歴情報が抽出されたか否か判定する。  On the other hand, if the information received from theweb server 12 and temporarily stored in the memory is information of the summary document, the determination instep 136 is affirmed, the process proceeds to step 140, and the information is captured in theprevious step 130. The update history information DB is searched using the URI of the web document (web document corresponding to the summary document) stored in the URI information DB in association with the URI of the summary document as a key. Instep 142, it is determined whether or not the corresponding update history information has been extracted by the search in step 140.

一般にウェブ文書(HTML文書)には項目毎にタイトルが付与される。RSS要約文書やATOM要約文書は、対応するウェブ文書の見出しや要約を提示する文書であり、具体的には、例として図5に示すように、対応するウェブ文書の各項目(別々にタイトルが付与される部分を単位とする各部分)毎に、タイトル、要約文、更新日時、対応する本文のURI等の属性情報が文字列として設定される(なお、図5では各要約文書のうちウェブ文書中の単一の項目に対応する部分を抜粋して示している)。また、図示は省略するが、RSS要約文書やATOM要約文書は、上述した各項目毎の属性情報以外に、対応するウェブ文書の最終更新日時も文字列として設定される。RSS要約文書やATOM要約文書は、所定のプログラムが実行されることで自動的に生成されると共に、対応するウェブ文書が更新される毎に、更新された項目に対応する属性情報が更新され(更新日時が更新されると共に、タイトルが更新されればタイトルも、内容が更新されれば要約文も更新される)、かつ最終更新日時も更新される。  In general, a web document (HTML document) is given a title for each item. An RSS summary document or an ATOM summary document is a document that presents the heading or summary of a corresponding web document. Specifically, as shown in FIG. 5 as an example, each item of the corresponding web document (with a title separately) Attribute information such as title, summary sentence, update date and time, URI of the corresponding body text is set as a character string for each part (units given as units) (in FIG. (Excerpt from the section corresponding to a single item in the document). Although illustration is omitted, in the RSS summary document and ATOM summary document, in addition to the attribute information for each item described above, the last update date and time of the corresponding web document is also set as a character string. The RSS summary document and the ATOM summary document are automatically generated by executing a predetermined program, and the attribute information corresponding to the updated item is updated each time the corresponding web document is updated ( The update date and time are updated, and the title is updated when the title is updated, and the summary sentence is updated when the content is updated.

詳細は後述するが、本実施形態に係る更新履歴情報収集処理では、新たな要約文書を取得する毎に、例として図6(B)に示すように、取得した要約文書から各項目に対応する属性情報と最終更新日時を抽出し、抽出した各情報を対応するウェブ文書のURIと対応付け、更新履歴情報DBに更新履歴情報として登録しているので、ステップ140の検索によって該当する更新履歴情報が抽出されなかった場合、今回取得した要約文書は、過去に取得されていない要約文書であると判断できる。このため、ステップ142の判定が否定された場合はステップ144へ移行し、取得した要約文書からウェブ文書の各項目毎の属性情報(タイトル、要約文、更新日時、本文URI)を各々抽出すると共に、最終更新日時を抽出する。  Although details will be described later, in the update history information collection process according to the present embodiment, each time a new summary document is acquired, each item is handled from the acquired summary document as shown in FIG. 6B as an example. Since the attribute information and the last update date / time are extracted, the extracted information is associated with the URI of the corresponding web document, and registered as update history information in the update history information DB. If no is extracted, it can be determined that the summary document acquired this time is a summary document that has not been acquired in the past. Therefore, if the determination instep 142 is negative, the process proceeds to step 144 to extract attribute information (title, summary sentence, update date, text URI) for each item of the web document from the acquired summary document. Extract the last update date.

具体的には、RSS要約文書では、図5に示すように文字列「<item>」と文字列「</item>」によって挟まれた文字列がウェブ文書中の単一の項目に対応する情報であり、この文字列のうち、文字列「<title>」と文字列「</title>」によって挟まれた文字列が対応する項目のタイトルを、文字列「<description>」と文字列「</description>」によって挟まれた文字列が対応する項目の要約文を、文字列「<dc:date>」と文字列「</dc:date>」によって挟まれた文字列が対応する項目の更新日時を、文字列「<link>」と文字列「</link>」によって挟まれた文字列が対応する本文(ウェブ文書)のURIを各々表している。またRSS要約文書では、要約文書中に最初に出現する文字列「<item>」と文字列「</item>」によって挟まれた文字列のうち、文字列「<dc:date>」と文字列「</dc:date>」によって挟まれた文字列がRSS要約文書の最終更新日時を表している。このため、取得した要約文書がRSS要約文書であった場合、ステップ144では上記の条件に従ってウェブ文書の各項目毎の属性情報を各々抽出すると共に最終更新日時を抽出する。  Specifically, in the RSS summary document, as shown in FIG. 5, a character string sandwiched between a character string “<item>” and a character string “</ item>” corresponds to a single item in the web document. This is information, and the title of the item corresponding to the character string between the character string "<title>" and the character string "</ title>", the character string "<description>" and the character string The summary text of the item corresponding to the character string sandwiched between "</ description>" corresponds to the character string sandwiched between the character string "<dc: date>" and the character string "</ dc: date>". The update date of the item represents the URI of the body (web document) to which the character string sandwiched between the character string “<link>” and the character string “</ link>” corresponds. In the RSS summary document, the character string “<dc: date>” and the character are included among the character strings sandwiched between the character string “<item>” and the character string “</ item>” that appear first in the summary document. A character string sandwiched between the columns “</ dc: date>” represents the last update date and time of the RSS summary document. For this reason, if the acquired summary document is an RSS summary document, instep 144, the attribute information for each item of the web document is extracted and the last update date and time are extracted according to the above conditions.

また、ATOM要約文書では、図5に示すように文字列「<entry>」と文字列「</entry>」によって挟まれた文字列がウェブ文書中の単一の項目に対応する情報であり、この文字列のうち、文字列「<title>」と文字列「</title>」によって挟まれた文字列が対応する項目のタイトルを、文字列「<summary>」と文字列「</summary>」によって挟まれた文字列が対応する項目の要約文を、文字列「<modified>」と文字列「</modified>」によって挟まれた文字列が対応する項目の更新日時を各々表している。また、ウェブ文書中の単一の項目に対応する文字列の中に、文字列「<link」と文字列「/>」によって挟まれた文字列が存在し、かつ該文字列中に文字列「type="text/html"」が存在している場合、それに続く文字列「href="」と文字「"」で挟まれた文字列は対応する本文(ウェブ文書)のURIを表している。更にATOM要約文書では、要約文書中に最初に出現する文字列「<entry>」と文字列「</entry>」によって挟まれた文字列のうち、文字列「<modified>」と文字列「</modified>」によって挟まれた文字列がATOM要約文書の最終更新日時を表している。このため、取得した要約文書がATOM要約文書であった場合、ステップ144では上記の条件に従ってウェブ文書の各項目毎の属性情報を各々抽出すると共に最終更新日時を抽出する。  In the ATOM summary document, as shown in FIG. 5, the character string sandwiched between the character string “<entry>” and the character string “</ entry>” is information corresponding to a single item in the web document. , The title of the item corresponding to the character string sandwiched between the character string "<title>" and the character string "</ title>", the character string "<summary>" and the character string "</ "summary>" indicates the summary text of the corresponding item, and the character string "<modified>" and the character string "</ modified>" indicate the update date and time of the corresponding item. ing. In addition, a character string sandwiched between the character string “<link” and the character string “/>” exists in the character string corresponding to a single item in the web document, and the character string is included in the character string. When "type =" text / html "" exists, the character string sandwiched between the character string "href =" "and the character" "" represents the URI of the corresponding text (web document). . Furthermore, in the ATOM summary document, the character string “<modified>” and the character string “<entry>” among the character strings “<entry>” and the character string “</ entry>” that appear first in the summary document are displayed. </ modified> ”represents the last update date and time of the ATOM summary document. Therefore, if the acquired summary document is an ATOM summary document, instep 144, attribute information for each item of the web document is extracted and the last update date and time are extracted in accordance with the above-described conditions.

ステップ146では、要約文書から抽出したウェブ文書の各項目毎の属性情報に、要約文書から抽出したウェブ文書の最終更新日時を付加し、対応するウェブ文書のURIと対応付けて更新履歴情報DBに更新履歴情報(図6(B)も参照)として新規に登録した後に、ステップ156へ移行する。  Instep 146, the last update date and time of the web document extracted from the summary document is added to the attribute information for each item of the web document extracted from the summary document, and is associated with the URI of the corresponding web document in the update history information DB. After newly registering as update history information (see also FIG. 6B), the process proceeds to step 156.

一方、ステップ140の検索によって該当する更新履歴情報が抽出された場合には、今回取得した要約文書は、更新履歴情報収集処理によって過去に更新履歴情報の登録が行われた要約文書であると判断できるので、ステップ142の判定が肯定されてステップ148へ移行し、ステップ140の検索によって抽出された更新履歴情報から最終更新日時を取り込むと共に、取得した要約文書の情報から最終更新日時を抽出して両者を比較し、次のステップ150で両者が一致しているか否か判定する。判定が肯定された場合は、今回取得した要約文書は更新履歴情報収集処理によって以前に取得した要約文書と同一の内容と判断できるので、何ら処理を行うことなくステップ156へ移行する。  On the other hand, if the corresponding update history information is extracted by the search in step 140, it is determined that the currently acquired summary document is a summary document for which update history information has been registered in the past by the update history information collection process. Therefore, the determination atstep 142 is affirmed and the routine proceeds to step 148, where the last update date / time is taken from the update history information extracted by the search at step 140, and the last update date / time is extracted from the acquired summary document information. Both are compared, and it is determined in thenext step 150 whether or not they match. If the determination is affirmative, the summary document acquired this time can be determined to have the same content as the summary document previously acquired by the update history information collection processing, and the process proceeds to step 156 without performing any processing.

また、ステップ150の判定が否定された場合は、取得した要約文書に対応するウェブ文書は、該ウェブ文書に対応する要約文書を以前に取得してから現在迄の間に更新されており、今回取得した要約文書の内容は以前に取得した要約文書の内容と相違していると判断できる。このため、ステップ150の判定が否定された場合はステップ152へ移行し、今回取得した要約文書のうち各項目毎の属性情報に含まれる更新日時を、更新履歴情報DBから抽出した更新履歴情報に設定されている最終更新日時と各々比較することで、ウェブ文書のうち更新履歴情報DBから抽出した更新履歴情報に設定されている最終更新日時よりも後の日時に更新された項目に対応する属性情報を判断し、今回取得した更新履歴情報から該当する属性情報(タイトル、要約文、更新日時、本文URI)を抽出する。  If the determination instep 150 is negative, the web document corresponding to the acquired summary document has been updated between the previous acquisition of the summary document corresponding to the web document and the current time. It can be determined that the content of the acquired summary document is different from the content of the previously acquired summary document. Therefore, if the determination instep 150 is negative, the process proceeds to step 152, and the update date and time included in the attribute information for each item in the summary document acquired this time is used as the update history information extracted from the update history information DB. Attributes corresponding to items updated on the date and time later than the last update date and time set in the update history information extracted from the update history information DB in the web document by comparing with each set last update date and time The information is judged, and the corresponding attribute information (title, summary sentence, update date / time, text URI) is extracted from the update history information acquired this time.

そしてステップ154では、ステップ152で要約文書から抽出した属性情報を、更新履歴情報DBに登録されている更新履歴情報に新たに追加すると共に、当該更新履歴情報の最終更新日時を、今回取得した要約文書に設定されている最終更新日時で上書きすることで更新する。対応する要約文書が存在しているウェブ文書が更新されると、対応する要約文書上でも、ウェブ文書中の更新された項目に対応する属性情報が更新(上書き)されるが、本実施形態に係る更新履歴情報収集処理では、ウェブ文書中の特定項目が更新されたことに伴って対応する要約文書中の特定項目に対応する属性情報が更新される毎に、更新履歴情報DBに既に登録されている更新履歴情報に含まれる特定項目に対応する属性情報を更新後の属性情報で上書きすることなく、更新履歴情報DBに既に登録されている更新履歴情報に更新後の属性情報を追加するので、更新履歴情報には、対応するウェブ文書の更新履歴を表す情報が逐次蓄積されることになる。  Instep 154, the attribute information extracted from the summary document instep 152 is newly added to the update history information registered in the update history information DB, and the latest update date and time of the update history information is acquired this time. Update by overwriting with the last update date and time set in the document. When a web document in which a corresponding summary document exists is updated, attribute information corresponding to the updated item in the web document is also updated (overwritten) on the corresponding summary document. In such update history information collection processing, every time attribute information corresponding to a specific item in a corresponding summary document is updated as a specific item in a web document is updated, it is already registered in the update history information DB. The updated attribute information is added to the update history information already registered in the update history information DB without overwriting the attribute information corresponding to the specific item included in the update history information with the updated attribute information. In the update history information, information indicating the update history of the corresponding web document is sequentially accumulated.

次のステップ156では、更新履歴情報収集処理を終了するか否か判定する。判定が否定された場合はステップ130に戻り、ステップ130以降の処理を繰り返す。また、ステップ156の判定が肯定されると処理を終了する。なお、上記の更新履歴情報収集処理におけるステップ140〜ステップ156の処理は本発明に係る更新履歴生成手段に対応しており、請求項4に記載の「更新履歴情報を第3場所情報と対応付けて第2記憶手段に記憶させる」更新履歴生成手段にも対応している。  In thenext step 156, it is determined whether or not to end the update history information collection process. When determination is denied, it returns to step 130 and repeats the process afterstep 130. FIG. If the determination atstep 156 is affirmative, the process ends. Note that the processing of step 140 to step 156 in the update history information collection processing corresponds to the update history generation means according to the present invention, and the “update history information is associated with the third place information” according to claim 4. The update history generation means "is stored in the second storage means."

上記の更新履歴情報収集処理により、更新履歴情報DBに未登録の要約文書が発見される毎に、該要約文書から属性情報等が抽出され更新履歴情報として更新履歴情報DBに登録されると共に、更新履歴情報DBに更新履歴情報として既に登録されている要約文書が更新されたことが発見される毎に、更新された要約文書から更新された属性情報のみが抽出され、更新履歴情報DBに既に登録されている更新履歴情報へ追加することが繰り返されることになる。要約文書は対応するウェブ文書よりも確実に情報量が少なく、ウェブ文書本体の情報を全て取得する場合よりも短時間で通信が終了するので、ウェブ文書本体の情報を全て取得して各ウェブ文書の更新履歴を収集する場合と比較して、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映されることになり、更新履歴情報DBは、インターネット16に公開されているウェブ文書のうち対応する要約情報が存在しているウェブ文書の各々の最新の更新履歴が登録されている状態に保たれることになる。  Each time an unregistered summary document is found in the update history information DB by the above update history information collection process, attribute information and the like are extracted from the summary document and registered as update history information in the update history information DB. Each time it is discovered that a summary document already registered as update history information in the update history information DB has been updated, only the updated attribute information is extracted from the updated summary document, and the update history information DB has already been updated. Adding to the registered update history information is repeated. The summary document has less information than the corresponding web document, and the communication is completed in a shorter time than when all the information of the web document is acquired. The update of the web document is reflected in the update history information DB in a shorter time compared to the case of collecting the update history of the update history information DB. The latest update history of each Web document in which the corresponding summary information exists is kept in a registered state.

更に、収集・検索サーバ18のCPU18Aが発信者情報収集プログラムを実行することで収集・検索サーバ18によって行われる発信者情報収集処理について、図4のフローチャートを参照して説明する。なお、この発信者情報収集処理は、URI情報DBにURIが記憶されている発信者識別文書を取得し、取得した発信者識別文書から抽出した情報を発信者情報DBに発信者情報として記憶させる処理であり、この発信者情報収集処理も先に説明したメタ情報URI収集処理、更新履歴情報収集処理と同様、収集・検索サーバ18によって常時又は定期的に実行される。  Furthermore, the caller information collection process performed by the collection /search server 18 when theCPU 18A of the collection /search server 18 executes the caller information collection program will be described with reference to the flowchart of FIG. In this sender information collection process, a sender identification document whose URI is stored in the URI information DB is acquired, and information extracted from the acquired sender identification document is stored as sender information in the sender information DB. This sender information collection process is also executed by the collection /retrieval server 18 at all times or periodically, similar to the meta information URI collection process and update history information collection process described above.

ステップ160では、URI情報DBから発信者識別文書のURIを取り込み、次のステップ162では、ステップ160で取り込んだURIに対応する発信者識別文書の配信を、該発信者識別文書を保管しているウェブ・サーバ12に対して要求する。ステップ164では上記のウェブ・サーバ12と通信が可能か否か判定する。例えばウェブ・サーバ12が稼働していなかった等の場合には前記判定が肯定され、何ら処理を行うことなくステップ186へ移行する。また、ステップ164の判定が肯定された場合はステップ166へ移行し、ウェブ・サーバ12からの情報の受信を待ち、情報を受信すると該情報をメモリに一時保存させた後に、発信者識別文書の情報を上記のウェブ・サーバ12から取得できたか否か判定する。なお、上述したステップ160〜ステップ166は請求項4に記載の第2取得手段に対応している。  Instep 160, the URI of the sender identification document is fetched from the URI information DB, and in thenext step 162, the sender identification document corresponding to the URI fetched instep 160 is distributed and the sender identification document is stored. Request toweb server 12. Instep 164, it is determined whether or not communication with theweb server 12 is possible. For example, if theweb server 12 is not operating, the determination is affirmed, and the process proceeds to step 186 without performing any processing. If the determination instep 164 is affirmative, the process proceeds to step 166, waits for reception of information from theweb server 12, and when the information is received, the information is temporarily stored in the memory, and then the sender identification document is stored. It is determined whether information has been acquired from theweb server 12.Steps 160 to 166 described above correspond to the second acquisition means described in claim 4.

ウェブ・サーバ12から受信した情報が、指定されたURIに対応する発信者識別文書が存在していないことを意味する情報であった場合には、例えばウェブ文書の情報中のリンク情報の記述が誤っていた等の原因が考えられるので、上記判定が肯定されてステップ168へ移行し、ステップ160で取り込んだ発信者識別文書のURIをURI情報DBから削除した後にステップ186へ移行する。なおステップ168において、削除したURIが設定されていたURI情報が、前記削除したURIのみがメタ情報のURIとして設定された情報であった場合には、当該URI情報自体もURI情報DBから削除する。  If the information received from theweb server 12 is information indicating that there is no caller identification document corresponding to the specified URI, for example, the description of link information in the information of the web document is described. Since the cause such as an error may be considered, the above determination is affirmed and the process proceeds to step 168. After the URI of the sender identification document fetched instep 160 is deleted from the URI information DB, the process proceeds to step 186. Instep 168, when the URI information in which the deleted URI is set is information in which only the deleted URI is set as the URI of the meta information, the URI information itself is also deleted from the URI information DB. .

一方、ウェブ・サーバ12から受信してメモリに一時保存させた情報が発信者識別文書の情報であった場合には、ステップ166の判定が肯定されてステップ170へ移行し、先のステップ160で取り込んだ発信者識別文書のURIと対応付けられてURI情報DBに記憶されているウェブ文書(上記の発信者識別文書に対応するウェブ文書)のURIをキーにして発信者情報DBを検索する。そしてステップ172では、ステップ170の検索によって該当する発信者情報が抽出されたか否か判定する。  On the other hand, when the information received from theweb server 12 and temporarily stored in the memory is the information of the caller identification document, the determination instep 166 is affirmed and the process proceeds to step 170. The sender information DB is searched by using the URI of the web document (web document corresponding to the sender identification document) stored in the URI information DB in association with the URI of the fetched sender identification document as a key. Instep 172, it is determined whether corresponding sender information has been extracted by the search instep 170.

発信者識別文書は対応するウェブ文書の発信者を識別する情報を提示する文書であり、例として図5に示すように、対応するウェブ文書の発信者の氏名、発信者の電子メールのアドレス及びホームページのURIが設定される。詳細は後述するが、本実施形態に係る発信者情報収集処理では、新たな発信者識別文書を取得する毎に、例として図6(C)に示すように、取得した発信者識別文書から発信者の氏名、電子メールのアドレス及びホームページのURIを抽出し、抽出した情報に最終更新日時を付加し、対応するウェブ文書のURIと対応付けて発信者情報DBに発信者情報として登録しているので、ステップ170の検索によって該当する発信者情報が抽出されなかった場合には、今回取得した発信者識別文書は、過去に取得されていない発信者識別文書であると判断できる。このため、ステップ172の判定が否定された場合はステップ174へ移行し、取得した発信者識別文書から発信者の氏名、メールアドレス及びホームページのURIを抽出する。  The sender identification document is a document that presents information for identifying the sender of the corresponding web document. As shown in FIG. 5, for example, the name of the sender of the corresponding web document, the email address of the sender, The home page URI is set. Although details will be described later, in the caller information collection processing according to the present embodiment, every time a new caller identification document is acquired, as shown in FIG. 6C as an example, a call is sent from the acquired caller identification document. The name, e-mail address and home page URI of the sender are extracted, the last update date and time is added to the extracted information, and the sender information DB is registered as the sender information in association with the URI of the corresponding web document. Therefore, when the corresponding sender information is not extracted by the search instep 170, it can be determined that the sender identification document acquired this time is a sender identification document that has not been acquired in the past. Therefore, if the determination instep 172 is negative, the process proceeds to step 174, and the sender's name, mail address, and home page URI are extracted from the acquired sender identification document.

なお、発信者識別文書では、図5に示すように文字列「<foaf:name>」と文字列「</foaf:name>」によって挟まれた文字列が発信者の氏名を、文字列「<foaf:mbox」と文字列「/>」によって挟まれた文字列のうち文字列「rdf:resource="」と文字「"」によって挟まれた文字列が発信者のメールアドレスのテキストを、文字列「<foaf:mbox_sha1sum>」と文字列「</foaf:mbox_sha1sum>」によって挟まれた文字列が発信者のメールアドレスのハッシュ値を、文字列「<foaf:homepage」と文字列「/>」によって挟まれた文字列のうち文字列「rdf:resource="」と文字「"」によって挟まれた文字列が発信者のホームページのURIを各々表している。このため、ステップ174では上記の条件に従ってウェブ文書の発信者の氏名、メールアドレス(テキスト及びハッシュ値の少なくとも一方)及びホームページのURIを各々抽出する。  In the caller identification document, as shown in FIG. 5, a character string sandwiched between a character string “<foaf: name>” and a character string “</ foaf: name>” indicates the name of the caller, and the character string “ Of the character string sandwiched between <foaf: mbox "and the character string" /> ", the character string sandwiched between the character string" rdf: resource = "" and the character "" is the text of the sender's email address. The string between the string "<foaf: mbox_sha1sum>" and the string "</ foaf: mbox_sha1sum>" is the hash value of the sender's email address, the string "<foaf: homepage" and the string "/ Among the character strings sandwiched between “>”, the character strings sandwiched between the character string “rdf: resource =” and the character ““ ”represent the URI of the home page of the caller. Therefore, instep 174, the name of the sender of the web document, the mail address (at least one of text and hash value), and the URI of the home page are extracted according to the above conditions.

そしてステップ176では、発信者識別文書から抽出した情報に現在の日時を最終更新日時として付加し、対応するウェブ文書のURIと対応付けて発信者情報DBに発信者情報(図6(C)も参照)として新規に登録した後に、ステップ186へ移行する。  Instep 176, the current date and time is added as the last update date and time to the information extracted from the caller identification document, and the caller information (FIG. 6C) is also stored in the caller information DB in association with the URI of the corresponding web document. After newly registering as reference), the process proceeds to step 186.

一方、ステップ170の検索によって該当する発信者情報が抽出された場合には、今回取得した発信者識別文書は、発信者情報収集処理によって過去に発信者情報の登録が行われた発信者識別文書であると判断できるので、ステップ172の判定が肯定されてステップ178へ移行し、ステップ170の検索によって発信者情報DBから抽出された発信者情報に含まれる発信者氏名、メールアドレス、ホームページURIを、取得した発信者識別文書から抽出した発信者氏名、メールアドレス、ホームページURIと各々比較する。そしてステップ180では、両者の発信者氏名、メールアドレス、ホームページURIが各々一致したか否か判定する。ステップ180の判定が肯定された場合、今回取得した発信者識別文書は発信者情報収集処理によって以前に取得した発信者識別文書と同一の内容と判断できるので、何ら処理を行うことなくステップ186へ移行する。  On the other hand, when the corresponding sender information is extracted by the search instep 170, the sender identification document acquired this time is the sender identification document in which the sender information has been registered in the past by the sender information collection process. Therefore, the determination instep 172 is affirmed and the process proceeds to step 178, where the sender name, mail address, and homepage URI included in the sender information extracted from the sender information DB by the search instep 170 are determined. The sender name, the mail address, and the homepage URI extracted from the acquired sender identification document are respectively compared. Instep 180, it is determined whether or not the sender name, mail address, and home page URI of the two match. If the determination instep 180 is affirmed, the caller identification document acquired this time can be determined to be the same content as the caller identification document acquired previously by the caller information collection process, so the process proceeds to step 186 without any processing. Transition.

また、ステップ180の判定が否定された場合は、今回取得した発信者識別文書は発信者情報収集処理によって以前に取得した発信者識別文書から更新されていると判断できるので、ステップ182において、発信者情報DBに登録されている発信者情報に設定されている各情報のうち、今回取得した発信者識別文書から取得した各情報と一致していない情報を、発信者識別文書から抽出した情報により上書きすることで、発信者情報DBに登録されている発信者情報を更新する。また、ステップ184では現在の日時を取得し、発信者情報DBに登録されている発信者識別情報のうちの最終更新日時を取得した現在の日時へ更新する。次のステップ186では発信者情報収集処理を終了するか否か判定する。判定が否定された場合はステップ160に戻り、ステップ160以降の処理を繰り返す。また、ステップ186の判定が肯定されると処理を終了する。なお、上述した発信者情報収集処理のステップ170〜ステップ186は請求項4に記載の更新履歴生成手段に対応している。  If the determination instep 180 is negative, it can be determined that the caller identification document acquired this time has been updated from the caller identification document previously acquired by the caller information collection process. Of the information set in the sender information registered in the sender information DB, information that does not match the information acquired from the sender identification document acquired this time is obtained by the information extracted from the sender identification document. By overwriting, the caller information registered in the caller information DB is updated. Instep 184, the current date and time are acquired, and the latest update date and time of the caller identification information registered in the caller information DB is updated to the acquired current date and time. In thenext step 186, it is determined whether or not to terminate the caller information collection process. If the determination is negative, the process returns to step 160, and the processes afterstep 160 are repeated. If the determination atstep 186 is affirmative, the process is terminated. Note that Steps 170 to 186 of the sender information collection process described above correspond to the update history generation means described in claim 4.

上記の発信者情報収集処理により、発信者情報DBに未登録の発信者識別文書を発見する毎に、該発信者識別文書から発信者の属性情報(発信者氏名、メールアドレス、ホームページURI)を抽出し発信者情報として発信者情報DBに登録し、発信者情報DBに発信者情報として既に登録されている発信者識別文書が更新されたことを発見する毎に、該発信者識別文書に設定されている各情報のうち更新された情報を、発信者情報DBに既に登録されている発信者情報に上書きして登録することが繰り返されるので、発信者情報DBは、発信者識別文書によってインターネット16に公開されている各発信者の最新の属性情報が登録されている状態に保たれることになる。  Each time the sender identification document unregistered in the sender information DB is discovered by the above-mentioned sender information collection process, the attribute information (sender name, mail address, home page URI) of the sender is obtained from the sender identification document. Extracted and registered in the sender information DB as sender information, and set in the sender identification document every time it is found that the sender identification document already registered as sender information in the sender information DB has been updated. Since the updated information is repeatedly overwritten and registered on the caller information DB already registered in the caller information DB, the caller information DB is stored on the Internet by the caller identification document. Thus, the latest attribute information of each sender disclosed in FIG. 16 is kept registered.

続いて、収集・検索サーバ18のCPU18Aが情報検索プログラムを実行することで収集・検索サーバ18によって行われる情報検索処理について、図7のフローチャートを参照して説明する。収集・検索サーバ18は、クライアント端末30から検索処理の実行が要求されると、検索処理に用いるキーワードを指定させるための検索キーワード入力画面(例えば図8(A)参照)や、検索対象の情報の更新日時の範囲を指定させるための更新日時指定画面(図示省略)の情報を順次クライアント端末30へ転送することで、クライアント端末30の表示装置に上記各画面を順次表示させる。そして、クライアント端末30の操作者が入力装置を操作して各画面の入力欄に対応する情報を各々入力することで、実行すべき検索処理に用いるキーワード及び更新日時の範囲を指定する情報がクライアント端末30から送信され収集・検索サーバ18で受信されると、収集・検索サーバ18によって情報検索処理が実行される。なお、情報検索処理は請求項3,6に記載の検索手段に対応している。  Next, information search processing performed by the collection /search server 18 when theCPU 18A of the collection /search server 18 executes the information search program will be described with reference to the flowchart of FIG. When theclient terminal 30 requests execution of the search process, the collection /search server 18 searches a search keyword input screen (for example, see FIG. 8A) for specifying a keyword used for the search process, and information on the search target By sequentially transferring information on an update date and time designation screen (not shown) for designating the range of update dates and times to theclient terminal 30, the respective screens are sequentially displayed on the display device of theclient terminal 30. Then, when the operator of theclient terminal 30 operates the input device and inputs information corresponding to the input field of each screen, information specifying the keyword used for the search process to be executed and the range of the update date / time is stored in the client. When the data is transmitted from the terminal 30 and received by the collection /search server 18, the information search process is executed by the collection /search server 18. The information search process corresponds to the search means described in claims 3 and 6.

この情報検索処理では、まずステップ190において、今回の情報検索処理で未取り出しの更新履歴情報を処理対象の更新履歴情報として更新履歴情報DBから取り出す。次のステップ192では、ステップ190で取り出した処理対象の更新履歴情報に設定されている各属性情報のうち、今回の情報検索処理で未取り出しの属性情報(対応するウェブ文書のうちの特定項目に対応するタイトル、要約文、更新日時、本文URIの各情報)を処理対象の属性情報として取り出す。ステップ194では処理対象の属性情報に含まれる更新日時をクライアント端末30から受信した更新日時の範囲と比較することで、処理対象の属性情報に含まれる更新日時がクライアント端末30から指定された更新日時の範囲内か否か判定する。また、この判定が肯定された場合はステップ196へ移行し、処理対象の属性情報のうちのタイトル及び要約文に対してクライアント端末30から受信したキーワードの検索を行うことで、処理対象の属性情報のうちのタイトル及び要約文に、クライアント端末30から指定されたキーワードが含まれているか否か判定する。  In this information search process, first, instep 190, update history information that has not been extracted in the current information search process is extracted from the update history information DB as update history information to be processed. In the next step 192, among the pieces of attribute information set in the update history information to be processed extracted instep 190, the attribute information that has not been extracted in the current information search process (specific items in the corresponding web document). Corresponding title, summary text, update date / time, and text URI information) are extracted as attribute information to be processed. Instep 194, the update date / time included in the processing target attribute information is compared with the range of the update date / time received from theclient terminal 30 so that the update date / time included in the processing target attribute information is designated by theclient terminal 30. It is determined whether it is within the range. If this determination is affirmed, the process proceeds to step 196, and the keyword information received from theclient terminal 30 is searched for the title and summary text of the attribute information to be processed, so that the attribute information to be processed It is determined whether the keyword designated from theclient terminal 30 is included in the title and the summary sentence.

ステップ194の判定が否定された場合には、処理対象の属性情報に対応するウェブ文書本体の特定項目は、指定された更新日時の範囲外の日時に更新されたと判断することができる。また、ステップ196の判定が否定された場合には、処理対象の属性情報に対応するウェブ文書本体の特定項目は、指定されたキーワードとは無関係な内容である可能性が高いと判断することができる。このため、ステップ194又はステップ196の判定が否定された場合は何ら処理を行うことなくステップ206へ移行し、処理対象の更新履歴情報から全ての属性情報の取り出しを行ったか否か判定する。判定が否定された場合はステップ192に戻る。これにより、ステップ206の判定が肯定される迄の間、ステップ192〜ステップ206が繰り返され、処理対象の更新履歴情報に含まれる全ての属性情報を順に取り出しながら、取り出した属性情報に対してステップ192以降の処理が各々行われることになる。また、ステップ206の判定が肯定されるとステップ208へ移行し、更新履歴情報DBに記憶されている全ての更新履歴情報の取り出しを行ったか否か判定する。判定が否定された場合はステップ190に戻る。これにより、ステップ208の判定が肯定される迄の間、ステップ190〜ステップ208が繰り返され、更新履歴情報DBに記憶されている全ての更新履歴情報を順に取り出しながら、取り出した更新履歴情報(に設定されている各属性情報)に対してステップ190以降の処理が各々行われることになる。  If the determination instep 194 is negative, it can be determined that the specific item of the web document main body corresponding to the attribute information to be processed has been updated to a date and time outside the specified update date and time range. If the determination instep 196 is negative, it may be determined that there is a high possibility that the specific item of the web document main body corresponding to the attribute information to be processed has contents irrelevant to the specified keyword. it can. Therefore, if the determination instep 194 or 196 is negative, the process proceeds to step 206 without performing any processing, and it is determined whether or not all attribute information has been extracted from the update history information to be processed. If the determination is negative, the process returns to step 192. Thus, steps 192 to 206 are repeated until the determination instep 206 is affirmed, and all the attribute information included in the update history information to be processed is sequentially extracted, and the extracted attribute information is stepped. Each of the processes after 192 is performed. If the determination instep 206 is affirmative, the process proceeds to step 208 to determine whether all update history information stored in the update history information DB has been extracted. If the determination is negative, the process returns to step 190. Thus, steps 190 to 208 are repeated until the determination instep 208 is affirmed, and all the update history information stored in the update history information DB is sequentially extracted, and the extracted update history information (N Each processing afterstep 190 is performed on each set attribute information).

また、更新履歴情報DBに記憶されている各更新履歴情報の各属性情報に対して上記処理が繰り返されている間に、特定の属性情報に関してステップ194,196の判定が各々肯定された場合(属性情報に含まれる更新日時が指定された更新日時の範囲内で、属性情報に含まれるタイトル又は要約文に指定されたキーワードが含まれている場合)にはステップ198へ移行し、該特定の属性情報を含む更新履歴情報に付加されている、対応するウェブ文書のURIを更新履歴情報DBから抽出し、特定の属性情報を抽出したウェブ文書のURIと共に検索結果としてメモリに保存する。また、ステップ200では、ステップ198で抽出した対応するウェブ文書のURIをキーに発信者情報DBを検索し、次のステップ202では、ステップ200の検索によって該当する発信者情報が抽出されたか否か判定する。この判定が否定された場合には何ら処理を行うことなくステップ206へ移行するが、前記判定が肯定された場合はステップ204へ移行し、ステップ200の検索によって抽出された発信者情報を発信者情報DBから読み出し、読み出した発信者情報を先のステップ198でメモリに保存した属性情報に付加した後に、ステップ206へ移行する。  Further, when the above processing is repeated for each piece of attribute information of each piece of update history information stored in the update history information DB, the determinations ofsteps 194 and 196 are respectively affirmed regarding specific attribute information ( If the keyword specified in the title or summary sentence included in the attribute information is included within the range of the update date specified in the attribute information, the process proceeds to step 198 and the specific information The URI of the corresponding web document added to the update history information including the attribute information is extracted from the update history information DB and stored in the memory as a search result together with the URI of the web document from which the specific attribute information is extracted. Instep 200, the sender information DB is searched using the URI of the corresponding web document extracted instep 198 as a key. In thenext step 202, whether the corresponding sender information is extracted by the search instep 200 or not. judge. If this determination is denied, the process proceeds to step 206 without performing any processing. If the determination is affirmed, the process proceeds to step 204, and the sender information extracted by the search instep 200 is transmitted to the sender. After reading from the information DB and adding the read sender information to the attribute information stored in the memory in theprevious step 198, the process proceeds to step 206.

そして、更新履歴情報DBに記憶されている各更新履歴情報の各属性情報に対して上記処理が完了すると、ステップ208の判定が肯定されてステップ210へ移行する。上記の情報検索処理では、殆どの場合、複数の検索結果がメモリに保存される。このため、ステップ210ではメモリに保存されている個々の検索結果に含まれる更新日時を参照し、個々の検索結果を更新日時の降順でソートする。そして、例として図8に示すように、検索結果をソート後の順序で表示するための検索結果一覧表示画面を生成し、生成した検索結果表示画面の情報をクライアント端末30へ送信して処理を終了する。これにより、クライアント端末30の表示装置には図8に示すような検索結果一覧表示画面が表示されることになる。なお、図8に示す検索結果一覧表示画面では、個々の検索結果毎にタイトル、要約文、更新日時、発信者(配信者)の氏名及びメールアドレスが文字列で表示されており、要約文の文字列には本文のURIがリンク付けされ、発信者の氏名の文字列には発信者のホームページのURIがリンク付けされている。  When the above processing is completed for each attribute information of each update history information stored in the update history information DB, the determination instep 208 is affirmed and the process proceeds to step 210. In the information search process described above, in most cases, a plurality of search results are stored in the memory. For this reason, instep 210, the update date and time included in the individual search results stored in the memory is referred to, and the individual search results are sorted in descending order of the update date and time. Then, as shown in FIG. 8 as an example, a search result list display screen for displaying the search results in the order after sorting is generated, and the generated search result display screen information is transmitted to theclient terminal 30 for processing. finish. As a result, a search result list display screen as shown in FIG. 8 is displayed on the display device of theclient terminal 30. In the search result list display screen shown in FIG. 8, the title, summary text, update date, sender (distributor) name and email address are displayed in character strings for each search result. The character string is linked with the URI of the text, and the character string of the sender's name is linked with the URI of the sender's home page.

クライアント端末30の表示装置に表示された上記の検索結果一覧表示画面を参照することで、クライアント端末30の操作者は、指定したキーワードを含み、かつ指定した更新日時の範囲内に更新された情報(ウェブ文書の単一の項目に相当する情報)を認識することができ、特定の検索結果における要約文の文字列を選択することで、収集・検索サーバ18を介して対応する本文(ウェブ文書)の情報を取得し、前記対応する本文を表示装置に表示させて内容を確認することができる。また、特定の検索結果における発信者氏名の文字列を選択することで、収集・検索サーバ18を介して発信者のホームページの情報を取得し、前記発信者のホームページを表示装置に表示させて内容を閲覧することも可能となる。  By referring to the search result list display screen displayed on the display device of theclient terminal 30, the operator of theclient terminal 30 includes the specified keyword and is updated within the specified update date and time range. (Information corresponding to a single item of a web document) can be recognized, and by selecting a character string of a summary sentence in a specific search result, a corresponding text (web document) is obtained via the collection / search server 18. ) Information, and the corresponding text can be displayed on the display device to confirm the content. In addition, by selecting a character string of a sender name in a specific search result, information on the sender's homepage is acquired via the collection /search server 18, and the sender's homepage is displayed on a display device. Can also be viewed.

このように、本実施形態では、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映され、更新履歴情報DBは、インターネット16に公開されているウェブ文書のうち対応する要約情報が存在しているウェブ文書の各々の最新の更新履歴が登録されている状態に保たれるので、ウェブ文書の更新がより短い時間で検索結果に反映される。また、本実施形態では、ウェブ文書の各項目毎のタイトル、要約文、更新日時等の属性情報を更新履歴情報として記憶し、ウェブ文書が更新される毎に、該ウェブ文書のうち更新された項目の属性情報を更新履歴情報に追加すると共に、キーワード及び更新日時の範囲が指定されて検索が指示されると、更新日時が指定された更新日時の範囲内で、タイトル又は要約文に指定されたキーワードが含まれている属性情報を検索し、該当する属性情報を検索結果として出力するので、検索結果として、指定したキーワードを含み、かつ指定した更新日時の範囲内に更新された情報を提示することができる。  As described above, in this embodiment, the update of the web document is reflected in the update history information DB in a shorter time, and the update history information DB includes the corresponding summary information among the web documents published on theInternet 16. Since the latest update history of each Web document is registered, the update of the Web document is reflected in the search result in a shorter time. Further, in the present embodiment, attribute information such as title, summary sentence, update date and time for each item of the web document is stored as update history information, and updated every time the web document is updated. When the attribute information of the item is added to the update history information and a search is instructed by specifying the keyword and the update date / time range, the update date / time is specified in the title or summary sentence within the specified update date / time range. Search for attribute information that includes the specified keyword and output the corresponding attribute information as a search result. As a search result, information that includes the specified keyword and is updated within the specified update date and time range is presented. can do.

また、上述したコンピュータ・システム10を利用することで、現時点での個々の顧客のニーズを的確に把握し、現時点での個々の顧客のニーズに合致した商品を個々の顧客へ直ちに紹介することも可能となる。すなわち、近年、ブログ(blog)或いはウェブログ(Weblog)とも称され、個人運営で日々更新される日記的なウェブサイト(以下、単に個人サイトと称する)が広範に普及してきている。この種の個人サイトは、発信者の行動記録、発信者が興味を持ったニュースの評論、他のウェブサイトの紹介が掲載されることが多く、発信者に旅行や自動車・住宅の購入等の予定があればこれらの予定も発信者の個人サイトに掲載される可能性が高い。また、極めて高い頻度で更新されることが多いという特徴がある。  In addition, by using the computer system 10 described above, it is possible to accurately grasp the needs of individual customers at the present time and immediately introduce products that meet the needs of individual customers to the individual customers. It becomes possible. That is, in recent years, diary websites (hereinafter simply referred to as “personal sites”), which are also referred to as blogs or blogs (Weblogs) and are updated daily by personal management, have become widespread. This type of personal site often contains information about the caller's behavior, reviews of news that the caller is interested in, and introductions to other websites. If there are plans, these plans are likely to be posted on the sender's personal site. In addition, there is a feature that it is frequently updated at an extremely high frequency.

本実施形態に係るコンピュータ・システム10では、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映されると共に、更新日時の範囲を指定することができるので、例えば旅行や車・住宅の購入等の予定に関連するキーワードを指定すると共に、ごく最近に更新された情報のみが検索対象となるように指定する更新日時の範囲を絞り込むことで、旅行や自動車・住宅の購入等の予定があることを情報として発信している個人サイトを容易に抽出することができる。また、本実施形態に係るコンピュータ・システム10では、検索結果に対応する発信者情報が存在している場合には、検索結果に発信者の氏名やメールアドレス等の発信者情報も付加されるので、検索結果に相当する情報を発信している発信者に対して電子メールを送信することも可能である。  In the computer system 10 according to the present embodiment, the update of the web document is reflected in the update history information DB in a shorter time and the range of the update date can be specified. In addition to specifying keywords related to the schedule, etc., and narrowing the range of update date and time to specify that only the most recently updated information is to be searched, there are schedules such as travel, purchase of cars and houses, etc. It is possible to easily extract a personal site that transmits information as information. Further, in the computer system 10 according to the present embodiment, when the sender information corresponding to the search result exists, the sender information such as the sender's name and mail address is added to the search result. It is also possible to send an e-mail to a sender who is sending information corresponding to the search result.

このため、本実施形態に係るコンピュータ・システム10を利用した検索により、例えば旅行の予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して旅行ローンを紹介する電子メールを送信し、自動車を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して自動車ローンを紹介する電子メールを送信し、自動車を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して自動車ローンを紹介する電子メールを送信し、住宅を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して住宅ローンを紹介する電子メールを送信する等により、現時点での個々の顧客のニーズに合致した商品を個々の顧客へ直ちに紹介することができる。  For this reason, when a search using the computer system 10 according to the present embodiment finds, for example, a caller who is sending information on a personal site that there is a travel plan, If you send an e-mail that introduces a travel loan and find a caller who sends information on your personal site that you plan to purchase a car, you can find an e-mail that introduces the car loan to this caller. If you send a mail and find a caller who is sending information on your personal site that you plan to purchase a car, send an e-mail introducing your car loan to this caller, If you find a caller who sends information on your personal site that you plan to purchase a home page, send an email to this caller that introduces your mortgage. By like to, immediately it is possible to introduce products that meet the needs of individual customers at the moment to the individual customer.

なお、上記では収集・検索サーバ18に直接接続されたクライアント端末30から検索要求を受信すると、情報検索処理を行って検索結果をクライアント端末30へ送信する態様を説明したが、これに限定されるものではなく、インターネット16に接続された各クライアント端末14に対し、上記の情報検索処理を検索エンジンサービスとして提供するようにしてもよい。この場合、収集・検索サーバ18をウェブ・サーバとしても機能させるようにしてもよいが、例えば図1で破線で示すように、インターネット16に接続された特定のウェブ・サーバ12と収集・検索サーバ18(の通信制御装置20)を直接接続し、クライアント端末14から指定されたキーワードや更新日時の範囲等の情報が特定のウェブ・サーバ12から収集・検索サーバ18へ送信されると共に、収集・検索サーバ18によって実行された情報検索処理の結果が収集・検索サーバ18から特定のウェブ・サーバ12へ送信されるように構成し、この特定のウェブ・サーバ12によって検索キーワード入力画面のウェブページや検索結果一覧表示画面のウェブページがクライアント端末14へ配信されるようにした方が、収集・検索サーバ18の負荷が軽減されるので好ましい。  In the above description, a mode has been described in which when a search request is received from theclient terminal 30 directly connected to the collection /search server 18, an information search process is performed and the search result is transmitted to theclient terminal 30. Instead, the above information search processing may be provided as a search engine service to eachclient terminal 14 connected to theInternet 16. In this case, the collection /search server 18 may function as a web server. For example, as shown by a broken line in FIG. 1, aspecific web server 12 connected to theInternet 16 and the collection / search server 18 (communication control device 20) is directly connected, and information such as a keyword specified from theclient terminal 14 and a range of update date / time is transmitted from thespecific web server 12 to the collection /search server 18 and The result of the information search process executed by thesearch server 18 is configured to be transmitted from the collection /search server 18 to aspecific web server 12, and the web page of the search keyword input screen is displayed by thespecific web server 12. If the web page of the search result list display screen is distributed to theclient terminal 14, the collection / search support is more effective. It preferred because the load of theserver 18 is reduced.

また、上記では発信者識別文書を取得し、発信者の氏名やメールアドレスを発信者情報DBに発信者情報として記憶しておき、検索結果に対応する発信者情報が存在している場合には、検索結果と共に発信者情報を出力する処理を行う例を説明したが、上記の処理は必須ではなく、省略してもよい。  In the above, when the sender identification document is obtained, the sender name and mail address are stored as sender information in the sender information DB, and the sender information corresponding to the search result exists. The example of performing the process of outputting the sender information together with the search result has been described, but the above process is not essential and may be omitted.

本実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the computer system which concerns on this embodiment.メタ情報URI収集処理の内容を示すフローチャートである。It is a flowchart which shows the content of a meta information URI collection process.更新履歴情報収集処理の内容を示すフローチャートである。It is a flowchart which shows the content of the update history information collection process.発信者情報収集処理の内容を示すフローチャートである。It is a flowchart which shows the content of a sender | caller information collection process.ウェブ文書本体と要約文書・発信者識別文書の内容の一例を示すイメージ図である。It is an image figure which shows an example of the content of a web document main body and a summary document / sender identification document.(A)はURI情報DB、(B)は更新履歴情報DB、(A)は発信者情報DBの一例を各々示すイメージ図である。(A) is a URI information DB, (B) is an update history information DB, and (A) is an image diagram showing an example of a sender information DB.情報検索処理の内容を示すフローチャートである。It is a flowchart which shows the content of an information search process.(A)は検索キーワード入力画面の一例、(B)は検索結果一覧表示画面の一例を各々示すイメージ図である。(A) is an example of a search keyword input screen, and (B) is an image diagram showing an example of a search result list display screen.

符号の説明Explanation of symbols

10 コンピュータ・システム
12 ウェブ・サーバ
16 インターネット
18 ウェブ・サーバ
18 収集・検索サーバ
28 HDD
30 クライアント端末
10Computer System 12Web Server 16Internet 18Web Server 18 Collection /Search Server 28 HDD
30 client terminals

Claims (7)

Translated fromJapanese
ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段と、
前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段と、
前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段と、
を含む更新履歴生成装置。
Web server is requested to deliver a web document, summary information representing a summary of the contents of each item of the web document, update date information representing the update date and time of each item, and last update date and time of the web document The summary information corresponding to the item updated each time the web document is updated, and the web document in which the summary document in which the update date information and the last date information are updated exists. It monitors whether or not the first location information indicating the location of the summary document set in the web document is included in the information of the web document sequentially received from the web server, and detects the first location information. Then, first communication is performed for each unspecified web document that disconnects communication with the web server and stores the detected first location information in the first storage means. And,
Second acquisition means for periodically acquiring the summary document from a web server based on the first location information stored in the first storage means;
If the summary document acquired by the second acquisition means is the first acquired summary document, the summary information, the update date / time information, and the last update for each item of the web document from the acquired summary document Each date / time information is extracted and stored as update history information in the second storage means, and the summary document acquired by the second acquisition means is a summary document acquired in the past, and the acquired summary document When the last update date and time represented by the last update date and time information included in the latest update date and time represented by the last update date and time information included in the corresponding update history information stored in the second storage unit is The summary information and the update date / time information corresponding to the specific item of the web document updated after the last update date / time represented by the last update date / time information included in the corresponding update history information Extracted from the acquired summary document and added to the update history information, and the last update date and time represented by the last update date and time information included in the acquired summary document and the last date and time information included in the corresponding update history information Update history generation means for updating to,
An update history generation device including:
前記要約文書はRSSフォーマット又はATOMフォーマットに従って記述されたXML文書であり、前記要約情報は、前記更新された部分のタイトルと該部分の要約文を含むことを特徴とする請求項1記載の更新履歴生成装置。  2. The update history according to claim 1, wherein the summary document is an XML document described according to an RSS format or an ATOM format, and the summary information includes a title of the updated part and a summary sentence of the part. Generator. 検索条件としてキーワード及び更新日時の範囲が指定されると、前記第2記憶手段に記憶されている更新履歴情報のうち、前記更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ前記要約情報に前記指定されたキーワードが含まれている前記要約情報及び前記更新日時情報を検索し、該当する前記要約情報及び前記更新日時情報を検索結果として出力する検索手段を更に備えたことを特徴とする請求項1記載の更新履歴生成装置。  When a keyword and a range of update date / time are specified as a search condition, the update date / time represented by the update date / time information in the update history information stored in the second storage unit is within the range of the specified update date / time. And a search means for searching for the summary information and the update date / time information in which the specified keyword is included in the summary information, and outputting the corresponding summary information and the update date / time information as a search result. The update history generation apparatus according to claim 1, wherein: 前記第1取得手段は、ウェブ文書の発信者の氏名を表す氏名情報、前記発信者の電子メールのアドレスを表すメールアドレス情報が設定された発信者識別文書が存在するウェブ文書について、前記ウェブ文書の情報中に設定される前記発信者識別文書の場所を表す第2場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かも監視し、前記第1場所情報又は前記第2場所情報を検知すると、検知した場所情報を、該場所情報に対応する文書の種別を表す種別情報及び前記ウェブ文書の場所を表す第3場所情報と対応付けて第1記憶手段に記憶させ、
前記第2取得手段は、前記第1記憶手段に記憶されている前記第2場所情報に基づいてウェブサーバからの前記発信者識別文書の取得も定期的に行い、
前記更新履歴生成手段は、前記更新履歴情報を前記第3場所情報と対応付けて前記第2記憶手段に記憶させると共に、前記第2取得手段によって取得された発信者識別文書が初めて取得された発信者識別文書である場合には、前記取得された発信者識別文書から前記氏名情報及び前記メールアドレス情報を抽出し、前記第3場所情報と対応付け発信者情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された発信者識別文書が過去にも取得が行われた発信者識別文書であり、かつ前記取得された発信者識別文書に含まれる前記氏名情報及び前記メールアドレス情報が、前記第2記憶手段に記憶されている対応する発信者情報に含まれる前記氏名情報又は前記メールアドレス情報と相違している場合には、前記対応する発信者情報に含まれる前記氏名情報又は前記メールアドレス情報を、前記取得された発信者識別文書に含まれる前記氏名情報又は前記メールアドレス情報へ更新する
ことを特徴とする請求項1記載の更新履歴生成装置。
The first acquisition means includes: a web document including a sender identification document in which name information indicating a name of a sender of a web document and mail address information indicating an address of the sender's e-mail are set; Whether or not the second location information indicating the location of the sender identification document set in the information is included in the information of the web document sequentially received from the web server, and the first location information or When the second location information is detected, the detected location information is stored in the first storage means in association with the type information indicating the type of the document corresponding to the location information and the third location information indicating the location of the web document. Let
The second acquisition unit also periodically acquires the caller identification document from a web server based on the second location information stored in the first storage unit,
The update history generation means stores the update history information in association with the third location information in the second storage means, and the transmission in which the caller identification document acquired by the second acquisition means is acquired for the first time If it is a person identification document, the name information and the e-mail address information are extracted from the acquired caller identification document and stored in the second storage means as the third place information and associated sender information, The sender identification document acquired by the second acquisition means is a sender identification document acquired in the past, and the name information and the mail address information included in the acquired sender identification document are If the name information or the mail address information included in the corresponding sender information stored in the second storage means is different, the corresponding sender 2. The update history generation device according to claim 1, wherein the name information or the e-mail address information included in the information is updated to the name information or the e-mail address information included in the acquired sender identification document. .
前記発信者識別文書はFOAFフォーマットに従って記述されたXML文書であることを特徴とする請求項4記載の更新履歴生成装置。  5. The update history generation apparatus according to claim 4, wherein the sender identification document is an XML document described according to a FOAF format. 検索条件としてキーワード及び更新日時の範囲が指定されると、前記第2記憶手段に記憶されている更新履歴情報のうち、前記更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ前記要約情報に前記指定されたキーワードが含まれている前記要約情報及び前記更新日時情報を検索し、該当する前記要約情報及び前記更新日時情報を検索結果として出力すると共に、検索結果として出力する前記要約情報及び前記更新日時情報を含む更新履歴情報と同一の第3場所情報と対応付けられて前記第2記憶手段に記憶されている前記発信者情報を検索し、該当する発信者情報が抽出された場合は、抽出された発信者情報に含まれる前記氏名情報及び前記メールアドレス情報を、前記要約情報及び前記更新日時情報と共に出力する検索手段を更に備えたことを特徴とする請求項4記載の更新履歴生成装置。  When a keyword and a range of update date / time are specified as a search condition, the update date / time represented by the update date / time information in the update history information stored in the second storage unit is within the range of the specified update date / time. And the summary information and the update date / time information in which the specified keyword is included in the summary information are searched, the corresponding summary information and the update date / time information are output as a search result, and output as a search result The sender information stored in the second storage means is searched in association with the same third location information as the update history information including the summary information and the update date and time information. When extracted, the name information and the e-mail address information included in the extracted caller information are output together with the summary information and the update date / time information. Update History generator according to claim 4, further comprising a search unit. 第1記憶手段及び第2記憶手段を備えたコンピュータを
ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段、
前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段、
及び、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段
として機能させる更新履歴生成プログラム。
A computer having a first storage means and a second storage means is requested to deliver a web document to a web server, and summary information indicating a summary of contents for each item of the web document and an update date and time for each item are provided. Update date and time information and last update date and time information indicating the last update date and time of the web document, the summary information and the update date and time information and the last date and time information corresponding to items updated each time the web document is updated As for the web document in which the summary document to be updated exists, the first location information indicating the location of the summary document set in the web document is included in the information of the web document sequentially received from the web server. If the first location information is detected, the communication with the web server is disconnected and the detected first location information is stored in the first storage means. And a first acquisition means for each of unspecified web documents,
Second acquisition means for periodically acquiring the summary document from a web server based on the first location information stored in the first storage means;
And when the summary document acquired by the second acquisition means is a summary document acquired for the first time, the summary information and the update date / time information for each item of the web document from the acquired summary document, Each of the last update date / time information is extracted and stored as update history information in the second storage unit, and the summary document acquired by the second acquisition unit is a summary document acquired in the past, and the acquired When the last update date and time represented by the last update date and time information included in the summary document is later than the last update date and time represented by the last update date and time information included in the corresponding update history information stored in the second storage unit Is the summary information and the update date corresponding to the specific item of the web document updated after the last update date and time represented by the last update date and time information included in the corresponding update history information Information is extracted from the acquired summary document and added to the update history information, and the last date and time information included in the corresponding update history information is represented by the last update date and time information included in the acquired summary document. An update history generation program that functions as an update history generation means for updating to the update date and time.
JP2004283723A2004-09-292004-09-29Update history generation device and programWithdrawnJP2006099341A (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
JP2004283723AJP2006099341A (en)2004-09-292004-09-29Update history generation device and program

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
JP2004283723AJP2006099341A (en)2004-09-292004-09-29Update history generation device and program

Publications (1)

Publication NumberPublication Date
JP2006099341Atrue JP2006099341A (en)2006-04-13

Family

ID=36239101

Family Applications (1)

Application NumberTitlePriority DateFiling Date
JP2004283723AWithdrawnJP2006099341A (en)2004-09-292004-09-29Update history generation device and program

Country Status (1)

CountryLink
JP (1)JP2006099341A (en)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2006139470A (en)*2004-11-112006-06-01Nippon Telegraph & Telephone East Corp Information providing apparatus, information providing method, and program thereof
JP2007300484A (en)*2006-05-012007-11-15Softbank Mobile CorpMobile communication terminal and server
JP2007299274A (en)*2006-05-012007-11-15Softbank Mobile CorpMobile communication terminal
JP2007310833A (en)*2006-05-222007-11-29Nippon Telegr & Teleph Corp <Ntt> Server apparatus and client apparatus and program thereof
JP2008158589A (en)*2006-12-202008-07-10Oki Electric Ind Co LtdUpdated information notification device, and updated information notification program
JP2009188951A (en)*2008-02-082009-08-20Sharp Corp Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, program, and recording medium
JP2009545815A (en)*2006-07-312009-12-24マイクロソフト コーポレーション Bidirectional multi-master synchronization via web syndication
JP2010211708A (en)*2009-03-122010-09-24Brother Ind LtdCommunication apparatus and program
EP2057555A4 (en)*2006-08-282010-10-13Korea Inst Sci & Tech SYSTEM FOR MANAGING RESULTING INFORMATION OBTAINED USING A URI IDENTIFIER AND ASSOCIATED METHOD
JP2010231426A (en)*2009-03-262010-10-14Brother Ind Ltd Communication device
JP2011039884A (en)*2009-08-142011-02-24Internatl Business Mach Corp <Ibm>System and program for collecting document
JP2011519443A (en)*2008-03-282011-07-07アルカテル−ルーセント Method for identifying complementary data relating to at least one content, method for transmitting said complementary data, and related processing device and application server
JP2011216115A (en)*2011-07-152011-10-27Hitachi LtdDownload control device
JP2012009024A (en)*2010-06-242012-01-12Nhn CorpDocument collection system and method
US8291013B2 (en)2009-03-122012-10-16Brother Kogyo Kabushiki KaishaCommunication apparatus and storage medium storing program
JP2015191558A (en)*2014-03-282015-11-02Kddi株式会社Electronic equipment, search method, and program
US9576063B2 (en)2007-04-202017-02-21Hitachi Maxell, Ltd.Download control device
CN107360240A (en)*2017-07-202017-11-17广东小天才科技有限公司Data updating method and system
CN111782798A (en)*2019-04-032020-10-16阿里巴巴集团控股有限公司Abstract generation method, device and equipment and project management method

Cited By (29)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
JP2006139470A (en)*2004-11-112006-06-01Nippon Telegraph & Telephone East Corp Information providing apparatus, information providing method, and program thereof
JP2007300484A (en)*2006-05-012007-11-15Softbank Mobile CorpMobile communication terminal and server
JP2007299274A (en)*2006-05-012007-11-15Softbank Mobile CorpMobile communication terminal
JP2007310833A (en)*2006-05-222007-11-29Nippon Telegr & Teleph Corp <Ntt> Server apparatus and client apparatus and program thereof
JP2009545815A (en)*2006-07-312009-12-24マイクロソフト コーポレーション Bidirectional multi-master synchronization via web syndication
US7904405B2 (en)2006-08-282011-03-08Korea Institute Of Science & Technology InformationSystem and method for managing outcome information based on URI data wherein knowledge is extended by using an inference rule for an inference service based on the Semantic Web
EP2057555A4 (en)*2006-08-282010-10-13Korea Inst Sci & Tech SYSTEM FOR MANAGING RESULTING INFORMATION OBTAINED USING A URI IDENTIFIER AND ASSOCIATED METHOD
JP2008158589A (en)*2006-12-202008-07-10Oki Electric Ind Co LtdUpdated information notification device, and updated information notification program
US11973821B2 (en)2007-04-202024-04-30Maxell, Ltd.Download control device
US11641390B2 (en)2007-04-202023-05-02Maxell, Ltd.Download control device
US9576063B2 (en)2007-04-202017-02-21Hitachi Maxell, Ltd.Download control device
US11271988B2 (en)2007-04-202022-03-08Maxell, Ltd.Download control device
US10834172B2 (en)2007-04-202020-11-10Maxell, Ltd.Download control device
US10200449B2 (en)2007-04-202019-02-05Maxell, Ltd.Download control device
US10187449B2 (en)2007-04-202019-01-22Maxell, Ltd.Download control device
JP2009188951A (en)*2008-02-082009-08-20Sharp Corp Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, program, and recording medium
US8300944B2 (en)2008-02-082012-10-30Sharp Kabushiki KaishaImage processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, and storage medium
JP2011519443A (en)*2008-03-282011-07-07アルカテル−ルーセント Method for identifying complementary data relating to at least one content, method for transmitting said complementary data, and related processing device and application server
JP2010211708A (en)*2009-03-122010-09-24Brother Ind LtdCommunication apparatus and program
US8291013B2 (en)2009-03-122012-10-16Brother Kogyo Kabushiki KaishaCommunication apparatus and storage medium storing program
JP2010231426A (en)*2009-03-262010-10-14Brother Ind Ltd Communication device
US8229934B2 (en)2009-08-142012-07-24International Business Machines CorporationSystem and program for collecting documents
JP2011039884A (en)*2009-08-142011-02-24Internatl Business Mach Corp <Ibm>System and program for collecting document
JP2012009024A (en)*2010-06-242012-01-12Nhn CorpDocument collection system and method
JP2011216115A (en)*2011-07-152011-10-27Hitachi LtdDownload control device
JP2015191558A (en)*2014-03-282015-11-02Kddi株式会社Electronic equipment, search method, and program
CN107360240A (en)*2017-07-202017-11-17广东小天才科技有限公司Data updating method and system
CN111782798A (en)*2019-04-032020-10-16阿里巴巴集团控股有限公司Abstract generation method, device and equipment and project management method
CN111782798B (en)*2019-04-032024-01-12阿里巴巴集团控股有限公司Digest generation method, digest generation device, digest generation equipment and project management method

Similar Documents

PublicationPublication DateTitle
US12417254B2 (en)Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
US7788274B1 (en)Systems and methods for category-based search
US8276065B2 (en)System and method for classifying electronically posted documents
US7146415B1 (en)Information source monitor device for network information, monitoring and display method for the same, storage medium storing the method as a program, and a computer for executing the program
JP2006099341A (en)Update history generation device and program
US8849818B1 (en)Searching via user-specified ratings
US20030033298A1 (en)System and method for integrating on-line user ratings of businesses with search engines
US9529861B2 (en)Method, system, and graphical user interface for improved search result displays via user-specified annotations
US20100042594A1 (en)Method and system for indexing information and providing results for a search including objects having predetermined attributes
US20060282504A1 (en)Usage status notification system
US20030018669A1 (en)System and method for associating a destination document to a source document during a save process
JP4963619B2 (en) Information search system, information search device, search result screen information generation method, and search result screen information generation processing program
US8589391B1 (en)Method and system for generating web site ratings for a user
JP2009015589A (en) Related document presentation system and program
JP2006309515A (en) Information distribution method and information distribution server
US9064014B2 (en)Information provisioning device, information provisioning method, program, and information recording medium
JP5290041B2 (en) Information search apparatus and information search method
JP2004206492A (en) Document display method and gateway device with link destination selection function using the same
JP4027568B2 (en) Information processing device that performs clipping services using multiple search engines on the Internet
JP4610543B2 (en) Period extracting device, period extracting method, period extracting program implementing the method, and recording medium storing the program
US8131752B2 (en)Breaking documents
JP5407336B2 (en) Information processing device
JP5297295B2 (en) WWW information browsing system and method, and Web browser and program
JP4417497B2 (en) Information retrieval apparatus and storage medium storing program
US20090193056A1 (en)System And Method For Managing Legislative Information

Legal Events

DateCodeTitleDescription
A300Application deemed to be withdrawn because no request for examination was validly filed

Free format text:JAPANESE INTERMEDIATE CODE: A300

Effective date:20071204


[8]ページ先頭

©2009-2025 Movatter.jp