







本発明は更新履歴生成装置及びプログラムに係り、特に、ウェブ文書の更新を検知して更新履歴を生成する更新履歴生成装置、及び、コンピュータを前記更新履歴生成装置として機能させるための更新履歴生成プログラムに関する。 The present invention relates to an update history generation apparatus and program, and in particular, an update history generation apparatus that detects an update of a web document and generates an update history, and an update history generation program for causing a computer to function as the update history generation apparatus About.
インターネット上で公開されている膨大な情報の中から所望の情報を検索するための有用なツールとして検索エンジンが知られている。一般的な検索エンジンである全文検索型検索エンジンでは、ウェブ文書の内容をデータベースに保存しておき、キーワードが指定されて検索が要求されると、指定されたキーワードでデータベースを検索して結果を出力する。全文検索型検索エンジンにおけるウェブ文書の収集・保存は検索ロボットによって行われ、検索ロボットはリンクを辿っていくことで多数のウェブ文書を順次閲覧し、未収集のウェブ文書や更新されたウェブ文書を発見する毎に、発見したウェブ文書の内容をデータベースへ保存したり、データベースに既に保存されている情報の更新を行う。 A search engine is known as a useful tool for searching for desired information from a vast amount of information published on the Internet. A full-text search engine, which is a general search engine, saves the contents of a web document in a database. When a keyword is specified and a search is requested, the database is searched with the specified keyword and the result is returned. Output. Collection and storage of web documents in a full-text search type search engine is performed by a search robot. The search robot sequentially browses many web documents by following links, and collects uncollected web documents and updated web documents. Every time it is discovered, the content of the found web document is saved in the database, or information already saved in the database is updated.
また、ウェブ文書の検索に関して、特許文献1には、インターネット上のウェブサイトに適時アクセスしてウェブページ情報を取得し、取得したウェブページ情報からテキストデータを抽出すると共に、ウェブページ画面の画像データを生成し、生成した画像データをデータベースに記録すると共に、抽出したテキストデータと、ウェブページ画面のURLと、取得年月日と、画像データのファイル名とを互いに関係付けてデータベースに記録しておき、ユーザ端末からの検索閲覧要求に応じてデータベースを検索し、該当するウェブページのテキストあるいは画像データをユーザ端末へ送信する技術が開示されている。 Regarding web document search, Patent Document 1 discloses that web page information is acquired by accessing a website on the Internet in a timely manner, text data is extracted from the acquired web page information, and image data of the web page screen is also acquired. The generated image data is recorded in the database, and the extracted text data, the URL of the web page screen, the acquisition date, and the file name of the image data are recorded in the database in association with each other. In addition, a technique is disclosed in which a database is searched in response to a search browsing request from a user terminal, and text or image data of a corresponding web page is transmitted to the user terminal.
また、特許文献2には、リンク含有コンテンツがパソコンで表示されている状態で特定のリンクが指し示されると、特定のリンクのURI(Uniform Resource Identifier)がシステムサーバへ転送され、システムサーバは、ウェブサーバに対して転送されたURIのステータス情報を要求し、ステータス情報を取得できなかった場合は、データベースに蓄積するコンテンツに関する情報にコンテンツが存在しないという情報を挿入し、ステータス情報を取得した場合は、データベースに蓄積されているlast-modified情報を取得し、ステータス情報のLast-modified情報と比較し、一致しない場合はLast-modified情報及びデータベースのコンテンツに関する情報をオンデマンド更新することで、データベースの情報の更新頻度を向上させる技術が開示されている。
ところで、インターネットを利用した情報収集のニーズとして、例えば新たにリリースした個人向け商品が一般個人にどのように評価されているのかを知りたい、或いは、旅行に出かける際に訪問先の最近の評判やおすすめのお店といった最新情報を知りたい、といったニーズが存在している。しかしながら、上記のようなニーズでは、収集する情報が新しい情報であることが肝要であり、また収集対象の情報が、例えば個人が運営しているウェブサイト等のように、リンク数に基づくランク付けにおいて下位にランク付けされるウェブページ(以下、このようなウェブページを「マイナーなウェブページ」と称する)から発信されている情報であることが多く、既存の技術ではこのような情報を収集することは困難であった。 By the way, as information gathering needs using the Internet, for example, you want to know how newly released personal products are evaluated by ordinary individuals, or when you go on a trip, There is a need to know the latest information such as recommended shops. However, for the above needs, it is important that the information to be collected is new information, and the information to be collected is ranked based on the number of links, such as websites operated by individuals. In many cases, the information is transmitted from a web page ranked in the lower rank (hereinafter, such a web page is referred to as a “minor web page”), and existing technology collects such information. It was difficult.
すなわち、前述した全文検索型検索エンジンでは、検索ロボットによるウェブ文書の閲覧・収集・保存が一巡する迄に膨大な時間がかかるため、或るウェブ文書が更新されてからこのウェブ文書の更新後の内容がデータベースに反映される迄にも長い時間がかかる。このため、全文検索型検索エンジンを利用して或るキーワードで検索を行った際に、例えば前記キーワードを含む文章が最近(例えば数日前に)追加されたウェブ文書が存在していたとしても、このようなウェブ文書は上記の検索では抽出されないので、存在を検知することができない。また、全文検索型検索エンジンでは、個々のウェブページを個々のウェブページへのリンク数に基づいてランク付けしていることが多く(例えばhttp://www.google.co.jp/)、検索によって抽出されたウェブページをランクの降順に表示するので、目的の情報を発信しているマイナーなウェブページが検索によって抽出されたとしても、表示された検索結果からこのウェブページの情報を見つけ出すには非常に手間がかかるという問題もある。 That is, in the above-described full-text search type search engine, it takes an enormous amount of time to browse, collect, and save a web document by a search robot. Therefore, after a web document is updated, It takes a long time before the contents are reflected in the database. For this reason, even when there is a web document in which a sentence including the keyword is recently added (for example, several days ago) when a search is performed with a keyword using a full-text search type search engine, Since such a web document is not extracted by the above search, its presence cannot be detected. In addition, full-text search engines often rank individual web pages based on the number of links to individual web pages (eg http://www.google.com/). The web pages extracted by are displayed in descending order of rank, so even if a minor web page sending the desired information is extracted by search, the information on this web page can be found from the displayed search results. There is also a problem that takes a lot of time.
また、特許文献1に記載の技術は、全文検索型の検索において、過去にネットワーク上で公開されたウェブページ情報をユーザが検索閲覧することを可能とする技術であり、上述したように、或るウェブ文書が更新されてからこのウェブ文書の更新後の内容がデータベースに反映される迄に長い時間がかかるという問題は解決されていないので、情報の新しさを重要視して情報を収集するための検索には不向きである。 The technique described in Patent Document 1 is a technique that enables a user to search and browse web page information that has been published on the network in the past in a full-text search type search. Since it has not been solved the problem that it takes a long time for the updated content of the web document to be reflected in the database after the web document is updated, information is collected with emphasis on the newness of the information. It is not suitable for searching.
また、ウェブ文書の検索において、ウェブ文書が更新されているか否かの判断には、例えば特許文献2に記載のlast-modified情報やこれに類する情報(最終更新日時情報と称する)が用いられるが、この最終更新日時情報は対応するウェブ文書が更新される毎に、その更新箇所がウェブ文書上の何れの箇所であるかに拘らず更新される。このため、検索条件としてキーワードに加えてウェブ文書の最終更新日時の範囲を指定することで、検索対象のウェブ文書を絞り込んだとしても、検索によって抽出された個々のウェブ文書のうち指定した前記キーワードが存在する部分が最後に更新された日時が、指定した最終更新日時の範囲に入っているとは限らないという問題がある。また同様に、キーワードを指定して検索を行うことで抽出された複数のウェブ文書を、個々のウェブ文書の最終更新日時情報が表す最終更新日時の新しい順に並べ替えた場合にも、並べ替え後の個々のウェブ文書の順序が、個々のウェブ文書のうち前記キーワードが存在する部分が最後に更新された日時の新しい順に一致しているとは限らないという問題がある。 Further, in the search for a web document, for example, the last-modified information described in Patent Document 2 or information similar thereto (referred to as last update date / time information) is used to determine whether the web document has been updated. The last update date / time information is updated every time the corresponding web document is updated, regardless of the location on the web document. Therefore, even if the search target web document is narrowed down by specifying the range of the last update date and time of the web document in addition to the keyword as a search condition, the specified keyword among the individual web documents extracted by the search There is a problem that the date and time at which the portion where the “” exists is last updated is not necessarily within the range of the specified last update date and time. Similarly, when a plurality of web documents extracted by performing a search by specifying a keyword are rearranged in the order of the last update date and time represented by the last update date and time information of each web document, There is a problem in that the order of the individual web documents does not necessarily match the newest order of the date and time when the keyword exists in the individual web documents.
本発明は上記事実を考慮して成されたもので、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索を実現可能な更新履歴生成装置及び更新履歴生成プログラムを得ることが目的である。 The present invention has been made in consideration of the above facts, and the update of the web document is reflected in the search results in a shorter time, and the search object based on the exact update time of the information to be searched on the web document It is an object to obtain an update history generation device and an update history generation program that can realize the search of the above information.
上記目的を達成するために請求項1記載の発明に係る更新履歴生成装置は、ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段と、前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段と、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段と、を含んで構成されている。 In order to achieve the above object, an update history generating apparatus according to the invention described in claim 1 requests a web server to deliver a web document, and summarizes information representing a summary of contents for each item of the web document, The summary information and the update corresponding to the item updated each time the web document is updated, including update date / time information representing the update date / time for each item and last update date / time information representing the last update date / time of the web document The first location information representing the location of the summary document set in the web document is sequentially received from the web server for the web document including the summary document in which the date and time information and the last date and time information are updated. Whether the document information is included is monitored, and when the first location information is detected, communication with the web server is disconnected and the detected first location information is stored in the first memory. The summary document is periodically acquired from a web server based on first location information stored in the first storage unit and first location information stored in the first storage unit. And when the summary document acquired by the second acquisition unit is a summary document acquired for the first time, the summary information for each item of the web document from the acquired summary document and the summary document Update date information and the last update date information are extracted and stored as update history information in the second storage means, and the summary document acquired by the second acquisition means is a summary document that has been acquired in the past, The last update date and time information included in the corresponding update history information stored in the second storage means is the last update date and time represented by the last update date and time information included in the acquired summary document. The summary information corresponding to the specific item of the web document updated after the last update date and time represented by the last update date and time information included in the corresponding update history information, Update date / time information is extracted from the acquired summary document and added to the update history information, and last date / time information included in the corresponding update history information is changed to final update date / time information included in the acquired summary document. Update history generation means for updating to the last update date and time to be expressed.
ウェブ文書の中には、ウェブ文書の各項目毎の内容の要約を表す要約情報と、ウェブ文書の各項目毎の更新日時を表す更新日時情報と、ウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に、更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書が前記ウェブ文書と別に存在しているウェブ文書がある。この種のウェブ文書では、対応する要約文書の場所を表す第1場所情報(例えばURL(Uniform Resource Locator)等のURI)がウェブ文書中に設定される。なお、上記の要約文書としては、例えば請求項2に記載したように、RSS(RDF(Resource Description Framework) Site Summary又はRich Site Summary又はReally simple Syndication)フォーマット又はATOMフォーマットに従って記述されたXML文書が挙げられる。この場合、要約情報には、ウェブ文書のうち更新された部分のタイトルと該部分の要約文が含まれる。 In the web document, summary information indicating a summary of the contents of each item of the web document, update date information indicating the update date and time of each item of the web document, and last update date and time indicating the last update date and time of the web document There is a web document that includes information, and each time the web document is updated, there is a summary document corresponding to the updated item, and a summary document in which the update date information and the last date information are updated. . In this type of web document, first location information (for example, a URI such as a URL (Uniform Resource Locator)) indicating the location of the corresponding summary document is set in the web document. As the above summary document, for example, as described in claim 2, an XML document described in accordance with RSS (RDF (Resource Description Framework) Site Summary, Rich Site Summary, or Really Simple Syndication) format or ATOM format can be cited. It is done. In this case, the summary information includes the title of the updated part of the web document and the summary sentence of the part.
請求項1記載の発明は上記のようなウェブ文書の要約文書を利用しており、請求項1記載の発明に係る第1取得手段は、ウェブサーバに対してウェブ文書の配信を要求し、ウェブサーバから順次受信するウェブ文書の情報に前述の第1場所情報が含まれているか否かを監視し、第1場所情報を検知するとウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う。これにより、第1記憶手段には、対応する要約文書が存在しているウェブ文書について、対応する要約文書の場所を表す第1場所情報が各々記憶される。また、第2取得手段は、第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから要約文書を定期的に取得する。 The invention according to claim 1 uses the summary document of the web document as described above, and the first acquisition unit according to claim 1 requests the web server to deliver the web document, and It monitors whether or not the above-mentioned first location information is included in the information of the web document sequentially received from the server. When the first location information is detected, the communication with the web server is disconnected and the detected first location information is detected. Is stored in the first storage means for each unspecified web document. Thereby, the first storage unit stores the first location information indicating the location of the corresponding summary document for the web document in which the corresponding summary document exists. The second acquisition unit periodically acquires the summary document from the web server based on the first location information stored in the first storage unit.
そして更新履歴生成手段は、第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、取得された要約文書からウェブ文書の各項目毎の要約情報及び更新日時情報と最終更新日時情報を各々抽出し、更新履歴情報として第2記憶手段に記憶させる。また更新履歴生成手段は、第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する要約情報及び更新日時情報を、取得された要約文書から抽出して更新履歴情報に追加すると共に、対応する更新履歴情報に含まれる最終日時情報を取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する。 The update history generation means, when the summary document acquired by the second acquisition means is a summary document acquired for the first time, summarize information and update date / time information for each item of the web document from the acquired summary document, Each last update date / time information is extracted and stored in the second storage means as update history information. The update history generation unit is a summary document that has been acquired in the past by the summary document acquired by the second acquisition unit, and the last update date and time indicated by the last update date and time information included in the acquired summary document is When it is later than the last update date and time represented by the last update date and time information included in the corresponding update history information stored in the second storage unit, the last update date and time information included in the corresponding update history information represents Summary information and update date / time information corresponding to a specific item of a web document updated after the last update date / time are extracted from the acquired summary document and added to the update history information, and are included in the corresponding update history information. The last date and time information is updated to the last updated date and time represented by the last updated date and time information included in the acquired summary document.
このように、請求項1記載の発明では、ウェブ文書の各項目毎の内容の要約を表す要約情報とウェブ文書の各項目毎の更新日時を表す更新日時情報とウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書を利用し、ウェブ文書の任意の項目の項目が更新されて対応する要約文書のうち前記項目に対応する要約情報及び更新日時情報が更新される毎に、これらの情報を要約文書から抽出して更新履歴情報に追加するので、第2記憶手段には、対応する要約文書が存在しているウェブ文書について、該ウェブ文書の更新履歴を表す更新履歴情報が各々記憶されることになる。 Thus, according to the first aspect of the present invention, the summary information representing the summary of the contents of each item of the web document, the update date information representing the update date and time of each item of the web document, and the last update date and time of the web document are represented. An item of any item in the Web document using the summary information that includes the last update date and time information and the summary information corresponding to the item updated each time the Web document is updated, and the update date and time information and the summary document in which the last date and time information is updated. The information is extracted from the summary document and added to the update history information every time the summary information and the update date / time information corresponding to the item are updated in the corresponding summary document. For each web document in which the corresponding summary document exists, update history information representing the update history of the web document is stored.
更新履歴情報に含まれる個々の要約情報は、ウェブ文書の各項目毎の最新の内容の要約を表しているのでウェブ文書に対する検索に利用可能であり、例えば指定されたキーワードが更新履歴情報の中の特定の要約情報中に存在していた場合、当該更新履歴情報に対応するウェブ文書本体にも指定されたキーワードが含まれていると判断できる。また更新履歴情報には、ウェブ文書の各項目毎の情報として、要約情報に加えて更新日時情報も設定されているので、指定されたキーワードが更新履歴情報の中の特定の要約情報中に存在していた場合に、この特定の要約情報に対応する更新日時情報を参照することで、ウェブ文書本体のうち指定されたキーワードを含む部分(項目)が更新された日時(指定されたキーワードを含む文章等がウェブ文書本体上で更新された日時)を判断することができる。 The individual summary information included in the update history information represents a summary of the latest contents of each item of the web document and can be used for searching the web document. For example, a specified keyword is included in the update history information. If it exists in the specific summary information, it can be determined that the specified keyword is also included in the web document body corresponding to the update history information. The update history information also includes update date and time information in addition to the summary information as information for each item in the web document, so the specified keyword exists in the specific summary information in the update history information. The date and time when the portion (item) containing the specified keyword in the main body of the web document is updated by referring to the update date and time information corresponding to the specific summary information (including the specified keyword). Date and time when the text or the like was updated on the main body of the web document.
これにより、キーワードと更新日時の範囲が検索条件として指定された場合にも、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用し、「要約情報に指定されたキーワードが含まれ、対応する更新日時情報が表す更新日時が指定された更新日時の範囲内」という条件に合致する要約情報と更新日時情報の組が含まれている更新履歴情報を検索することにより、指定されたキーワードを含む文章等が指定された更新日時の範囲内に更新されたウェブ文書を検索することができ、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現することができる。 Thus, even when the range of the keyword and the update date / time is specified as the search condition, the update history information stored in the second storage means according to the first aspect of the invention is used and the “keyword specified in the summary information” is used. By searching for update history information that includes a set of summary information and update date / time information that matches the condition of `` within the range of update date / time specified by the update date / time specified by the corresponding update date / time information '', Web documents that have been updated within the range of the specified update date and time, including text that includes the specified keyword, can be searched, and search target information on the Web document (for example, text that includes the specified keyword) It is possible to search for information to be searched based on an accurate update time.
また、第1取得手段は、ウェブサーバから順次受信するウェブ文書の情報に第1場所情報が含まれているか否かを監視し、第1場所情報を検知すると(情報を受信しているウェブ文書が対応する要約文書が存在しているウェブ文書であることを検知すると)ウェブサーバとの通信を切断するので、ウェブ文書本体の情報を全て取得する場合と比較して極めて短い時間で通信が終了する。また、第2取得手段もウェブ文書本体よりも確実に情報量が少ない要約文書を取得するので、ウェブ文書本体の情報を全て取得する場合と比較して短時間で通信が終了する。従って、従来の検索ロボットによる情報収集と比較して情報収集に要する時間が短時間で済むので、より短い周期で情報収集(第1記憶手段に記憶されている第1場所情報及び第2記憶手段に記憶されている更新履歴情報の更新)を行うことができ、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用すれば、ウェブ文書の更新がより短い時間で検索結果に反映される検索を実現することができる。 The first acquisition means monitors whether or not the first location information is included in the information of the web document sequentially received from the web server, and detects the first location information (the web document receiving the information). (If it detects that the corresponding summary document exists), the communication with the web server is cut off, so the communication is completed in a very short time compared to the case where all the information of the web document body is acquired. To do. In addition, since the second acquisition unit also acquires the summary document with a smaller amount of information than the web document main body, the communication is completed in a shorter time than when all the information of the web document main body is acquired. Therefore, since the time required for information collection can be shortened in comparison with the information collection by the conventional search robot, the information collection (the first location information stored in the first storage means and the second storage means is performed in a shorter cycle). Update history information stored in the second storage means can be updated, and the update history information stored in the second storage means according to the invention of claim 1 can be used to search for updates of web documents in a shorter time. Searches reflected in the results can be realized.
このように、請求項1記載の発明によれば、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索を実現することが可能となる。また、指定されたキーワードを含むウェブ情報が検索により複数抽出された場合に、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用し、個々のウェブ文書に対応する更新履歴情報のうち、指定されたキーワードを含む要約情報に対応する更新日時情報を参照することで、個々のウェブ文書のうち指定されたキーワードを含む部分(項目)の正確な更新日時を判断することができるので、ウェブ文書上での検索対象の情報の正確な更新時期に基づいて、検索結果(検索によって抽出された複数のウェブ文書)を並べ替えることも可能となる。 Thus, according to the first aspect of the present invention, the update of the web document is reflected in the search result in a shorter time, and the search target based on the accurate update time of the information to be searched on the web document is reflected. Information retrieval can be realized. Further, when a plurality of pieces of web information including the specified keyword are extracted by a search, the update history information stored in the second storage means according to the invention of claim 1 is used to update each web document. By referring to the update date / time information corresponding to the summary information including the specified keyword in the history information, it is possible to determine the exact update date / time of the part (item) including the specified keyword in each Web document. Therefore, it is possible to rearrange the search results (a plurality of web documents extracted by the search) based on the accurate update time of the information to be searched on the web document.
なお、請求項1記載の発明において、例えば請求項3に記載したように、検索条件としてキーワード及び更新日時の範囲が指定されると、第2記憶手段に記憶されている更新履歴情報のうち、更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ要約情報に前記指定されたキーワードが含まれている要約情報及び更新日時情報を検索し、該当する要約情報及び更新日時情報を検索結果として出力する検索手段を設けることが好ましい。これにより、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現することができ、指定したキーワードを含みかつ最近更新された新しい情報の収集を所望している場合にも、例えば更新日時の範囲として現在の日時を含む比較的狭い範囲を指定する等により、指定したキーワードは含むものの該キーワードを含む部分とは別の部分が更新されたことで最終更新日時が最近の日時となっているウェブ文書を検索対象から除外させ、指定したキーワードを含みかつ該キーワードを含む文章が最近更新されたウェブ文書のみを検索させることができる。 In the invention described in claim 1, for example, as described in claim 3, when a keyword and a range of update date / time are specified as a search condition, among update history information stored in the second storage unit, Search for summary information and update date information in which the update date and time indicated by the update date and time information is within the range of the specified update date and time and the specified keyword includes the specified keyword, and the corresponding summary information and update date and time It is preferable to provide search means for outputting information as a search result. This makes it possible to search for information to be searched based on the exact update time of information to be searched on a web document (for example, a sentence including the specified keyword), and includes the specified keyword and recently updated. Even if it is desired to collect new information, the specified keyword is included in the update date and time range, but a relatively narrow range including the current date and time is included. The web document whose last update date / time is the latest date / time is updated from the search, and only the web documents that include the specified keyword and the text that includes the keyword have been recently updated are searched. be able to.
また、ウェブ文書の中には、ウェブ文書の発信者の氏名を表す氏名情報、発信者の電子メールのアドレスを表すメールアドレス情報が設定された発信者識別文書が前記ウェブ文書と別に存在しているウェブ文書がある。この種のウェブ文書では、対応する発信者識別文書の場所を表す第2場所情報(例えばURL等のURI)がウェブ文書中に設定される。なお、上記の要約文書としては、例えば請求項5に記載したように、FOAFフォーマットに従って記述されたXML文書が挙げられる。 Further, in the web document, there is a sender identification document in which name information indicating the name of the sender of the web document and mail address information indicating the address of the sender's e-mail are set. There is a web document. In this type of web document, second location information (for example, a URI such as a URL) indicating the location of the corresponding caller identification document is set in the web document. Examples of the summary document include an XML document described according to the FOAF format, as described in claim 5.
請求項1記載の発明において、上記の発信者識別文書を利用し、例えば請求項4に記載したように、第1取得手段は、ウェブサーバから順次受信するウェブ文書の情報に上記の第2場所情報が含まれているか否かも監視し、第1場所情報又は第2場所情報を検知すると、検知した場所情報を、該場所情報に対応する文書の種別を表す種別情報及びウェブ文書の場所を表す第3場所情報と対応付けて第1記憶手段に記憶させ、第2取得手段は、第1記憶手段に記憶されている第2場所情報に基づいてウェブサーバからの発信者識別文書の取得も定期的に行い、更新履歴生成手段は、更新履歴情報を第3場所情報と対応付けて第2記憶手段に記憶させると共に、第2取得手段によって取得された発信者識別文書が初めて取得された発信者識別文書である場合には、取得された発信者識別文書から氏名情報及びメールアドレス情報を抽出し、第3場所情報と対応付け発信者情報として第2記憶手段に記憶させ、第2取得手段によって取得された発信者識別文書が過去にも取得が行われた発信者識別文書であり、かつ取得された発信者識別文書に含まれる氏名情報及びメールアドレス情報が、第2記憶手段に記憶されている対応する発信者情報に含まれる氏名情報又はメールアドレス情報と相違している場合には、対応する発信者情報に含まれる氏名情報又はメールアドレス情報を、取得された発信者識別文書に含まれる氏名情報又はメールアドレス情報へ更新するようにしてもよい。 In the invention described in claim 1, the sender identification document is used, and, for example, as described in claim 4, the first acquisition means includes the second location in the information of the web document sequentially received from the web server. Whether the information is included is also monitored, and when the first location information or the second location information is detected, the detected location information represents the type information indicating the type of the document corresponding to the location information and the location of the web document. Corresponding to the third location information is stored in the first storage means, and the second acquisition means periodically acquires the sender identification document from the web server based on the second location information stored in the first storage means. The update history generation means stores the update history information in association with the third location information in the second storage means, and the sender from which the caller identification document acquired by the second acquisition means is acquired for the first time. Identification document In some cases, name information and e-mail address information are extracted from the acquired sender identification document, stored in the second storage means as third place information and associated sender information, and acquired by the second acquisition means The caller identification document is a caller identification document that has been acquired in the past, and the name information and the mail address information included in the acquired caller identification document are stored in the second storage means. If the name information or email address information included in the sender information is different from the name information or email address information included in the corresponding sender information, the name information included in the acquired sender identification document or You may make it update to mail address information.
請求項4記載の発明では、対応する発信者識別文書が存在しているウェブ文書については発信者識別文書が定期的に取得され、発信者識別文書に含まれる氏名情報及びメールアドレス情報が発信者情報として第2記憶手段に記憶されると共に、発信者識別文書に含まれる氏名情報又はメールアドレス情報が変更される毎に、発信者情報として記憶している氏名情報又はメールアドレス情報が更新される。また、請求項4記載の発明では、更新履歴情報がウェブ文書の場所を表す第3場所情報と対応付けて第2記憶手段に記憶されると共に、発信者情報も第3場所情報と対応付けて第2記憶手段に記憶される。このため、対応する要約文書に加えて対応する発信者識別文書も存在しているウェブ文書については、対応する更新履歴情報及び発信者情報が第2記憶手段に各々記憶されると共に、これらが同一の第3場所情報によって対応付けされることになる。従って、或る検索条件に基づく検索によって抽出されたウェブ文書が、第2記憶手段に発信者情報が記憶されているウェブ文書であった場合に、第3場所情報をキーとして対応する発信者情報を特定することができ、前記ウェブ文書の発信者の氏名及び電子メールのアドレスを認識することが可能となる。 In the invention described in claim 4, the sender identification document is periodically acquired for the web document in which the corresponding sender identification document exists, and the name information and the mail address information included in the sender identification document are the sender. The name information or the mail address information stored as the sender information is updated every time the name information or the mail address information included in the sender identification document is changed. . In the invention according to claim 4, the update history information is stored in the second storage means in association with the third location information indicating the location of the web document, and the sender information is also associated with the third location information. Stored in the second storage means. For this reason, for the web document in which the corresponding sender identification document exists in addition to the corresponding summary document, the corresponding update history information and the sender information are respectively stored in the second storage means, and these are the same. The third place information is associated with each other. Therefore, when the web document extracted by the search based on a certain search condition is a web document in which the sender information is stored in the second storage means, the sender information corresponding to the third place information as a key And the name of the sender of the web document and the e-mail address can be recognized.
また、請求項4記載の発明において、例えば請求項6に記載したように、検索条件としてキーワード及び更新日時の範囲が指定されると、第2記憶手段に記憶されている更新履歴情報のうち、更新日時情報が表す更新日時が指定された更新日時の範囲内で、かつ要約情報に指定されたキーワードが含まれている要約情報及び更新日時情報を検索し、該当する要約情報及び更新日時情報を検索結果として出力すると共に、検索結果として出力する要約情報及び更新日時情報を含む更新履歴情報と同一の第3場所情報と対応付けられて第2記憶手段に記憶されている発信者情報を検索し、該当する発信者情報が抽出された場合は、抽出された発信者情報に含まれる氏名情報及びメールアドレス情報を、要約情報及び前記更新日時情報と共に出力する検索手段を設けることが好ましい。これにより、先に説明した請求項3記載の発明と同様に、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現できると共に、検索によって抽出されたウェブ文書が、対応する発信者識別文書が存在しているウェブ文書であった場合には、前記ウェブ文書の発信者の氏名及び電子メールアドレスも出力されることになるので、検索によって抽出されたウェブ文書の発信者へ電子メールを送信することも可能となる。 Further, in the invention described in claim 4, for example, as described in claim 6, when a keyword and a range of update date / time are specified as a search condition, among update history information stored in the second storage unit, Search for summary information and update date / time information that includes the keyword specified in the summary information within the range of the update date / time specified by the update date / time information, and find the corresponding summary information and update date / time information. The sender information stored in the second storage means is output in association with the third location information that is the same as the update history information including the summary information and the update date / time information that is output as the search result. When the corresponding sender information is extracted, the name information and the mail address information included in the extracted sender information are output together with the summary information and the update date / time information. It is preferable to provide a search means. Thus, as in the invention described in claim 3 described above, the search target information is searched based on the accurate update time of the search target information (for example, a sentence including the specified keyword) on the web document. When the web document extracted by the search is a web document in which the corresponding sender identification document exists, the name and e-mail address of the sender of the web document are also output. Therefore, it is possible to send an e-mail to the sender of the web document extracted by the search.
請求項7記載の発明に係る更新履歴生成プログラムは、第1記憶手段及び第2記憶手段を備えたコンピュータを、ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段、前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段、及び、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段として機能させる。 The update history generation program according to the invention of claim 7 requests a computer including a first storage unit and a second storage unit to distribute a web document to a web server, and the contents of each item of the web document The update information for each item, the update date information for the update date for each item, and the last update date information for the last update date of the web document. For a web document in which there is a summary document whose corresponding summary information and the update date and time information and the final date and time information are updated, first location information indicating the location of the summary document set in the web document includes: It is monitored whether it is included in the information of the web document received sequentially from the web server, and when the first location information is detected, the communication with the web server is disconnected. , Based on the first location information stored in the first storage means, first acquisition means for each of the unspecified web documents storing the detected first location information in the first storage means A second acquisition unit that periodically acquires the summary document from the server; and if the summary document acquired by the second acquisition unit is a summary document acquired for the first time, a web page is acquired from the acquired summary document. The summary information and the update date / time information and the last update date / time information for each item of the document are extracted and stored as update history information in the second storage unit, and the summary document acquired by the second acquisition unit is stored in the past. Is a summary document that has been acquired, and the last update date and time represented by the last update date and time information included in the acquired summary document is stored in the second storage means. If it is later than the last update date and time indicated by the last update date and time information included in the history information, the web document updated after the last update date and time indicated by the last update date and time information included in the corresponding update history information is displayed. The summary information and the update date / time information corresponding to a specific item are extracted from the acquired summary document and added to the update history information, and the final date / time information included in the corresponding update history information is acquired. It is made to function as an update history generation means for updating to the last update date and time represented by the last update date and time information included in the summary document.
請求項7記載の発明に係る更新履歴生成プログラムは、第1記憶手段及び第2記憶手段を備えたコンピュータを、上記の第1取得手段、第2取得手段及び更新履歴生成手段として機能させるためのプログラムであるので、上記コンピュータが請求項7記載の発明に係る更新履歴生成プログラムを実行することにより、上記コンピュータが請求項1に記載の更新履歴生成装置として機能することになり、請求項1記載の発明と同様に、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索が実現可能になる。 An update history generation program according to a seventh aspect of the invention is a program for causing a computer including a first storage unit and a second storage unit to function as the first acquisition unit, the second acquisition unit, and the update history generation unit. Since it is a program, when the computer executes the update history generation program according to the invention described in claim 7, the computer functions as the update history generation device described in claim 1. Similar to the invention of the present invention, the update of the web document is reflected in the search result in a shorter time, and the search of the search target information based on the accurate update time of the search target information on the web document can be realized. .
以上説明したように本発明は、ウェブ文書の各項目毎の内容の要約を表す要約情報と各項目毎の更新日時を表す更新日時情報とウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される要約文書の場所を表す第1場所情報が、ウェブ文書の配信を要求することでウェブサーバから順次受信するウェブ文書の情報に含まれているか否かを監視し、第1場所情報を検知すると通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う行うと共に、第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから要約文書を定期的に取得し、取得した要約文書が初めて取得した要約文書である場合には、取得した要約文書から各項目毎の要約情報及び更新日時情報と最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、取得した要約文書が過去にも取得が行われた要約文書であり、かつ取得した要約文書に含まれる最終更新日時情報が表す最終更新日時が、第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する要約情報及び更新日時情報を抽出して更新履歴情報に追加し、対応する更新履歴情報に含まれる最終日時情報を取得した要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新するようにしたので、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索が実現可能となる、という優れた効果を有する。 As described above, the present invention includes summary information that represents a summary of the contents of each item of the web document, update date information that represents the update date and time of each item, and last update date and time information that represents the last update date and time of the web document. The summary document corresponding to the item updated every time the web document is updated, and the web document in which the update date / time information and the final date / time information are updated exist in the summary document set in the web document. It is monitored whether or not the first place information representing the place is included in the information of the web document sequentially received from the web server by requesting the delivery of the web document, and the communication is disconnected when the first place information is detected. At the same time, the detected first location information is stored in the first storage means for each unspecified web document, and based on the first location information stored in the first storage means. If the summary document is periodically obtained from the web server and the obtained summary document is the first summary document obtained, the summary information, update date information, and last update date information for each item from the obtained summary document. Are extracted and stored in the second storage means as update history information, and the acquired summary document is a summary document that has been acquired in the past, and the last update date and time information included in the acquired summary document represents If the date and time is later than the last update date and time represented by the last update date and time information included in the corresponding update history information stored in the second storage unit, the last update date and time information included in the corresponding update history information The summary information and update date / time information corresponding to the specific item of the web document updated after the last update date / time indicated by is extracted and added to the update history information, and included in the corresponding update history information. The latest update date / time information is updated to the latest update date / time indicated by the last update date / time information included in the acquired summary document. The search target information can be searched based on the accurate update time of the search target information.
以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1には本実施形態に係るコンピュータ・システム10が示されている。コンピュータ・システム10は、多数台のウェブ・サーバ12及び多数台のクライアント端末14が接続されたインターネット16に、本発明に係る更新履歴生成装置として機能する収集・検索サーバ18が接続されて構成されている。ウェブ・サーバ12はHDD(ハード・ディスク・ドライブ)等の記憶手段にウェブ文書の情報(及び後述する要約文書や発信者識別文書の情報)を保管しており、クライアント端末14等から所定のウェブ文書の場所(URI)が指定されて所定のウェブ文書の情報の配信がインターネット16経由で要求される毎に、要求元のクライアント端末14等へ所定のウェブ文書の情報を送信する処理を行うことで、記憶手段に保管しているウェブ文書をインターネット16上に公開している。なお、クライアント端末14はパーソナル・コンピュータ(PC)であってもよいし、インターネット16にアクセスする機能を備えた携帯端末であってもよい。 Hereinafter, an example of an embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a computer system 10 according to the present embodiment. The computer system 10 is configured by connecting a collection /
収集・検索サーバ18は、例えばワークステーション等のコンピュータから成り、CPU18A、ROM18B、RAM18C、入出力ポート18Dを備え、これらがアドレスバス、データバス、制御バス等のバス18Eを介して互いに接続されている。また入出力ポート18Dには、通信制御装置20、ディスプレイ22、マウス24、キーボード26、HDD28が各々接続されており、収集・検索サーバ18は通信制御装置20を介してインターネット16に接続されている。また、通信制御装置20にはPC等から成り、ディスプレイ等から成る表示装置、キーボードやマウス等から成る入力装置を備えたクライアント端末30が接続されている。なお、図1ではクライアント端末30が収集・検索サーバ18に直接接続された構成が示されているが、これに限られるものではなく、クライアント端末30はLAN等のネットワークを介して収集・検索サーバ18に接続されていてもよい。 The collection /
収集・検索サーバ18のHDD28には、メタ情報URI収集処理を行うためのメタ情報URI収集プログラム、更新履歴情報収集処理を行うための更新履歴情報収集プログラム及び発信者情報収集処理を行うための発信者情報収集プログラムが各々インストールされている(上記各処理については後述する)。これらのプログラムは請求項7に記載の更新履歴生成プログラムに対応しており、収集・検索サーバ18のCPU18Aがこれらのプログラムを実行することで、収集・検索サーバ18は本発明に係る更新履歴生成装置として機能する。また、詳細は後述するが、収集・検索サーバ18のHDD28の記憶領域には、URI情報DB(データベース)、更新履歴情報DB、発信者情報DBが各々記憶されている。 The
次に本実施形態の作用として、収集・検索サーバ18のCPU18Aがメタ情報URI収集プログラムを実行することで収集・検索サーバ18によって行われるメタ情報URI収集処理について、図2のフローチャートを参照して説明する。なお、このメタ情報URI収集処理は、RSSフォーマット又はATOMフォーマットに従って記述されたXML文書である要約文書及びFOAFフォーマットに従って記述されたXML文書である発信者識別文書が存在しているウェブ文書を探索し、該当するウェブ文書に対応する要約文書や発信者識別文書のURIを収集してURI情報DBに記憶させる処理であり、収集・検索サーバ18によって常時又は定期的に実行される。このメタ情報URI収集処理は、本発明に係る第1取得手段(詳しくは請求項4に記載の第1取得手段)に相当する処理である。また、本実施形態では上記の要約文書と発信者識別文書を「メタ情報」と総称している。 Next, as an operation of the present embodiment, a meta information URI collection process performed by the collection /
ステップ100では多数台のウェブ・サーバ12によってインターネット16上で公開されている膨大な数のウェブ文書のうち、アクセス(情報取得)を行うウェブ文書のURIを決定する。このURIの決定は、例えばURIとしてURLを用いる場合には、スキーム名として「http」と設定すると共に、サーバ名としては公開されている多数のサーバ名の中から任意のサーバ名を選択・設定し、ウェブ・サーバ12内でのHTML文書の場所(パス)を表すパス名は乱数等を用いて設定することで行うことができる。ステップ102ではステップ100で決定したURIに対応するウェブ文書の配信を、該ウェブ文書を保管しているウェブ・サーバ12に対して要求する。ステップ104では、上記のウェブ・サーバ12と通信が可能か否か判定する。ステップ100で決定したURIに対応するウェブ文書が存在していない場合や、決定したURIに対応するウェブ文書は存在しているものの、該ウェブ文書を保管しているウェブ・サーバ12が稼働していなかった等の場合には上記判定が肯定され、何ら処理を行うことなくステップ126へ移行する。 In
一方、ステップ104の判定が肯定された場合はステップ106へ移行し、ウェブ・サーバ12から送信されるウェブ文書(HTML文書)の情報をインターネット16経由で順次受信すると共に、受信した情報の中に文字列「</HEAD>」及び文字列「<BODY>」が存在しているか否か判定する。判定が否定された場合はステップ108へ移行し、ウェブ文書の情報の受信が終了したか否か判定する。この判定も否定された場合はステップ106に戻り、何れかの判定が肯定される迄ステップ106、108を繰り返す。例として図5に示すように、対応するメタ情報が存在しているウェブ文書(HTML文書)には文字列「</HEAD>」及び文字列「<BODY>」が存在しており、この文字列「</HEAD>」及び文字列「<BODY>」の前に各メタ文書のURI等が設定されたリンク情報が各々存在している。ステップ108の判定が肯定された場合、ウェブ・サーバ12から情報を受信したウェブ文書にはリンク情報が設定されておらず、対応するメタ情報が存在していないと判断できるので、何ら処理を行うことなくステップ126へ移行する。 On the other hand, if the determination in
また、ステップ106の判定が肯定された場合(文字列「</HEAD>」及び文字列「<BODY>」を検知した場合)はステップ110へ移行し、ウェブ・サーバ12から既に受信した情報をメモリ(RAM18C等)に保存し、ウェブ・サーバ18との通信を切断する。上記の文字列</HEAD>及び文字列<BODY>は通常、ウェブ文書の情報のうちの先頭に近い位置に存在しており(従ってリンク情報も先頭に近い位置に存在している)、ステップ106の判定が肯定されると通信を切断することで、ウェブ・サーバ12との通信は非常に短い時間で完了する。ステップ112では、ステップ110でメモリに保存した受信済み情報に対し、各種メタ情報(RSSフォーマットに従って記述された要約文書(以下、RSS要約文書と称する)、ATOMフォーマットに従って記述された要約文書(以下、ATOM要約文書と称する)及びFOAFフォーマットに従って記述された発信者識別文書)に対応するリンク情報を検索し、該当するリンク情報が存在していた場合にはメタ情報のURIを抽出する。なお、RSS要約文書に対応するリンク情報とATOM要約情報に対応するリンク情報が各々存在していた場合、何れか一方のリンク情報(例えばATOM要約情報に対応するリンク情報)のURIのみを抽出するようにしてもよい。 If the determination in
具体的には、図5に示すように、RSS要約文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/rss+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)がRSS要約文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出してRSS要約文書のURIとしてメモリ等に一時保存する。また、ATOM要約文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/atom+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)がATOM要約文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出してATOM要約文書のURIとしてメモリ等に一時保存する。また、発信者識別文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/rdf+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)が発信者識別文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出して発信者識別文書のURIとしてメモリ等に一時保存する。なお、上記の各メタ文書のURIのうち、RSS要約文書のURI及びATOM要約文書のURIは本発明に係る第1場所情報に、発信者識別文書のURIは本発明に係る第2場所情報に対応している。 Specifically, as shown in FIG. 5, the link information of the RSS summary document is sandwiched between the character string “<LINK” and the character string “/>”, and the character string “type =“ application / rss + xml ”. ], And a character string (“http: //...” In the example of FIG. 5) sandwiched between the character string “href =” and the character ““ ”is RSS. It represents the URI of the summary document. In step 112, if there is a character string corresponding to the above condition in the information of the web document, the character string is extracted and temporarily stored in a memory or the like as the URI of the RSS summary document. The link information of the ATOM summary document is a character string sandwiched between the character string “<LINK” and the character string “/>” and including the character string “type =“ application / atom + xml ””. Among the columns, a character string (“http: //...” In the example of FIG. 5) sandwiched between the character string “href =” and the character “” ”represents the URI of the ATOM summary document. In step 112, if a character string corresponding to the above condition exists in the information of the web document, the character string is extracted and temporarily stored in a memory or the like as the URI of the ATOM summary document. The link information of the caller identification document is a character string sandwiched between the character string “<LINK” and the character string “/>” and including the character string “type =“ application / rdf + xml ””. Among the character strings, a character string (“http: //...” In the example of FIG. 5) sandwiched between the character string “href =” and the character ““ ”represents the URI of the sender identification document. . In step 112, when a character string corresponding to the above condition exists in the information of the web document, the character string is extracted and temporarily stored in a memory or the like as the URI of the caller identification document. Of the URIs of each meta document, the URI of the RSS summary document and the URI of the ATOM summary document are in the first location information according to the present invention, and the URI of the sender identification document is in the second location information according to the present invention. It corresponds.
次のステップ114では、ステップ112の処理により、少なくとも1つのメタ情報のURIを抽出できたか否か判定する。判定が否定された場合、ウェブ・サーバ12から情報を受信したウェブ文書には対応するメタ情報が存在していないと判断できるので、何ら処理を行うことなくステップ126へ移行する。また、ステップ114の判定が肯定された場合はステップ116へ移行し、ウェブ文書のURIをキーとしてURI情報DBを検索する。そしてステップ118では、ステップ116の検索によって該当するURI情報が抽出されたか否か判定する。 In the
本実施形態に係るメタ情報URI収集処理では、対応するメタ情報が存在している新たなウェブ文書が発見される毎に、例として図6(A)に示すように、該ウェブ文書から抽出したメタ情報のURIをウェブ文書のURIと対応付け、URI情報DBにURI情報として登録しているので、ステップ116の検索によって該当するURI情報が抽出されなかった場合、今回の処理対象であるウェブ文書は、対応するメタ情報が存在している新たなウェブ文書であると判断できる。このため、ステップ118の判定が否定された場合はステップ120へ移行し、処理対象のウェブ文書から取得してメモリに一時保存しているメタ情報のURIを、メタ情報の種別(RSS要約文書/ATOM要約文書/発信者識別文書)を表す情報及びウェブ文書のURIと対応付け、URI情報DBにURI情報(図6(A)も参照)として新規に登録した後にステップ126へ移行する。このように、URI情報DBを記憶するHDDは本発明に係る第1記憶手段(詳しくは請求項4に記載の第1記憶手段)に対応している。また、対応するメタ情報が存在しているウェブ文書のURI(URI情報DBに登録するURI情報に含まれるウェブ文書のURI)は本発明に係る第3場所情報に対応している。 In the meta information URI collection processing according to the present embodiment, each time a new web document in which the corresponding meta information exists is discovered, it is extracted from the web document as shown in FIG. 6A as an example. Since the URI of the meta information is associated with the URI of the web document and registered as the URI information in the URI information DB, if the corresponding URI information is not extracted by the search in
一方、ステップ116の検索によって該当するURI情報が抽出された場合には、今回の処理対象であるウェブ文書は、メタ情報URI収集処理によって過去にURI情報の登録が行われたウェブ文書であると判断できるので、ステップ118の判定が肯定されてステップ122へ移行し、処理対象のウェブ文書から取得してメモリに一時保存しているメタ情報のURIを、先のステップ116の検索によって抽出されたURI情報に設定されているメタ情報のURIと比較し、今回取得したメタ情報のURIがURI情報に設定されているメタ情報URIと一致しているか否か判定する。なお、処理対象のウェブ文書から複数種のメタ情報のURIが抽出された場合、上記のURIの比較はメタ情報の種別毎に行われる。 On the other hand, when the corresponding URI information is extracted by the search in
ステップ122の判定が肯定された場合は何ら処理を行うことなくステップ126へ移行する。また、メタ情報のURIが変更されたり、新たなメタ情報が追加されていた場合には、ステップ122の判定が否定されてステップ124へ移行し、処理対象のウェブ文書から取得したメタ情報のURIを、ステップ116の検索によって抽出されたURI情報の中に同一種別のURIが存在していれば該URIに上書きし、前記URI情報の中に同一種別のURIが存在していなければ前記URI情報に追加することでURI情報DBに登録する。次のステップ126では、メタ情報URI収集処理を終了するか否か判定する。判定が否定された場合はステップ100に戻り、ステップ100以降の処理を繰り返す。また、ステップ126の判定が肯定されると処理を終了する。 If the determination in
上記のメタ情報URI収集処理により、対応するメタ情報(RSS要約文書、ATOM要約文書及び発信者識別文書の少なくとも1つ)が存在しているウェブ文書を発見する毎に、該ウェブ文書からメタ情報のURIを取得し、取得したURIがURI情報DBに未登録であればURI情報DBに新規又は上書きして登録することが繰り返されるので、URI情報DBは、インターネット16に公開されているウェブ文書のうち対応するメタ情報が存在しているウェブ文書の各々について、対応するメタ情報の最新のURIが登録されている状態に保たれることになる。 Whenever a web document in which corresponding meta information (at least one of RSS summary document, ATOM summary document, and sender identification document) is found by the above-described meta information URI collection process, meta information is extracted from the web document. If the obtained URI is not registered in the URI information DB, it is repeatedly registered to be new or overwritten in the URI information DB. Therefore, the URI information DB is a web document published on the
次に、収集・検索サーバ18のCPU18Aが更新履歴情報収集プログラムを実行することで収集・検索サーバ18によって行われる更新履歴情報収集処理について、図3のフローチャートを参照して説明する。なお、この更新履歴情報収集処理は、URI情報DBにURIが記憶されているRSS要約文書又はATOM要約文書を取得し、取得した要約文書から抽出した情報を更新履歴情報DBに更新履歴情報として記憶させる処理であり、この更新履歴情報収集処理も先に説明したメタ情報URI収集処理と同様、収集・検索サーバ18によって常時又は定期的に実行される。 Next, update history information collection processing performed by the collection /
ステップ130では、URI情報DBからRSS要約文書又はATOM要約文書のURIを取り込み、次のステップ132では、ステップ130で取り込んだURIに対応する要約文書の配信を、該要約文書を保管しているウェブ・サーバ12に対して要求する。ステップ134では上記のウェブ・サーバ12と通信が可能か否か判定する。例えばウェブ・サーバ12が稼働していなかった等の場合には前記判定が肯定され、何ら処理を行うことなくステップ156へ移行する。また、ステップ134の判定が肯定された場合はステップ136へ移行し、ウェブ・サーバ12からの情報の受信を待ち、情報を受信すると該情報をメモリに一時保存させた後に、要約文書の情報を上記のウェブ・サーバ12から取得できたか否か判定する。なお、上述したステップ130〜ステップ136は本発明に係る第2取得手段に対応している。 In
ウェブ・サーバ12から受信した情報が、指定されたURIに対応する要約文書が存在していないことを意味する情報であった場合には、例えばウェブ文書の情報中のリンク情報の記述が誤っていた等の原因が考えられるので、上記判定が肯定されてステップ138へ移行し、ステップ130で取り込んだ要約文書のURIをURI情報DBから削除した後にステップ156へ移行する。なお、ステップ138において、削除したURIが設定されていたURI情報が、前記削除したURIのみがメタ情報のURIとして設定された情報であった場合には、当該URI情報自体もURI情報DBから削除する。 If the information received from the
一方、ウェブ・サーバ12から受信してメモリに一時保存させた情報が要約文書の情報であった場合には、ステップ136の判定が肯定されてステップ140へ移行し、先のステップ130で取り込んだ要約文書のURIと対応付けられてURI情報DBに記憶されているウェブ文書(上記の要約文書に対応するウェブ文書)のURIをキーにして更新履歴情報DBを検索する。そしてステップ142では、ステップ140の検索によって該当する更新履歴情報が抽出されたか否か判定する。 On the other hand, if the information received from the
一般にウェブ文書(HTML文書)には項目毎にタイトルが付与される。RSS要約文書やATOM要約文書は、対応するウェブ文書の見出しや要約を提示する文書であり、具体的には、例として図5に示すように、対応するウェブ文書の各項目(別々にタイトルが付与される部分を単位とする各部分)毎に、タイトル、要約文、更新日時、対応する本文のURI等の属性情報が文字列として設定される(なお、図5では各要約文書のうちウェブ文書中の単一の項目に対応する部分を抜粋して示している)。また、図示は省略するが、RSS要約文書やATOM要約文書は、上述した各項目毎の属性情報以外に、対応するウェブ文書の最終更新日時も文字列として設定される。RSS要約文書やATOM要約文書は、所定のプログラムが実行されることで自動的に生成されると共に、対応するウェブ文書が更新される毎に、更新された項目に対応する属性情報が更新され(更新日時が更新されると共に、タイトルが更新されればタイトルも、内容が更新されれば要約文も更新される)、かつ最終更新日時も更新される。 In general, a web document (HTML document) is given a title for each item. An RSS summary document or an ATOM summary document is a document that presents the heading or summary of a corresponding web document. Specifically, as shown in FIG. 5 as an example, each item of the corresponding web document (with a title separately) Attribute information such as title, summary sentence, update date and time, URI of the corresponding body text is set as a character string for each part (units given as units) (in FIG. (Excerpt from the section corresponding to a single item in the document). Although illustration is omitted, in the RSS summary document and ATOM summary document, in addition to the attribute information for each item described above, the last update date and time of the corresponding web document is also set as a character string. The RSS summary document and the ATOM summary document are automatically generated by executing a predetermined program, and the attribute information corresponding to the updated item is updated each time the corresponding web document is updated ( The update date and time are updated, and the title is updated when the title is updated, and the summary sentence is updated when the content is updated.
詳細は後述するが、本実施形態に係る更新履歴情報収集処理では、新たな要約文書を取得する毎に、例として図6(B)に示すように、取得した要約文書から各項目に対応する属性情報と最終更新日時を抽出し、抽出した各情報を対応するウェブ文書のURIと対応付け、更新履歴情報DBに更新履歴情報として登録しているので、ステップ140の検索によって該当する更新履歴情報が抽出されなかった場合、今回取得した要約文書は、過去に取得されていない要約文書であると判断できる。このため、ステップ142の判定が否定された場合はステップ144へ移行し、取得した要約文書からウェブ文書の各項目毎の属性情報(タイトル、要約文、更新日時、本文URI)を各々抽出すると共に、最終更新日時を抽出する。 Although details will be described later, in the update history information collection process according to the present embodiment, each time a new summary document is acquired, each item is handled from the acquired summary document as shown in FIG. 6B as an example. Since the attribute information and the last update date / time are extracted, the extracted information is associated with the URI of the corresponding web document, and registered as update history information in the update history information DB. If no is extracted, it can be determined that the summary document acquired this time is a summary document that has not been acquired in the past. Therefore, if the determination in
具体的には、RSS要約文書では、図5に示すように文字列「<item>」と文字列「</item>」によって挟まれた文字列がウェブ文書中の単一の項目に対応する情報であり、この文字列のうち、文字列「<title>」と文字列「</title>」によって挟まれた文字列が対応する項目のタイトルを、文字列「<description>」と文字列「</description>」によって挟まれた文字列が対応する項目の要約文を、文字列「<dc:date>」と文字列「</dc:date>」によって挟まれた文字列が対応する項目の更新日時を、文字列「<link>」と文字列「</link>」によって挟まれた文字列が対応する本文(ウェブ文書)のURIを各々表している。またRSS要約文書では、要約文書中に最初に出現する文字列「<item>」と文字列「</item>」によって挟まれた文字列のうち、文字列「<dc:date>」と文字列「</dc:date>」によって挟まれた文字列がRSS要約文書の最終更新日時を表している。このため、取得した要約文書がRSS要約文書であった場合、ステップ144では上記の条件に従ってウェブ文書の各項目毎の属性情報を各々抽出すると共に最終更新日時を抽出する。 Specifically, in the RSS summary document, as shown in FIG. 5, a character string sandwiched between a character string “<item>” and a character string “</ item>” corresponds to a single item in the web document. This is information, and the title of the item corresponding to the character string between the character string "<title>" and the character string "</ title>", the character string "<description>" and the character string The summary text of the item corresponding to the character string sandwiched between "</ description>" corresponds to the character string sandwiched between the character string "<dc: date>" and the character string "</ dc: date>". The update date of the item represents the URI of the body (web document) to which the character string sandwiched between the character string “<link>” and the character string “</ link>” corresponds. In the RSS summary document, the character string “<dc: date>” and the character are included among the character strings sandwiched between the character string “<item>” and the character string “</ item>” that appear first in the summary document. A character string sandwiched between the columns “</ dc: date>” represents the last update date and time of the RSS summary document. For this reason, if the acquired summary document is an RSS summary document, in
また、ATOM要約文書では、図5に示すように文字列「<entry>」と文字列「</entry>」によって挟まれた文字列がウェブ文書中の単一の項目に対応する情報であり、この文字列のうち、文字列「<title>」と文字列「</title>」によって挟まれた文字列が対応する項目のタイトルを、文字列「<summary>」と文字列「</summary>」によって挟まれた文字列が対応する項目の要約文を、文字列「<modified>」と文字列「</modified>」によって挟まれた文字列が対応する項目の更新日時を各々表している。また、ウェブ文書中の単一の項目に対応する文字列の中に、文字列「<link」と文字列「/>」によって挟まれた文字列が存在し、かつ該文字列中に文字列「type="text/html"」が存在している場合、それに続く文字列「href="」と文字「"」で挟まれた文字列は対応する本文(ウェブ文書)のURIを表している。更にATOM要約文書では、要約文書中に最初に出現する文字列「<entry>」と文字列「</entry>」によって挟まれた文字列のうち、文字列「<modified>」と文字列「</modified>」によって挟まれた文字列がATOM要約文書の最終更新日時を表している。このため、取得した要約文書がATOM要約文書であった場合、ステップ144では上記の条件に従ってウェブ文書の各項目毎の属性情報を各々抽出すると共に最終更新日時を抽出する。 In the ATOM summary document, as shown in FIG. 5, the character string sandwiched between the character string “<entry>” and the character string “</ entry>” is information corresponding to a single item in the web document. , The title of the item corresponding to the character string sandwiched between the character string "<title>" and the character string "</ title>", the character string "<summary>" and the character string "</ "summary>" indicates the summary text of the corresponding item, and the character string "<modified>" and the character string "</ modified>" indicate the update date and time of the corresponding item. ing. In addition, a character string sandwiched between the character string “<link” and the character string “/>” exists in the character string corresponding to a single item in the web document, and the character string is included in the character string. When "type =" text / html "" exists, the character string sandwiched between the character string "href =" "and the character" "" represents the URI of the corresponding text (web document). . Furthermore, in the ATOM summary document, the character string “<modified>” and the character string “<entry>” among the character strings “<entry>” and the character string “</ entry>” that appear first in the summary document are displayed. </ modified> ”represents the last update date and time of the ATOM summary document. Therefore, if the acquired summary document is an ATOM summary document, in
ステップ146では、要約文書から抽出したウェブ文書の各項目毎の属性情報に、要約文書から抽出したウェブ文書の最終更新日時を付加し、対応するウェブ文書のURIと対応付けて更新履歴情報DBに更新履歴情報(図6(B)も参照)として新規に登録した後に、ステップ156へ移行する。 In
一方、ステップ140の検索によって該当する更新履歴情報が抽出された場合には、今回取得した要約文書は、更新履歴情報収集処理によって過去に更新履歴情報の登録が行われた要約文書であると判断できるので、ステップ142の判定が肯定されてステップ148へ移行し、ステップ140の検索によって抽出された更新履歴情報から最終更新日時を取り込むと共に、取得した要約文書の情報から最終更新日時を抽出して両者を比較し、次のステップ150で両者が一致しているか否か判定する。判定が肯定された場合は、今回取得した要約文書は更新履歴情報収集処理によって以前に取得した要約文書と同一の内容と判断できるので、何ら処理を行うことなくステップ156へ移行する。 On the other hand, if the corresponding update history information is extracted by the search in step 140, it is determined that the currently acquired summary document is a summary document for which update history information has been registered in the past by the update history information collection process. Therefore, the determination at
また、ステップ150の判定が否定された場合は、取得した要約文書に対応するウェブ文書は、該ウェブ文書に対応する要約文書を以前に取得してから現在迄の間に更新されており、今回取得した要約文書の内容は以前に取得した要約文書の内容と相違していると判断できる。このため、ステップ150の判定が否定された場合はステップ152へ移行し、今回取得した要約文書のうち各項目毎の属性情報に含まれる更新日時を、更新履歴情報DBから抽出した更新履歴情報に設定されている最終更新日時と各々比較することで、ウェブ文書のうち更新履歴情報DBから抽出した更新履歴情報に設定されている最終更新日時よりも後の日時に更新された項目に対応する属性情報を判断し、今回取得した更新履歴情報から該当する属性情報(タイトル、要約文、更新日時、本文URI)を抽出する。 If the determination in
そしてステップ154では、ステップ152で要約文書から抽出した属性情報を、更新履歴情報DBに登録されている更新履歴情報に新たに追加すると共に、当該更新履歴情報の最終更新日時を、今回取得した要約文書に設定されている最終更新日時で上書きすることで更新する。対応する要約文書が存在しているウェブ文書が更新されると、対応する要約文書上でも、ウェブ文書中の更新された項目に対応する属性情報が更新(上書き)されるが、本実施形態に係る更新履歴情報収集処理では、ウェブ文書中の特定項目が更新されたことに伴って対応する要約文書中の特定項目に対応する属性情報が更新される毎に、更新履歴情報DBに既に登録されている更新履歴情報に含まれる特定項目に対応する属性情報を更新後の属性情報で上書きすることなく、更新履歴情報DBに既に登録されている更新履歴情報に更新後の属性情報を追加するので、更新履歴情報には、対応するウェブ文書の更新履歴を表す情報が逐次蓄積されることになる。 In
次のステップ156では、更新履歴情報収集処理を終了するか否か判定する。判定が否定された場合はステップ130に戻り、ステップ130以降の処理を繰り返す。また、ステップ156の判定が肯定されると処理を終了する。なお、上記の更新履歴情報収集処理におけるステップ140〜ステップ156の処理は本発明に係る更新履歴生成手段に対応しており、請求項4に記載の「更新履歴情報を第3場所情報と対応付けて第2記憶手段に記憶させる」更新履歴生成手段にも対応している。 In the
上記の更新履歴情報収集処理により、更新履歴情報DBに未登録の要約文書が発見される毎に、該要約文書から属性情報等が抽出され更新履歴情報として更新履歴情報DBに登録されると共に、更新履歴情報DBに更新履歴情報として既に登録されている要約文書が更新されたことが発見される毎に、更新された要約文書から更新された属性情報のみが抽出され、更新履歴情報DBに既に登録されている更新履歴情報へ追加することが繰り返されることになる。要約文書は対応するウェブ文書よりも確実に情報量が少なく、ウェブ文書本体の情報を全て取得する場合よりも短時間で通信が終了するので、ウェブ文書本体の情報を全て取得して各ウェブ文書の更新履歴を収集する場合と比較して、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映されることになり、更新履歴情報DBは、インターネット16に公開されているウェブ文書のうち対応する要約情報が存在しているウェブ文書の各々の最新の更新履歴が登録されている状態に保たれることになる。 Each time an unregistered summary document is found in the update history information DB by the above update history information collection process, attribute information and the like are extracted from the summary document and registered as update history information in the update history information DB. Each time it is discovered that a summary document already registered as update history information in the update history information DB has been updated, only the updated attribute information is extracted from the updated summary document, and the update history information DB has already been updated. Adding to the registered update history information is repeated. The summary document has less information than the corresponding web document, and the communication is completed in a shorter time than when all the information of the web document is acquired. The update of the web document is reflected in the update history information DB in a shorter time compared to the case of collecting the update history of the update history information DB. The latest update history of each Web document in which the corresponding summary information exists is kept in a registered state.
更に、収集・検索サーバ18のCPU18Aが発信者情報収集プログラムを実行することで収集・検索サーバ18によって行われる発信者情報収集処理について、図4のフローチャートを参照して説明する。なお、この発信者情報収集処理は、URI情報DBにURIが記憶されている発信者識別文書を取得し、取得した発信者識別文書から抽出した情報を発信者情報DBに発信者情報として記憶させる処理であり、この発信者情報収集処理も先に説明したメタ情報URI収集処理、更新履歴情報収集処理と同様、収集・検索サーバ18によって常時又は定期的に実行される。 Furthermore, the caller information collection process performed by the collection /
ステップ160では、URI情報DBから発信者識別文書のURIを取り込み、次のステップ162では、ステップ160で取り込んだURIに対応する発信者識別文書の配信を、該発信者識別文書を保管しているウェブ・サーバ12に対して要求する。ステップ164では上記のウェブ・サーバ12と通信が可能か否か判定する。例えばウェブ・サーバ12が稼働していなかった等の場合には前記判定が肯定され、何ら処理を行うことなくステップ186へ移行する。また、ステップ164の判定が肯定された場合はステップ166へ移行し、ウェブ・サーバ12からの情報の受信を待ち、情報を受信すると該情報をメモリに一時保存させた後に、発信者識別文書の情報を上記のウェブ・サーバ12から取得できたか否か判定する。なお、上述したステップ160〜ステップ166は請求項4に記載の第2取得手段に対応している。 In
ウェブ・サーバ12から受信した情報が、指定されたURIに対応する発信者識別文書が存在していないことを意味する情報であった場合には、例えばウェブ文書の情報中のリンク情報の記述が誤っていた等の原因が考えられるので、上記判定が肯定されてステップ168へ移行し、ステップ160で取り込んだ発信者識別文書のURIをURI情報DBから削除した後にステップ186へ移行する。なおステップ168において、削除したURIが設定されていたURI情報が、前記削除したURIのみがメタ情報のURIとして設定された情報であった場合には、当該URI情報自体もURI情報DBから削除する。 If the information received from the
一方、ウェブ・サーバ12から受信してメモリに一時保存させた情報が発信者識別文書の情報であった場合には、ステップ166の判定が肯定されてステップ170へ移行し、先のステップ160で取り込んだ発信者識別文書のURIと対応付けられてURI情報DBに記憶されているウェブ文書(上記の発信者識別文書に対応するウェブ文書)のURIをキーにして発信者情報DBを検索する。そしてステップ172では、ステップ170の検索によって該当する発信者情報が抽出されたか否か判定する。 On the other hand, when the information received from the
発信者識別文書は対応するウェブ文書の発信者を識別する情報を提示する文書であり、例として図5に示すように、対応するウェブ文書の発信者の氏名、発信者の電子メールのアドレス及びホームページのURIが設定される。詳細は後述するが、本実施形態に係る発信者情報収集処理では、新たな発信者識別文書を取得する毎に、例として図6(C)に示すように、取得した発信者識別文書から発信者の氏名、電子メールのアドレス及びホームページのURIを抽出し、抽出した情報に最終更新日時を付加し、対応するウェブ文書のURIと対応付けて発信者情報DBに発信者情報として登録しているので、ステップ170の検索によって該当する発信者情報が抽出されなかった場合には、今回取得した発信者識別文書は、過去に取得されていない発信者識別文書であると判断できる。このため、ステップ172の判定が否定された場合はステップ174へ移行し、取得した発信者識別文書から発信者の氏名、メールアドレス及びホームページのURIを抽出する。 The sender identification document is a document that presents information for identifying the sender of the corresponding web document. As shown in FIG. 5, for example, the name of the sender of the corresponding web document, the email address of the sender, The home page URI is set. Although details will be described later, in the caller information collection processing according to the present embodiment, every time a new caller identification document is acquired, as shown in FIG. 6C as an example, a call is sent from the acquired caller identification document. The name, e-mail address and home page URI of the sender are extracted, the last update date and time is added to the extracted information, and the sender information DB is registered as the sender information in association with the URI of the corresponding web document. Therefore, when the corresponding sender information is not extracted by the search in
なお、発信者識別文書では、図5に示すように文字列「<foaf:name>」と文字列「</foaf:name>」によって挟まれた文字列が発信者の氏名を、文字列「<foaf:mbox」と文字列「/>」によって挟まれた文字列のうち文字列「rdf:resource="」と文字「"」によって挟まれた文字列が発信者のメールアドレスのテキストを、文字列「<foaf:mbox_sha1sum>」と文字列「</foaf:mbox_sha1sum>」によって挟まれた文字列が発信者のメールアドレスのハッシュ値を、文字列「<foaf:homepage」と文字列「/>」によって挟まれた文字列のうち文字列「rdf:resource="」と文字「"」によって挟まれた文字列が発信者のホームページのURIを各々表している。このため、ステップ174では上記の条件に従ってウェブ文書の発信者の氏名、メールアドレス(テキスト及びハッシュ値の少なくとも一方)及びホームページのURIを各々抽出する。 In the caller identification document, as shown in FIG. 5, a character string sandwiched between a character string “<foaf: name>” and a character string “</ foaf: name>” indicates the name of the caller, and the character string “ Of the character string sandwiched between <foaf: mbox "and the character string" /> ", the character string sandwiched between the character string" rdf: resource = "" and the character "" is the text of the sender's email address. The string between the string "<foaf: mbox_sha1sum>" and the string "</ foaf: mbox_sha1sum>" is the hash value of the sender's email address, the string "<foaf: homepage" and the string "/ Among the character strings sandwiched between “>”, the character strings sandwiched between the character string “rdf: resource =” and the character ““ ”represent the URI of the home page of the caller. Therefore, in
そしてステップ176では、発信者識別文書から抽出した情報に現在の日時を最終更新日時として付加し、対応するウェブ文書のURIと対応付けて発信者情報DBに発信者情報(図6(C)も参照)として新規に登録した後に、ステップ186へ移行する。 In
一方、ステップ170の検索によって該当する発信者情報が抽出された場合には、今回取得した発信者識別文書は、発信者情報収集処理によって過去に発信者情報の登録が行われた発信者識別文書であると判断できるので、ステップ172の判定が肯定されてステップ178へ移行し、ステップ170の検索によって発信者情報DBから抽出された発信者情報に含まれる発信者氏名、メールアドレス、ホームページURIを、取得した発信者識別文書から抽出した発信者氏名、メールアドレス、ホームページURIと各々比較する。そしてステップ180では、両者の発信者氏名、メールアドレス、ホームページURIが各々一致したか否か判定する。ステップ180の判定が肯定された場合、今回取得した発信者識別文書は発信者情報収集処理によって以前に取得した発信者識別文書と同一の内容と判断できるので、何ら処理を行うことなくステップ186へ移行する。 On the other hand, when the corresponding sender information is extracted by the search in
また、ステップ180の判定が否定された場合は、今回取得した発信者識別文書は発信者情報収集処理によって以前に取得した発信者識別文書から更新されていると判断できるので、ステップ182において、発信者情報DBに登録されている発信者情報に設定されている各情報のうち、今回取得した発信者識別文書から取得した各情報と一致していない情報を、発信者識別文書から抽出した情報により上書きすることで、発信者情報DBに登録されている発信者情報を更新する。また、ステップ184では現在の日時を取得し、発信者情報DBに登録されている発信者識別情報のうちの最終更新日時を取得した現在の日時へ更新する。次のステップ186では発信者情報収集処理を終了するか否か判定する。判定が否定された場合はステップ160に戻り、ステップ160以降の処理を繰り返す。また、ステップ186の判定が肯定されると処理を終了する。なお、上述した発信者情報収集処理のステップ170〜ステップ186は請求項4に記載の更新履歴生成手段に対応している。 If the determination in
上記の発信者情報収集処理により、発信者情報DBに未登録の発信者識別文書を発見する毎に、該発信者識別文書から発信者の属性情報(発信者氏名、メールアドレス、ホームページURI)を抽出し発信者情報として発信者情報DBに登録し、発信者情報DBに発信者情報として既に登録されている発信者識別文書が更新されたことを発見する毎に、該発信者識別文書に設定されている各情報のうち更新された情報を、発信者情報DBに既に登録されている発信者情報に上書きして登録することが繰り返されるので、発信者情報DBは、発信者識別文書によってインターネット16に公開されている各発信者の最新の属性情報が登録されている状態に保たれることになる。 Each time the sender identification document unregistered in the sender information DB is discovered by the above-mentioned sender information collection process, the attribute information (sender name, mail address, home page URI) of the sender is obtained from the sender identification document. Extracted and registered in the sender information DB as sender information, and set in the sender identification document every time it is found that the sender identification document already registered as sender information in the sender information DB has been updated. Since the updated information is repeatedly overwritten and registered on the caller information DB already registered in the caller information DB, the caller information DB is stored on the Internet by the caller identification document. Thus, the latest attribute information of each sender disclosed in FIG. 16 is kept registered.
続いて、収集・検索サーバ18のCPU18Aが情報検索プログラムを実行することで収集・検索サーバ18によって行われる情報検索処理について、図7のフローチャートを参照して説明する。収集・検索サーバ18は、クライアント端末30から検索処理の実行が要求されると、検索処理に用いるキーワードを指定させるための検索キーワード入力画面(例えば図8(A)参照)や、検索対象の情報の更新日時の範囲を指定させるための更新日時指定画面(図示省略)の情報を順次クライアント端末30へ転送することで、クライアント端末30の表示装置に上記各画面を順次表示させる。そして、クライアント端末30の操作者が入力装置を操作して各画面の入力欄に対応する情報を各々入力することで、実行すべき検索処理に用いるキーワード及び更新日時の範囲を指定する情報がクライアント端末30から送信され収集・検索サーバ18で受信されると、収集・検索サーバ18によって情報検索処理が実行される。なお、情報検索処理は請求項3,6に記載の検索手段に対応している。 Next, information search processing performed by the collection /
この情報検索処理では、まずステップ190において、今回の情報検索処理で未取り出しの更新履歴情報を処理対象の更新履歴情報として更新履歴情報DBから取り出す。次のステップ192では、ステップ190で取り出した処理対象の更新履歴情報に設定されている各属性情報のうち、今回の情報検索処理で未取り出しの属性情報(対応するウェブ文書のうちの特定項目に対応するタイトル、要約文、更新日時、本文URIの各情報)を処理対象の属性情報として取り出す。ステップ194では処理対象の属性情報に含まれる更新日時をクライアント端末30から受信した更新日時の範囲と比較することで、処理対象の属性情報に含まれる更新日時がクライアント端末30から指定された更新日時の範囲内か否か判定する。また、この判定が肯定された場合はステップ196へ移行し、処理対象の属性情報のうちのタイトル及び要約文に対してクライアント端末30から受信したキーワードの検索を行うことで、処理対象の属性情報のうちのタイトル及び要約文に、クライアント端末30から指定されたキーワードが含まれているか否か判定する。 In this information search process, first, in
ステップ194の判定が否定された場合には、処理対象の属性情報に対応するウェブ文書本体の特定項目は、指定された更新日時の範囲外の日時に更新されたと判断することができる。また、ステップ196の判定が否定された場合には、処理対象の属性情報に対応するウェブ文書本体の特定項目は、指定されたキーワードとは無関係な内容である可能性が高いと判断することができる。このため、ステップ194又はステップ196の判定が否定された場合は何ら処理を行うことなくステップ206へ移行し、処理対象の更新履歴情報から全ての属性情報の取り出しを行ったか否か判定する。判定が否定された場合はステップ192に戻る。これにより、ステップ206の判定が肯定される迄の間、ステップ192〜ステップ206が繰り返され、処理対象の更新履歴情報に含まれる全ての属性情報を順に取り出しながら、取り出した属性情報に対してステップ192以降の処理が各々行われることになる。また、ステップ206の判定が肯定されるとステップ208へ移行し、更新履歴情報DBに記憶されている全ての更新履歴情報の取り出しを行ったか否か判定する。判定が否定された場合はステップ190に戻る。これにより、ステップ208の判定が肯定される迄の間、ステップ190〜ステップ208が繰り返され、更新履歴情報DBに記憶されている全ての更新履歴情報を順に取り出しながら、取り出した更新履歴情報(に設定されている各属性情報)に対してステップ190以降の処理が各々行われることになる。 If the determination in
また、更新履歴情報DBに記憶されている各更新履歴情報の各属性情報に対して上記処理が繰り返されている間に、特定の属性情報に関してステップ194,196の判定が各々肯定された場合(属性情報に含まれる更新日時が指定された更新日時の範囲内で、属性情報に含まれるタイトル又は要約文に指定されたキーワードが含まれている場合)にはステップ198へ移行し、該特定の属性情報を含む更新履歴情報に付加されている、対応するウェブ文書のURIを更新履歴情報DBから抽出し、特定の属性情報を抽出したウェブ文書のURIと共に検索結果としてメモリに保存する。また、ステップ200では、ステップ198で抽出した対応するウェブ文書のURIをキーに発信者情報DBを検索し、次のステップ202では、ステップ200の検索によって該当する発信者情報が抽出されたか否か判定する。この判定が否定された場合には何ら処理を行うことなくステップ206へ移行するが、前記判定が肯定された場合はステップ204へ移行し、ステップ200の検索によって抽出された発信者情報を発信者情報DBから読み出し、読み出した発信者情報を先のステップ198でメモリに保存した属性情報に付加した後に、ステップ206へ移行する。 Further, when the above processing is repeated for each piece of attribute information of each piece of update history information stored in the update history information DB, the determinations of
そして、更新履歴情報DBに記憶されている各更新履歴情報の各属性情報に対して上記処理が完了すると、ステップ208の判定が肯定されてステップ210へ移行する。上記の情報検索処理では、殆どの場合、複数の検索結果がメモリに保存される。このため、ステップ210ではメモリに保存されている個々の検索結果に含まれる更新日時を参照し、個々の検索結果を更新日時の降順でソートする。そして、例として図8に示すように、検索結果をソート後の順序で表示するための検索結果一覧表示画面を生成し、生成した検索結果表示画面の情報をクライアント端末30へ送信して処理を終了する。これにより、クライアント端末30の表示装置には図8に示すような検索結果一覧表示画面が表示されることになる。なお、図8に示す検索結果一覧表示画面では、個々の検索結果毎にタイトル、要約文、更新日時、発信者(配信者)の氏名及びメールアドレスが文字列で表示されており、要約文の文字列には本文のURIがリンク付けされ、発信者の氏名の文字列には発信者のホームページのURIがリンク付けされている。 When the above processing is completed for each attribute information of each update history information stored in the update history information DB, the determination in
クライアント端末30の表示装置に表示された上記の検索結果一覧表示画面を参照することで、クライアント端末30の操作者は、指定したキーワードを含み、かつ指定した更新日時の範囲内に更新された情報(ウェブ文書の単一の項目に相当する情報)を認識することができ、特定の検索結果における要約文の文字列を選択することで、収集・検索サーバ18を介して対応する本文(ウェブ文書)の情報を取得し、前記対応する本文を表示装置に表示させて内容を確認することができる。また、特定の検索結果における発信者氏名の文字列を選択することで、収集・検索サーバ18を介して発信者のホームページの情報を取得し、前記発信者のホームページを表示装置に表示させて内容を閲覧することも可能となる。 By referring to the search result list display screen displayed on the display device of the
このように、本実施形態では、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映され、更新履歴情報DBは、インターネット16に公開されているウェブ文書のうち対応する要約情報が存在しているウェブ文書の各々の最新の更新履歴が登録されている状態に保たれるので、ウェブ文書の更新がより短い時間で検索結果に反映される。また、本実施形態では、ウェブ文書の各項目毎のタイトル、要約文、更新日時等の属性情報を更新履歴情報として記憶し、ウェブ文書が更新される毎に、該ウェブ文書のうち更新された項目の属性情報を更新履歴情報に追加すると共に、キーワード及び更新日時の範囲が指定されて検索が指示されると、更新日時が指定された更新日時の範囲内で、タイトル又は要約文に指定されたキーワードが含まれている属性情報を検索し、該当する属性情報を検索結果として出力するので、検索結果として、指定したキーワードを含み、かつ指定した更新日時の範囲内に更新された情報を提示することができる。 As described above, in this embodiment, the update of the web document is reflected in the update history information DB in a shorter time, and the update history information DB includes the corresponding summary information among the web documents published on the
また、上述したコンピュータ・システム10を利用することで、現時点での個々の顧客のニーズを的確に把握し、現時点での個々の顧客のニーズに合致した商品を個々の顧客へ直ちに紹介することも可能となる。すなわち、近年、ブログ(blog)或いはウェブログ(Weblog)とも称され、個人運営で日々更新される日記的なウェブサイト(以下、単に個人サイトと称する)が広範に普及してきている。この種の個人サイトは、発信者の行動記録、発信者が興味を持ったニュースの評論、他のウェブサイトの紹介が掲載されることが多く、発信者に旅行や自動車・住宅の購入等の予定があればこれらの予定も発信者の個人サイトに掲載される可能性が高い。また、極めて高い頻度で更新されることが多いという特徴がある。 In addition, by using the computer system 10 described above, it is possible to accurately grasp the needs of individual customers at the present time and immediately introduce products that meet the needs of individual customers to the individual customers. It becomes possible. That is, in recent years, diary websites (hereinafter simply referred to as “personal sites”), which are also referred to as blogs or blogs (Weblogs) and are updated daily by personal management, have become widespread. This type of personal site often contains information about the caller's behavior, reviews of news that the caller is interested in, and introductions to other websites. If there are plans, these plans are likely to be posted on the sender's personal site. In addition, there is a feature that it is frequently updated at an extremely high frequency.
本実施形態に係るコンピュータ・システム10では、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映されると共に、更新日時の範囲を指定することができるので、例えば旅行や車・住宅の購入等の予定に関連するキーワードを指定すると共に、ごく最近に更新された情報のみが検索対象となるように指定する更新日時の範囲を絞り込むことで、旅行や自動車・住宅の購入等の予定があることを情報として発信している個人サイトを容易に抽出することができる。また、本実施形態に係るコンピュータ・システム10では、検索結果に対応する発信者情報が存在している場合には、検索結果に発信者の氏名やメールアドレス等の発信者情報も付加されるので、検索結果に相当する情報を発信している発信者に対して電子メールを送信することも可能である。 In the computer system 10 according to the present embodiment, the update of the web document is reflected in the update history information DB in a shorter time and the range of the update date can be specified. In addition to specifying keywords related to the schedule, etc., and narrowing the range of update date and time to specify that only the most recently updated information is to be searched, there are schedules such as travel, purchase of cars and houses, etc. It is possible to easily extract a personal site that transmits information as information. Further, in the computer system 10 according to the present embodiment, when the sender information corresponding to the search result exists, the sender information such as the sender's name and mail address is added to the search result. It is also possible to send an e-mail to a sender who is sending information corresponding to the search result.
このため、本実施形態に係るコンピュータ・システム10を利用した検索により、例えば旅行の予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して旅行ローンを紹介する電子メールを送信し、自動車を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して自動車ローンを紹介する電子メールを送信し、自動車を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して自動車ローンを紹介する電子メールを送信し、住宅を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して住宅ローンを紹介する電子メールを送信する等により、現時点での個々の顧客のニーズに合致した商品を個々の顧客へ直ちに紹介することができる。 For this reason, when a search using the computer system 10 according to the present embodiment finds, for example, a caller who is sending information on a personal site that there is a travel plan, If you send an e-mail that introduces a travel loan and find a caller who sends information on your personal site that you plan to purchase a car, you can find an e-mail that introduces the car loan to this caller. If you send a mail and find a caller who is sending information on your personal site that you plan to purchase a car, send an e-mail introducing your car loan to this caller, If you find a caller who sends information on your personal site that you plan to purchase a home page, send an email to this caller that introduces your mortgage. By like to, immediately it is possible to introduce products that meet the needs of individual customers at the moment to the individual customer.
なお、上記では収集・検索サーバ18に直接接続されたクライアント端末30から検索要求を受信すると、情報検索処理を行って検索結果をクライアント端末30へ送信する態様を説明したが、これに限定されるものではなく、インターネット16に接続された各クライアント端末14に対し、上記の情報検索処理を検索エンジンサービスとして提供するようにしてもよい。この場合、収集・検索サーバ18をウェブ・サーバとしても機能させるようにしてもよいが、例えば図1で破線で示すように、インターネット16に接続された特定のウェブ・サーバ12と収集・検索サーバ18(の通信制御装置20)を直接接続し、クライアント端末14から指定されたキーワードや更新日時の範囲等の情報が特定のウェブ・サーバ12から収集・検索サーバ18へ送信されると共に、収集・検索サーバ18によって実行された情報検索処理の結果が収集・検索サーバ18から特定のウェブ・サーバ12へ送信されるように構成し、この特定のウェブ・サーバ12によって検索キーワード入力画面のウェブページや検索結果一覧表示画面のウェブページがクライアント端末14へ配信されるようにした方が、収集・検索サーバ18の負荷が軽減されるので好ましい。 In the above description, a mode has been described in which when a search request is received from the
また、上記では発信者識別文書を取得し、発信者の氏名やメールアドレスを発信者情報DBに発信者情報として記憶しておき、検索結果に対応する発信者情報が存在している場合には、検索結果と共に発信者情報を出力する処理を行う例を説明したが、上記の処理は必須ではなく、省略してもよい。 In the above, when the sender identification document is obtained, the sender name and mail address are stored as sender information in the sender information DB, and the sender information corresponding to the search result exists. The example of performing the process of outputting the sender information together with the search result has been described, but the above process is not essential and may be omitted.
10 コンピュータ・システム
12 ウェブ・サーバ
16 インターネット
18 ウェブ・サーバ
18 収集・検索サーバ
28 HDD
30 クライアント端末10
30 client terminals
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004283723AJP2006099341A (en) | 2004-09-29 | 2004-09-29 | Update history generation device and program |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004283723AJP2006099341A (en) | 2004-09-29 | 2004-09-29 | Update history generation device and program |
| Publication Number | Publication Date |
|---|---|
| JP2006099341Atrue JP2006099341A (en) | 2006-04-13 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004283723AWithdrawnJP2006099341A (en) | 2004-09-29 | 2004-09-29 | Update history generation device and program |
| Country | Link |
|---|---|
| JP (1) | JP2006099341A (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006139470A (en)* | 2004-11-11 | 2006-06-01 | Nippon Telegraph & Telephone East Corp | Information providing apparatus, information providing method, and program thereof |
| JP2007300484A (en)* | 2006-05-01 | 2007-11-15 | Softbank Mobile Corp | Mobile communication terminal and server |
| JP2007299274A (en)* | 2006-05-01 | 2007-11-15 | Softbank Mobile Corp | Mobile communication terminal |
| JP2007310833A (en)* | 2006-05-22 | 2007-11-29 | Nippon Telegr & Teleph Corp <Ntt> | Server apparatus and client apparatus and program thereof |
| JP2008158589A (en)* | 2006-12-20 | 2008-07-10 | Oki Electric Ind Co Ltd | Updated information notification device, and updated information notification program |
| JP2009188951A (en)* | 2008-02-08 | 2009-08-20 | Sharp Corp | Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, program, and recording medium |
| JP2009545815A (en)* | 2006-07-31 | 2009-12-24 | マイクロソフト コーポレーション | Bidirectional multi-master synchronization via web syndication |
| JP2010211708A (en)* | 2009-03-12 | 2010-09-24 | Brother Ind Ltd | Communication apparatus and program |
| EP2057555A4 (en)* | 2006-08-28 | 2010-10-13 | Korea Inst Sci & Tech | SYSTEM FOR MANAGING RESULTING INFORMATION OBTAINED USING A URI IDENTIFIER AND ASSOCIATED METHOD |
| JP2010231426A (en)* | 2009-03-26 | 2010-10-14 | Brother Ind Ltd | Communication device |
| JP2011039884A (en)* | 2009-08-14 | 2011-02-24 | Internatl Business Mach Corp <Ibm> | System and program for collecting document |
| JP2011519443A (en)* | 2008-03-28 | 2011-07-07 | アルカテル−ルーセント | Method for identifying complementary data relating to at least one content, method for transmitting said complementary data, and related processing device and application server |
| JP2011216115A (en)* | 2011-07-15 | 2011-10-27 | Hitachi Ltd | Download control device |
| JP2012009024A (en)* | 2010-06-24 | 2012-01-12 | Nhn Corp | Document collection system and method |
| US8291013B2 (en) | 2009-03-12 | 2012-10-16 | Brother Kogyo Kabushiki Kaisha | Communication apparatus and storage medium storing program |
| JP2015191558A (en)* | 2014-03-28 | 2015-11-02 | Kddi株式会社 | Electronic equipment, search method, and program |
| US9576063B2 (en) | 2007-04-20 | 2017-02-21 | Hitachi Maxell, Ltd. | Download control device |
| CN107360240A (en)* | 2017-07-20 | 2017-11-17 | 广东小天才科技有限公司 | Data updating method and system |
| CN111782798A (en)* | 2019-04-03 | 2020-10-16 | 阿里巴巴集团控股有限公司 | Abstract generation method, device and equipment and project management method |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006139470A (en)* | 2004-11-11 | 2006-06-01 | Nippon Telegraph & Telephone East Corp | Information providing apparatus, information providing method, and program thereof |
| JP2007300484A (en)* | 2006-05-01 | 2007-11-15 | Softbank Mobile Corp | Mobile communication terminal and server |
| JP2007299274A (en)* | 2006-05-01 | 2007-11-15 | Softbank Mobile Corp | Mobile communication terminal |
| JP2007310833A (en)* | 2006-05-22 | 2007-11-29 | Nippon Telegr & Teleph Corp <Ntt> | Server apparatus and client apparatus and program thereof |
| JP2009545815A (en)* | 2006-07-31 | 2009-12-24 | マイクロソフト コーポレーション | Bidirectional multi-master synchronization via web syndication |
| US7904405B2 (en) | 2006-08-28 | 2011-03-08 | Korea Institute Of Science & Technology Information | System and method for managing outcome information based on URI data wherein knowledge is extended by using an inference rule for an inference service based on the Semantic Web |
| EP2057555A4 (en)* | 2006-08-28 | 2010-10-13 | Korea Inst Sci & Tech | SYSTEM FOR MANAGING RESULTING INFORMATION OBTAINED USING A URI IDENTIFIER AND ASSOCIATED METHOD |
| JP2008158589A (en)* | 2006-12-20 | 2008-07-10 | Oki Electric Ind Co Ltd | Updated information notification device, and updated information notification program |
| US11973821B2 (en) | 2007-04-20 | 2024-04-30 | Maxell, Ltd. | Download control device |
| US11641390B2 (en) | 2007-04-20 | 2023-05-02 | Maxell, Ltd. | Download control device |
| US9576063B2 (en) | 2007-04-20 | 2017-02-21 | Hitachi Maxell, Ltd. | Download control device |
| US11271988B2 (en) | 2007-04-20 | 2022-03-08 | Maxell, Ltd. | Download control device |
| US10834172B2 (en) | 2007-04-20 | 2020-11-10 | Maxell, Ltd. | Download control device |
| US10200449B2 (en) | 2007-04-20 | 2019-02-05 | Maxell, Ltd. | Download control device |
| US10187449B2 (en) | 2007-04-20 | 2019-01-22 | Maxell, Ltd. | Download control device |
| JP2009188951A (en)* | 2008-02-08 | 2009-08-20 | Sharp Corp | Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, program, and recording medium |
| US8300944B2 (en) | 2008-02-08 | 2012-10-30 | Sharp Kabushiki Kaisha | Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, and storage medium |
| JP2011519443A (en)* | 2008-03-28 | 2011-07-07 | アルカテル−ルーセント | Method for identifying complementary data relating to at least one content, method for transmitting said complementary data, and related processing device and application server |
| JP2010211708A (en)* | 2009-03-12 | 2010-09-24 | Brother Ind Ltd | Communication apparatus and program |
| US8291013B2 (en) | 2009-03-12 | 2012-10-16 | Brother Kogyo Kabushiki Kaisha | Communication apparatus and storage medium storing program |
| JP2010231426A (en)* | 2009-03-26 | 2010-10-14 | Brother Ind Ltd | Communication device |
| US8229934B2 (en) | 2009-08-14 | 2012-07-24 | International Business Machines Corporation | System and program for collecting documents |
| JP2011039884A (en)* | 2009-08-14 | 2011-02-24 | Internatl Business Mach Corp <Ibm> | System and program for collecting document |
| JP2012009024A (en)* | 2010-06-24 | 2012-01-12 | Nhn Corp | Document collection system and method |
| JP2011216115A (en)* | 2011-07-15 | 2011-10-27 | Hitachi Ltd | Download control device |
| JP2015191558A (en)* | 2014-03-28 | 2015-11-02 | Kddi株式会社 | Electronic equipment, search method, and program |
| CN107360240A (en)* | 2017-07-20 | 2017-11-17 | 广东小天才科技有限公司 | Data updating method and system |
| CN111782798A (en)* | 2019-04-03 | 2020-10-16 | 阿里巴巴集团控股有限公司 | Abstract generation method, device and equipment and project management method |
| CN111782798B (en)* | 2019-04-03 | 2024-01-12 | 阿里巴巴集团控股有限公司 | Digest generation method, digest generation device, digest generation equipment and project management method |
| Publication | Publication Date | Title |
|---|---|---|
| US12417254B2 (en) | Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content | |
| US7788274B1 (en) | Systems and methods for category-based search | |
| US8276065B2 (en) | System and method for classifying electronically posted documents | |
| US7146415B1 (en) | Information source monitor device for network information, monitoring and display method for the same, storage medium storing the method as a program, and a computer for executing the program | |
| JP2006099341A (en) | Update history generation device and program | |
| US8849818B1 (en) | Searching via user-specified ratings | |
| US20030033298A1 (en) | System and method for integrating on-line user ratings of businesses with search engines | |
| US9529861B2 (en) | Method, system, and graphical user interface for improved search result displays via user-specified annotations | |
| US20100042594A1 (en) | Method and system for indexing information and providing results for a search including objects having predetermined attributes | |
| US20060282504A1 (en) | Usage status notification system | |
| US20030018669A1 (en) | System and method for associating a destination document to a source document during a save process | |
| JP4963619B2 (en) | Information search system, information search device, search result screen information generation method, and search result screen information generation processing program | |
| US8589391B1 (en) | Method and system for generating web site ratings for a user | |
| JP2009015589A (en) | Related document presentation system and program | |
| JP2006309515A (en) | Information distribution method and information distribution server | |
| US9064014B2 (en) | Information provisioning device, information provisioning method, program, and information recording medium | |
| JP5290041B2 (en) | Information search apparatus and information search method | |
| JP2004206492A (en) | Document display method and gateway device with link destination selection function using the same | |
| JP4027568B2 (en) | Information processing device that performs clipping services using multiple search engines on the Internet | |
| JP4610543B2 (en) | Period extracting device, period extracting method, period extracting program implementing the method, and recording medium storing the program | |
| US8131752B2 (en) | Breaking documents | |
| JP5407336B2 (en) | Information processing device | |
| JP5297295B2 (en) | WWW information browsing system and method, and Web browser and program | |
| JP4417497B2 (en) | Information retrieval apparatus and storage medium storing program | |
| US20090193056A1 (en) | System And Method For Managing Legislative Information |
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed | Free format text:JAPANESE INTERMEDIATE CODE: A300 Effective date:20071204 |