本発明は、情報処理システムに関する。The present invention relates to an information processing system.
研究者やオフィス内外での業務に従事する者(以下、「ユーザ」という)にとって、自身の業務に有用なデータを収集して活用したいことがある。収集したデータ群を効率的に活用するために、当該データ群をフォルダ等の仮想的な保管場所を用いて関連性の高いデータ集合ごとに分類しておくことが考えられる。この際、各データ集合(保管場所)に対して分類に応じた名前を付与することができる。Researchers and people working in and outside the office (hereafter referred to as "users") sometimes want to collect and utilize data that is useful for their work. In order to efficiently utilize collected data sets, it is possible to classify the data sets into highly related data sets using virtual storage locations such as folders. In this case, each data set (storage location) can be given a name according to its classification.
なお、特許文献1では、画像を自動分類する目的で、読み取った画像を予め設定したタグへ分類する構成が開示されている。Note that Patent Document 1 discloses a configuration for automatically classifying scanned images into pre-set tags.
しかし、従来技術では、或るデータ集合がユーザが目的とする情報を含むデータ集合であるか否かを判断するには、データ集合に属するデータを参照するといったような、煩雑な作業が必要とされる。However, with conventional technology, determining whether a certain data set contains the information a user is looking for requires tedious work, such as referencing the data belonging to the data set.
本発明は、上記の点に鑑みてなされたものであって、或るデータ集合が所望の情報を含むか否かについての判断を支援することを目的とする。The present invention was made in consideration of the above points, and aims to assist in determining whether a certain data set contains desired information.
そこで上記課題を解決するため、情報処理システムは、入力情報との類似性に基づいて複数のデータを検索するデータ検索部と、前記データの集合が含む単語に基づいて前記集合に対してラベルを付与するラベル付与部と、前記集合に対してユーザによって付与された名前と前記ラベルとを対応付けて表示する表示情報を生成する表示情報生成部と、を有する。To solve the above problem, the information processing system has a data search unit that searches for multiple pieces of data based on similarity with input information, a label assignment unit that assigns labels to the data sets based on words contained in the sets, and a display information generation unit that generates display information that associates the labels with names assigned to the sets by the user.
或るデータ集合が所望の情報を含むか否かについての判断を支援することができる。It can help determine whether a data set contains the desired information.
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第1の実施の形態における情報処理システムの構成例を示す図である。図1において、情報処理システムは、情報管理装置20、情報処理装置10及び1以上のユーザ端末30等を含む。情報処理装置10は、ネットワークN1を介して情報管理装置20に接続する。ユーザ端末30は、ネットワークN2を介して情報管理装置20に接続し、ネットワークN3を介して情報処理装置10に接続する。Embodiments of the present invention will now be described with reference to the drawings. Figure 1 is a diagram showing an example configuration of an information processing system in a first embodiment. In Figure 1, the information processing system includes an information management device 20, an information processing device 10, and one or more user terminals 30. The information processing device 10 connects to the information management device 20 via network N1. The user terminal 30 connects to the information management device 20 via network N2, and connects to the information processing device 10 via network N3.
ユーザ端末30は、或る情報の収集(或る情報へのアクセス)を所望するユーザが利用する端末である。例えば、PC(Personal Computer)、タブレット端末又はスマートフォン等がユーザ端末30として利用されてもよい。本実施の形態では、文書情報、有識者情報及びワークスペースが、ユーザが収集を所望する情報の種別の一例として挙げられる。The user terminal 30 is a terminal used by a user who wishes to collect (access) certain information. For example, a PC (Personal Computer), a tablet terminal, a smartphone, or the like may be used as the user terminal 30. In this embodiment, document information, expert information, and workspaces are given as examples of the types of information that a user wishes to collect.
文書情報とは、文書が記録されている電子的なデータ(以下、「文書データ」という。)に関する属性情報又は書誌情報等を含む情報である。文書とは、1以上の単語又は文の集合である(また、当然ながら英数字等その他多言語が含まれていてもよい)。文書データは、文を表現できる形式であればどの様な形式のデータであってもよい。例えば、文書データは、文書をテキスト形式で表現するデータであってもよいし、特定のアプリケーションに特化した形式のデータであってよい。又は、文書データは、単語又は文そのものや単語又は文に対応する概念を画像、音声又は映像(動画)等によって表現するデータであってもよい。すなわち、文書データは、画像データ、音声データ又は映像データであってもよい。更に、文書データの保存形式も特定のものに限定されない。例えば、文書データはファイルに格納されて保存されてもよいし、データベースのレコードとして保存されてもよいし、他の形式で保存されてもよい。Document information is information that includes attribute information or bibliographic information related to electronic data in which a document is recorded (hereinafter referred to as "document data"). A document is a collection of one or more words or sentences (and, of course, may also include alphanumeric characters and other multilingual characters). Document data can be in any format that can represent a sentence. For example, document data can be data that represents a document in text format, or data in a format specialized for a specific application. Alternatively, document data can be data that represents words or sentences themselves, or concepts corresponding to words or sentences, using images, audio, or video (moving images). In other words, document data can be image data, audio data, or video data. Furthermore, the storage format of document data is not limited to a specific one. For example, document data can be stored in a file, as a database record, or in some other format.
有識者情報とは、或る情報を知っている(又は或る情報に詳しい)ことが推定される人(以下、「有識者」という。)に関する情報である。Expert information is information about a person (hereinafter referred to as an "expert") who is presumed to know certain information (or be knowledgeable about certain information).
ワークスペースとは、過去において情報処理システムを利用して行われた情報の収集結果(検索結果)を示す情報や、当該収集結果が編集された情報である。又はワークスペースは、検索結果の全部又は一部のデータ(文書データ)の集合(データ集合)の一例であるともいえる。なお、本実施の形態では、ユーザが収集を所望する情報を「知識」という。A workspace is information that shows the results of information collection (search results) conducted in the past using an information processing system, or information that has been edited from such collection results. Alternatively, a workspace can be considered an example of a collection (data set) of all or part of the data (document data) from the search results. In this embodiment, the information that a user wishes to collect is referred to as "knowledge."
或る知識に関する文書情報が収集される場合、ユーザは、例えば、当該文書情報に係る文書データを閲覧等することで、所望の知識を得ることができる。When document information related to certain knowledge is collected, users can obtain the desired knowledge, for example, by viewing the document data related to that document information.
或る知識に詳しい有識者に係る有識者情報が収集される場合、ユーザは、例えば、当該有識者にアクセスするにより、当該有識者から所望の知識を得ることができる。When expert information related to an expert who is knowledgeable about a certain subject is collected, a user can, for example, access the expert and obtain the desired knowledge from that expert.
或る知識に関するワークスペース(過去の他のユーザによる情報の収集結果又はその編集データ等)が収集される場合、ユーザは、当該ワークスペースに基づいて所望の知識を得ることができる。When a workspace related to certain knowledge (such as the results of information collected by other users in the past or edited data) is collected, users can obtain the desired knowledge based on that workspace.
情報管理装置20は、収集対象とされる情報(文書情報、有識者情報及びワークスペース)を記憶等する1以上のコンピュータである。The information management device 20 is one or more computers that store the information to be collected (document information, expert information, and workspaces).
情報処理装置10は、ユーザによって入力される情報の収集条件に基づいて、当該収集条件に合致する情報を情報管理装置20から収集する1以上のコンピュータである。The information processing device 10 is one or more computers that collect information that matches the information collection conditions entered by the user from the information management device 20.
なお、情報管理装置20及び情報処理装置10は、同じコンピュータを用いて実現されてもよい。この場合、ネットワークN1は、情報管理装置20及び情報処理装置10を構成するコンピュータ内のバス等の信号線に相当する。又は、各ユーザ端末30が情報処理装置10を兼ねてもよい。この場合、ネットワークN3は、ユーザ端末30内のバス等の信号線に該当する。The information management device 20 and information processing device 10 may be implemented using the same computer. In this case, the network N1 corresponds to a signal line such as a bus within the computer that constitutes the information management device 20 and information processing device 10. Alternatively, each user terminal 30 may also function as an information processing device 10. In this case, the network N3 corresponds to a signal line such as a bus within the user terminal 30.
情報処理システムが利用されるシーン(状況)は、所定の形態に限定されないが、例えば、企業内において利用されてもよい。すなわち、企業における各社員(企業のほか官公庁、各種団体、組合等を含み、社員のほか派遣社員、パート、アルバイト等も含む)がユーザであってもよい(本実施の形態では、企業における各社員をユーザとして説明されるがこれに限定されるものではなく、一般ユーザにより本情報処理システムが利用される場合にも適用することができる。)。The scene (situation) in which the information processing system is used is not limited to a specific form, but may be used within a company, for example. In other words, each employee of a company (including not only companies but also government agencies, various organizations, unions, etc., and not only full-time employees but also temporary workers, part-time workers, casual workers, etc.) may be a user (in this embodiment, each employee of a company is described as a user, but this is not limited to this, and the information processing system can also be used by general users).
この場合、情報管理装置20は、企業内の各種情報を管理するコンピュータ群である。例えば、情報管理装置20は、企業内において作成される各種の文書データに関する文書情報や、企業名の組織構成に関す情報や、企業内における各社員に関する情報や、企業内において行われた情報の収集結果としてのワークスペース等を管理する。情報管理装置20は、また、企業内における社員間の業務上の電子的なやりとり(電子メールやチャット等)を管理してもよい。この場合、ネットワークN2は、例えば、企業内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。In this case, the information management device 20 is a group of computers that manage various types of information within the company. For example, the information management device 20 manages document information related to various document data created within the company, information related to the organizational structure of the company, information related to each employee within the company, and workspaces resulting from the collection of information conducted within the company. The information management device 20 may also manage business-related electronic communications (email, chat, etc.) between employees within the company. In this case, the network N2 corresponds to, for example, a WAN (Wide Area Network) or LAN (Local Area Network) within the company.
情報処理装置10は、企業内に設置されてもよいし、企業外(企業内のネットワークとインターネットを介して接続されるクラウド環境等(例えば、データセンタ等))に設置されてもよい。情報処理装置10が企業内に設置される場合、ネットワークN1及びネットワークN3は、例えば、企業内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。情報処理装置10が企業内に設置される場合、ネットワークN1及びネットワークN3は、例えば、インターネットに相当する。なお、情報処理装置10は、企業外において公開されている情報から、ユーザが所望する情報を収集してもよい。The information processing device 10 may be installed within a company, or may be installed outside the company (in a cloud environment (e.g., a data center) connected to the company's network via the Internet). When the information processing device 10 is installed within a company, the networks N1 and N3 correspond to, for example, a wide area network (WAN) or local area network (LAN) within the company. When the information processing device 10 is installed within a company, the networks N1 and N3 correspond to, for example, the Internet. Note that the information processing device 10 may collect information desired by the user from information made public outside the company.
図2は、第1の実施の形態における情報処理装置10のハードウェア構成例を示す図である。図2の情報処理装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。Figure 2 is a diagram showing an example of the hardware configuration of an information processing device 10 in the first embodiment. The information processing device 10 in Figure 2 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a processor 104, and an interface device 105, all of which are interconnected via a bus B.
情報処理装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。The program that realizes processing on the information processing device 10 is provided by a recording medium 101 such as a CD-ROM. When the recording medium 101 storing the program is inserted into the drive device 100, the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100. However, the program does not necessarily have to be installed from the recording medium 101; it can also be downloaded from another computer via a network. The auxiliary storage device 102 stores the installed program as well as necessary files, data, etc.
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って情報処理装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。When an instruction to start a program is received, the memory device 103 reads and stores the program from the auxiliary storage device 102. The processor 104 is a CPU or a GPU (Graphics Processing Unit), or a CPU and a GPU, and executes functions related to the information processing device 10 in accordance with the program stored in the memory device 103. The interface device 105 is used as an interface for connecting to a network.
なお、情報管理装置20及びユーザ端末30も図2と同様のハードウェア構成を有してもよい。The information management device 20 and user terminal 30 may also have the same hardware configuration as shown in Figure 2.
図3は、第1の実施の形態における情報処理システムの機能構成例を示す図である。図3において、ユーザ端末30は、表示制御部31を有する。表示制御部31は、ユーザ端末30にインストールされた1以上のプログラム(例えば、Webブラウザのプログラム)が、ユーザ端末30のプロセッサに実行させる処理により実現される。Figure 3 is a diagram showing an example of the functional configuration of an information processing system in the first embodiment. In Figure 3, the user terminal 30 has a display control unit 31. The display control unit 31 is realized by processing that causes a processor of the user terminal 30 to execute one or more programs (e.g., a web browser program) installed on the user terminal 30.
表示制御部31は、情報処理装置10から送信される表示情報に基づいて画面を表示したり、当該画面に対する入力に応じた要求を情報処理装置10へ送信したりする。The display control unit 31 displays a screen based on display information sent from the information processing device 10, and sends requests to the information processing device 10 in response to input on the screen.
情報管理装置20は、文書管理部21を有する。文書管理部21は、情報管理装置20にインストールされた1以上のプログラムが、情報管理装置20のプロセッサに実行させる処理により実現される。情報管理装置20は、また、文書情報記憶部22、社員情報記憶部23、組織情報記憶部24及びワークスペース記憶部25等を利用する。これら各記憶部は、例えば、情報管理装置20の補助記憶装置、又は情報管理装置20にネットワークを介して接続可能な記憶装置等を用いて実現可能である。The information management device 20 has a document management unit 21. The document management unit 21 is realized by processing in which one or more programs installed in the information management device 20 are executed by the processor of the information management device 20. The information management device 20 also uses a document information storage unit 22, an employee information storage unit 23, an organizational information storage unit 24, a workspace storage unit 25, and the like. Each of these storage units can be realized, for example, using an auxiliary storage device of the information management device 20, or a storage device connectable to the information management device 20 via a network.
文書管理部21は、文書情報記憶部22に記憶されている複数の文書情報について、登録、更新又は削除等を行う。The document management unit 21 registers, updates, deletes, etc., multiple pieces of document information stored in the document information storage unit 22.
社員情報記憶部23は、情報管理装置20を利用する企業(以下、「企業X」という。)の各社員の属性情報等(以下、「社員情報」という。)を記憶する。The employee information storage unit 23 stores attribute information, etc. (hereinafter referred to as "employee information") of each employee of a company (hereinafter referred to as "Company X") that uses the information management device 20.
組織情報記憶部24は、企業Xの組織構造を表現する情報(以下、「組織情報」という。)を記憶する。例えば、組織情報は、各組織をノードとし、組織間の階層関係(親子関係)を枝とするグラフの形式で組織構造を表現する情報であってもよい。The organizational information storage unit 24 stores information representing the organizational structure of company X (hereinafter referred to as "organizational information"). For example, the organizational information may be information representing the organizational structure in the form of a graph, with each organization as a node and hierarchical relationships (parent-child relationships) between organizations as branches.
ワークスペース記憶部25は、ワークスペースに関する情報を記憶する。例えば、上記したように、ワークスペースは、或る情報(例えば、文書情報)の収集結果又はワークスペースに対するユーザによる編集を受け付け、当該編集の内容をワークスペース記憶部25に反映(保存)した情報(以下、「収集結果」又は「検索結果」という。)である。したがって、或るワークスペースに関する情報とは、例えば、当該ワークスペースが対応する収集結果に含まれる文書情報と当該ワークスペースとを関連付ける情報である。The workspace storage unit 25 stores information about workspaces. For example, as described above, a workspace is information (hereinafter referred to as "collection results" or "search results") that accepts edits by a user to a collection of certain information (e.g., document information) or a workspace, and reflects (stores) the content of the edits in the workspace storage unit 25. Therefore, information about a certain workspace is, for example, information that associates the workspace with document information included in the collection results that correspond to the workspace.
情報処理装置10は、受付部121、ベクトル変換部122、比較部123、データ検索部124、分類部125、ラベル付与部126、関連図生成部127、有識者収集部128、ワークスペース収集部129、表示情報生成部130、表示情報送信部131、ワークスペース生成部132及びワークスペース編集部133等を有する。これら各部は、情報処理装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。情報処理装置10は、また、文書ベクトル記憶部141及び文書関連記憶部142等を利用する。これら各記憶部は、例えば、補助記憶装置102、又は情報処理装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。The information processing device 10 includes a reception unit 121, a vector conversion unit 122, a comparison unit 123, a data search unit 124, a classification unit 125, a label assignment unit 126, a relationship diagram generation unit 127, an expert collection unit 128, a workspace collection unit 129, a display information generation unit 130, a display information transmission unit 131, a workspace generation unit 132, and a workspace editing unit 133. Each of these units is realized by the processor 104 executing one or more programs installed in the information processing device 10. The information processing device 10 also uses a document vector storage unit 141 and a document association storage unit 142. Each of these storage units can be realized using, for example, the auxiliary storage device 102 or a storage device connectable to the information processing device 10 via a network.
受付部121は、ユーザが所望する情報の収集要求をユーザ端末30から受信する(受け付ける)。情報の収集要求は、情報の収集に関する条件(収集条件)を含む。収集条件は、収集対象とする情報の種別(以下、「情報種別」という。)と、収集対象とする情報を自然言語で表現する文字列(以下、「クエリ」という。)とを含む。クエリは、入力情報の一例である。The reception unit 121 receives (accepts) a request to collect information desired by the user from the user terminal 30. The information collection request includes conditions for collecting the information (collection conditions). The collection conditions include the type of information to be collected (hereinafter referred to as the "information type") and a string of characters expressing the information to be collected in natural language (hereinafter referred to as the "query"). The query is an example of input information.
本実施の形態において、情報種別の選択肢は、例えば、「文書」、「有識者」、「ワークスペース」である。「文書」は、文書情報に対応する情報種別である。「有識者」は、有識者情報に対応する情報種別である。「ワークスペース」は、ワークスペースに対応する情報種別である。In this embodiment, the information type options are, for example, "Document," "Expert," and "Workspace." "Document" is an information type that corresponds to document information. "Expert" is an information type that corresponds to expert information. "Workspace" is an information type that corresponds to a workspace.
クエリは、例えば、1以上の単語の集合である。クエリは、1以上の単語の羅列であってもよいし、1以上の文の形式を有してもよい。A query is, for example, a set of one or more words. A query may be a list of one or more words, or may have the form of one or more sentences.
ベクトル変換部122は、収集条件に含まれるクエリや、文書情報記憶部22に記憶されている各文書情報に係る文書データを解析して、クエリ又は文書データをベクトル形式のデータ(以下、単に「ベクトル」という。)へ変換する。ベクトルは、分散表現又は埋め込み表現ともよばれ、変換元のデータ(クエリ又は文書データ等)が含む意味に応じた表現である。例えば、ベクトル変換部122は、BERTなど自然言語処理を用いてベクトルを生成する。ユーザの属性を利用してBERTのモデルが切り替えられてもよい。ベクトル変換部122は、各文書データのベクトルについては予め生成し、文書ベクトル記憶部141に記録しておく。以下、クエリに基づくベクトルを「クエリベクトル」といい、文書データに基づくベクトルを「文書ベクトル」という。The vector conversion unit 122 analyzes the query included in the collection conditions and the document data related to each piece of document information stored in the document information storage unit 22, and converts the query or document data into vector-format data (hereinafter simply referred to as "vector"). A vector is also called a distributed representation or embedded representation, and is an expression that corresponds to the meaning contained in the source data (query, document data, etc.). For example, the vector conversion unit 122 generates vectors using natural language processing such as BERT. The BERT model may be switched using user attributes. The vector conversion unit 122 generates vectors for each piece of document data in advance and records them in the document vector storage unit 141. Hereinafter, a vector based on a query will be referred to as a "query vector," and a vector based on document data will be referred to as a "document vector."
比較部123は、クエリベクトルと各文書ベクトルとを比較して、各文書ベクトルについてクエリベクトルとの類似性を評価する。本実施の形態において、類似性の評価の指標を「類似度」という。The comparison unit 123 compares the query vector with each document vector and evaluates the similarity of each document vector with the query vector. In this embodiment, the index for evaluating similarity is called "similarity."
比較部123は、また、2つの文書ベクトルの全ての組について文書ベクトル間の類似度を算出して、文書ベクトルの組ごとの類似度を文書関連記憶部142に記録しておく。The comparison unit 123 also calculates the similarity between document vectors for all pairs of two document vectors and records the similarity for each pair of document vectors in the document association storage unit 142.
データ検索部124は、比較部123によるクエリベクトルと文書ベクトルとの比較結果である文書ベクトルごとの類似度に基づいて(つまり、クエリと文書データとの類似性に基づいて)、クエリに関連する文書情報(文書データ)を抽出(収集)する。The data search unit 124 extracts (collects) document information (document data) related to the query based on the similarity for each document vector, which is the result of the comparison between the query vector and the document vector by the comparison unit 123 (i.e., based on the similarity between the query and the document data).
なお、比較部123で行われる「比較」処理を「検索」と称してもよく、データ検索部124は上述の処理を比較部123による検索結果としてもよい。またその場合、情報の収集を情報の検索又は単に検索と称してもよい。The "comparison" process performed by the comparison unit 123 may also be referred to as "searching," and the data search unit 124 may treat the above-mentioned process as the search results of the comparison unit 123. In this case, the collection of information may also be referred to as searching for information or simply as searching.
分類部125は、データ検索部124によって抽出された文書情報(文書データ)を、それぞれの文書ベクトルに基づいて分類する。分類には、例えば、クラスタリングが用いられる。分類後の文書データのグループを「クラス」という。The classification unit 125 classifies the document information (document data) extracted by the data search unit 124 based on each document vector. Classification is performed using, for example, clustering. Groups of document data after classification are called "classes."
ラベル付与部126は、クラス及びワークスペースに対してラベルを付与する。ラベル付与部126は、また、予め、各文書データの内容(各文書データが含む単語)に基づいて、各文書データに対してラベルを付与する。各文書データへのラベルの付与結果は、文書情報記憶部22に記録される。本実施の形態において、ラベルとは、ラベルの付与対象とされる対象の特徴を(端的に)示す文字列(例えば、「単語」)をいう。The label assignment unit 126 assigns labels to classes and workspaces. The label assignment unit 126 also assigns labels to each piece of document data in advance based on the content of each piece of document data (the words contained in each piece of document data). The results of assigning labels to each piece of document data are recorded in the document information storage unit 22. In this embodiment, a label refers to a character string (e.g., "word") that (succinctly) indicates the characteristics of the object to which the label is to be assigned.
関連図生成部127は、分類部125による分類結果と、ラベル付与部126によるラベルの付与結果とに基づいて、文書データ、クラス及びクエリの関係を示す図形である関連図を生成する。関連図生成部127は、また、各文書ベクトルに基づいて、或る文書データと他の文書データとの関係を示す関連図をも生成する。The relationship diagram generation unit 127 generates a relationship diagram, which is a graphic representation of the relationships between document data, classes, and queries, based on the classification results from the classification unit 125 and the labeling results from the labeling unit 126. The relationship diagram generation unit 127 also generates a relationship diagram showing the relationship between certain document data and other document data, based on each document vector.
有識者収集部128は、比較部123による比較結果に基づいて、クエリに関連する文書データに関連する人(社員または外部の専門家など)を有識者として抽出(収集)する。或る文書データに関連する人とは、例えば、当該文書データを作成又は更新した人である。Based on the comparison results by the comparison unit 123, the expert collection unit 128 extracts (collects) people (employees, external experts, etc.) associated with document data related to the query as experts. A person associated with certain document data is, for example, the person who created or updated the document data.
ワークスペース収集部129は、比較部123による比較結果に基づいて、クエリに関連する文書データに関連するワークスペースを抽出(収集)する。或る文書データに関連するワークスペースとは、例えば、当該文書データに係る文書情報を含む収集結果又はその編集データに対応するワークスペースをいう。The workspace collection unit 129 extracts (collects) workspaces related to document data related to the query based on the comparison results by the comparison unit 123. A workspace related to certain document data refers to, for example, a collection result including document information related to the document data or a workspace corresponding to the edited data thereof.
表示情報生成部130は、ユーザ端末30に表示させるための表示情報を生成する。例えば、表示情報生成部130は、データ検索部124、有識者収集部128、ワークスペース収集部129による処理結果に関する表示情報を生成したり、関連図生成部127によって生成される関連図を表示する表示情報を生成したりする。例えば、ユーザ端末30の表示制御部31がWebブラウザによって実現されるのであれば、Webページが表示情報の一例である。但し、他の形式によって表示情報が生成されてもよい。The display information generation unit 130 generates display information to be displayed on the user terminal 30. For example, the display information generation unit 130 generates display information related to the processing results of the data search unit 124, expert collection unit 128, and workspace collection unit 129, or generates display information that displays the association diagram generated by the association diagram generation unit 127. For example, if the display control unit 31 of the user terminal 30 is implemented by a web browser, a web page is an example of display information. However, display information may be generated in other formats.
表示情報送信部131は、表示情報生成部130が生成した表示情報をユーザ端末30へ送信する。The display information sending unit 131 sends the display information generated by the display information generating unit 130 to the user terminal 30.
ワークスペース生成部132は、文書情報の収集結果に対するユーザによる指示に応じて、当該収集結果に係るワークスペースを生成し、当該ワークスペースをワークスペース記憶部25に保存する。The workspace generation unit 132 generates a workspace related to the document information collection results in response to user instructions regarding the collection results, and stores the workspace in the workspace storage unit 25.
ワークスペース編集部133は、ワークスペースに対するユーザによる編集を受け付け、当該編集の内容をワークスペース記憶部25に反映する。The workspace editing unit 133 accepts edits made by the user to the workspace and reflects the contents of those edits in the workspace storage unit 25.
なお、図3に示した機能構成(各機能の配置関係)は一例に過ぎない。各部の配置先の装置は、ユーザ端末30、情報処理装置10又は情報管理装置20のいずれかに適宜変更されてもよい。Note that the functional configuration (the layout of each function) shown in Figure 3 is merely an example. The device in which each unit is located may be changed as appropriate to any of the user terminal 30, information processing device 10, and information management device 20.
以下、情報処理システムが実行する処理手順について説明する。図4は、情報収集処理の処理手順の一例を説明するためのフローチャートである。The processing steps executed by the information processing system are described below. Figure 4 is a flowchart illustrating an example of the processing steps for information collection processing.
ステップS101において、ユーザ端末30の表示制御部31は、ユーザ端末30の表示装置に表示されている収集条件入力画面を介して、収集条件の入力をユーザから受け付ける。In step S101, the display control unit 31 of the user terminal 30 accepts input of collection conditions from the user via the collection condition input screen displayed on the display device of the user terminal 30.
図5は、収集条件入力画面の一例を示す図である。図5が示すように、収集条件入力画面510は、情報種別選択領域511、クエリ入力領域512及び実行ボタン513等を含む。情報種別選択領域511は、情報種別の選択を受け付けるための領域である。本実施の形態において、情報種別の選択肢は、「文書」、「有識者」、「ワークスペース」であるため、情報種別選択領域511は、「文書」、「有識者」及び「ワークスペース」に対応する選択肢を含むリストボックスであってもよい。図5の例では、「文書」が選択された例が示されている。Figure 5 shows an example of a collection condition input screen. As shown in Figure 5, the collection condition input screen 510 includes an information type selection area 511, a query input area 512, and an execute button 513. The information type selection area 511 is an area for accepting the selection of an information type. In this embodiment, the information type options are "document," "expert," and "workspace," so the information type selection area 511 may be a list box containing options corresponding to "document," "expert," and "workspace." The example in Figure 5 shows an example in which "document" has been selected.
クエリ入力領域512は、クエリの入力を受け付けるための領域である。クエリの入力は、ユーザ端末30のキーボード等(タッチパネルによる直接入力を含む)を用いて行われてもよいし、ユーザ端末30のマイクを介して音声入力されてもよい。The query input area 512 is an area for accepting query input. The query may be input using the keyboard of the user terminal 30 (including direct input via a touch panel), or may be input by voice via the microphone of the user terminal 30.
実行ボタン513は、情報収集の実行指示(検索実行)を受け付けるためのボタンである。The execute button 513 is a button for accepting instructions to execute information collection (execute a search).
なお、収集条件入力画面510は、例えば、ユーザによる情報処理装置10に対するログインに応じて、ユーザ端末30に表示されてもよい。以下、収集条件(検索条件)を入力するユーザを「ログインユーザ」という。The collection condition input screen 510 may be displayed on the user terminal 30, for example, in response to a user logging in to the information processing device 10. Hereinafter, a user who inputs collection conditions (search conditions) will be referred to as a "logged-in user."
情報種別が選択され、クエリが入力された後で、実行ボタン513がログインユーザによって押下されると、表示制御部31は、選択された情報種別及び入力されたクエリを情報収集条件として含む情報収集要求を情報処理装置10へ送信する。When the logged-in user presses the execute button 513 after selecting an information type and entering a query, the display control unit 31 sends an information collection request to the information processing device 10, including the selected information type and the entered query as information collection conditions.
情報処理装置10の受付部121が情報収集要求を受信すると、ベクトル変換部122は、当該情報収集要求(以下、「対象収集要求」という。)に含まれているクエリ(以下、「対象クエリ」という。)をクエリベクトルに変換する(S102)。When the reception unit 121 of the information processing device 10 receives an information collection request, the vector conversion unit 122 converts the query (hereinafter referred to as the "target query") included in the information collection request (hereinafter referred to as the "target collection request") into a query vector (S102).
続いて、比較部123は、情報管理装置20によって管理されている文書情報に係る文書データごとに、クエリベクトルと当該文書データに対応する文書ベクトルとを比較して、クエリベクトルと当該文書ベクトルとの類似度を算出する(S103)。情報管理装置20によって管理されている各文書データに対応する文書ベクトルは、文書ベクトル記憶部141に記憶されている。Next, the comparison unit 123 compares the query vector with the document vector corresponding to each piece of document data related to the document information managed by the information management device 20, and calculates the similarity between the query vector and the document vector (S103). The document vector corresponding to each piece of document data managed by the information management device 20 is stored in the document vector storage unit 141.
図6は、文書ベクトル記憶部141の構成例を示す図である。図6が示すように、文書ベクトル記憶部141は、文書データごとに文書ID、文書名及び文書ベクトルを記憶する。文書IDは、文書データに係る文書情報の識別情報であり、情報管理装置20における文書情報と文書ベクトル記憶部141の文書ベクトルとを関連付ける。文書名は、文書データの名称又はタイトルである。例えば、文書データがファイル形式で保存されている場合には、ファイル名が文書名として利用されてもよい。文書ベクトルは、クエリベクトルと同様に、文書データの内容の意味に応じたベクトル表現(例えば、分散表現又は埋め込み表現)である。Figure 6 is a diagram showing an example configuration of the document vector storage unit 141. As shown in Figure 6, the document vector storage unit 141 stores a document ID, document name, and document vector for each piece of document data. The document ID is identification information for document information related to the document data, and associates the document information in the information management device 20 with the document vector in the document vector storage unit 141. The document name is the name or title of the document data. For example, if the document data is saved in file format, the file name may be used as the document name. Like the query vector, the document vector is a vector representation (e.g., a distributed representation or embedded representation) that corresponds to the meaning of the content of the document data.
クエリベクトルと文書ベクトルとの類似度は、一般的なベクトル間の類似度の算出と同様に、クエリベクトルと文書ベクトルとの角度(コサイン類似度)や距離を用いて算出可能である。例えば、コサイン類似度を用いる場合、ベクトルaとベクトルbとのコサイン類似度は、以下の式に基づいて算出可能である。The similarity between a query vector and a document vector can be calculated using the angle (cosine similarity) or distance between the query vector and the document vector, similar to how similarity between general vectors is calculated. For example, when using cosine similarity, the cosine similarity between vector a and vector b can be calculated based on the following formula:
続いて、情報処理装置10は、対象収集条件の情報種別(以下、「対象情報種別」という。)に応じて処理を分岐させる(S105)。対象情報種別が「文書」である場合、情報処理装置10は、文書収集結果(文書の検索結果)出力処理を実行する(S106)。対象情報種別が「有識者」である場合、情報処理装置10は、有識者収集結果(有識者の検索結果)出力処理を実行する(S107)。対象情報種別が「ワークスペース」である場合、情報処理装置10は、ワークスペース収集結果(ワークスペースの検索結果)出力処理を実行する(S108)。Next, the information processing device 10 branches the process depending on the information type of the target collection condition (hereinafter referred to as "target information type") (S105). If the target information type is "document", the information processing device 10 executes document collection result (document search result) output process (S106). If the target information type is "expert", the information processing device 10 executes expert collection result (expert search result) output process (S107). If the target information type is "workspace", the information processing device 10 executes workspace collection result (workspace search result) output process (S108).
続いて、ステップS106の詳細について説明する。図7は、文書収集結果出力処理の処理手順の一例を説明するためのフローチャートである。Next, step S106 will be described in detail. Figure 7 is a flowchart illustrating an example of the processing steps for document collection result output processing.
ステップS201において、データ検索部124は、類似度が上位N件の文書ベクトルの文書IDに基づいて、上位N件に係る文書データの文書情報を文書情報記憶部22から取得(抽出)する。In step S201, the data search unit 124 acquires (extracts) document information for the top N document data based on the document IDs of the top N document vectors in terms of similarity from the document information storage unit 22.
図8は、文書情報記憶部22の構成例を示す図である。図8が示すように、文書情報記憶部22は、文書ID、文書名、作成者、更新履歴、ファイルパス、概要、アクセス制御情報及びラベル一覧等を含む1以上のレコードを記憶する。1つのレコードは1つの文書情報に対応する。Figure 8 is a diagram showing an example configuration of the document information storage unit 22. As shown in Figure 8, the document information storage unit 22 stores one or more records including a document ID, document name, creator, update history, file path, summary, access control information, and label list. One record corresponds to one piece of document information.
文書ID及び文書名及については上述した通りである。なお、同一の文書データに対する文書ID及び文書名は、文書情報記憶部22と文書ベクトル記憶部141とで同じである。The document ID and document name are as described above. Note that the document ID and document name for the same document data are the same in the document information storage unit 22 and the document vector storage unit 141.
作成者は、文書データの作成者の識別情報である。更新履歴は、文書データの更新ごとに、更新の日付と更新者の識別情報とを含む情報である。本実施の形態において、文書データの作成者又は更新者の識別情報は、企業Xにおける社員IDであるとする。ファイルパスは、文書データを格納するファイルのパス名である。概要は、文書データが含む内容の概要(例えば、要約文)である。アクセス制御情報は、文書情報に対するアクセスを所定の範囲のユーザに制限するための情報である。換言すれば、アクセス制御情報は、各ユーザについてアクセス権限の有無を示す情報である。例えば、アクセス制御情報は、参照権限を有するユーザ又はグループを示す情報と、書き込み権限を有するユーザ又はグループを示す情報とを含んでもよい。グループとは、1以上のユーザの集合をいう。ラベル一覧は、ラベル付与部126によって文書データに付与されたラベル(以下、「文書ラベル」という。)の一覧である。文書データに含まれる単語の中からTF-IDF値が相対的に大きい単語が文書ラベルとされてもよい。The creator is the identification information of the creator of the document data. The update history is information including the date of the update and the identification information of the person who updated the document data for each update. In this embodiment, the identification information of the creator or updater of the document data is assumed to be the employee ID of Company X. The file path is the path name of the file that stores the document data. The summary is a summary of the contents of the document data (e.g., a summary). The access control information is information for restricting access to the document information to a specified range of users. In other words, the access control information is information indicating whether each user has access authority. For example, the access control information may include information indicating users or groups with read authority and information indicating users or groups with write authority. A group is a collection of one or more users. The label list is a list of labels (hereinafter referred to as "document labels") assigned to the document data by the label assignment unit 126. Words with relatively large TF-IDF values from among the words included in the document data may be used as document labels.
ステップS201では、上位N件の文書情報のうち、ログインユーザにアクセス権限が有る文書情報が取得される(なお、後述するようにアクセス権限の無い文書情報に対してアクセス権なしである旨を表示するための情報を取得してもよい。)。In step S201, document information for which the logged-in user has access rights is obtained from the top N document information (note that, as described below, information may also be obtained to display that the logged-in user does not have access rights for document information for which the logged-in user does not have access rights).
続いて、データ検索部124は、取得した文書情報を類似度の降順にソート(整列)する(S202)。Next, the data search unit 124 sorts (arranges) the acquired document information in descending order of similarity (S202).
図9は、文書情報のソート結果の一例を示す図である。図9には、類似度の降順に、文書名と類似度とが整列された例が示されている。Figure 9 shows an example of the sorting results for document information. Figure 9 shows an example in which document names and similarities are sorted in descending order of similarity.
続いて、表示情報生成部130は、ソート結果を文書情報の収集結果(検索結果)として表示するための表示情報を生成する(S203)。Next, the display information generation unit 130 generates display information for displaying the sorted results as the document information collection results (search results) (S203).
表示情報生成部130は、上位N件の文書データのうち、ログインユーザが参照権限を有する文書情報の作成者、更新履歴、ファイルパス、概要及びラベル一覧等に基づいて表示情報を生成する。The display information generation unit 130 generates display information based on the creator, update history, file path, summary, label list, etc. of the document information for which the logged-in user has access rights from the top N document data.
続いて、表示情報送信部131及びユーザ端末30の表示制御部31は、表示情報の出力処理を実行する(S204)。具体的には、表示情報送信部131は、表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいて文書収集の結果として検索結果画面を表示する。Next, the display information sending unit 131 and the display control unit 31 of the user terminal 30 execute a process to output the display information (S204). Specifically, the display information sending unit 131 sends the display information to the user terminal 30. The display control unit 31 of the user terminal 30 displays a search result screen as a result of document collection based on the display information.
図10は、検索結果画面の表示例を示す図である。図10が示すように、検索結果画面520は、情報収集条件表示領域521及び検索結果表示領域522を含む。Figure 10 shows an example of the search result screen display. As shown in Figure 10, the search result screen 520 includes an information collection conditions display area 521 and a search result display area 522.
情報収集条件表示領域521は、対象収集条件を表示する領域であり、情報種別表示領域5211及びクエリ表示領域5212を含む。情報種別表示領域5211は、対象情報種別が表示される領域である。クエリ表示領域5212は、対象クエリが表示される領域である。なお、情報種別表示領域5211及びクエリ表示領域5212は操作可能であってもよい。この場合、情報種別表示領域5211及びクエリ表示領域5212を介して情報種別及びクエリの一部が変更されて実行ボタン5213が押下されることで、図4のステップS101以降が再実行されてもよい。The information collection condition display area 521 is an area that displays the target collection conditions, and includes an information type display area 5211 and a query display area 5212. The information type display area 5211 is an area that displays the target information type. The query display area 5212 is an area that displays the target query. Note that the information type display area 5211 and the query display area 5212 may be operable. In this case, the information type and part of the query may be changed via the information type display area 5211 and the query display area 5212, and the execute button 5213 may be pressed to re-execute step S101 and subsequent steps in FIG. 4.
検索結果表示領域522は、上位N件の文書情報ごとに、作成者、更新者、ファイルパス、概要及びラベル一覧等が表示される領域である。なお、更新者は、例えば、更新履歴において最後の更新に係る更新者であってもよい。The search result display area 522 is an area that displays the creator, updater, file path, summary, label list, etc. for each of the top N document information items. Note that the updater may be, for example, the updater responsible for the most recent update in the update history.
ログインユーザは、検索結果画面520を参照することで、対象収集条件に応じて収集された文書情報の一覧を確認することができる。By referring to the search results screen 520, the logged-in user can check a list of document information collected according to the target collection conditions.
検索結果画面520は、また、クエリ関連図ボタン523を含む。クエリ関連図ボタン523が押下されると、ユーザ端末30はクエリ関連図ボタン523に対応するリクエストを情報処理装置10へ送信する。情報処理装置10の分類部125は、当該リクエストを受信すると(図7のS205で「クエリ関連図」)、類似度が上位N件である文書ベクトルをクラスタリングによって複数のクラスに分類する(S206)。クラスタリングは、例えば、k-means方を利用して実行されてもよいし、公知の他の方法を用いて実行されてもよい。The search result screen 520 also includes a query relationship diagram button 523. When the query relationship diagram button 523 is pressed, the user terminal 30 sends a request corresponding to the query relationship diagram button 523 to the information processing device 10. When the classification unit 125 of the information processing device 10 receives the request ("Query Relationship Diagram" in S205 of FIG. 7), it classifies the document vectors with the top N similarities into multiple classes by clustering (S206). Clustering may be performed using, for example, the k-means method, or other known methods.
続いて、ラベル付与部126は、各クラスに対してラベルを付与する(S207)。ラベル付与部126は、例えば、或るクラスのクラスに属する文書データの集合において、TF-IDF値が相対的に高い1以上の単語を当該クラスのラベルとしてもよい。又は、ラベル付与部126は、クラスに属する各文書データの文書ラベルの一覧の中で、出現頻度が相対的に上位である1以上の文書ラベルを当該クラスのラベルとしてもよい。Next, the label assignment unit 126 assigns a label to each class (S207). For example, the label assignment unit 126 may assign one or more words with a relatively high TF-IDF value in a collection of document data belonging to a certain class as the label of that class. Alternatively, the label assignment unit 126 may assign one or more document labels with a relatively high frequency of appearance in a list of document labels for each document data belonging to a class as the label of that class.
続いて、関連図生成部127は、対象クエリと上位N件の文書情報との関係を示す関連図(以下、「クエリ関連図」という。)を生成する(S208)。続いて、表示情報生成部130及びユーザ端末30は、クエリ関連図の出力処理を実行する。具体的には、表示情報生成部130は、クエリ関連図の表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいてクエリ関連図を表示する。Then, the relationship diagram generation unit 127 generates a relationship diagram (hereinafter referred to as a "query relationship diagram") showing the relationship between the target query and the top N pieces of document information (S208). The display information generation unit 130 and the user terminal 30 then execute a query relationship diagram output process. Specifically, the display information generation unit 130 transmits display information for the query relationship diagram to the user terminal 30. The display control unit 31 of the user terminal 30 displays the query relationship diagram based on the display information.
図11は、クエリ関連図の一例を示す図である。図11が示すように、クエリ関連図は、対象クエリ、各クラス、及びN件の文書情報をノードとするグラフ形式の図形である。対象クエリと各クラスとは枝によって接続され、各文書情報は所属するクラスと枝によって接続される。つまり、図11において、対象クエリと直接的に接続されている角丸の矩形は、クラスに対応するノードである。当該ノード内の文字列は、当該ノードに対応するクラスのラベルである。Figure 11 shows an example of a query relationship diagram. As Figure 11 shows, a query relationship diagram is a graph-style diagram with the target query, each class, and N pieces of document information as nodes. The target query and each class are connected by branches, and each piece of document information is connected by a branch to the class to which it belongs. In other words, in Figure 11, the rounded rectangle directly connected to the target query is the node corresponding to the class. The string within that node is the label of the class corresponding to that node.
角丸の矩形に接続される楕円形のノードは、当該矩形に対応するクラスに分類された文書情報に対応するノードである。当該ノード内の文字列は、当該ノードに対応する文書情報の文書名である。ユーザは、クエリ関連図を参照することで、収集された文書情報群と対象クエリとの関係を俯瞰的に把握することができる。The oval nodes connected to the rounded rectangles correspond to the document information classified into the class corresponding to the rectangle. The string within the node is the document name of the document information corresponding to the node. By referring to the query relationship diagram, users can get an overview of the relationship between the collected document information group and the target query.
又は、検索結果画面520(図10)において、いずれかの文書情報に対応する詳細ボタン524が押下されると、ユーザ端末30の表示制御部31は、当該詳細ボタン524に対応するリクエストを情報処理装置10へ送信する。当該リクエストは、例えば、当該文書情報の文書IDを含む。Alternatively, when the details button 524 corresponding to any document information is pressed on the search result screen 520 (Figure 10), the display control unit 31 of the user terminal 30 sends a request corresponding to the details button 524 to the information processing device 10. The request includes, for example, the document ID of the document information.
情報処理装置10の表示情報生成部130は、当該リクエストを受信すると(S205で「詳細」)、当該リクエストに含まれる文書ID(以下、「対象文書ID」という。)に係る文書情報(以下、「対象文書情報」という。)について詳細情報出力処理を実行する(S210)。具体的には、表示情報生成部130は、文書関連記憶部142を参照して、対象文書情報に係る文書データとの類似度が上位M件である文書データに係る文書情報(以下、「関連文書情報」という。)の文書IDを特定する。When the display information generation unit 130 of the information processing device 10 receives the request ("Details" in S205), it executes detailed information output processing for the document information (hereinafter referred to as "target document information") related to the document ID (hereinafter referred to as "target document ID") included in the request (S210). Specifically, the display information generation unit 130 references the document-related storage unit 142 to identify the document IDs of the document information (hereinafter referred to as "related document information") related to the document data with the highest M similarities to the document data related to the target document information.
図12は、文書関連記憶部142の構成例を示す図である。図12が示すように、文書関連記憶部142は、行方向及び列方向に全ての文書データの文書IDが配置された行列形式の記憶部である。全ての文書データとは、文書情報記憶部22に文書情報が記憶されている全ての文書データをいう。或る行及び或る列の要素の値は、当該行の文書IDに係る文書データの文書ベクトルと当該列の文書IDに係る文書ベクトルとの類似度である。Figure 12 is a diagram showing an example configuration of the document-related storage unit 142. As shown in Figure 12, the document-related storage unit 142 is a storage unit in a matrix format in which the document IDs of all document data are arranged in the row and column directions. All document data refers to all document data whose document information is stored in the document information storage unit 22. The value of an element in a certain row and a certain column is the similarity between the document vector of the document data associated with the document ID in that row and the document vector associated with the document ID in that column.
文書関連記憶部142に記憶される文書データ間の類似度は、例えば、比較部123によって予め算出される。比較部123は、文書ベクトル記憶部141(図6)を参照して、各文書データの文書ベクトルを取得することができ、当該文書ベクトルを用いて文書データ間の類似度を算出することができる。The similarity between document data stored in the document association storage unit 142 is calculated in advance by, for example, the comparison unit 123. The comparison unit 123 can obtain the document vector of each document data by referencing the document vector storage unit 141 (Figure 6), and can calculate the similarity between document data using the document vector.
例えば、表示情報生成部130は、対象文書IDの行における各類似度を降順にソートして、上位M件の関連文書情報の文書IDを特定することができる。For example, the display information generation unit 130 can sort each similarity in the row of the target document ID in descending order and identify the document IDs of the top M related document information.
表示情報生成部130は、対象文書情報及び各関連文書情報をそれぞれの文書IDに基づいて情報管理装置20の文書情報記憶部22(図8)から取得し、取得した文書情報に基づいて文書詳細画面の表示情報を生成する。表示情報送信部131が当該表示情報をユーザ端末30へ送信すると、ユーザ端末30の表示制御部31は、当該表示情報に基づいて文書詳細画面を表示する。The display information generation unit 130 acquires the target document information and each related document information from the document information storage unit 22 (Figure 8) of the information management device 20 based on the respective document IDs, and generates display information for the document details screen based on the acquired document information. When the display information transmission unit 131 transmits the display information to the user terminal 30, the display control unit 31 of the user terminal 30 displays the document details screen based on the display information.
図13は、文書詳細画面の表示例を示す図である。図13が示すように、文書詳細画面530は、対象文書表示領域531及び関連文書表示領域532等を含む。Figure 13 is a diagram showing an example of the document details screen. As shown in Figure 13, the document details screen 530 includes a target document display area 531 and a related document display area 532.
対象文書表示領域531は、対象文書情報が表示される領域である。対象文書表示領域531には、対象文書情報について、検索結果画面520(図10)に表示される項目に加え、更新履歴及び概要が表示される。The target document display area 531 is an area where the target document information is displayed. In addition to the items displayed on the search result screen 520 (Figure 10), the target document display area 531 also displays the update history and summary of the target document information.
関連文書表示領域532は、関連文書情報が表示される領域である。関連文書表示領域532は、関連文書情報ごとに詳細ボタン5321を含む。いずれかの関連文書情報に対応する詳細ボタン5321が押下されると、当該関連文書情報を対象文書情報として、ステップS210と同様の詳細情報出力処理が実行される。その結果、ユーザは、対象クエリに関連する文書情報を再帰的に(芋づる式に)収集することができる。The related document display area 532 is an area where related document information is displayed. The related document display area 532 includes a details button 5321 for each piece of related document information. When a details button 5321 corresponding to any piece of related document information is pressed, the related document information is treated as the target document information and a detailed information output process similar to step S210 is executed. As a result, the user can recursively collect document information related to the target query.
文書詳細画面530は、また、文書関連図ボタン533を含む。文書関連図ボタン533が押下されると、ユーザ端末30は文書関連図ボタン533に対応するリクエストを情報処理装置10へ送信する。情報処理装置10は、当該リクエストを受信すると(図7のS211で「文書関連図」)、文書関連図出力処理を実行する(S212)。文書関連図出力処理では、対象クエリが対象文書データに置き換えられ、かつ、上位N件の文書情報がM件の関連文書情報に置き換えられて、ステップS206~S209と同様の処理が実行される。The document details screen 530 also includes a document relationship diagram button 533. When the document relationship diagram button 533 is pressed, the user terminal 30 sends a request corresponding to the document relationship diagram button 533 to the information processing device 10. When the information processing device 10 receives the request ("Document Relationship Diagram" in S211 of FIG. 7), it executes a document relationship diagram output process (S212). In the document relationship diagram output process, the target query is replaced with the target document data, and the top N document information is replaced with M related document information, and the same processes as in steps S206 to S209 are executed.
具体的には、分類部125は、M件の関連文書情報に係る文書ベクトルをクラスタリングによって複数のクラスに分類する。続いて、ラベル付与部126は、各クラスに対してラベルを付与する。続いて、関連図生成部127は、対象文書情報とM件の関連文書情報との関連を示す関連図(以下、「文書関連図」という。)を生成する。表示情報生成部130は、当該文書関連図の表示情報を生成し、当該表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいて文書関連図を表示する。Specifically, the classification unit 125 classifies document vectors related to M pieces of related document information into multiple classes by clustering. Next, the label assignment unit 126 assigns a label to each class. Next, the relationship diagram generation unit 127 generates a relationship diagram (hereinafter referred to as a "document relationship diagram") showing the relationship between the target document information and the M pieces of related document information. The display information generation unit 130 generates display information for the document relationship diagram and transmits the display information to the user terminal 30. The display control unit 31 of the user terminal 30 displays the document relationship diagram based on the display information.
図14は、文書関連図の一例を示す図である。図14が示すように、文書関連図は、対象文書情報、各クラス、及びM件の関連文書情報をノードとするグラフ形式の図形である。対象文書情報と各クラスとは枝によって接続され、各関連文書情報は所属するクラスと枝によって接続される。つまり、図14において、対象文書情報と直接的に接続されている角丸の矩形は、クラスに対応するノードである。当該ノード内の文字列は、当該ノードに対応するクラスのラベルである。Figure 14 shows an example of a document relationship diagram. As Figure 14 shows, the document relationship diagram is a graph-style diagram with target document information, each class, and M related document information as nodes. The target document information and each class are connected by branches, and each related document information is connected to the class to which it belongs by a branch. In other words, in Figure 14, the rounded rectangle directly connected to the target document information is the node corresponding to the class. The character string within the node is the label of the class corresponding to the node.
図11又は図14のように文書同士の関連性構造を可視化することによって、ユーザは、収集したい情報と文書情報との関連性を直感的に把握できる。By visualizing the relationship structure between documents as shown in Figure 11 or Figure 14, users can intuitively grasp the relationship between the information they want to collect and the document information.
角丸の矩形に接続される楕円形のノードは、当該矩形に対応するクラスに分類された関連文書情報に対応するノードである。当該ノード内の文字列は、当該ノードに対応する関連文書情報の文書名である。ユーザは、文書関連図を参照することで、対象文書情報と関連文書情報との関係を俯瞰的に把握することができる。The oval nodes connected to the rounded rectangles are nodes corresponding to related document information classified into the class corresponding to the rectangle. The string within the node is the document name of the related document information corresponding to that node. By referring to the document relationship diagram, users can get an overview of the relationship between the target document information and related document information.
又は、検索結果画面520(図10)においていずれかの文書名に対するリンクが選択されたり(図7のS205で「文書リンク」)、文書詳細画面530(図13)においていずれかの文書名に対するリンクが選択されたり(S211で「文書リンク」)、クエリ関連図(図11)若しくは文書関連図(図14)においていずれかの文書名に対するリンクが選択されたりすると(S213で「文書リンク」)、ユーザ端末30、情報処理装置10及び情報管理装置20は、文書データ出力処理を実行する(S214)。具体的には、ユーザ端末30の表示制御部31は、文書名に対するリンクがクリックされた文書情報の文書ID(以下、「対象文書ID」という。)を情報処理装置10へ送信する。情報処理装置10の表示情報送信部131は、対象文書IDに係る文書データの参照を情報管理装置20へ要求するためのURL(Uniform Resource Locator)等を含むリダイレクト命令をユーザ端末30へ送信する。ユーザ端末30の表示制御部31が当該リダイレクト命令に従って当該URLへアクセスすると、情報管理装置20の文書管理部21は、対象文書IDに係る文書データをユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該文書データを受信すると、当該文書データを表示する。その結果、ユーザは、当該文書データの内容を確認することができる。Alternatively, when a link to any document name is selected on the search result screen 520 (FIG. 10) ("Document Link" at S205 in FIG. 7), when a link to any document name is selected on the document details screen 530 (FIG. 13) ("Document Link" at S211), or when a link to any document name is selected on the query relationship diagram (FIG. 11) or the document relationship diagram (FIG. 14) ("Document Link" at S213), the user terminal 30, the information processing device 10, and the information management device 20 execute a document data output process (S214). Specifically, the display control unit 31 of the user terminal 30 transmits to the information processing device 10 the document ID (hereinafter referred to as the "target document ID") of the document information for which the link to the document name was clicked. The display information transmission unit 131 of the information processing device 10 transmits to the user terminal 30 a redirect command including a URL (Uniform Resource Locator) or the like for requesting the information management device 20 to reference the document data associated with the target document ID. When the display control unit 31 of the user terminal 30 accesses the URL in accordance with the redirect command, the document management unit 21 of the information management device 20 sends the document data associated with the target document ID to the user terminal 30. Upon receiving the document data, the display control unit 31 of the user terminal 30 displays the document data. As a result, the user can confirm the contents of the document data.
ところで、ログインユーザは、文書情報の収集結果を対象クエリに関連付けてワークスペースとして保存することができる。収集結果をワークスペースとして保存することは、収集結果をブックマークとして保存することにたとえることもできる。この場合、ログインユーザは、検索結果画面520(図10)において文書情報ごとに配置されている選択部品525のうち、対象クエリに関連付けてワークスペースに保存したい文書情報に対応する選択部品525を選択する。例えば、ログインユーザは、自らが所望していた情報に該当する1以上の文書情報をワークスペースへの保存対象として選択する。収集結果に含まれる全ての文書情報が選択されてもよい。1以上の選択部品525が選択された状態において、ワークスペース生成ボタン526が押下されると、ユーザ端末30の表示制御部31は、ワークスペースに付与する名前(以下、「ワークスペース名」という。)の入力を受け付けるための画面を表示する。当該画面を介してワークスペース名がログインユーザによって入力されると、表示制御部31は、選択された各選択部品525に対応する各文書情報の文書IDとワークスペース名と対象クエリとを含む、ワークスペースの生成要求を情報処理装置10へ送信する。情報処理装置10は、当該生成要求を受信すると、例えば、図15が示す処理手順を実行する。The logged-in user can associate the document information collection results with the target query and save them as a workspace. Saving the collection results as a workspace can be likened to saving the collection results as a bookmark. In this case, the logged-in user selects, from the selection components 525 arranged for each document information on the search result screen 520 (Figure 10), the selection components 525 corresponding to the document information they want to associate with the target query and save in the workspace. For example, the logged-in user selects one or more document information corresponding to the information they desire to save in the workspace. All document information included in the collection results may be selected. When one or more selection components 525 are selected and the workspace creation button 526 is pressed, the display control unit 31 of the user terminal 30 displays a screen for accepting input of a name to be assigned to the workspace (hereinafter referred to as the "workspace name"). When the logged-in user enters the workspace name via this screen, the display control unit 31 sends a workspace creation request to the information processing device 10, including the document ID, workspace name, and target query of each document information corresponding to each selected selection component 525. When the information processing device 10 receives the generation request, it executes, for example, the processing procedure shown in FIG. 15.
図15は、ワークスペースの生成処理の処理手順の一例を説明するためのフローチャートである。Figure 15 is a flowchart illustrating an example of the processing steps for creating a workspace.
ステップS251において、ラベル付与部126は、選択された1以上の文書情報に係る文書データが含む単語の集合の中で相対的に重要な一部の(所定数の)単語をワークスペースに対するラベルとして抽出する。ラベルの抽出方法は、上記と同様でよい。In step S251, the label assignment unit 126 extracts a relatively important portion (a predetermined number) of words from the set of words contained in the document data related to one or more selected pieces of document information as labels for the workspace. The label extraction method may be the same as described above.
ステップS252において、分類部125は、選択された各文書情報(以下、「選択文書情報」という。)の文書ベクトルをクラスタリングによって複数のクラス(以下、「所属クラス」という。)に分類する。クラスへの分類方法は上記(例えば、図7のS206)と同様でもよい。In step S252, the classification unit 125 classifies the document vectors of each selected document information (hereinafter referred to as "selected document information") into multiple classes (hereinafter referred to as "belonging classes") by clustering. The classification method into classes may be the same as described above (for example, S206 in Figure 7).
続いて、ラベル付与部126は、各所属クラスに対してラベルを付与する(S253)。所属クラスに対するラベルの付与方法は上記(例えば、図7のS207)と同様でもよい。Next, the labeling unit 126 assigns a label to each class to which the data belongs (S253). The method for assigning a label to each class to which the data belongs may be the same as described above (e.g., S207 in Figure 7).
続いて、ワークスペース生成部132は、選択文書情報と対象クエリとを関連付けるワークスペースを情報管理装置20のワークスペース記憶部25に保存する(S254)。Next, the workspace generation unit 132 saves a workspace that associates the selected document information with the target query in the workspace storage unit 25 of the information management device 20 (S254).
図16は、ワークスペース記憶部25の構成例を示す図である。図16が示すように、ワークスペース記憶部25は、ワークスペースごとに、ワークスペースID、ワークスペース名、ラベル、作成者、更新者、クエリ、利用数、評価点、所属データID、所属データパス、所属クラスラベル等を含むワークスペースを記憶する。Figure 16 is a diagram showing an example configuration of the workspace storage unit 25. As shown in Figure 16, the workspace storage unit 25 stores, for each workspace, workspace information including the workspace ID, workspace name, label, creator, updater, query, number of uses, evaluation score, belonging data ID, belonging data path, belonging class label, etc.
ワークスペースIDは、ワークスペースの識別情報であり、例えば、ステップS254においてワークスペース生成部132がワークスペースに対して付与する。ワークスペース名は、上記した通り、ユーザによって入力されるワークスペースの名前である。作成者は、ワークスペースの作成者の識別情報(ユーザID又は氏名等)である。ここでは、ログインユーザの識別情報が作成者として記憶される。更新者は、ワークスペースが更新された場合に、その更新を行った者の識別情報(ユーザID又は氏名等)である。すなわち、ワークスペースは、更新を行うことが可能である。クエリは、ワークスペースの元となった文書情報の収集において入力されたクエリ(対象クエリ)である。したがって、クエリは、ワークスペースがどのような観点に基づく文書情報の集合であるかを示す情報であるともいえる。利用数は、ワークスペースが利用された(参照された)回数である。評価点は、ワークスペースを参照したユーザによって入力される評価の値である。例えば、5段階評価での数値の平均値が評価点である。所属データIDは、ワークスペースに属する各文書情報の文書IDである。所属データパスは、各文書情報に係る文書データのファイルパスである。所属クラスラベルは、ステップ153おいて生成された各所属クラスに対するラベルである。なお、ワークスペース内において同じ所属クラスに分類された文書情報に対しては、同じ所属クラスラベルが保存される。The workspace ID is the identification information of the workspace, and is assigned to the workspace by the workspace generation unit 132 in step S254, for example. The workspace name is the name of the workspace entered by the user, as described above. The creator is the identification information (user ID, name, etc.) of the creator of the workspace. Here, the identification information of the logged-in user is stored as the creator. The updater is the identification information (user ID, name, etc.) of the person who updated the workspace when it was updated. In other words, the workspace can be updated. The query is the query (target query) entered when collecting the document information that formed the workspace. Therefore, the query can also be said to be information that indicates the perspective from which the workspace is based on the collection of document information. The number of uses is the number of times the workspace has been used (referenced). The evaluation score is the evaluation value entered by users who referenced the workspace. For example, the evaluation score is the average value of a five-point evaluation. The belonging data ID is the document ID of each piece of document information belonging to the workspace. The belonging data path is the file path of the document data related to each piece of document information. The class label is a label for each class generated in step 153. The same class label is saved for document information classified into the same class within the workspace.
なお、同じワークスペースに属する複数の文書情報が、クラスとは別に、ユーザの任意によって構成可能な単位(以下、「フォルダ」という。)によって分類可能とされてもよい。この場合、フォルダは、一般的なOSにおけるフォルダと同様に階層構造を形成可能であってもよい。すなわち、1つのワークスペースの文書情報が、階層構造によって分類されてもよい。ワークスペースに対するフォルダの生成は、図15の処理手順において実行されてもよいし、図15の処理手順後においてユーザによる任意のタイミングで実行されてもよい。いずれの場合であっても、ワークスペース生成部132は、階層構造において生成対象となるフォルダの親の指定と、当該フォルダのフォルダ名と、当該フォルダに分類する文書情報とをユーザから受け付ける。生成対象となるフォルダの親とは、当該フォルダがワークスペース直下のフォルダであれば当該ワークスペースである。生成対象のフォルダが他のフォルダの子であれば、当該他のフォルダが親である。フォルダ名は、ユーザの任意によって設定可能とされてよい。そうすることで、クラスとは別に、ユーザの視点又は都合に応じてワークスペース内を分類することができる。なお、同じクラスに属する文書情報が異なるフォルダに分類されることが許容されてもよいし、禁止されてもよい。Note that multiple pieces of document information belonging to the same workspace may be categorized by units (hereinafter referred to as "folders") that can be configured by the user, separate from classes. In this case, folders may be able to form a hierarchical structure similar to folders in a typical OS. That is, document information in one workspace may be categorized by a hierarchical structure. Folder creation for a workspace may be performed using the processing procedure of FIG. 15, or may be performed at the user's discretion after the processing procedure of FIG. 15. In either case, the workspace creation unit 132 receives from the user the specification of the parent of the folder to be created in the hierarchical structure, the folder name of the folder, and the document information to be classified into the folder. The parent of the folder to be created is the workspace if the folder is a folder directly under the workspace. If the folder to be created is a child of another folder, the other folder is the parent. The folder name may be set by the user. This allows the workspace to be classified according to the user's perspective or convenience, separate from classes. Note that document information belonging to the same class may be allowed or prohibited from being classified into different folders.
フォルダによる分類が導入される場合、ワークスペース記憶部25の各レコードは、所属データIDごとに(つまり、ワークスペースに属する文書情報ごとに)、更に、「フォルダ名」、「親」の項目を含めばよい。「フォルダ名」は、所属データIDに係る文書情報が属するフォルダのフォルダ名である。「親」は、当該フォルダの親がワークスペースであれば、ワークスペース名であり、当該フォルダの親が他のフォルダであれば当該他のフォルダのフォルダ名である。When classification by folders is introduced, each record in the workspace storage unit 25 may further include the fields "Folder Name" and "Parent" for each belonging data ID (i.e., for each piece of document information belonging to a workspace). "Folder Name" is the folder name of the folder to which the document information associated with the belonging data ID belongs. "Parent" is the workspace name if the parent of the folder is a workspace, or the folder name of another folder if the parent of the folder is another folder.
なお、上記のように、ワークスペースは、文書情報に関連付く情報である。そこで、文書情報の収集結果において、既にいずれかのワークスペースに保存されている(関連付けられている)文書情報については、当該文書情報に関連付くワークスペースも収集されるようにしてもよい。この場合、図7のステップS204において表示される検索結果画面520は、例えば、図17に示されるような構成を有してもよい。As mentioned above, a workspace is information associated with document information. Therefore, in the document information collection results, for document information that has already been saved (associated) with a workspace, workspaces associated with that document information may also be collected. In this case, the search result screen 520 displayed in step S204 of FIG. 7 may have a configuration such as that shown in FIG. 17, for example.
図17は、検索結果画面の第2の表示例を示す図である。図17中、図10と同一部分には同一符号を付し、その説明は省略する。Figure 17 shows a second display example of the search results screen. In Figure 17, the same parts as in Figure 10 are designated by the same reference numerals, and their explanations will be omitted.
図17が示す検索結果画面520は、更に、関連ワークスペース表示領域527を含む。関連ワークスペース表示領域527は、各文書情報に関連するワークスペースのワークスペース名が表示される領域である。或る文書情報に関連するワークスペースは、当該文書情報の文書IDを所属データIDとして含むワークスペースである。各ワークスペース名には、当該ワークスペースへ誘導するための情報(例えば、リンク)が付与されていてもよい。The search result screen 520 shown in FIG. 17 further includes a related workspace display area 527. The related workspace display area 527 is an area where the workspace names of workspaces related to each piece of document information are displayed. A workspace related to a certain piece of document information is a workspace that includes the document ID of that document information as its belonging data ID. Each workspace name may be assigned information (e.g., a link) to guide the user to that workspace.
このように、収集された各文書情報に対してワークスペースへのリンクが表示されることで、ユーザは、当該ワークスペースに基づいて、収集された文書情報に関連する他の文書情報等を得ることができる。In this way, a link to the workspace is displayed for each piece of collected document information, allowing users to obtain other document information related to the collected document information based on that workspace.
続いて、図4のステップS107の詳細について説明する。図18は、有識者収集結果出力処理の処理手順の一例を説明するためのフローチャートである。Next, step S107 in Figure 4 will be described in detail. Figure 18 is a flowchart illustrating an example of the processing steps for outputting expert collection results.
ステップS301において、有識者収集部128は、図4のステップS104において抽出された上位N件の文書ベクトルに係る文書情報(以下、「対象文書情報」という。)に関連する有識者の識別情報を、例えば、文書情報記憶部22(図8)を参照して収集(抽出)する。或る文書情報に関連する有識者の識別情報とは、当該文書情報の有識者であると推定される者に関する識別情報である。本実施の形態では、当該文書情報の作成者又は更新者が当該文書情報の有識者であるとして推定される。当該作成者又は当該更新者は、当該文書情報に係る文書データが含む内容に精通している、又は当該文書データの内容を知っている可能性が高いと考えられるからである。したがって、有識者収集部128は、文書情報記憶部22(図8)を参照して、対象文書情報ごとに、作成者又は更新者の社員IDを有識者の識別情報として収集する。In step S301, the expert collection unit 128 collects (extracts) identification information of experts associated with document information related to the top N document vectors extracted in step S104 of FIG. 4 (hereinafter referred to as "target document information"), for example, by referring to the document information storage unit 22 (FIG. 8). Identification information of an expert associated with certain document information is identification information of a person who is presumed to be an expert on that document information. In this embodiment, the creator or updater of that document information is presumed to be an expert on that document information. This is because it is considered likely that the creator or updater is familiar with the content contained in the document data related to that document information, or knows the content of that document data. Therefore, the expert collection unit 128 refers to the document information storage unit 22 (FIG. 8) and collects the employee ID of the creator or updater as identification information of the expert for each target document information.
続いて、有識者収集部128は、収集した社員IDごと(すなわち、有識者ごと)に対象クエリとの関連度を算出する(S302)。対象クエリとの関連度とは、対象クエリとの関連の強さを示す指標をいう。或る有識者についての対象クエリとの関連度は、上位N件の文書情報のうち、当該有識者が作成者又は更新者である文書情報について図4のステップS103において算出された類似度に基づく値であってもよい。この場合、例えば、当該類似度の平均又は合計等が関連度とされてもよい。更に、対象クエリを入力したユーザ(すなわち、ログインユーザ)からのアクセス性(アクセスのし易さ)を考慮して、各有識者の関連度に対して、ログインユーザとの近さを示す指標が加算されてもよい。当該指標は、ログインユーザが所属する部署と有識者が所属する部署との距離によって評価されてもよい。部署間の距離は、組織情報に基づいて評価可能である。例えば、部署Aと部署Bとの距離は、部署Aと部署Bとの共通の上位組織(例えば、事業部又は本部等)から部署A及び部署Bまでの階層の数の合計に基づく値であってもよい。この場合、当該合計が小さいほど(すなわち、距離が近いほど)、大きな値が関連度に加算されるようにする。なお、組織情報は組織情報記憶部24から取得可能である。又は、当該指標は、ログインユーザと有識者との間の企業内におけるコミュニケーションの量に基づいて評価されてもよい。例えば、企業内におけるメールのやり取り、チャットのやり取り、同じ会議の参加回数等に基づいて当該指標が算出されてもよい。この場合、ログインユーザとのコミュニケーションが多い有識者ほど、関連度の値が大きくされてもよい。その他の方法によって関連度が算出されてもよい。Next, the expert collection unit 128 calculates the relevance with the target query for each collected employee ID (i.e., for each expert) (S302). The relevance with the target query is an index indicating the strength of the relevance with the target query. The relevance with the target query for a certain expert may be a value based on the similarity calculated in step S103 of FIG. 4 for document information created or updated by the expert among the top N document information. In this case, the relevance may be, for example, the average or sum of the similarities. Furthermore, taking into account the accessibility (ease of access) from the user who entered the target query (i.e., the logged-in user), an index indicating the proximity to the logged-in user may be added to the relevance of each expert. The index may be evaluated based on the distance between the department to which the logged-in user belongs and the department to which the expert belongs. The distance between departments can be evaluated based on organizational information. For example, the distance between department A and department B may be a value based on the total number of levels from a common upper organization (e.g., a business division or headquarters) between department A and department B to department A and department B. In this case, the smaller this total is (i.e., the closer the distance), the larger the value added to the relevance level. Note that organizational information can be acquired from the organizational information storage unit 24. Alternatively, the index may be evaluated based on the amount of communication within the company between the logged-in user and the expert. For example, the index may be calculated based on email exchanges, chat exchanges, the number of times the experts have attended the same meetings within the company, etc. In this case, the more communication the expert has with the logged-in user, the higher the relevance level value may be. The relevance level may also be calculated using other methods.
続いて、有識者収集部128は、関連度の降順に有識者の識別情報をソートする(S303)。Next, the expert collection unit 128 sorts the expert identification information in descending order of relevance (S303).
図19は、有識者のソート結果の一例を示す図である。図19には、有識者の識別情報が関連度の降順にソートされた例が示されている。図19では、便宜上、有識者の氏名が識別情報とされている。Figure 19 shows an example of the sorting results for experts. Figure 19 shows an example in which the identification information of experts is sorted in descending order of relevance. For convenience, in Figure 19, the names of the experts are used as identification information.
なお、有識者が閾値(ここでは、M件とする)を超えて収集されている場合、有識者収集部128は、関連度において上位M番目までの有識者を抽出し、抽出された有識者のみを以降のステップにおける処理対象としてもよい。In addition, if the number of experts collected exceeds a threshold (here, M), the expert collection unit 128 may extract the top M experts in terms of relevance, and only use these extracted experts as the processing targets for subsequent steps.
続いて、有識者収集部128は、有識者の識別情報に基づいて、有識者の社員情報(以下、「有識者情報」という。)を情報管理装置20の社員情報記憶部23から取得する(S304)。社員情報記憶部23には、例えば、氏名、所属部署等、及び連絡先(電話番号やメールアドレス等)等、企業内において共有可能な社員情報が社員ごとに記憶されている。Next, the expert collection unit 128 acquires the expert's employee information (hereinafter referred to as "expert information") from the employee information storage unit 23 of the information management device 20 based on the expert's identification information (S304). The employee information storage unit 23 stores employee information that can be shared within the company, such as name, department, and contact information (telephone number, email address, etc.), for each employee.
続いて、表示情報生成部130は、ソート結果を有識者情報の収集結果として表示するための表示情報を生成する(S305)。Next, the display information generation unit 130 generates display information for displaying the sorting results as the collection results of expert information (S305).
続いて、表示情報送信部131及びユーザ端末30の表示制御部31は、表示情報の出力処理を実行する(S306)。具体的には、表示情報送信部131は、表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいて有識者収集結果画面を表示する。有識者収集画面は、例えば、検索結果画面(図10)と同様の構成を有し、検索結果表示領域522には、ステップS303においてソートされた有識者情報の一覧を含む画面である。Next, the display information sending unit 131 and the display control unit 31 of the user terminal 30 execute a display information output process (S306). Specifically, the display information sending unit 131 sends the display information to the user terminal 30. The display control unit 31 of the user terminal 30 displays an expert collection result screen based on the display information. The expert collection screen has, for example, a configuration similar to the search result screen (Figure 10), and the search result display area 522 is a screen that includes a list of the expert information sorted in step S303.
有識者収集画面においていずれか一つの有識者情報が選択されて詳細情報の表示指示が入力されると、ユーザ端末30の表示制御部31は、選択された有識者情報に係る社員IDを含む詳細情報表示要求を情報処理装置10へ送信する。情報処理装置10は、当該詳細情報表示要求を受信すると(S307で「詳細情報」)、当該詳細情報表示要求に含まれている社員IDに係る有識者について詳細情報出力処理を実行する(S308)。例えば、表示情報生成部130は、社員情報記憶部23又は情報管理装置20が有する他のデータベースか当該社員IDに関連付いている各種情報(以下、「詳細情報」という。)を取得し、取得した詳細情報を表示する画面(以下、「有識者詳細画面」という。)の表示情報を生成する。表示情報送信部131が当該表示情報をユーザ端末30へ送信すると、ユーザ端末30の表示制御部31は、当該表示情報に基づいて有識者詳細画面を表示する。ログインユーザは、有識者詳細画面を参照することで、当該有識者についてのより詳細な情報を得ることができる。When one piece of expert information is selected on the expert collection screen and a command to display detailed information is input, the display control unit 31 of the user terminal 30 sends a detailed information display request, including the employee ID associated with the selected expert information, to the information processing device 10. Upon receiving the detailed information display request ("detailed information" in S307), the information processing device 10 executes detailed information output processing for the expert associated with the employee ID included in the detailed information display request (S308). For example, the display information generation unit 130 acquires various information associated with the employee ID from the employee information storage unit 23 or another database in the information management device 20 (hereinafter referred to as "detailed information"), and generates display information for a screen (hereinafter referred to as the "expert details screen") that displays the acquired detailed information. When the display information transmission unit 131 transmits the display information to the user terminal 30, the display control unit 31 of the user terminal 30 displays the expert details screen based on the display information. The logged-in user can obtain more detailed information about the expert by referring to the expert details screen.
又は、有識者収集画面においていずれか一つの有識者情報が選択されて保有情報の表示指示が入力されると、ユーザ端末30の表示制御部31は、選択された有識者情報に係る社員IDを含む保有情報表示要求を情報処理装置10へ送信する。情報処理装置10は、当該保有情報表示要求を受信すると(S307で「保有情報」)、当該保有情報表示要求に含まれている社員IDに係る有識者について保有情報出力処理を実行する(S309)。例えば、表示情報生成部130は、当該社員IDを作成者又は更新者として含む文書情報の一覧を文書情報記憶部22(図8)から取得する。すなわち、取得された文書情報は、当該有識者が保有する情報を含む文書データに係る文書情報であると考えられる。表示情報生成部130は、取得した文書情報の一覧を表示する画面(以下、「保有情報画面」という。)の表示情報を生成する。表示情報送信部131が当該表示情報をユーザ端末30へ送信すると、ユーザ端末30の表示制御部31は、当該表示情報に基づいて保有情報画面を表示する。ログインユーザは、保有情報画面を参照することで、当該有識者が保有する情報を確認することができる。なお、当該有識者が作成者又は更新者であるワークスペース(図16)も、保有情報画面の表示対象とされてもよい。Alternatively, when one piece of expert information is selected on the expert collection screen and an instruction to display the retained information is input, the display control unit 31 of the user terminal 30 transmits a retained information display request, including the employee ID associated with the selected expert information, to the information processing device 10. Upon receiving the retained information display request ("Retained Information" in S307), the information processing device 10 executes a retained information output process for the expert associated with the employee ID included in the retained information display request (S309). For example, the display information generation unit 130 acquires a list of document information that includes the employee ID as a creator or updater from the document information storage unit 22 (Figure 8). In other words, the acquired document information is considered to be document information related to document data that includes information held by the expert. The display information generation unit 130 generates display information for a screen (hereinafter referred to as the "retained information screen") that displays the list of acquired document information. When the display information transmission unit 131 transmits the display information to the user terminal 30, the display control unit 31 of the user terminal 30 displays the retained information screen based on the display information. The logged-in user can check the information held by the expert by viewing the held information screen. Workspaces (Figure 16) created or updated by the expert may also be displayed on the held information screen.
又は、有識者収集画面においていずれか一つの有識者情報が選択されてアクセス経路の表示指示が入力されると、ユーザ端末30の表示制御部31は、選択された有識者情報に係る社員IDを含むアクセス経路表示要求を情報処理装置10へ送信する。情報処理装置10は、当該アクセス経路表示要求を受信すると(S307で「アクセス経路」)、当該アクセス経路表示要求に含まれている社員IDに係る有識者についてアクセス経路出力処理を実行する(S310)。アクセス経路は、ログインユーザが当該有識者へアクセスするための経路を示す情報である。例えば、企業の組織構造を表すグラフ(例えば、木構造)において、ログインユーザが所属する部署から当該有識者が所属する部署までの経路がアクセス経路であってもよい。この場合、表示情報生成部130は、組織情報に基づいてアクセス経路を特定可能である。又は、ログインユーザから当該有識者までの人間関係の経路がアクセス経路であってもよい。この場合、表示情報生成部130は、例えば、企業内のデータベースに記憶されているメールの履歴、チャットの履歴、会議の履歴等からログインユーザの知人を再帰的に探索し、当該有識者が知人として出現するまでに探索された知人のリストをアクセス経路として取得してもよい。表示情報生成部130は、取得したアクセス経路を表示する画面(以下、「アクセス経路画面」という。)の表示情報を生成する。表示情報送信部131が当該表示情報をユーザ端末30へ送信すると、ユーザ端末30の表示制御部31は、当該表示情報に基づいてアクセス経路画面を表示する。Alternatively, when one piece of expert information is selected on the expert collection screen and an instruction to display an access route is input, the display control unit 31 of the user terminal 30 sends an access route display request including the employee ID associated with the selected expert information to the information processing device 10. Upon receiving the access route display request ("Access Route" in S307), the information processing device 10 executes an access route output process for the expert associated with the employee ID included in the access route display request (S310). The access route is information indicating the route by which the logged-in user accesses the expert. For example, in a graph (e.g., a tree structure) representing the organizational structure of a company, the access route may be the route from the department to which the logged-in user belongs to to the department to which the expert belongs. In this case, the display information generation unit 130 can identify the access route based on the organizational information. Alternatively, the access route may be the path of human relationships from the logged-in user to the expert. In this case, the display information generation unit 130 may, for example, recursively search for the logged-in user's acquaintances from email history, chat history, meeting history, etc. stored in a company database, and acquire, as an access route, a list of acquaintances searched until the expert appears as an acquaintance. The display information generation unit 130 generates display information for a screen (hereinafter referred to as the "access route screen") that displays the acquired access route. When the display information transmission unit 131 transmits the display information to the user terminal 30, the display control unit 31 of the user terminal 30 displays the access route screen based on the display information.
例えば、前述の図14における文書関連図の一例に示した関連図の真ん中に位置する「宇宙ビジネス開発.pdf」の文書名の位置に「有識者名」が表示される(例えば最も関連度が高い「社員T.S」)ことで、人と人の保有する情報の関連図や、人同士の保有情報に関する相関図から有識者へのアクセス経路を直感的に把握でき、保有知識や有識者を探しやすくすることができる。ログインユーザは、アクセス経路画面を参照することで、当該有識者へアクセスするための手がかりを得ることができる。For example, by displaying the "expert name" in place of the document name of "Space Business Development.pdf," which is located in the center of the relationship diagram shown in the example document relationship diagram in Figure 14 above (for example, "Employee T.S.", which has the highest degree of relationship), users can intuitively grasp the access route to experts from the relationship diagram between people and the information held by each person, or the correlation diagram between information held by each person, making it easier to search for held knowledge and experts. By referring to the access route screen, logged-in users can obtain clues for accessing the expert in question.
続いて、図4のステップS108の詳細について説明する。図20は、ワークスペース収集結果出力処理の処理手順の一例を説明するためのフローチャートである。Next, we will explain the details of step S108 in Figure 4. Figure 20 is a flowchart illustrating an example of the processing steps for workspace collection result output processing.
ステップS401において、ワークスペース収集部129は、図4のステップS104において抽出された上位N件の文書ベクトルに係る文書情報(以下、「対象文書情報」という。)に関連するワークスペースをワークスペース記憶部25(図16)から収集する。或る文書情報に関連するワークスペースの識別情報とは、当該文書情報の文書IDを所属データIDとして含むワークスペースである。In step S401, the workspace collection unit 129 collects workspaces related to the document information (hereinafter referred to as "target document information") related to the top N document vectors extracted in step S104 of Figure 4 from the workspace storage unit 25 (Figure 16). The identification information of a workspace related to certain document information is a workspace that includes the document ID of the document information as its belonging data ID.
続いて、ワークスペース収集部129は、収集したワークスペースごとに対象クエリとの関連度を算出する(S402)。対象クエリとの関連度とは、対象クエリとの関連の強さを示す指標をいう。或るワークスペースの対象クエリとの関連度は、上位N件の文書情報のうち、当該ワークスペースに関連する文書情報について図4のステップS103において算出された類似度に基づく値であってもよい。この場合、例えば、当該類似度の平均又は合計等が関連度とされてもよい。Next, the workspace collection unit 129 calculates the relevance with the target query for each collected workspace (S402). The relevance with the target query is an index that indicates the strength of the relevance with the target query. The relevance of a certain workspace with the target query may be a value based on the similarity calculated in step S103 of FIG. 4 for document information related to the workspace among the top N pieces of document information. In this case, the relevance may be, for example, the average or sum of the similarities.
続いて、ワークスペース収集部129は、関連度の降順にワークスペースをソートする(S403)。Next, the workspace collection unit 129 sorts the workspaces in descending order of relevance (S403).
図21は、ワークスペースのソート結果の一例を示す図である。図21には、ワークスペースが関連度の降順にソートされた例が示されている。Figure 21 shows an example of the workspace sorting results. Figure 21 shows an example where workspaces are sorted in descending order of relevance.
なお、ワークスペースが閾値(ここでは、M件とする)を超えて収集されている場合、ワークスペース収集部129は、関連度において上位M番目までのワークスペースを抽出し、抽出されたワークスペースのみを以降のステップにおける処理対象としてもよい。In addition, if more than a threshold number of workspaces (here, M workspaces) have been collected, the workspace collection unit 129 may extract the top M workspaces in terms of relevance, and only process the extracted workspaces in the subsequent steps.
続いて、表示情報生成部130は、ソート結果をワークスペースの収集結果として表示するための表示情報を生成する(S404)。Next, the display information generation unit 130 generates display information for displaying the sorting results as workspace collection results (S404).
続いて、表示情報送信部131及びユーザ端末30の表示制御部31は、表示情報の出力処理を実行する(S405)。具体的には、表示情報送信部131は、表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース収集結果画面を表示する。Next, the display information sending unit 131 and the display control unit 31 of the user terminal 30 execute a process to output the display information (S405). Specifically, the display information sending unit 131 sends the display information to the user terminal 30. The display control unit 31 of the user terminal 30 displays a workspace collection result screen based on the display information.
図22は、ワークスペース収集結果画面の表示例を示す図である。図22が示すように、ワークスペース収集結果画面540は、情報収集条件表示領域541及び検索結果表示領域542を含む。Figure 22 is a diagram showing an example of the workspace collection results screen. As shown in Figure 22, the workspace collection results screen 540 includes an information collection conditions display area 541 and a search result display area 542.
情報収集条件表示領域541は、対象収集条件を表示する領域であり、情報種別表示領域5411及びクエリ表示領域5412を含む。情報種別表示領域5411及びクエリ表示領域5412の機能は、検索結果画面520(図10)における。情報種別表示領域5211及びクエリ表示領域5212の機能と同じである。The information collection condition display area 541 is an area that displays the target collection conditions, and includes an information type display area 5411 and a query display area 5412. The functions of the information type display area 5411 and the query display area 5412 are the same as those of the information type display area 5211 and the query display area 5212 on the search result screen 520 (Figure 10).
検索結果表示領域542は、ソートされたワークスペースの一覧が表示される領域である。The search result display area 542 is an area where a list of sorted workspaces is displayed.
ログインユーザは、ワークスペース収集結果画面540を参照することで、対象収集条件に応じて収集されたワークスペースの一覧を確認することができる。The logged-in user can view a list of workspaces collected according to the target collection conditions by referring to the workspace collection results screen 540.
ワークスペース収集結果画面540において、いずれかのワークスペースに対応する詳細ボタン524が押下されると、ユーザ端末30の表示制御部31は、当該詳細ボタン524に対応するリクエストを情報処理装置10へ送信する。当該リクエストは、例えば、当該ワークスペースのワークスペースIDを含む。When the Details button 524 corresponding to any workspace is pressed on the workspace collection results screen 540, the display control unit 31 of the user terminal 30 sends a request corresponding to the Details button 524 to the information processing device 10. The request includes, for example, the workspace ID of the workspace.
情報処理装置10の表示情報生成部130は、当該リクエストを受信すると、当該リクエストに含まれるワークスペースID(以下、「対象ワークスペースID」という。)に係るワークスペース(以下、「対象ワークスペース」という。)について詳細情報出力処理を実行する(S406)。具体的には、表示情報生成部130は、ワークスペース記憶部25を参照して、対象ワークスペースについて、ワークスペース収集結果画面540における表示内容よりも詳細な情報を表示する画面(以下、「ワークスペース詳細画面」という。)の表示情報を生成する。表示情報送信部131が当該表示情報をユーザ端末30へ送信すると、ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース詳細画面を表示する。When the display information generation unit 130 of the information processing device 10 receives the request, it executes detailed information output processing for the workspace (hereinafter referred to as the "target workspace") associated with the workspace ID (hereinafter referred to as the "target workspace ID") included in the request (S406). Specifically, the display information generation unit 130 references the workspace storage unit 25 and generates display information for a screen (hereinafter referred to as the "workspace details screen") that displays more detailed information about the target workspace than the content displayed on the workspace collection result screen 540. When the display information transmission unit 131 transmits the display information to the user terminal 30, the display control unit 31 of the user terminal 30 displays the workspace details screen based on the display information.
図23は、ワークスペース詳細画面の表示例を示す図である。図23が示すように、ワークスペース詳細画面550は、基本情報表示領域551、構成表示領域552及び所属文書表示領域553等を含む。Figure 23 is a diagram showing an example of the workspace details screen. As shown in Figure 23, the workspace details screen 550 includes a basic information display area 551, a configuration display area 552, and an associated document display area 553.
基本情報表示領域551は、対象ワークスペースについて、ワークスペース収集結果画面540に表示されていた内容と、編集ボタン5511及び評価ボタン5512とを含む領域である。The basic information display area 551 is an area that includes the content displayed on the workspace collection results screen 540 for the target workspace, as well as an edit button 5511 and an evaluation button 5512.
構成表示領域552は、対象ワークスペース(図16)の所属クラスラベル及び所属データIDに基づいて特定可能な、対象ワークスペースに属する文書情報群と、当該文書情報群を分類するクラスとの関係を示す情報を含む領域である。図23では、対象ワークスペースに3つのクラスが属する例が示されている。The configuration display area 552 is an area that contains information indicating the relationship between the document information group belonging to the target workspace (Figure 16), which can be identified based on the class label and data ID of the target workspace, and the class into which the document information group is classified. Figure 23 shows an example in which three classes belong to the target workspace.
所属文書表示領域553は、構成表示領域552において選択されたクラス(以下、「対象クラス」という。)に属する文書情報の一覧を含む領域である。図23において、3番目の文書情報については、「アクセス権なし」が表示されている。「アクセス権なし」は、ログインユーザにはアクセス権限が無い文書情報であることを示す。The belonging document display area 553 is an area that contains a list of document information belonging to the class (hereinafter referred to as the "target class") selected in the configuration display area 552. In Figure 23, "No access rights" is displayed for the third document information. "No access rights" indicates that the logged-in user does not have access rights to the document information.
ログインユーザは、ワークスペース詳細画面550を介してワークスペースを編集可能である。例えば、対象ワークスペースに属するいずれかの文書情報を対象ワークスペースから削除したり、或る文書情報を対象ワークスペースに追加したりすることができる。このような編集操作を行った後で、ログインユーザが編集ボタン5511を押下すると、ユーザ端末30は、編集内容を情報処理装置10へ送信する。情報処理装置10のワークスペース編集部133は、編集内容を受信すると(S407で「編集」)、ワークスペース記憶部25(図16)において対象ワークスペースに対応するレコードに当該編集内容を反映する(S408)。The logged-in user can edit a workspace via the workspace details screen 550. For example, they can delete any document information belonging to the target workspace from the target workspace, or add certain document information to the target workspace. After performing such an editing operation, when the logged-in user presses the edit button 5511, the user terminal 30 sends the edited content to the information processing device 10. When the workspace editing unit 133 of the information processing device 10 receives the edited content ("Edit" in S407), it reflects the edited content in the record corresponding to the target workspace in the workspace storage unit 25 (Figure 16) (S408).
又は、ワークスペース詳細画面550において評価ボタン5512が押下されると、ユーザ端末30の表示制御部31は、評価点の入力を受け付けるための画面を表示する。当該画面に対して0~5のいずれかの評価点が入力されると、ユーザ端末30の表示制御部31は、入力された評価点を情報処理装置10へ送信する。情報処理装置10のワークスペース生成部132は、評価点を受信すると(S407で「評価」)、ワークスペース記憶部25(図16)において対象ワークスペースに対応するレコードの利用数及び評価点を更新する(S409)。具体的には、ワークスペース生成部132は、当該利用数に1を加算する。評価点については、更新前の利用数をx1とし、更新後の利用数をx2とし、更新前の評価点をy1とした場合に、ワークスペース生成部132は、更新後の評価点y2を以下のように算出される。
y2=y1×x1÷x2
又は、ワークスペース詳細画面550の所属文書表示領域553において、いずれかの文書名に対するリンクが選択されると、ユーザ端末30、情報処理装置10及び情報管理装置20は、文書データ出力処理を実行する(S410)。なお、文書データ出力処理については、図7のステップS214において説明した通りである。したがって、文書データ出力処理の結果、ユーザは、当該文書名に係る文書データの内容を確認することができる。 Alternatively, when the rating button 5512 is pressed on the workspace details screen 550, the display control unit 31 of the user terminal 30 displays a screen for accepting input of a rating point. When a rating point of 0 to 5 is input on this screen, the display control unit 31 of the user terminal 30 transmits the input rating point to the information processing device 10. When the workspace generation unit 132 of the information processing device 10 receives the rating point ("Rating" in S407), it updates the number of uses and rating point of the record corresponding to the target workspace in the workspace storage unit 25 (FIG. 16) (S409). Specifically, the workspace generation unit 132 adds 1 to the number of uses. Regarding the rating point, if the number of uses before the update is x1, the number of uses after the update is x2, and the rating point before the update is y1, the workspace generation unit 132 calculates the updated rating point y2 as follows:
y2=y1×x1÷x2
Alternatively, when a link to any document name is selected in the associated document display area 553 of the workspace details screen 550, the user terminal 30, the information processing device 10, and the information management device 20 execute the document data output process (S410). The document data output process is as described in step S214 of Fig. 7. Therefore, as a result of the document data output process, the user can confirm the contents of the document data related to the document name.
上述したように、第1の実施の形態によれば、データ集合であるワークスペースの名前と、当該ワークスペースに対して付与されたラベルとを対応付けて表示することができる(図23)。ここで、或るワークスペースのラベルは、当該ワークスペースに属するデータの内容に基づいて付与されたものである。すなわち、或るワークスペースのラベルは、当該ワークスペースに属するデータの内容を端的に示す情報であるといえる。したがって、或るデータ集合(ワークスペース)が所望の情報を含むか否かについての判断を支援することができる。As described above, according to the first embodiment, the name of a workspace, which is a data set, can be displayed in association with the label assigned to that workspace (Figure 23). Here, the label of a certain workspace is assigned based on the content of the data belonging to that workspace. In other words, the label of a certain workspace can be said to be information that succinctly indicates the content of the data belonging to that workspace. Therefore, it can help determine whether a certain data set (workspace) contains desired information.
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第1の実施の形態と同様でもよい。第2の実施の形態以降においては、1以上のワークスペースが既に生成済みであるとする。Next, we will explain the second embodiment. In the second embodiment, we will explain the differences from the first embodiment. Therefore, points that are not specifically mentioned may be the same as in the first embodiment. In the second and subsequent embodiments, it is assumed that one or more workspaces have already been generated.
図24は、第2の実施の形態における情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。Figure 24 is a flowchart illustrating an example of the processing procedure executed by the information processing system in the second embodiment.
ステップS501において、情報処理装置10の受付部121は、ワークスペース一覧要求をユーザ端末30の表示制御部31から受信する。ワークスペース一覧要求とは、全てのワークスペースの一覧の表示要求をいう。ワークスペースの一覧要求は、例えば、収集条件入力画面510(図5)の情報種別選択領域511において情報種別として「ワークスペース」が選択され、クエリ入力領域512が空欄のまま(すなわち、クエリは入力されないで)実行ボタン513が押下されることで入力されてもよい。又は、他の画面を用いてワークスペース一覧要求が入力されてもよい。In step S501, the reception unit 121 of the information processing device 10 receives a workspace list request from the display control unit 31 of the user terminal 30. A workspace list request is a request to display a list of all workspaces. A workspace list request may be entered, for example, by selecting "workspace" as the information type in the information type selection area 511 of the collection condition input screen 510 (Figure 5), leaving the query input area 512 blank (i.e., without entering a query), and pressing the execute button 513. Alternatively, a workspace list request may be entered using another screen.
続いて、ワークスペース記憶部25に記憶されているワークスペースごとに、ステップS502及びS503を含むループ処理が実行される。当該ループ処理において処理対象とされているワークスペースを、以下「対象ワークスペース」という。Next, a loop process including steps S502 and S503 is executed for each workspace stored in the workspace storage unit 25. The workspace being processed in this loop process is hereinafter referred to as the "target workspace."
ステップS502において、ラベル付与部126は、対象ワークスペースに属する全ての文書情報に係る文書データが含む単語の集合における、各単語のTF-IDF値を算出する。In step S502, the labeling unit 126 calculates the TF-IDF value of each word in the set of words contained in the document data related to all document information belonging to the target workspace.
続いて、ラベル付与部126は、TF-IDF値が上位の一部(例えば、K番目まで)の単語を対象ワークスペースのラベルとして抽出し、当該ラベルを対象ワークスペースに対して付与する(S503)。ラベルを対象ワークスペースに対して付与するとは、ワークスペース記憶部25(図16)において、対象ワークスペースに対応するレコードの「ラベル」に対して当該ラベルを記録することをいう。Next, the label assignment unit 126 extracts a portion of the words with the highest TF-IDF values (for example, up to the Kth word) as labels for the target workspace, and assigns the labels to the target workspace (S503). Assigning a label to the target workspace means recording the label in the "label" field of the record corresponding to the target workspace in the workspace storage unit 25 (Figure 16).
全てのワークスペースについてループ処理が終了すると表示情報生成部130は、各ワークスペースのワークスペース名を当該ワークスペースに付与されたラベルに対応付けて表示する表示情報を生成する(S504)。When the loop processing for all workspaces is completed, the display information generation unit 130 generates display information that displays the workspace name of each workspace in association with the label assigned to that workspace (S504).
続いて、表示情報送信部131及びユーザ端末30の表示制御部31は、表示情報の出力処理を実行する(S505)。具体的には、表示情報送信部131は、当該表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース一覧画面を表示する。Next, the display information sending unit 131 and the display control unit 31 of the user terminal 30 execute a process to output the display information (S505). Specifically, the display information sending unit 131 sends the display information to the user terminal 30. The display control unit 31 of the user terminal 30 displays a workspace list screen based on the display information.
図25は、ワークスペース一覧画面の表示例を示す図である。図25が示すように、ワークスペース一覧画面610は、ワークスペースごとに、ワークスペース名とラベルとを対応付けて含む。各ラベルは、線によって囲われて表示されている(この点は、第1の実施の形態でも同様である)。つまり、表示情報生成部130は、ラベルが線によって囲われて表示されるように表示情報を生成する。「線」は曲線、直線を含み、色の異なる領域を分ける境界線も含むとする。これにより視覚的にラベルとワークスペース名や文書名との相違を認識しやすくすることができ、ワークスペース名や文書名に比べ、ラベルの方が目立つ方ようにすることが可能となる。その結果、検索結果をユーザが一瞥した際、検索結果の理解度が増し、検索クリエの調整など作業性が向上することを期待することができる。Figure 25 is a diagram showing an example of the workspace list screen. As shown in Figure 25, the workspace list screen 610 includes a workspace name and a label associated with each workspace. Each label is displayed surrounded by a line (this is also the case in the first embodiment). In other words, the display information generation unit 130 generates display information so that labels are displayed surrounded by a line. "Lines" include curved and straight lines, and also include boundary lines separating areas of different colors. This makes it easier to visually recognize the difference between labels and workspace names or document names, and makes it possible to make labels more noticeable than workspace names or document names. As a result, when a user glances at search results, they can be more easily understood, which is expected to improve operability, such as adjusting search results.
なお、図25では、各ワークスペースに対して複数のラベルが表示される例が示されているが、表示されるラベルは1つ(例えば、TF-IDF値が最高の単語)でもよい。但し、複数の方が望ましく、その場合には3つが望ましいと考えられる。Note that while Figure 25 shows an example in which multiple labels are displayed for each workspace, it is also possible to display only one label (for example, the word with the highest TF-IDF value). However, multiple labels are preferable, and in that case, three labels would be ideal.
図26は、望ましいラベルの個数を説明するための図である。図26において、角丸の矩形はラベルを示し、楕円形はラベルからユーザが想起するイメージに関するキーワードを示す。Figure 26 is a diagram to explain the desired number of labels. In Figure 26, the rounded rectangles represent labels, and the ovals represent keywords related to the images that users evoke from the labels.
例えば、図26(1)に示されるように、「脳」というラベルが1つだけ与えられた場合、人は、そのワークスペースに関連する文書の内容のイメージとして、「感情」「記憶・創造」、「意識」などというキーワードを想起する。For example, as shown in Figure 26 (1), if only one label, "brain," is given, people will recall keywords such as "emotion," "memory/creation," and "consciousness" as images of the content of documents related to that workspace.
それに対し、ラベルが、「脳」と「運動」の2つであれば、図26(2)のように、例えば、「脳活性」「睡眠」「集中度」「ストレス解消」といった身体に関わるようなイメージとなる。ラベルが1つしかない場合に比べて、飛躍的にその方向性が変わったことが分かる。また、「脳」のみのラベルに基づくイメージは、「脳」と「機械」の2つのラベルに基づくイメージである「ロボット」や「ディープラーニング」「人工生命」などというイメージとは明らかに異なる。つまり、ラベルが1つしかない場合と、2つ以上ある場合とでは、飛躍的に情報量が増えるとともに、視覚的に浮かぶイメージが大きく異なることが分かる。In contrast, if there are only two labels, "brain" and "exercise," then the resulting images will be related to the body, such as "brain activity," "sleep," "concentration," and "stress relief," as shown in Figure 26 (2). This shows a dramatic change in direction compared to when there is only one label. Furthermore, an image based on the label "brain" alone is clearly different from images such as "robot," "deep learning," and "artificial life," which are based on two labels, "brain" and "machine." In other words, the amount of information increases dramatically between when there is only one label and when there are two or more labels, and the images that emerge visually are also significantly different.
このように、視覚で的確にイメージをできるUIが求められている。ラベルの数は、あまり多すぎるとノイズとなって各ユーザの経験などに引っ張られて、的確に正しいイメージが伝わらない可能性が有る。ラベルで示すイメージは、大多数が描くイメージとして、正確に情報を伝えることが必要である。ラベルの数は、多くとも4つ以下が望ましい。それ以上であると、イメージが人によって異なってしまう。望ましいラベルの数は3つであり、的確なイメージを端的に伝えることができると考えられる。なお、この点については、第1の実施の形態でも同様である。As such, there is a demand for a UI that allows users to accurately visualize things visually. If there are too many labels, this can become noise and be influenced by each user's experience, which may prevent the correct image from being conveyed accurately. The images shown by the labels need to accurately convey information as the images that the majority of people have in mind. It is desirable to have a maximum of four labels. If there are more than that, the images will differ from person to person. The ideal number of labels is three, as this is thought to be able to succinctly convey an accurate image. This also applies to the first embodiment.
上述したように、第2の実施の形態によれば、第1の実施の形態と同様に、データ集合であるワークスペースの名前と、当該ワークスペースに対して付与されたラベルとを対応付けて表示することができる。したがって、或るデータ集合(ワークスペース)が所望の情報を含むか否かについての判断を支援することができる。As described above, according to the second embodiment, as with the first embodiment, it is possible to display the name of a workspace, which is a data set, in association with the label assigned to that workspace. This can therefore help determine whether a certain data set (workspace) contains desired information.
次に、第3の実施の形態について説明する。第3の実施の形態では上記各実施の形態と異なる点について説明する。したがって、特に言及されない点については、上記各実施の形態と同様でもよい。Next, we will explain the third embodiment. In the third embodiment, we will explain the differences from the above-mentioned embodiments. Therefore, aspects that are not specifically mentioned may be the same as the above-mentioned embodiments.
図27は、第3の実施の形態における情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。図27中、図24と同一ステップには同一ステップ番号を付し、その説明は省略する。図27では、ステップS502がステップS502aに置き換えられている。Figure 27 is a flowchart illustrating an example of the processing procedure executed by the information processing system in the third embodiment. In Figure 27, the same steps as in Figure 24 are assigned the same step numbers, and their explanations will be omitted. In Figure 27, step S502 has been replaced with step S502a.
ステップS502aにおいて、ラベル付与部126は、対象ワークスペースに属する全ての文書情報に係る文書データが含む単語と、対象ワークスペースに属する文書データを分類する単位の名前(以下、「分類単位名」という。)が含む単語との集合における、各単語のTF-IDF値を算出する。すなわち、対象ワークスペースに属する全ての文書データが含む単語の集合に対し、各分類単位名が含む単語を追加することで得られる集合について、各単語のTF-IDF値が算出される。ここで、分類単位名は、例えば、フォルダ名である。対象ワークスペースのワークスペース名が分類単位名に含まれてもよい。In step S502a, the labeling unit 126 calculates the TF-IDF value of each word in a set of words contained in document data relating to all document information belonging to the target workspace and words contained in the names of the units into which the document data belonging to the target workspace are classified (hereinafter referred to as "classification unit names"). In other words, the TF-IDF value of each word is calculated for the set obtained by adding the words contained in each classification unit name to the set of words contained in all document data belonging to the target workspace. Here, the classification unit name is, for example, a folder name. The workspace name of the target workspace may also be included in the classification unit name.
上述したように、第3の実施の形態によれば、ワークスペース名に対応付けられて表示されるラベルが、ユーザに任意によって付与されるフォルダ名やワークスペース名を構成する単語の中からも選ばれうる。したがって、ユーザの意図を反映したラベルが表示される可能性を高めることができる。As described above, according to the third embodiment, the label displayed in association with the workspace name can be selected from among the words that make up the folder name or workspace name arbitrarily assigned by the user. This increases the likelihood that a label that reflects the user's intention will be displayed.
次に、第4の実施の形態について説明する。第4の実施の形態では上記各実施の形態と異なる点について説明する。したがって、特に言及されない点については、上記各実施の形態と同様でもよい。Next, we will explain the fourth embodiment. In the fourth embodiment, we will explain the differences from the above-mentioned embodiments. Therefore, aspects that are not specifically mentioned may be the same as the above-mentioned embodiments.
図28は、第4の実施の形態における情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。図28中、図24と同一ステップには同一ステップ番号を付し、その説明は省略する。Figure 28 is a flowchart illustrating an example of the processing procedure executed by the information processing system in the fourth embodiment. In Figure 28, the same steps as in Figure 24 are assigned the same step numbers, and their explanations will be omitted.
図28では、ワークスペース記憶部25(図16)に記憶されている既存のワークスペースのうちのいずれかのワークスペースの構成がワークスペース編集部133によって編集された場合に(S601でYes)、当該ワークスペース(以下、「対象ワークスペース」という。)についてステップS502及びS503が実行される。その結果、ワークスペース記憶部25において対象ワークスペースに対して記憶されているラベルが更新(変更)される。In FIG. 28, when the configuration of one of the existing workspaces stored in the workspace storage unit 25 (FIG. 16) is edited by the workspace editing unit 133 (Yes in S601), steps S502 and S503 are executed for that workspace (hereinafter referred to as the "target workspace"). As a result, the label stored for the target workspace in the workspace storage unit 25 is updated (changed).
ここで、ワークスペースの構成の編集とは、ワークスペースのラベルが変化する可能性が有るようなワークスペースの変更をいう。したがって、ワークスペースに対する新たな文書情報(つまり、文書データ)の追加、又はワークスペースに属するいずれかの文書情報(つまり、文書データ)の削除は、ワークスペースの編集に相当する。この場合、ワークスペースのラベルの母集合となる文書データの単語群が変化するからである。Here, editing the configuration of a workspace refers to changing the workspace in a way that may change the workspace's labels. Therefore, adding new document information (i.e., document data) to a workspace or deleting any document information (i.e., document data) belonging to a workspace corresponds to editing the workspace. In this case, the group of words in the document data that forms the parent set of the workspace's labels changes.
また、第4の実施の形態が第3の実施の形態と組み合わされる場合、ワークスペース内のフォルダ構成の変更(フォルダの追加、フォルダの削除、フォルダ名の変更)や、ワークスペース名の変更もワークスペースの編集に相当する。Furthermore, when the fourth embodiment is combined with the third embodiment, changing the folder structure within a workspace (adding folders, deleting folders, changing folder names) and changing the workspace name also constitute editing the workspace.
なお、第4の実施の形態では、ワークスペース一覧要求に応じて実行される処理手順が上記各実施の形態と異なる。Note that in the fourth embodiment, the processing procedure executed in response to a workspace list request differs from that in the above embodiments.
図29は、第4の実施の形態においてワークスペース一覧要求に応じて実行される処理手順の一例を説明するためのフローチャートである。図29中、図24と同一ステップには同一ステップ番号を付し、その説明は省略する。図29では、ステップS502及びS503を含むループ処理の代わりにステップS602が実行される。Figure 29 is a flowchart illustrating an example of the processing procedure executed in response to a workspace list request in the fourth embodiment. In Figure 29, the same steps as in Figure 24 are assigned the same step numbers, and their explanations will be omitted. In Figure 29, step S602 is executed instead of the loop processing including steps S502 and S503.
ステップS602において、ラベル付与部126は、ワークスペース記憶部25(図16)に記憶されている全てのワークスペースのワークスペース名とラベルとを取得する。In step S602, the label assignment unit 126 obtains the workspace names and labels of all workspaces stored in the workspace storage unit 25 (Figure 16).
続くステップS504及びS505では、取得されたワークスペース名及びラベルに基づいて表示情報が生成され、当該表示情報に基づいてワークスペース一覧画面610(図25)が表示される。In the following steps S504 and S505, display information is generated based on the acquired workspace name and label, and the workspace list screen 610 (Figure 25) is displayed based on that display information.
上述したように、第4の実施の形態によれば、ワークスペース一覧画面610(図25)の表示のたびにラベルを付与するための処理が実行される必要はないため、ワークスペース一覧画面610の表示処理を効率化することができる。As described above, according to the fourth embodiment, it is not necessary to execute the process for assigning labels each time the workspace list screen 610 (Figure 25) is displayed, thereby making the display process of the workspace list screen 610 more efficient.
次に、第5の実施の形態について説明する。第5の実施の形態では上記各実施の形態と異なる点について説明する。したがって、特に言及されない点については、上記各実施の形態と同様でもよい。Next, we will explain the fifth embodiment. In the fifth embodiment, we will explain the differences from the above-mentioned embodiments. Therefore, aspects that are not specifically mentioned may be the same as the above-mentioned embodiments.
図30は、第5の実施の形態における情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。図30中、図24と同一ステップには同一ステップ番号を付し、その説明は省略する。Figure 30 is a flowchart illustrating an example of the processing procedure executed by the information processing system in the fifth embodiment. In Figure 30, the same steps as in Figure 24 are assigned the same step numbers, and their explanations will be omitted.
図30では、文書情報記憶部22(図8)に記憶されているいずれかの文書情報に係る文書データの内容が編集された(つまり、当該文書データを構成する単語が変化した)場合に(S603でYes)、ステップS604以降が実行される。文書データが編集されたことは、文書データが記憶されている記憶部(ファイルシステム等)をポーリングすることによって検知されてもよい。以下、編集された文書データを「対象文書データ」という。In Figure 30, if the content of document data relating to any document information stored in the document information storage unit 22 (Figure 8) has been edited (i.e., the words that make up the document data have been changed) (Yes in S603), steps S604 and beyond are executed. Editing of document data may be detected by polling the storage unit (file system, etc.) in which the document data is stored. Hereinafter, edited document data will be referred to as "target document data."
ステップS604において、ワークスペース収集部129は、対象文書データが属するワークスペースを、ワークスペース記憶部25を参照して特定する。具体的には、ワークスペース収集部129は、対象文書データのファイルパスと一致する所属データパスを含むワークスペースを対象文書データが属するワークスペースとして特定する。In step S604, the workspace collection unit 129 identifies the workspace to which the target document data belongs by referring to the workspace storage unit 25. Specifically, the workspace collection unit 129 identifies the workspace that includes an associated data path that matches the file path of the target document data as the workspace to which the target document data belongs.
続いて、特定されたワークスペースごとに、ステップS502及びS503を含むループ処理が実行される。その結果、当該ワークスペースのラベルが更新されうる。Next, a loop including steps S502 and S503 is executed for each identified workspace. As a result, the label of that workspace may be updated.
なお、第5の実施の形態において、ワークスペース一覧要求に応じた処理手順は、第4の実施の形態と同様でもよい。In the fifth embodiment, the processing procedure in response to a workspace list request may be the same as in the fourth embodiment.
上述したように、第5の実施の形態によれば、ワークスペース一覧画面610(図25)の表示のたびにラベルを付与するための処理が実行される必要はないため、ワークスペース一覧画面610の表示処理を効率化することができる。As described above, according to the fifth embodiment, it is not necessary to execute the process for assigning labels each time the workspace list screen 610 (Figure 25) is displayed, thereby making the display process of the workspace list screen 610 more efficient.
次に、第6の実施の形態について説明する。第6の実施の形態では上記各実施の形態と異なる点について説明する。したがって、特に言及されない点については、上記各実施の形態と同様でもよい。Next, we will explain the sixth embodiment. In the sixth embodiment, we will explain the differences from the above-mentioned embodiments. Therefore, aspects that are not specifically mentioned may be the same as the above-mentioned embodiments.
図31は、第6の実施の形態における情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。Figure 31 is a flowchart illustrating an example of the processing procedure executed by the information processing system in the sixth embodiment.
ステップS605において、情報処理装置10は、クエリに基づくワークスペースの検索処理を実行する。当該検索処理は、収集条件入力画面510(図5)において、情報種別として「ワークスペース」が選択され、クエリが入力された実行ボタン513が押下された場合に実行される処理手順のうち、図4のステップS101~S105に続いて図20のステップS401までの処理手順である。したがって、ステップS605では、クエリとの類似度が上位N件である文書データが属するワークスペースが検索される。In step S605, the information processing device 10 executes a workspace search process based on the query. This search process is one of the processing procedures executed when "Workspace" is selected as the information type on the collection condition input screen 510 (FIG. 5), the execute button 513 is pressed with a query entered, and the processing procedures include steps S101 to S105 in FIG. 4 and then step S401 in FIG. 20. Therefore, in step S605, workspaces containing the top N pieces of document data with the highest similarity to the query are searched for.
続いて、検索されたワークスペースごとに、ステップS502及びS503aを含むループ処理が実行される。ループ処理において処理対象とされているワークスペースを、以下「対象ワークスペース」という。Next, a loop including steps S502 and S503a is executed for each workspace found. The workspace being processed in the loop is hereinafter referred to as the "target workspace."
ステップS502において、ラベル付与部126は、図24において説明したように、対象ワークスペースに属する全ての文書情報に係る文書データが含む単語の集合における、各単語のTF-IDF値を算出する。なお、文書データが含む単語(つまり、ステップS502においてTF-IDF値が算出された単語)を、以下「文書単語」という。In step S502, the labeling unit 126 calculates the TF-IDF value of each word in the set of words contained in the document data related to all document information belonging to the target workspace, as described in FIG. 24. Note that the words contained in the document data (i.e., the words whose TF-IDF values were calculated in step S502) are hereinafter referred to as "document words."
続いて、ラベル付与部126は、クエリを構成する単語のうちのいずれかを含む文書単語の中で、TF-IDF値が上位の一部(例えば、K番目まで)の文書単語を対象ワークスペースのラベルとして抽出し、当該ラベルを対象ワークスペースに付与する(S503)。すなわち、ラベル付与部126は、TF-IDF値の降順に、各文書単語がクエリを構成するいずれかの単語(以下、「クエリ単語」という。)を含むか否かを判定し、クエリ単語を含むと判定された文書単語がK個発見された時点で、そのK個の文書単語をラベルとして抽出する。Next, the label assignment unit 126 extracts some of the document words with the highest TF-IDF values (for example, the first K) from among the document words that contain any of the words that make up the query as labels for the target workspace, and assigns these labels to the target workspace (S503). That is, the label assignment unit 126 determines, in descending order of TF-IDF value, whether each document word contains any of the words that make up the query (hereinafter referred to as "query words"), and when K document words that are determined to contain a query word are found, extracts those K document words as labels.
全てのワークスペースについてループ処理が終了すると、図24において説明したように、ステップS504及びS505が実行される。Once the loop processing has been completed for all workspaces, steps S504 and S505 are executed as described in Figure 24.
上述したように、第6の実施の形態によれば、ワークスペースごとに表示されるラベルを検索文であるクエリと一致するものに絞ることで、ユーザによる検索の意図に適したワークスペースを見つけやすくすることができる。As described above, according to the sixth embodiment, by narrowing down the labels displayed for each workspace to those that match the query, which is the search statement, it becomes easier for the user to find a workspace that matches their search intent.
なお、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。Note that each function of the above-described embodiments can be realized by one or more processing circuits. In this specification, the term "processing circuit" includes processors programmed to perform each function by software, such as processors implemented by electronic circuits, as well as devices such as ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), FPGAs (Field Programmable Gate Arrays), and conventional circuit modules designed to perform each of the above-described functions.
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。Although the embodiments of the present invention have been described in detail above, the present invention is not limited to such specific embodiments, and various modifications and variations are possible within the scope of the gist of the present invention as set forth in the claims.
本発明の態様は、例えば、以下の通りである。
<1>
入力情報との類似性に基づいて複数のデータを検索するデータ検索部と、
前記データの集合が含む単語に基づいて前記集合に対してラベルを付与するラベル付与部と、
前記集合に対してユーザによって付与された名前と前記ラベルとを対応付けて表示する表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。
<2>
入力情報との類似性に基づいて複数のデータを検索するデータ検索部と、
前記データのそれぞれに対して、当該データが含む単語に基づいてラベルを付与するラベル付与部と、
前記データごとに当該データの名前と当該データに付与されたラベルとを対応付けて表示する表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。
<3>
前記ラベル付与部は、複数の前記ラベルを付与する、
ことを特徴とする<1>又は<2>記載の情報処理システム。
<4>
前記ラベル付与部は、前記データが含む単語のTF-IDF値に基づいて前記ラベルとする単語を選択する、
ことを特徴とする<1>乃至<3>いずれか記載の情報処理システム。
<5>
前記表示情報生成部は、前記ラベルが線によって囲われて表示されるように前記表示情報を生成する、
ことを特徴とする<1>乃至<4>いずれか記載の情報処理システム。
<6>
前記複数のデータを複数のクラスに分類する分類部、
を有し、
前記ラベル付与部は、前記クラスごとに、当該クラスに属する前記データが含む単語に基づいてラベルを付与し、
前記クラスに対して付与されたラベルと、当該クラスに属するデータの名前との関連を示す関連図を生成する関連図生成部を有し、
前記関連図は、前記ラベルをノードとして含み、
前記表示情報生成部は、前記関連図を表示する表示情報を生成する、
ことを特徴とする<1>乃至<5>いずれか記載の情報処理システム。
<7>
それぞれに1以上のデータが属するデータ集合の一覧表示の要求を受け付ける受付部と、
前記要求に応じて、前記データ集合ごとに当該データ集合に属するデータが含む各単語のTF-IDF値を算出し、当該TF-IDF値に基づいて当該データ集合に対してラベルを付与するラベル付与部と、
前記データ集合ごとに前記ラベルを含む表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。
<8>
前記ラベル付与部は、前記データ集合ごとに当該データ集合に属するデータが含む各単語と、当該データ集合においてデータを分類する単位の名前が含む各単語とのTF-IDF値を算出する、
ことを特徴とする<7>記載の情報処理システム。
<9>
それぞれに1以上のデータが属するデータ集合の編集要求を受け付ける受付部と、
前記編集要求に応じて変更された前記データ集合ごとに当該データ集合に属するデータが含む各単語のTF-IDF値を算出し、当該TF-IDF値に基づいて当該データ集合に対してラベルを付与するラベル付与部と、
前記データ集合ごとに前記ラベルを含む表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。
<10>
入力情報との類似性に基づいて複数のデータを検索するデータ検索部と、
それぞれに1以上のデータが属するデータ集合のうち、前記複数のデータのうちのいずれかが属するデータ集合ごとに、当該データ集合に属するデータが含む各単語のTF-IDF値を算出し、当該TF-IDF値と前記入力情報とに基づいて当該データ集合に対してラベルを付与するラベル付与部と、
前記データ集合ごとに前記ラベルを含む表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。 For example, aspects of the present invention are as follows.
<1>
a data search unit that searches for a plurality of data based on similarity with input information;
a labeling unit that assigns a label to the set of data based on words contained in the set;
a display information generating unit that generates display information that displays a name given by a user to the set in association with the label;
An information processing system comprising:
<2>
a data search unit that searches for a plurality of data based on similarity with input information;
a labeling unit that assigns a label to each of the data based on a word contained in the data;
a display information generating unit that generates display information for each of the data items, the display information displaying the name of the data item and the label assigned to the data item in association with each other;
An information processing system comprising:
<3>
the label assignment unit assigns a plurality of the labels;
3. The information processing system according to claim 1 or 2.
<4>
the labeling unit selects words to be used as the labels based on TF-IDF values of the words included in the data.
The information processing system according to any one of <1> to <3>.
<5>
the display information generation unit generates the display information so that the label is displayed surrounded by a line.
The information processing system according to any one of <1> to <4>,
<6>
a classification unit that classifies the plurality of data into a plurality of classes;
and
the labeling unit assigns a label to each of the classes based on a word contained in the data belonging to the class;
an association diagram generating unit that generates an association diagram showing the association between the label assigned to the class and the name of data belonging to the class;
the relationship graph includes the labels as nodes;
the display information generating unit generates display information for displaying the related diagram.
The information processing system according to any one of <1> to <5>,
<7>
a receiving unit that receives a request for displaying a list of data sets, each of which includes one or more pieces of data;
a labeling unit that calculates a TF-IDF value of each word included in data belonging to each of the datasets in response to the request, and assigns a label to each of the datasets based on the TF-IDF value;
a display information generation unit that generates display information including the label for each of the data sets;
An information processing system comprising:
<8>
the labeling unit calculates, for each of the datasets, a TF-IDF value between each word contained in data belonging to the dataset and each word contained in a name of a unit for classifying data in the dataset;
The information processing system according to <7>,
<9>
a receiving unit that receives an edit request for a data set, each of which includes one or more pieces of data;
a labeling unit that calculates a TF-IDF value of each word included in data belonging to each of the datasets changed in response to the editing request, and assigns a label to each of the datasets based on the TF-IDF value;
a display information generation unit that generates display information including the label for each of the data sets;
An information processing system comprising:
<10>
a data search unit that searches for a plurality of data based on similarity with input information;
a labeling unit that calculates, for each dataset to which any of the plurality of datasets belongs, a TF-IDF value of each word included in the dataset, among datasets each including one or more datasets, and assigns a label to the dataset based on the TF-IDF value and the input information;
a display information generation unit that generates display information including the label for each of the data sets;
An information processing system comprising:
10 情報処理装置
20 情報管理装置
21 文書管理部
22 文書情報記憶部
23 社員情報記憶部
24 組織情報記憶部
25 ワークスペース記憶部
26 会議情報記憶部
30 ユーザ端末
31 表示制御部
40 会議デバイス
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 プロセッサ
105 インタフェース装置
121 受付部
122 ベクトル変換部
123 比較部
124 データ検索部
125 分類部
126 ラベル付与部
127 関連図生成部
128 有識者収集部
129 ワークスペース収集部
130 表示情報生成部
131 表示情報送信部
132 ワークスペース生成部
133 ワークスペース編集部
141 文書ベクトル記憶部
142 文書関連記憶部
B バス10 Information processing device 20 Information management device 21 Document management unit 22 Document information storage unit 23 Employee information storage unit 24 Organization information storage unit 25 Workspace storage unit 26 Conference information storage unit 30 User terminal 31 Display control unit 40 Conference device 100 Drive device 101 Recording medium 102 Auxiliary storage device 103 Memory device 104 Processor 105 Interface device 121 Reception unit 122 Vector conversion unit 123 Comparison unit 124 Data search unit 125 Classification unit 126 Label assignment unit 127 Association diagram generation unit 128 Expert collection unit 129 Workspace collection unit 130 Display information generation unit 131 Display information transmission unit 132 Workspace generation unit 133 Workspace editing unit 141 Document vector storage unit 142 Document association storage unit B Bus
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024027569AJP2025130417A (en) | 2024-02-27 | 2024-02-27 | Information Processing Systems |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024027569AJP2025130417A (en) | 2024-02-27 | 2024-02-27 | Information Processing Systems |
| Publication Number | Publication Date |
|---|---|
| JP2025130417Atrue JP2025130417A (en) | 2025-09-08 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024027569APendingJP2025130417A (en) | 2024-02-27 | 2024-02-27 | Information Processing Systems |
| Country | Link |
|---|---|
| JP (1) | JP2025130417A (en) |
| Publication | Publication Date | Title |
|---|---|---|
| US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
| US8135669B2 (en) | Information access with usage-driven metadata feedback | |
| US9305100B2 (en) | Object oriented data and metadata based search | |
| JP3577819B2 (en) | Information search apparatus and information search method | |
| US20100005087A1 (en) | Facilitating collaborative searching using semantic contexts associated with information | |
| US20100005061A1 (en) | Information processing with integrated semantic contexts | |
| US20110270826A1 (en) | Document analysis system | |
| JP2015056020A (en) | Document classification device | |
| WO2011001584A1 (en) | Information classification device, information classification method, and information classification program | |
| US10650191B1 (en) | Document term extraction based on multiple metrics | |
| Spitz et al. | EVELIN: Exploration of event and entity links in implicit networks | |
| US9230210B2 (en) | Information processing apparatus and method for obtaining a knowledge item based on relation information and an attribute of the relation | |
| JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
| Elliott | Survey of author name disambiguation: 2004 to 2010 | |
| JPH09231238A (en) | Display method for text retrieval result and device therefor | |
| JP2008217157A (en) | Automatic information organizing apparatus, method, and program using operation history | |
| JP7255585B2 (en) | Information processing device, information processing method, and program | |
| JP2014102625A (en) | Information retrieval system, program, and method | |
| JP3692416B2 (en) | Information filtering method and apparatus | |
| JP2025130417A (en) | Information Processing Systems | |
| KR101078978B1 (en) | System for grouping documents | |
| JP2003337933A (en) | Knowledge data processing device | |
| Ahmad et al. | A comparative study on text mining techniques | |
| US20240168998A1 (en) | Information processing apparatus, information processing system, information processing method, and non-transitory recording medium | |
| JP2002215642A (en) | Feedback type internet retrieval method, and system and program recording medium for carrying out the method |