































本発明は、特にシステム運用管理業務の支援技術に関する。 The present invention particularly relates to support technology for system operation management work.
コンピュータシステムの運用管理者は、コンピュータシステム上で発生した障害や異常をインシデントとして管理し、インシデントに対する対応作業としてインシデントに対する原因調査作業や障害対策作業等を実施する。 The operation manager of the computer system manages, as an incident, a failure or abnormality that has occurred on the computer system, and carries out a cause investigation work or an error countermeasure work for the incident as a response work to the incident.
  インシデント対応作業を支援するソフトウェアには、インシデント管理ソフトウェアや監視ソフトウェアがある。インシデント管理ソフトウェアは、インシデントを登録・管理する機能を提供する。運用管理者は、インシデント管理ソフトウェアを用いて、インシデントに対して行った対応作業を、インシデント対応履歴として記録する。
  インシデント対応履歴には、「いつ、誰が、何の作業を行ったのか」を記録する。Software supporting incident response work includes incident management software and monitoring software. Incident management software provides functions to register and manage incidents. The operation manager records the response work performed on the incident as an incident response history using the incident management software.
 In the incident response history, "when, who performed what task" is recorded.
監視ソフトウェアは、障害/異常検出および原因分析を支援するソフトウェアである。監視ソフトウェアは、管理対象のハードウェアやソフトウェアと通信し、システムの稼働状況を示す稼働データを収集する。稼働データには、CPU使用率のような数値データや、アプリケーション(AP)の状態を表すテキストメッセージのような文字列データがある。また、収集した稼働データが予め指定された条件を満たした場合に運用管理者にアラートを送信し、インシデント管理ソフトウェアと連携してインシデントとして登録する。さらに、稼働データを線グラフなどの形に加工して、管理者の操作端末の画面上に表示する。 Monitoring software is software that supports fault / error detection and cause analysis. The monitoring software communicates with the hardware and software to be managed, and collects operation data indicating the system operation status. The operation data includes numerical data such as CPU utilization, and character string data such as text messages representing the state of the application (AP). Also, when the collected operation data satisfies a predetermined condition, an alert is sent to the operation manager, and it is registered as an incident in cooperation with the incident management software. Further, the operation data is processed into a line graph or the like and displayed on the screen of the operation terminal of the administrator.
監視ソフトウェアとインシデント管理ソフトウェアは共に用いられることが多いため、両ソフトウェアを統合した製品も提案されている。以下では、このような製品を統合監視サーバと呼ぶ。 Since monitoring software and incident management software are often used together, a product integrating both software has also been proposed. Below, such a product is called an integrated monitoring server.
統合監視サーバを用いたインシデント対応作業では、運用管理者は、発生したインシデントを確認し、インシデントに関連する稼働データを調査することで原因分析を行い、その他の管理ツール等を用いて、管理対象のハードウェアやソフトウェアに対する対策作業を実施する。そして、対応作業内容をインシデント対応履歴として記録する。 In the incident response work using the integrated monitoring server, the operation manager confirms the incident that has occurred, analyzes the cause by examining the operation data related to the incident, and manages it using other management tools etc. Implement measures for hardware and software. Then, the response work content is recorded as an incident response history.
インシデントを管理する上では、インシデント対応履歴を詳細に記録することが重要である。インシデント対応履歴が詳細に記録されていれば、インシデント対応作業のエビデンスや過去に発生したインシデントと同様のインシデントが発生時の参考情報として利用できる。 In managing incidents, it is important to record incident response history in detail. If the incident response history is recorded in detail, the same evidence as incident response work and incidents that occurred in the past can be used as reference information at the time of occurrence.
しかしながら、インシデント対応履歴は運用管理者によって人手で記録されるため、記載内容が省略されるなどして、実際の作業との乖離が発生し得る。インシデントの対応履歴と実際の作業との乖離を小さくするには、インシデント対応履歴を統合監視サーバや管理ツールが記録する運用操作ログを活用することが考えられる。運用操作ログは、運用管理者による機器や管理ツールの操作履歴である。しかし、従来は、インシデント対応履歴と運用操作ログが関連づけられていない。そのため、運用管理者は人手でインシデントやその対応履歴に含まれる複数のキー情報を用いて、複数の運用操作ログに対する検索を行って運用操作ログを抽出する必要があった。 However, since the incident response history is manually recorded by the operation manager, the described contents may be omitted and a divergence from the actual work may occur. In order to reduce the difference between the incident response history and the actual work, it is conceivable to utilize an operation operation log in which the integrated monitoring server and the management tool record the incident response history. The operation operation log is an operation history of devices and management tools by the operation manager. However, conventionally, the incident response history and the operation operation log are not associated. Therefore, it has been necessary for the operation manager to manually search the plurality of operation operation logs using a plurality of key information included in the incident and its response history to extract the operation operation log.
  インシデントに関連する運用操作ログを自動的に抽出する従来技術として、特許文献1がある。特許文献1は、対応手順毎に事前定義した対応履歴テンプレートに基づいて、記入内容のひな形とログファイルから抽出した情報を合成し、インシデント対応履歴として自動入力する技術を開示する。  There is
  特許文献1によれば、対応手順が明確で事前定義できるインシデントに関連する運用操作ログが自動抽出/記録される。しかし、事前定義できず、対応手順が明確で無いインシデントに対しては適用できないという問題がある。  According to
また、単純な自動抽出方法として、インシデント発生から解決までの期間に発生した運用操作ログをすべて集める方法が考えられる。この方法により、対応手順が明確でなくても、関連するログを集られる。しかし、その期間中に別の運用作業(別のインシデント対応作業や日々の運用作業)が実施されていた場合にはインシデントに無関係のログが抽出され、抽出されたログの精度が悪いという問題がある。 Also, as a simple automatic extraction method, a method of collecting all the operation operation logs generated in the period from the occurrence of an incident to the resolution can be considered. In this way, relevant logs can be collected even if the response procedure is not clear. However, if another operation work (another incident response work or daily operation work) is performed during that period, unrelated logs are extracted from the incident, and the accuracy of the extracted logs is not good. is there.
本発明の課題は、対応手順が明確で無いインシデントに関連する運用操作ログを精度良く自動抽出することである。 An object of the present invention is to automatically and accurately extract an operation operation log related to an incident whose response procedure is not clear.
本発明では、インシデントに関連する運用操作ログ自動抽出方法として、インシデントおよびインシデント対応履歴と運用操作ログとを入力として、複数の観点での関連性からインシデントと運用操作ログ間の総合的な関連度を計算し、その関連度に基づいてインシデントに関連する運用操作ログを抽出する方法を開示する。 In the present invention, as the operation operation log automatic extraction method related to the incident, the incident and incident response history and the operation operation log are input, and the degree of comprehensive association between the incident and the operation operation log from the relationship in multiple viewpoints Disclose a method for calculating the operation log and extracting the operation operation log related to the incident based on the degree of association.
関連度の具体的な計算方法としては、管理対象システムに関するシステム構成情報、および運用管理者情報も入力として活用し、時刻、システム構成、運用管理者という3つの観点におけるインシデントの各対応履歴と運用操作ログの関連度を計算し、それらの関連を合成することによって、トータルの関連度を計算する方法を開示する。 As a specific calculation method of the degree of association, the system configuration information on the managed system and the operation manager information are also used as input, and each correspondence history and operation of the incident from three viewpoints of time, system configuration, and operation manager Disclosed is a method for calculating the total degree of association by calculating the degree of association of the operation log and combining those associations.
運用管理者は、インシデントに関連する運用操作ログの収集、検索にかかる時間を短縮できる。 The operation manager can reduce the time required for collecting and searching operation operation logs related to an incident.
本実施例の統合監視サーバは、インシデント情報、システム構成情報、運用管理者情報、および、運用操作ログを入力として、インシデントおよび対応履歴と運用操作ログとの間の時刻、システム構成、運用管理者に基づく関連度を計算し、その計算結果からインシデントに関連する運用操作ログの一覧を出力する機能を提供する。 The integrated monitoring server according to the present embodiment receives incident information, system configuration information, operation manager information, and operation operation log as input, time between the incident and the response history and the operation operation log, system configuration, operation manager It provides the function to calculate the degree of association based on the above and output a list of operation log related to the incident from the calculation result.
実施例1では、インシデントに関連する稼働データアクセスログを一覧として出力する。 In the first embodiment, the operation data access log related to the incident is output as a list.
以下、図面を用いて実施例を説明する。 Hereinafter, an embodiment will be described using the drawings.
  図1に、実施例1で想定するコンピュータシステムを模式的に示す。
コンピュータシステムは、統合監視サーバ3、管理DB 4、操作端末5、管理対象システム6によって構成される。これらの機器は、物理的な通信回線2を通して管理ネットワーク1に接続される。FIG. 1 schematically shows a computer system assumed in the first embodiment.
 The computer system includes an integrated
  管理対象システム6は、管理対象となるシステムを構成するコンポーネントの例である。管理対象システム6上には、物理マシン(Physical Machine, PM)63、仮想マシンモニタ(Virtual Machine Monitor, VMM)61、その上に搭載される仮想マシン(Virtual Machine, VM)62等のサーバコンポーネントが存在し、複数サーバにリクエストを振り分けるロードバランサ67といったコンポーネントが存在する。また、サーバ上にはOS 63-1、OS上に搭載されるミドルウェア64-1やAP 65-1といったコンポーネントが存在する。さらに、各コンポーネントから稼働データを取得するための監視エージェント66がコンポーネントとして存在する。各コンポーネントは管理対象システムの構成によって、複数個ずつ存在し得るが、図中では簡単のため、1個だけ記載している。
以降では、管理対象システム6を構成する機器または機器に搭載される機能コンポーネントのことを、構成要素と呼ぶ。The management target system 6 is an example of components constituting a system to be managed. On the managed system 6, server components such as a physical machine (Physical Machine, PM) 63, a virtual machine monitor (Virtual Machine Monitor, VMM) 61, and a virtual machine (Virtual Machine, VM) 62 mounted thereon are included. There is a component such as a
 Hereinafter, the device mounted on the managed system 6 or the functional component mounted on the device will be referred to as a component.
  管理DB(DataBase) 4は、稼働データT100、インシデント情報T200、システム構成管理情報T500、運用管理者情報T800といった統合監視サーバ3がインシデント管理や稼働データ表示機能を提供するために必要な情報を格納・管理する。また、インシデントの関連付け対象となる運用操作ログT900を格納・管理する。さらに、関連度の計算方法や計算結果に関する情報も格納・管理する。  The management DB (DataBase) 4 stores information necessary for the integrated
  統合監視サーバ3は、稼働データ、インシデント情報、運用操作ログ等を収集、登録、表示する機能を提供するデータ管理部31と、データ管理部31が収集、登録したインシデント情報や運用操作ログを用いて、インシデントに関連する運用操作ログを抽出する関連運用操作ログ自動抽出部32から構成される。  The integrated
  データ管理部31は、データ収集部310とデータ登録部311、データ表示部312から構成される。  The
  データ収集部310は、管理対象システムにある機器から稼働データやインシデントを収集するプログラムである。一般的な収集方法としては、各機器上でSimple Network Management Protocol(SNMP)や監視システム固有の監視エージェント66を動作させ、その監視エージェント66とデータ収集部310の間で通信することで稼働データやインシデントを収集する。本実施例におけるデータ収集部310では、収集した稼働データが予め指定された条件を満たした場合にインシデントを生成するインシデント検出機能も持つ。  The data collection unit 310 is a program for collecting operation data and incidents from devices in the management target system. As a general collection method, Simple Network Management Protocol (SNMP) or a
  データ登録部311は、データ収集部310が受信した稼働データやインシデント情報を、管理DB 4上に登録するプログラムである。また、データ登録部311は、データ管理部31のユーザとなる運用管理者からの入力操作によって、インシデント情報を、管理DB 4上に登録する。  The
  データ表示部312は、ユーザとなる運用管理者からのリクエストに応じて、管理DB 4上に格納された情報を取得、画面上に表示する。例えば、データ表示部312は、操作端末5上のWebブラウザ51から稼働データやインシデントの表示リクエストを受けると、表示リクエストに含まれる検索条件に従って、管理DB 4から、稼働データT100やインシデント情報T200を取り出す。そして、取り出した稼働データT100やインシデント情報T200をリクエストに合わせて分析・加工し、その結果をWebブラウザ51上に表示する。また、データ表示部312は、このプログラムを介して行った、稼働データやインシデント表示の履歴をアクセスログT1000として管理DB 4上に記録する。  The
  関連運用操作ログ自動抽出部32は、管理DB 4から取得したインシデント情報、システム構成情報、運用管理者情報、および、運用操作ログを入力としてインシデント(および対応履歴)と運用操作ログの間で関連度を計算し、計算結果が一定のしきい値を超えた場合に関連があると判定するプログラムである。関連運用操作ログ自動抽出部32は、関連度計算部320と関連度出力部327で構成される。
関連度計算部320は、時刻、システム構成、運用管理者の3つの観点に基づいてインシデントと運用操作ログの間の関連度を計算し、それらの結果を合成することによって、トータルの関連度を求める。関連度計算部320は、上記を計算するための各観点での計算部321−324を含む。計算部321-324の詳細は、後述する。
関連度出力部327は、関連度計算部320が計算した結果を出力する機能を提供し、たとえば、本発明では管理DB4に計算結果を格納する。
管理DB4は、稼動データT100、インシデント情報T200、システム構成情報T500、運用管理者情報T800、運用操作ログT900、関連度計算結果T1200で構成される。管理DB4に格納される各種情報は、データ収集部311により収集された情報、運用管理者がデータ管理部31を介して入力した情報などである。他の管理ツールによる自動収集および手動入力によって情報が格納されてもよい。本実施例では、管理DB 4上で各種情報を表形式で格納する。しかし、本発明の実施例は、表形式のデータに限定されるものではない。例えば、木構造のデータであっても、テキストのデータであっても、後述する各情報に相当するデータがあれば、本発明を適用できる。
図2は、実施例1における統合監視サーバ3の物理的な構成を示すブロック図である。統合監視サーバ3は、インタフェース(I/F)100、プロセッサ101、およびメモリ102を備える計算機である。I/F 100、プロセッサ101、メモリ102はデータバス103によって接続される。統合監視サーバ3は、I/F 100を介して、管理ネットワーク1と通信する。プロセッサ101は、CPU等の演算装置である。メモリ102は、プログラムおよびデータを保持するための記憶領域である。プロセッサ101は、メモリ102からデータバス34を介してプログラムを読み出し、実行する。
  図3および図4は、管理DB 4に格納するシステム構成情報T500の一例である。システム構成情報T500は、インスタンス情報T600、システム依存関係T700を含む。本実施例では、管理対象システムにおける現在の構成要素に関する情報が管理される。The related operation operation log automatic extraction unit 32 receives the incident information acquired from the
 The degree of
 The degree-of-
 The
 FIG. 2 is a block diagram showing the physical configuration of the integrated
 FIGS. 3 and 4 show an example of the system configuration information T500 stored in the
  以降では、必要に応じて管理対象システムのことを単に「システム」と略称する。
また、管理対象システムを一意に識別するための名称を「システム名」と呼ぶ。管理対象システム上の機器のことを「インスタンス」と呼び、インスタンスを一意に識別するための名称を「インスタンス名」と呼ぶ。インスタンス名としては、FQDN(Fully Qualified Domain Name)で記述されたホスト名や、IPアドレスなどがあり得る。In the following, the system to be managed will be simply referred to as "system" as needed.
 Also, a name for uniquely identifying a management target system is called a "system name". The device on the managed system is called an "instance", and the name for uniquely identifying an instance is called an "instance name". The instance name may be a host name described in FQDN (Fully Qualified Domain Name) or an IP address.
  図3は、管理DB 4に格納するインスタンス情報T600の一例である。列T601は、インスタンスの属するシステム名である。列T602は、インスタンス名である。列T603は、インスタンスがシステムの中で果たす役割を示す情報である。役割には、「ロードバランサの仮想ホスト」、「APサーバ」、「DBサーバ」など、論理的な役割を特定する情報が格納される。列T604の区分は、役割を分類した情報である。この例では、エンドユーザに対してサービスを提供するために用意されたインスタンスには「サービス」が、他のインスタンスを管理するために用意されたインスタンスには「管理」が設定されている。  FIG. 3 is an example of instance information T600 stored in the
  管理対象システム6が複雑化/大規模化した場合には、管理ツールの負荷を分散させるために同種の管理ツールを複数用意することがある。そのため、どの管理サーバがどのインスタンスの運用管理を行うかの情報(以下、管理系の情報と呼ぶ)も含めてシステム構成情報を管理する必要があり得る。そのため、本実施例では管理系を含めたインスタンス情報を管理する。ただし、本実施例では単一の統合監視サーバ3がサービスを構成するすべてのインスタンスに対する監視を行う。  When the managed system 6 becomes complicated / large-scaled, a plurality of similar management tools may be prepared to distribute the load of the management tools. Therefore, it may be necessary to manage system configuration information including information as to which management server performs operation management of which instance (hereinafter referred to as management system information). Therefore, in the present embodiment, instance information including a management system is managed. However, in the present embodiment, a single
  そのため、区分「管理」にインスタンス情報は特に用いなくても対象インスタンスとの関係が明らかである。したがって、統合監視サーバ3の運用操作ログT900のみを対象とする実施例1においては、区分が「サービス」に設定されたインスタンスの情報だけを用いる。区分が「管理」に設定されたインスタンスの情報は実施例2にて用いる。  Therefore, even if the category "management" does not use instance information in particular, the relationship with the target instance is clear. Therefore, in the first embodiment in which only the operation operation log T 900 of the integrated
  図4は、管理DB 4に格納するシステム依存関係T700の一例であり、システムを構成する構成要素間の依存関係(例:接続関係)が管理される。本実施例ではインスタンス間の依存関係が管理される。列T701は、インスタンスの属するシステム名である。列T702は、依存先のインスタンス名である。列T703は、依存元のインスタンス名である。依存元には複数のインスタンス名も設定される。列T704は、依存関係を説明する依存内容である。  FIG. 4 shows an example of the system dependency T700 stored in the
  例えば、行T750は、ロードバランサの仮想ホスト「ap1server」がAPサーバ「ap1server1」と「ap1sever」に接続して「負荷分散」している依存関係を示す。また行T751ではAPサーバ「ap1server1」がDBサーバ「dbserver1」に接続して「DBアクセス」している依存関係を示す。  For example, row T 750 indicates a dependency relationship in which the load balancer virtual host “ap1server” is “load-balanced” by connecting to the AP servers “
  システム依存関係T700においても、インスタンス情報T600と同様に、サービスを構成するインスタンスだけでなく、管理系のインスタンスの依存関係を保持している。管理系のインスタンスの依存関係(具体的には依存内容T704が「管理対象」に設定された依存関係)は、統合監視サーバ3の運用操作ログのみを対象とする実施例1では用いず、実施例2で用いる。  In the system dependency T700, as in the instance information T600, not only the instances constituting the service but also the dependency of the management system instance is held. The dependency relationship of the management system instance (specifically, the dependency relationship in which the dependency content T 704 is set to “managed object”) is not used in the first embodiment in which only the operation log of the integrated
  図5は、管理DB 4に格納する稼働データT100の一例である。稼働データT100は、管理対象システム上の機器から収集された稼働データそのもの、あるいは、そのデータ構造を分析し、テーブル形式に加工した情報である。  FIG. 5 is an example of operation data T100 stored in the
  本実施例では、稼働データには、システム名、インスタンス名、および稼働データの種類の情報が付与される。ここで稼働データの種類を一意に識別するための名称を「稼働データ種別名」と呼ぶ。稼働データ種別は、ハードウェア装置(例えば、ネットワーク装置)に関するデータや、VMMに関するデータ、VM(およびVM上に搭載されるOS)に関するデータ、そのOS上の複数アプリケーションから共通して利用されるミドルウェア(DB、Webコンテナなど)に関するデータ、およびAP固有のデータがある。データ種別名は、「service1のヘルスチェック」、「OSのCPU利用率」、「APサーバの同時接続数」、「service1のWeb APログ」など、これらの種別が特定できる文字列データである。  In the present embodiment, the operation data is assigned information of the system name, the instance name, and the type of operation data. Here, a name for uniquely identifying the type of operation data is called "operation data type name". The operation data type includes data on hardware devices (for example, network devices), data on VMM, data on VM (and OS installed on VM), middleware commonly used by multiple applications on the OS There are data related to (DB, Web container, etc.) and data specific to AP. The data type name is character string data such as “health check of
列T101は、稼働データが計測された時刻を示す。列T102、T103、T104はそれぞれ、稼働データの出力元となるシステム名、インスタンス名、データ種別名である。列T105は、この稼働データに含まれる計測時刻以外の詳細データである。この例では、時刻以外のデータをキーと値のペアを「キー=値」の形式で示している。 Column T101 indicates the time when the operation data was measured. Columns T102, T103, and T104 are a system name, an instance name, and a data type name that are output sources of operation data, respectively. Column T105 is detailed data other than the measurement time included in the operation data. In this example, data other than time is shown in the form of key = value.
ここで、稼働データの具体例を説明すると、行T150は、2015年4月10日の9時0分0秒に、ロードバランサの仮想ホストap1serverに対して行ったservice1のヘルスチェックの結果が正常で、その応答時間が200秒かかったことを示す。 Here, to explain a specific example of operation data, the row T150 indicates that the result of the health check of service1 performed on the load balancer virtual host ap1server at 9:00:00 on April 10, 2015 is normal. Indicates that the response time took 200 seconds.
  図6は、管理DB 4に格納する運用管理者情報T800の一例である。列T801の運用管理者名は、運用管理者を一意に識別するための名称である。列T802の運用担当グループは、運用管理者が所属する運用担当のグループを特定するための情報である。列T803は運用管理者が運用操作権限のあるインスタンスである。T803には1つ以上のインスタンス名が、インスタンス情報T600と対応が取れるように設定される。なお、本実施例では、運用担当グループ毎に運用権限のあるインスタンスが設定される想定である。列T804は、統合監視サーバの個人アカウント名を示し、運用管理者名T801と対応する情報となっている。各運用管理者は、統合監視サーバ3の各機能利用時(例:データ表示部312へのログイン等)にこのアカウント名を利用する。また、稼働データへのアクセスログT1000にはこのアカウント名の情報も出力される。  FIG. 6 is an example of the operation
  本運用管理情報T800には、統合監視サーバ3以外のアカウント情報が併せて管理されていてもよい。列T805の管理ツールの共通アカウント名には、統合監視サーバ3以外の各種管理ツールを利用するためのアカウント名を示す。今回は例を簡単にするために、各種管理ツールのアカウントとしては運用担当グループ毎に設定された共通アカウントを用いることとする。そのため、運用担当グループT802と対応する情報になっている。なお、管理ツールの共通アカウント名T805は、統合監視サーバ3の運用操作ログのみを対象とする実施例1では利用せず、実施例2にて利用する。  In the operation management information T800, account information other than the integrated
ここで、運用管理者情報T800の具体例を説明すると、行T850とT851は、それぞれ運用管理者「user1」および「user2」に関する情報を示す。「user1」と「user2」は共に運用担当グループ「group1」に所属し、service1のすべてのインスタンスに対してアクセス権があることを示す。 Here, to describe a specific example of the operation manager information T800, lines T850 and T851 indicate information on the operation managers "user1" and "user2", respectively. Both “user1” and “user2” belong to the operation handling group “group1”, and indicate that all instances of service1 have access rights.
  なお、今回の実施例では、説明を簡単にするため、運用管理者が1つの運用担当グループに所属する単純な2階層によって管理する例を示している。3階層以上の構造を持ち、一人の運用管理者が複数の運用担当グループに所属させ、運用管理者ごとに役割情報を設定した複雑な運用管理者情報を用いてもよい。
図7、図8は、管理DB4に格納するインシデント情報T200の一例である。インシデント情報T200は、インシデントT300と、インシデント対応履歴T400を含む。In the present embodiment, in order to simplify the description, an example is shown in which the operation manager manages by a simple two-tier system belonging to one operation charge group. A complex operation manager information having a structure of three or more layers, one operation manager may belong to a plurality of operation charge groups, and role information is set for each operation manager may be used.
 7 and 8 show an example of the incident information T200 stored in the
  図7は、管理DB 4に格納するインシデントT300の一例である。インシデントT300には、インシデントを説明する基本的な情報と最新のステータス情報が登録される。列T301のインシデントIDは管理DB 4に登録されるインシデントを一意に識別するための情報である。本実施例では、インシデントIDは管理DB 4上で自動採番されることとする。列T302の発生日時は、インシデントが発生した時刻を示す。列T303の最新ステータスはインシデントの最新ステータス情報を示し、インシデント発生時には「未対応」が、インシデント対応中には「対応中」、インシデント解決後には「解決」が設定される。インシデントT300に格納する情報のうち、最新ステータスT303だけが発生後に更新される情報である。列T304のシステム名は、インシデントが発生したシステム名である。列T305の重要度はインシデントの重要度を表す情報であり、緊急対応が必要なインシデントには「障害」や緊急対応が必要と限らないインシデントには「警告」が設定される。列T306の発生インスタンスは、インシデントの発生したインスタンス名を示す。列T307の稼働データ種別はインシデントの発生した稼働データ種別を示す。列T304, T306, T307は、稼働データT100の列T102, T103, T104と対応している。列T308のインシデントメッセージは、インシデントの内容を表すテキストである。  FIG. 7 is an example of the
  ここで、インシデントT300の具体例を説明すると、行T350は、インシデントID 100が付与されたインシデントであり、2015年4月10日の9時0分0秒に、ロードバランサの仮想ホストap1serverにおいてservice1のヘルスチェックの応答時間がしきい値150秒を超えたために発生したインシデントであることを示している。このインシデントT350は、稼働データT100の例で示した行T150に対するしきい値判定を行った結果、発生したインシデントである。  Here, to describe a specific example of the incident T300, a row T350 is an incident to which the
  図8は、インシデント対応履歴T400の例である。インシデント対応履歴T401は運用管理者によって記入された情報が記録される。この例では、各行が、あるインシデントに対して行ったひとつの対応作業を表している。列T401のインシデントIDは、この対応履歴に記載した作業の対象となるインシデントのIDであり、インシデントT300の列T401と対応した情報である。列T402のインシデント対応IDは、インシデントID T401に対する各対応履歴を一意に識別するための情報である。本実施例では、インシデント対応IDは、管理DB 4上で自動採番され、インシデントIDごとに1から順に加算した値が順番に付与される。列T403の対応日時は、この対応作業が行われて完了した時刻(通常はこの対応履歴が記録された時刻)を示す。列T404の対応者はこの対応作業を行った運用管理者名である。列T405のステータスはこの対応作業完了後のインシデントのステータスを示す。本実施例ではインシデント対応履歴登録と同時にインシデントT300の最新ステータスT303も更新される。列T406の対応内容は、対応作業の内容を記載したテキストである。  FIG. 8 shows an example of the incident response history T400. In the incident response history T401, information entered by the operation manager is recorded. In this example, each row represents one response operation performed for a certain incident. The incident ID of the column T401 is the ID of the incident to be subjected to the work described in the correspondence history, and is information corresponding to the column T401 of the incident T300. The incident response ID in the column T402 is information for uniquely identifying each response history for the incident ID T401. In the present embodiment, the incident response ID is automatically numbered on the
  ここで、インシデント対応履歴T400の具体例を説明する。行T450〜T454はインシデントT300の行T350に示したインシデント(ID 100)に関する解決に至るまでの経緯を示す対応履歴である。例えば、行T450(インシデント対応ID 1)は、2015年4月10日の9時30分0秒に運用管理者user1が行った対応作業を示す。この対応作業では、原因調査のために、統合監視サーバ3のデータ管理部31を用いて稼働データを調査し、その結果として「APサーバap1server1, ap1server2の負荷が高まっていることを確認した」ことを記録した履歴である。  Here, a specific example of the incident response history T400 will be described. Rows T450 to T454 are correspondence history indicating the process until the solution for the incident (ID 100) shown in row T350 of the incident T300. For example, a row T450 (incident response ID 1) indicates the response work performed by the operation administrator user1 at 9:30:00 on April 10, 2015. In this response work, in order to investigate the cause, the operation data is investigated using the
インシデント対応履歴は運用担当者によって手入力されるため、作業内容の抽象化/簡略化や作業内容の抜け漏れが発生することで、記載内容と実際の作業内容との間で乖離が発生し得る(例えば、行T453の対応内容には未記入の実際には稼働データの調査も行った等)。インシデント対応履歴の記載内容と実際の作業内容との間に乖離があると、対応履歴の記載内容だけをエビデンスとして用いることや、作業ノウハウとして再利用することは難しい。そのため、本発明のインシデントに関連する運用操作ログ自動抽出方法では、関連する運用操作ログは対応履歴に未記載の内容であっても発見できる。 Since the incident response history is manually input by the operation staff, abstraction / simplification of work content and omission of work content may cause divergence between the description content and the actual work content. (For example, the corresponding contents of the line T453 are not filled in. In fact, the examination of the operation data is also conducted, and the like). If there is a gap between the description content of the incident response history and the actual work content, it is difficult to use only the description content of the response history as evidence or to reuse it as work know-how. Therefore, in the method for automatically extracting an operation operation log related to an incident according to the present invention, the associated operation operation log can be found even if the content is not described in the correspondence history.
  以下では、インシデントの関連付け対象となる運用操作ログT900について説明する。実施例1では、統合監視サーバ3のデータ表示部312を介して運用管理者の行った稼働データへのアクセスログT1000を運用操作ログT900として用いる例を示す。  Hereinafter, the operation operation log T 900 to be associated with an incident will be described. In the first embodiment, an example in which the access log T1000 to the operation data performed by the operation manager via the
図9は、稼働データへのアクセスログT1000の一例である。本実施例の説明において必要のないアクセスログについては記載を省略するが、実際には「…」で記載した間にその他の無関係のアクセスログが出力されている。 FIG. 9 is an example of the access log T1000 to operation data. Although an access log which is not necessary in the description of the present embodiment is not described, in reality, other unrelated access logs are outputted while the access log is described as "...".
  以降では、稼働データへのアクセスログのことを単に「アクセスログ」と記載する。
アクセスログT1000は、運用管理者がデータ表示部312を介して稼働データT100やインシデント情報T200にアクセスした履歴を格納する。データ表示部312を介したアクセスには、各稼働データやインシデント情報の表示の要求等が含まれる。アクセスログT1000は、運用管理者がデータ表示部312にデータの表示等を入力するたびに、データ表示部312によって生成される。Hereinafter, the access log to the operation data is simply referred to as "access log".
 The access log T1000 stores a history of the operation manager accessing the operation data T100 and the incident information T200 via the
  列T1001のログIDは、アクセスログは管理DB 4に登録されるアクセスログを一意に識別するための情報である。本実施例では、ログIDは管理DB 4上で自動採番されることとする。列T1002の操作日時は、データ表示部312を介して、運用管理者がデータへアクセスした時刻を示す。列T1003は表示された稼働データに関するシステム名を示す。列T1004はこのアクセスを行った運用管理者を示す。列T1005のセッションIDは、一定の短時間内に連続して行われたアクセスを関連付けるためのセッション情報を識別する情報を示す。データ表示部312がWeb APの場合にはこの列にはHTTPcookieに含まれるセッション情報が含まれる。  The log ID in the column T1001 is information for uniquely identifying the access log registered in the
  列T1006の運用操作詳細はこのアクセスにおける表示の要求等の詳細情報が含まれる。運用操作詳細の内容は表示画面によって異なるため、複数のキーと値のペアを「キー=値」の形式で格納している。運用操作詳細の内容には、例えば、「表示画面」、「対象インスタンス」、「稼働データ種別」、「検索時刻条件」、「選択されたインシデントID」が含まれる。「表示画面」は表示された画面の種類を示す。「対象インスタンス」と「稼働データ種別」は、画面に表示された稼働データのインスタンス名およびデータ種別名を示す。「検索時刻条件」は、稼働データの表示期間である。運用操作詳細はそれ以外にも稼働データを絞り込むための検索条件等が格納され得る。なお、今回の実施例に記載のアクセスログでは運用操作詳細に対象インスタンスを必ず含むこととする。
ここで、アクセスログの具体例を説明すると、行T1050は、2015年4月10日の9時15分0秒に、運用管理者user1がインシデントID 100のインシデントを表示したことを示している。また、行T1051は、2015年4月10日の9時16分0秒に、運用管理者user1が稼働データ表示として応答データ表示を行い、ロードバランサの仮想ホストap1serverに対して行ったservice1のヘルスチェックの結果を示す応答データを表示したことを示している。ここで、行T1051は行T1050のインシデント表示から続けて、稼働データを調査した場合の例である。そのため、選択されたインシデントIDとして「100」が設定されている。一方、行T1056のアクセスログは行1051と同一の運用管理者とセッションIDにも関わらず、選択されたインシデントIDが存在しない。これは、間に、データ表示部312のホーム画面(初期画面)に戻る等して、インシデントID 100とは関係のない稼働データ調査を行った例を示している。The operation operation details of the column T1006 include detailed information such as a request for display in this access. Since the contents of the operation operation details differ depending on the display screen, a plurality of key / value pairs are stored in the form of “key = value”. The contents of the operation operation details include, for example, “display screen”, “target instance”, “operation data type”, “search time condition”, and “selected incident ID”. "Display screen" indicates the type of screen displayed. The “target instance” and the “operation data type” indicate the instance name and data type name of the operation data displayed on the screen. The “search time condition” is a display period of operation data. In addition to the operation operation details, search conditions for narrowing down the operation data may be stored. In the access log described in the present embodiment, it is assumed that the target instance is always included in the operation details.
 Here, to describe a specific example of the access log, a row T1050 indicates that the operation manager user1 displayed the incident with the
  本実施例に記載のデータ表示部312では、インシデント表示から続けて稼働データ調査を行っている間は、明示的にインシデントが選択されている状態のため、選択されたインシデントIDが記録される。しかし、途中でホーム画面(初期画面)に戻る等して、インシデントID 100とは関係のない稼働データ調査を行った場合には、再びインシデント表示から選択されない限りは関連有無を判別する手段が無いため、選択されたインシデントIDが記録されない。  In the
本発明を用いなくても、上記のように選択されたインシデントIDが明示的に指定されていれば、インシデントと運用操作ログを関連付けられる。しかし、インシデントに関する稼働データ調査を中断・再開した場合(例えば、行T1054が該当)のように暗黙的に関連性がある場合には対応できない。本発明のインシデントに関連する運用操作ログ自動抽出方法では、上記のように暗黙的に関連がある運用操作ログについても発見可能とする。 Even if the present invention is not used, if the incident ID selected as described above is explicitly designated, the incident can be associated with the operation operation log. However, when the operation data investigation regarding the incident is interrupted and resumed (for example, the row T1054 is applicable), it can not be dealt with if there is an implicit relationship. The operation log extraction method related to an incident according to the present invention also enables discovery of operation logs implicitly related as described above.
  本実施例では、インシデントに関連する運用操作ログ自動抽出方法として、これまでに説明した各種情報を入力としてインシデント(および対応履歴)と運用操作ログの間で関連度を計算して、計算した関連度が一定のしきい値を超えた場合に関連があると判定する。
本実施例では、時刻、システム構成、運用管理者の3つの観点に基づいてインシデントと運用操作ログの間の関連度を計算して、それらの結果を合成することによって、トータルの関連度を求める。In this embodiment, as the operation operation log automatic extraction method related to the incident, the relationship calculated by calculating the degree of association between the incident (and the response history) and the operation operation log by using the various information described above is input It is determined that the relationship is relevant if the degree exceeds a certain threshold.
 In this embodiment, the degree of association between the incident and the operation operation log is calculated based on three viewpoints of time, system configuration, and operation manager, and the total degree of association is calculated by combining the results. .
なお、本実施例の各関連度は1〜100の間で正規化された値としてスコアリングする。値が大きいほど関連が強いことを示す。また、関連度が関連判定しきい値RTを超えた場合に関連ありと判定するがRTの値を「70」として設定する。 In addition, each association degree of a present Example is scored as a value normalized between 1-100. The larger the value, the stronger the association. Further, when the degree of association exceeds the association determination threshold RT, it is determined that there is association, but the value of RT is set as “70”.
  本実施例における各種関連度の説明と計算方針は以下のとおりである。
[時刻に基づく関連度R1]:
・説明: インシデントと運用操作ログの時刻的な近さを示す指標。
・計算方針: 運用操作ログの操作日時が、インシデント対応履歴の対応日時に近いほど関連度が大きい。
[システム構成に基づく関連度R2]:
・説明: インシデントと運用操作ログに含まれるシステム構成情報の接続関係の近さ(システム空間の近さ)を示す指標である。
・計算方針: 運用操作ログの対象インスタンスが、インシデントの発生インスタンスあるいは対応履歴中に記載のインスタンスと接続ホップ数が近いほど関連度は大きい。
[運用管理者に基づく関連度R3]:
・説明: インシデントと運用操作ログに含まれる運用担当者の担当範囲の近さ(ユーザ空間の近さ)を示す指標である。
・計算方針: 運用操作ログの操作を実行した運用管理者と各インシデント対応履歴の対応者の所属が近いほど関連度が大きい。
[トータルの関連度Rx]:
・説明:時刻、システム構成、運用管理者の全観点で関連があることを示す指標である。・計算方針:R1、R2、R3を合成した値が大きいほど関連度が大きい。The explanation of the degree of association in the present embodiment and the calculation policy are as follows.
 [Time-based relevance R1]:
 -Description: An indicator that indicates the closeness of time between incidents and operation logs.
 Calculation policy: The closer the operation date and time of the operation log to the response date and time of the incident response history, the higher the degree of association.
 [R2 based on system configuration]:
 -Description: This is an indicator that indicates the closeness of the connection between system configuration information included in the incident and the operation log (closeness of the system space).
 Calculation policy: The closer the number of connection hops to the instance described in the incident occurrence instance or the response history of the target instance of the operation log, the higher the degree of association.
 [Relevance R3 based on operation manager]:
 -Description: This index indicates the proximity (closeness of the user space) of the responsible area of the operation manager included in the incident and the operation log.
 Calculation policy: The closer the affiliation between the operation manager who executed the operation log operation operation and the response person of each incident response history, the higher the degree of association.
 [Total relevance score Rx]:
 -Description: An indicator that indicates that the time, system configuration, and operation manager's viewpoint are all relevant. Calculation policy: The larger the combined value of R1, R2 and R3, the larger the degree of association.
  上記の計算方針や具体的な計算処理のロジックは統合監視サーバ3の中にバンドルしても構わないし、外部定義したものを用いても構わない。外部定義をすることによる利点としては、計算方針やロジックの変更や追加に用意に対応できる点があげられる。  The calculation policy described above and the logic of specific calculation processing may be bundled in the integrated
  図10は、上記で説明した関連度計算方法にしたがって計算した結果を格納した関連度計算結果T1200の一例である。図10には、図6と図7に示したインシデントID 1のインシデントと図9で記載したアクセスログT1000に対応する計算結果のみを記載している。実際にはインシデントIDとログIDの組合せに対する計算結果が格納される。
さらに、ログIDとインシデントIDの組合せに対してトータルの関連度Rxが最も大きい値だった結果のみを最終的に保持する例を記載している。もしデータ保存容量に余裕があれば、ログIDとインシデントIDおよびインシデント対応IDの組み合わせに対する計算結果を残しても構わない。逆にデータ保存容量を節約したい場合には、さらに関連ありと判定された結果だけを保持してもよい。FIG. 10 is an example of the degree-of-relevancy calculation result T1200 storing the result calculated according to the degree-of-association calculation method described above. In FIG. 10, only the calculation results corresponding to the incident of the
 Furthermore, an example is described in which only the result in which the total degree of association Rx is the largest value is finally held for the combination of the log ID and the incident ID. If there is enough data storage capacity, calculation results for combinations of log IDs, incident IDs and incident response IDs may be left. Conversely, if it is desired to save data storage capacity, only the results determined to be relevant may be retained.
  列T1201のログIDは、関連度計算対象となったログのログIDを示す。アクセスログT1000のログID T1001に対応する情報である。列T1202のインシデントIDは、関連度計算対象となったインシデントのインシデントIDを示す。インシデントT300のインシデントID T301に対応する情報である。列T1203のインシデント対応IDは、関連度計算対象となったインシデント対応履歴の対応履歴IDを示す。インシデント対応履歴T400のインシデント対応ID T402に対応する情報である。今回の例では、各インシデントについて最も関連度Rxが大きいインシデント対応IDの結果のみが記録される。
列T1205およびT1206は、時刻に基づく関連度R1の計算結果の値およびその理由である。列T1207およびT1208は、システム構成に基づく関連度R2の計算結果の値およびその理由である。列T1209およびT1210は、運用管理者に基づく関連度R3の計算結果の値およびその理由である。列T1211およびT1212は、トータルの関連度Rxの計算結果の値、および関連判定しきい値RTによる判定に基づく関連有無である。The log ID of the column T1201 indicates the log ID of the log for which the degree of association is to be calculated. This is information corresponding to the log ID T1001 of the access log T1000. The incident ID in the column T1202 indicates the incident ID of the incident for which the degree of association is to be calculated. Information corresponding to the incident ID T301 of the incident T300. The incident response ID in the column T1203 indicates the response history ID of the incident response history that has been subjected to the degree of association calculation. Information corresponding to the incident response ID T402 of the incident response history T400. In this example, only the result of the incident response ID with the highest relevance Rx for each incident is recorded.
 The columns T1205 and T1206 are the value of the calculation result of the degree of association R1 based on time and the reason. The columns T1207 and T1208 are values of calculation results of the degree of association R2 based on the system configuration and the reason. The columns T1209 and T1210 are the value of the calculation result of the degree of association R3 based on the operation manager and the reason. The columns T1211 and T1212 are the value of the calculation result of the total degree of association Rx, and the presence or absence of association based on the determination by the association determination threshold RT.
  ここで、関連度計算結果T1200の具体例を説明する。行T1253では、ログID 1003のアクセスログがインシデントID 100との関連について、インシデント対応ID 1の対応と最も関連があり、そのトータルの関連度Rxの値が「100」となり、しきい値判定の結果「関連あり」と判断された結果を示している。時刻に関する関連度R1は、アクセスログが「対応ID 1の15分前に発生」したという理由により値が「100」、システム構成に基づく関連度R2は、インシデントに関連するインスタンスに接続ホップ数が近い「ap1sever1 ap1server2の情報を閲覧」したという理由により値が「100」、運用担当者に基づく関連度R3は、アクセスログの運用担当者がインシデント対応履歴の「対応者と一致」したという理由により値が「100」となっている。  Here, a specific example of the association degree calculation result T1200 will be described. In the row T1253, the access log of the
  行T1255では、ログID 1020のアクセスログはインシデントID 100との関連において、インシデント対応ID 1の対応と最も関連があり、そのトータルの関連度Rxの値が「21」となり、しきい値判定の結果「関連なし」と判断された結果を示している。この例ではR1とR2の値は大きいが、R3の関連理由が「-」すなわち関連が小さいと見なされ、値が「1」となったために、Rxの値も小さくなっている。  In row T1255, the access log with
  なお、今回、関連度計算結果T1200は、説明をわかりやすくするために管理DB 4上に記録して用いる例を記載したが、管理DB4上には記録せずにすべてインメモリで処理しても構わない。  In addition, although the example of using and recording relevance degree calculation result T1200 on
  以降では、統合監視サーバ3におけるインシデントと稼働データの表示機能や運用操作ログ出力について表示画面例を用いて説明する。
データ表示部312は、ログイン画面を表示し、運用管理者からのアカウント名およびパスワードの入力を受け付けてユーザ認証を行い、入力されたアカウント名に応じて、運用管理者情報T800の運用操作権限のあるインスタンスを参照して、権限のあるインスタンスに関する情報のみを表示する。ユーザ認証後は、データ表示部312は、稼働データ表示のホーム画面を表示し、ホーム画面には閲覧権限のあるデータ種別やインスタンスに対応する稼働データ表示画面へのリンクや検索インタフェース、インシデント情報を表示するインシデント表示画面へのリンクや検索インタフェースが表示される。運用管理者の選択に従って後述の稼働データ表示画面やインシデント表示画面が表示され、これらの表示画面は相互に移動できる。Hereinafter, the display function of the incident and operation data in the integrated
 The
  図11は、データ表示部312におけるインシデントおよび関連する運用操作ログ表示画面の例である。インシデント表示画面には、インシデントT300およびそのインシデント対応履歴T400が表示される。  FIG. 11 is an example of the incident on the
  表示画面上部にあるテーブルには、指定されたインシデントT300の情報を表示される。表示画面中央部にあるテーブルにはそのインシデントの対応履歴T400の情報が表示される。この例では、図6, 6に示したインシデントID 1のインシデントT300および対応履歴T400の内容を表示している。  The table at the top of the display screen displays information of the designated incident T300. Information on the response history T400 of the incident is displayed in a table in the center of the display screen. In this example, the contents of the incident T300 and the response history T400 of the
  表示画面上部にある「インシデント検索」ボタンを押すと検索機能を利用できる。具体的には、検索用のユーザインタフェースが表示され、インシデントの日時範囲やキーワード指定によってインシデントが検索でき、検索されたインシデント一覧から別のインシデントを選択できる。また、中央部にある「対応履歴追加」「選択した対応履歴修正」ボタンを押すことで、インシデント対応履歴登録用のユーザインタフェースが表示され、インシデント対応履歴の追加/更新登録できる。上部にある「インシデントに関連する稼働データ調査」を押すことで、このインシデントに関連する稼働データへのリンク一覧が表示され、そのリンクを押下することで、以降は、このインシデントを選択した状態を保持したまま稼働データ表示画面を表示できる。
表示画面下部にあるテーブルには、現在表示しているインシデントT200およびインシデント対応履歴IDに関連する運用操作ログを一覧表示した結果である。この例では、関連ありと判定された運用操作ログが関連するインシデント対応IDと操作日時順にすべて表示されている。なお、この例は、インシデントID 1のインシデントに関連する運用操作ログ一覧となっているが、運用操作ログ2件を除いて表示は省略する。1件目のログID 1061の結果、すなわち、図9のアクセスログT1000の行T1062および図10の関連度計算結果T1200の行T1262に対応する結果になっている。また、2件目については、後述の実施例2において関連付けられた運用操作ログの結果となっている。You can use the search function by pressing the "incident search" button at the top of the display screen. Specifically, a user interface for search is displayed, and the incident can be searched by the date and time range of the incident and keyword designation, and another incident can be selected from the searched incident list. In addition, by pressing the "add response history" and "selected response history correction" buttons in the central portion, the user interface for incident response history registration is displayed, and the incident response history can be added / updated. By pressing the “Operation data investigation related to the incident” at the top, a link list to the operation data related to this incident is displayed, and by pressing that link, from then on, this incident is selected The operation data display screen can be displayed while holding it.
 The table at the lower part of the display screen is a result of displaying a list of the operation operation logs related to the incident T200 currently displayed and the incident response history ID. In this example, the operation operation logs determined to be related are all displayed in the order of the associated incident response ID and the operation date and time. Although this example is a list of operation operation logs related to the incident of
  図12は、データ表示部312における稼働データ表示画面の例である。稼働データ表示画面には、表示リクエストに含まれる検索条件にしたがった稼働データT100が表示される。また、インシデントが選択された状態で遷移してきた場合には、インシデントT200の情報も表示される。  FIG. 12 is an example of the operation data display screen in the
  表示画面上部にあるテーブルには、インシデントが選択された状態で遷移してきた場合に、そのインシデントT300の情報が表示される。インシデントが選択された状態でない場合には、このテーブルは表示されない。  その下の枠内は稼働データ表示部分である。枠内の上部のグラフは指定された検索条件に従って、管理DB 4から、稼働データT100を取得・分析・加工して出力されたグラフである。表示画面下部にあるテーブルもグラフと同様に稼働データT100を取得・分析・加工して出力されたテーブルである。  In the table at the top of the display screen, when a transition is made in a state where an incident is selected, information on the incident T300 is displayed. If the incident is not in the selected state, this table is not displayed. The lower frame is the operation data display portion. The upper graph in the frame is a graph obtained by acquiring, analyzing, processing the operation data T100 from the
  表示画面中央部にある「関連する稼働データへ移動」というユーザインタフェースは、現在閲覧している稼働データに関連する別の稼働データに移動するためのリンクである。例えば、現在表示しているインスタンスと直接の依存関係がある全インスタンスの全稼働データ種別の一覧が提示され、リンクを同一することで、同一時間帯の別の稼働データに遷移することができる。また、稼働データ表示部分の上部にある「[前日][翌日][月間表示][年間表示]」リンクは同一稼働データの別の時間帯や時刻範囲の情報に移動するためのユーザインタフェースである。
運用管理者は、上記のインシデントおよび稼働データ表示画面にアクセスして、稼働データを次々とたどることによって、インシデントに関連する稼働データを調査する。A user interface “move to related operation data” in the center of the display screen is a link for moving to another operation data related to the currently viewed operation data. For example, a list of all operation data types of all the instances having a direct dependency relationship with the currently displayed instance is presented, and it is possible to transition to another operation data of the same time zone by making the links identical. Also, the "[Previous day] [Next day] [Monthly display] [annualized display]" link at the top of the operation data display part is a user interface for moving to the information of another time zone or time range of the same operation data. .
 The operation manager accesses the incident and operation data display screen described above and investigates the operation data related to the incident by tracing the operation data one after another.
以降では、本発明の実施例1におけるインシデントに関連する運用操作ログの自動抽出処理について、フローチャートを用いて説明する。 Hereinafter, the automatic extraction process of the operation operation log related to the incident in the first embodiment of the present invention will be described using a flowchart.
  図13は、本発明の実施例1における関連運用操作ログ自動抽出部32の関連度計算処理のフローチャートの一例である。関連度計算処理は、データ管理部31を介して計算に必要なデータを取得するデータ管理ステップ(S101〜S104)と、関連度計算部320が計算処理を行う関連度計算ステップ(S105, S20, S30, S40 ,S50 ,S106)と、計算結果を出力・保持する結果出力ステップ(S21, S31, S41, S51)から成る。  FIG. 13 is an example of a flowchart of association degree calculation processing of the related operation operation log automatic extraction unit 32 according to the first embodiment of the present invention. The degree-of-association calculation process includes a data management step (S101 to S104) of acquiring data necessary for calculation via the
  最初に、管理DB 4上のインシデントT200およびインシデント対応履歴T300から、関連度計算対象となる1件のインシデントINCおよび、INCのインシデントIDをキーにインシデント対応履歴のリストINC_HISTORIESを取得する(S101)。具体例で説明すると、図6のインシデントT300の行T350を対象(INC)とした場合にはインシデントIDは「100」となり、INC_HISTORIESは図7のインシデント対応履歴T400の行T450〜T454となる。
次に、管理DB 4上のインスタンス情報T600およびシステム依存関係T700からINCに含まれるシステム名に対応するシステム構成情報の集合SYS_SETを取得する(S102)。具体例で説明すると、図6のインシデントID 100のインシデントT350を対象(INC)とした場合、システム名は「service1」である。実施例1では、区分が「サービス」と設定されたインスタンス情報を用いる。システム名「service1」と区分「サービス」をキーに図4のインスタンス情報T600を検索すると、インスタンスとして、行T650〜行656が取得される。これらがシステム「service1」のサービスを構成するすべてのインスタンスとなる。システム依存関係T700については、依存内容が「管理対象」かつシステム名「service1」をキーに検索すると、サービスを構成するインスタンスに関する依存関係を取得できる。SYS_SETにはこれらの情報を保持する。First, from the incident T200 and the incident response history T300 on the
 Next, a set SYS_SET of system configuration information corresponding to the system name included in the INC is acquired from the instance information T600 on the
  さらに、管理DB 4上の運用担当者情報T800から INCに含まれるシステム名に対応する運用担当者情報のリストUSERSを取得する(S103)。
  具体例で説明すると、図6のインシデントID 100のインシデントT350を対象(INC)とした場合、システム名は「service1」である。「service1」をキーに図6の運用者情報T800を検索すると運用操作権限のあるインスタンスT803に基づいて運用管理者として行T850〜行854を取得する。
続いて、S101〜S103で取得した情報を用いて 管理DB 4上の運用操作ログT900から関連抽出対象となるログをすべて取得する。具体的には、実施例1では運用操作ログT900として管理DB 4上のアクセスログT1000から、INCの発生日時T302からINC_HISTORIES中の最新のインシデント対応履歴の対応日時T403までの期間に発生したログをすべて取得する(S104)。以下、取得した運用操作ログのリストをLOGSと呼ぶ。Furthermore, a list USERS of operation person-in-charge information corresponding to the system name included in the INC is acquired from the operation person-in-charge information T800 on the management DB 4 (S103).
 Describing the specific example, when the incident T 350 of the
 Subsequently, all the logs to be related extraction targets are acquired from the operation operation log T 900 on the
  具体例で説明すると、インシデントID 100の場合には、発生日時は「2015年4月10日の9時15分0秒」から、最新のインシデント対応履歴(インシデント対応ID 5)の対応日時「2015年4月12日の17時10分0秒」までの間に発生したアクセスログT1000をすべて取得する。図9に記載したアクセスログはすべて上記期間内に含まれるため、行T1050〜T1071をすべて取得する。なお、今回の例では、説明に必要なアクセスログ以外は記載を省略しているため、実際には、インシデントとは関連のない、他のより多くのアクセスログも取得する可能性がある。  To explain in a specific example, in the case of
  続いて、関連度計算部320は、LOGSの中から未計算の1件の運用操作ログLOGを取得する(S105)。  Subsequently, the association
  そして、選択されたLOGとS103までに取得した情報とLOGを用いて、時刻に基づく関連度R1、システム構成に基づく関連度R2、 運用管理者に基づく関連度R3をそれぞれ計算し(S20, S30, S40)、各結果を、関連度出力部327を介して管理DB 4上の関連度計算結果T1200に格納する(S21, S31, S41)。 さらに、上記で計算した関連度R1〜R3を合成してトータルの関連度Rxを計算して(S50)、その結果を、関連度出力部327を介して管理DB上の関連度計算結果T1200に格納する(S51)。これらS20〜S51の計算処理の詳細については後述する。  Then, using the selected LOG and the information acquired up to S103 and LOG, the relevance R1 based on time, the relevance R2 based on the system configuration, and the relevance R3 based on the operation manager are respectively calculated (S20, S30 , S40), and stores each result in the degree of association calculation result T1200 on the
選択されたLOGに対して上記の一連の計算を実施した後に、LOGS中に未計算の運用操作ログがあればS105以降を繰り返す(S106)。また、上記では運用操作ログを検索する条件に最新のインシデント対応履歴の対応日時を用いる。さらに、後述の計算処理の説明に述べるとおりインシデント対応履歴毎に関連度を計算できる。すなわち、解決途上のインシデントに対しても本発明を適用できる。 After the above series of calculations are performed on the selected LOG, if there is an uncalculated operation log in the LOGS, the processes after S105 are repeated (S106). Further, in the above, the date and time of the latest incident response history is used as the condition for searching the operation operation log. Furthermore, the degree of association can be calculated for each incident response history as described in the description of the calculation process described later. That is, the present invention can be applied to an incident being solved.
  以降では、時刻に基づく関連度R1の計算方法の詳細を説明する。本実施例のR1は、インシデントと運用操作ログの時刻的な近さを定量化するために、運用操作ログの操作日時がインシデント対応履歴の対応日時に近いほど関連度が大きくなるように値を計算する。
図14は、時刻に基づく関連度R1の計算において時刻的な近さを定量化する関数モデルの一例をグラフ表現したものである。本実施例では、ある特定のインシデント対応履歴においてその対応日時T1とひとつ前のインシデント対応履歴の間での対応日時T0の間を時刻の関連がある期間として、運用操作ログの操作日時TLが今回の対応日時T1に近ければ近いほど関連度の値が100に近づくような関数を用いる。関数モデルではT0とT1の期間が短い場合の傾きが急になりすぎることを防ぐために、活性期間Aを設定し、TA(=T1−A)からT1の期間中は関連度が100になり、T0からTAの期間は1から100に線形に変化するような関数モデルを用いる。なお、活性期間Aには0以上の任意の値を設定できるが、本実施例では30分間に設定する。Hereinafter, details of a method of calculating the degree of association R1 based on time will be described. In order to quantify the time closeness of the incident and the operation operation log, R1 of this embodiment has a value such that the degree of association becomes larger as the operation date and time of the operation operation log is closer to the response date and time of the incident response history. calculate.
 FIG. 14 is a graphical representation of an example of a functional model for quantifying the closeness in time in the calculation of the degree of association R1 based on time. In the present embodiment, the operation date TL of the operation operation log is the current time as a period in which there is a time relationship between the response date T1 and the response date T0 between the incident response history one before in a specific incident response history. A function is used such that the value of the degree of association approaches 100 as the closer to the corresponding date and time T1 of. In the function model, the activation period A is set to prevent the slope from becoming too steep when the periods T0 and T1 are short, and the degree of association is 100 during the period from TA (= T1-A) to T1, The functional model is used such that the period from T0 to TA linearly changes from 1 to 100. Although the activation period A can be set to any value of 0 or more, it is set to 30 minutes in this embodiment.
図15は、関連運用操作ログ自動抽出部32の時刻に基づく関連度R1の計算処理S20, S21の詳細フローチャートの一例である。 図15は、図14に示した関数モデルを計算ロジックとして実装した場合の一例となっている。 FIG. 15 is an example of a detailed flowchart of the calculation processing S20 and S21 of the degree of association R1 based on the time of the related operation operation log automatic extraction unit 32. FIG. 15 is an example of the case where the function model shown in FIG. 14 is implemented as calculation logic.
  関連度計算部320は、S103までに取得したINC_HISTORIESの中から未検証のうち、対応日時の最も早い対応履歴INC_H1を取得する(S201)。  The degree-of-
  続いて、関連度計算部320は、INC_HISTORIES を参照してINC_H1の1つ前の対応履歴INC_H0が存在するかどうかを判定し(S202)、存在する場合には、前回の対応日時T0として、INC_H0の対応日時を設定する(S203)。存在しない場合には、前回の対応日時T0として、INCの発生日時を設定する(S204)。
そして、前回の対応日時T0, 今回(INC_H1)の対応日時T1, LOGの操作日時TLを対応時刻範囲内での時刻の近さを示す関数f_r1(T0, T1, TL)に入力し、 対象となるインシデントINC、インシデント対応履歴INC_H1、運用操作ログLOGに関する時刻に基づく関連度R1を計算する(S205)。
ここで時刻の近さを示す関数f_r1(T0, T1, TL)は以下のとおりである(ここでTAはT1から活性期間Aを遡った日時)。Subsequently, the degree-of-
 Then, the previous correspondence date T0, the correspondence date T1 of this time (INC_H1), and the operation date TL of LOG are input to the function f_r1 (T0, T1, TL) indicating the closeness of the time within the correspondence time range. The association degree R1 is calculated based on the time related to the incident INC, the incident response history INC_H1, and the operation log LOG (S205).
 Here, the function f_r1 (T0, T1, TL) indicating the closeness of time is as follows (wherein, TA is the date and time when the activation period A was traced back from T1).
  続いて、S205で計算したINC、INC_H1、LOGに関する関連度R1の値とその理由を、関連度出力部327を介して管理DB 4上の関連度計算結果T1200に格納する(S206)。「理由」には、f_r1(T0, T1, TL)が1以外、すなわち、関連があると見なされた場合に「対応ID {INC_H1のインシデント対応ID}の{TA−TL}前に発生」の形式で生成した文字列を登録する。ここで中括弧{  }で囲まれた部分は各種情報から取得・計算した値を示す。  Subsequently, the value of the degree of association R1 regarding INC, INC_H1 and LOG calculated in S205 and the reason thereof are stored in the degree of association calculation result T1200 on the
その後、INC_HISTORIESに未検証の対応履歴があるかを判定し、もし未検証の対応履歴が存在すれば、S201以降を繰り返す(S207)。 Thereafter, it is determined whether there is an unverified correspondence history in INC_HISTORIES, and if there is an unverified correspondence history, S201 and subsequent steps are repeated (S207).
  ここで時刻に基づく関連度R1の計算について具体例を用いて説明する。ログID 1090のLOGとインシデントID 100のINCとインシデント対応ID 5のINC_H1の場合を例にとると、T1は「2015年4月12日の17時0分0秒」、T0は「2015年4月11日の2時0分0秒」となる。TLは「2015年4月12日の8時0分5秒」でR1の値は「77」となる。この例のように、T0とT1の間が1日以上空いているが、TLが相対的にT1に近い場合には関連度が高く計算される。
本実施例にて記載したR1の計算方法において、T1から活性期間Aを遡った日時TAの代わりにアクセスログにおけるインシデント表示を使っても良い。この例については実施例3にて記載する。Here, the calculation of the degree of association R1 based on time will be described using a specific example. In the case of
 In the calculation method of R1 described in the present embodiment, the incident display in the access log may be used instead of the date and time TA which traced back the activation period A from T1. This example is described in Example 3.
以降では、システム構成に基づく関連度R2の計算方法の詳細を説明する。本実施例のR2はインシデントと運用操作ログに含まれるシステム構成情報の接続関係の近さを定量化するために、運用操作ログの対象インスタンスが、インシデントの発生インスタンスや対応履歴中に記載のインスタンスと接続ホップ数が近いほど関連度を大きい値として計算する。 Hereinafter, details of a method of calculating the degree of association R2 based on the system configuration will be described. In order to quantify the closeness of the connection relationship between the system configuration information included in the incident and the operation operation log, R2 of this embodiment, the target instance of the operation operation log is the instance described in the incident occurrence instance or the response history. As the number of connection hops is closer, the degree of association is calculated as a larger value.
  図16は、関連運用操作ログ自動抽出部32のシステム構成に基づく関連度R2の計算処理S30, S31の詳細フローチャートの一例である。本実施例では、関連がないと判断する接続ホップ数の境界値HOPをあらかじめ定義しておき、ある特定のインシデントおよびインシデント対応履歴に含まれるインスタンスと、運用操作ログの対象インスタンスの間の接続ホップ数HLが「0」すなわち同一のインスタンスの場合に関連度の値が「100」、HLが「HOP」の場合に関連度の値がちょうど「1」になるような一次関数モデルを用いることとする。なおHLが「HOP」以上の場合にも関連度の値は「1」となる。なお、本実施例では接続ホップ数の境界値HOPを「4」に設定する。HOPには0以上の任意の値を設定できる。
関連度計算部320は、INC_HISTORIESの中から未検証のうち、対応日時の最も早い対応履歴INC_H1を取得する(S301)。以降では、INC、INC_H1、LOGを対象にシステム構成に関する関連度R2を計算する。FIG. 16 is an example of a detailed flowchart of the calculation processing S30 and S31 of the degree of association R2 based on the system configuration of the related operation operation log automatic extraction unit 32. In the present embodiment, the connection hop number boundary value HOP to be determined to be unrelated is defined in advance, and the connection hop between the instance included in a specific incident and incident response history and the target instance of the operation log Using a linear function model such that the value of relevance is “100” when the number HL is “0”, that is, the same instance, and the value of relevance is just “1” when HL is “HOP” Do. The value of the degree of association also becomes "1" when HL is "HOP" or more. In the present embodiment, the boundary value HOP of the connection hop number is set to "4". HOP can be set to any value of 0 or more.
 The degree-of-
  今回の計算対象となるR2の値を上限値UPPER_LIMITで初期化する(S302)。本実施例ではUPPER_LIMITは「100」である。
次に、関連度計算部320は、関連インスタンスリストINS_LIST を初期化し、INCの発生インスタンスT306をINS_LISTに追加する(S303)。
さらに、INC_H1の対応内容T406のテキストに含まれるインスタンス名を抽出し、抽出されたインスタンス名をINS_LISTに追加する(S304)。The value of R2 to be calculated this time is initialized with the upper limit value UPPER_LIMIT (S302). In the present embodiment, UPPER_LIMIT is "100".
 Next, the degree-of-
 Furthermore, the instance name included in the text of the corresponding content T406 of INC_H1 is extracted, and the extracted instance name is added to INS_LIST (S304).
  ここで対応内容T406のテキストに含まれるインスタンス名を抽出する具体的な方法としては、SYS_SETに含まれるサービスを構成するインスタンスに関するインスタンス情報T600の各インスタンス名T602の全部あるいは一部をキーとして、対応内容T406のテキストを検索して抽出する等の方法があげられる。あるいは、対応内容T406から「APサーバ」等の役割情報を抽出して、インスタンス情報T600の役割T603が一致するインスタンスを取得しても良い。本実施例では前述の方法を用いる。
なお、S304の処理は実施しなくても関連度R2を計算できる。その場合には全ての対応履歴においてINCの発生インスタンスだけが利用されるため、関連度R2の計算の精度が落ちるが、その分少ない計算処理量で値を求められる。
続いて、LOGの対象インスタンスがINS_LISTに含まれるかどうかを判定する(S305)。Here, as a specific method of extracting the instance name included in the text of the corresponding content T406, the correspondence may be performed using all or part of each instance name T602 of the instance information T600 related to the instances included in the service included in SYS_SET as a key. A method of searching and extracting the text of the content T406 can be mentioned. Alternatively, role information such as “AP server” may be extracted from the corresponding content T406, and an instance in which the role T603 of the instance information T600 matches may be acquired. The above-described method is used in this embodiment.
 The degree of association R2 can be calculated without performing the process of S304. In that case, only the occurrence instance of INC is used in all the correspondence history, so the accuracy of the calculation of the degree of association R2 is reduced, but the value can be obtained with a smaller amount of calculation processing amount.
 Subsequently, it is determined whether the target instance of LOG is included in INS_LIST (S305).
  含まれる場合、現在の関連度R2の値と理由をINC、INC_H1、LOGに関する関連度R2の値として、関連度出力部327を介して管理DB 4上の関連度計算結果T1200に格納し(S306)、S311の処理を行う。ここで理由には「{S304の処理で含まれていたインスタンス名}の情報を閲覧」の形式で生成した文字列を登録する。ここで中括弧{  }で囲まれた部分は各種情報から取得・計算した値を示す。  If it is included, it stores the current value of relevance R2 and the reason in the relevance calculation result T1200 on the
  含まれない場合には、関連度計算部320は、現在の関連度R2の値からホップ数に基づく減算値REDUCTION_BY_HOPを減算する(S307)。本実施例では接続ホップ数の境界値HOPを「4」に基づいて、REDUCTION_BY_HOPを「25」と設定する。関連運用操作ログ自動抽出部32は、現在の関連度R2の値が下限値LOWER_LIMIT以下かどうかを判定する(S308)。本実施例ではLOWER_LIMITは「1」である。  If not included, the degree-of-
もし、R2の値が下限値よりも大きい場合には、INS_LISTとSYS_SETを比較してINS_LISTの各インスタンスと依存関係のあるインスタンスをすべて取得し、INS_LISTを置き換えて(S309)、S305以降の処理を再び行う。本実施例では依存関係の有無は、システム依存関係T700の依存先T702と依存元T703の双方向を用いることとする。すなわち、INS_LIST中のインスタンス名が依存先T702と依存元T703中のインスタンスいずれか一致した場合に依存関係のあるインスタンスと見なす。 If the value of R2 is larger than the lower limit value, INS_LIST and SYS_SET are compared to acquire all instances that have a dependency on each instance of INS_LIST, replace INS_LIST (S309), and process S305 and subsequent steps Do it again. In the present embodiment, the presence or absence of the dependency is determined by using the bidirectional of the dependency destination T702 of the system dependency T700 and the dependency source T703. That is, when the instance name in the INS_LIST matches any of the instances in the dependee T 702 and the instances in the depender T 703, it is considered as an instance having a dependency.
もし、R2の値が下限値以下の場合には、現在の関連度R2の値を下限値LOWER_LIMITに更新して(S310)、S306の計算結果を格納する。 If the value of R2 is equal to or less than the lower limit value, the value of the current association degree R2 is updated to the lower limit value LOWER_LIMIT (S310), and the calculation result of S306 is stored.
上記の処理によって、INC、INC_H1、LOGを対象にシステム構成に関する関連度R2を計算した後で、INC_HISTORIESに未検証の対応履歴があればS301以降の処理を繰り返す(S311)。 After the degree of association R2 related to the system configuration is calculated for INC, INC_H1 and LOG by the above processing, if there is an unverified correspondence history in INC_HISTORIES, the processing after S301 is repeated (S311).
ここでシステム構成に基づく関連度R2の計算について具体例を用いて説明する。 Here, calculation of the degree of association R2 based on the system configuration will be described using a specific example.
  ログID 1010のLOG、インシデントID 100のINC、インシデント対応ID 1のINC_H1の場合を例にとると、対象インスタンスは運用操作詳細T1005より「dbserver1」となる。初期のINS_LIST「ap1server」、「ap1server1」、「ap1server2」には含まれないため、関連度R2の値が減算されて「75」となる。INS_LISTとSYS_SETを比較してINS_LISTの各インスタンスと依存関係のあるインスタンスを取得すると、「ap1server1」「ap1server2」「dbserver1」「vmm1」が抽出される。これらのインスタンスでINS_LISTを更新してLOGの対象インスタンスと比較をすると「dbserver1」が含まれるため、関連度は「75」となる。本実施例にて記載したR2の計算方法は一例である。
例えば、システム構成情報に依存の方向性や依存の強さを表す数値を持たせて、上記関連度R2の計算の精度向上のために、これらの情報を用いても良い。
以降では、運用管理者に基づく関連度R3の計算方法の詳細を説明する。本実施例のR3はインシデントと運用操作ログに含まれる運用担当者の担当範囲の近さを定量化するために、運用操作ログの操作を実行した運用管理者と各インシデント対応履歴の対応者の所属が近いほど関連度が高いとして計算する。Taking the case of LOG with
 For example, the system configuration information may be provided with numerical values indicating directionality or strength of dependence, and such information may be used to improve the accuracy of the calculation of the degree of association R2.
 Hereinafter, details of a method of calculating the degree of association R3 based on the operation manager will be described. In R3 of this embodiment, the operation manager who performed the operation of the operation operation log and the person who responded to each incident response history, in order to quantify the closeness of the responsibility of the operation person in charge included in the incident and the operation operation log. The closer the affiliation is, the higher the degree of association is calculated.
運用管理者に基づく関連度R3の計算における運用担当者の担当範囲の近さを定量化する関数モデルは、R2の関数モデルとほぼ同様に所属のホップ数に基づく一次関数モデルを用いることとする。本実施例では、運用管理者情報T800に記載のとおり、運用管理者と所属する運用担当グループという単純な2階層によって管理する例を用いるため、ホップ数の境界値は「2」となる。つまり、インシデント対応履歴の対応者と運用操作ログの運用管理者が一致すればR3は「100」、グループが一致すれば「50」、両方とも一致しなければ「1」となる。 The functional model for quantifying the closeness of the responsible area of the operation manager in the calculation of the degree of association R3 based on the operation manager uses a linear function model based on the number of hops belonging to almost the same as the function model of R2. . In the present embodiment, as described in the operation manager information T800, the boundary value of the number of hops is “2” because an example in which management is performed by a simple two-tier management of the operation manager and the operation charge group to which it belongs is used. That is, R3 is "100" when the responder of the incident response history matches the operation manager of the operation operation log, "50" when the groups match, and "1" when both do not match.
図17は、関連運用操作ログ自動抽出部32の運用管理者に基づく関連度R3の計算処理S40, S41の詳細フローチャートの一例である。 FIG. 17 is an example of a detailed flowchart of calculation processing S40 and S41 of the degree of association R3 based on the operation manager of the related operation operation log automatic extraction unit 32.
  関連度計算部320は、INC_HISTORIESの中から未検証のうち、対応日時の最も早い対応履歴INC_H1を取得する(S401)。  The degree-of-
次に、関連度R3の値を上限値UPPER_LIMITで初期化する(S402)。 Next, the value of the degree of association R3 is initialized to the upper limit value UPPER_LIMIT (S402).
  続いて、対象となるLOGを出力した管理ツールにおいて、他の管理管理者との共通アカウントを利用するかを判定する(S403)。統合管理サーバ3では、運用管理者毎の個別アカウントを利用するため、S403の判定結果は「NO」となる。そのため、実施例1では判定結果は常に「YES」となる。一方、統合監視サーバ3以外の各種管理ツールでは、運用担当グループ毎に設定された共通アカウントを用いるため、S403の判定結果は「YES」となる。なお、統合監視サーバ3以外の各種管理ツールを用いる例は、実施例2にて示す。  Subsequently, in the management tool that has output the target LOG, it is determined whether to use a common account with another management administrator (S403). Since the
S403の判定結果が「NO」の場合には、LOGの操作を行った運用管理者T1004とINC_H1の対応者T404が一致しているかを判定する(S404)。 If the determination result in S403 is "NO", it is determined whether the operation manager T1004 who performed the LOG operation matches the correspondent T404 of INC_H1 (S404).
  S404の判定結果が「YES」の場合には、現在の関連度R3の値(すなわちUPPER_LIMIT=100)とその理由を、INC, INC_H1, LOGに 関する関連度R3の計算結果として管理DB 4上の関連度計算結果T1200に格納する(S405)。 ここで理由としては「対応者と一致」という文字列を登録する。  If the determination result in S404 is "YES", the value of the current relevance R3 (that is, UPPER_LIMIT = 100) and the reason thereof are calculated on the
  S404の判定結果が「NO」の場合には、INC_H1中の対応者とUSERSを比較して、対応者と同一運用担当グループの運用管理者一覧USERS2を取得する(S406)。そして、LOGの操作を行った運用管理者T1004がUSERS2に含まれるかを判定する(S407)。
S407の判定結果が「YES」の場合には、現在の関連度R3から運用階層に基づく減算値REDUCTION_BY_USERで減算する(S408)。本実施例では、REDUCTION_BY_USERは「50」に設定される。そして、現在の関連度R3の値(UPPER_LIMIT−REDUCTION_BY_USER=100−50=50)とその理由を、INC, INC_H1, LOGに関する関連度R3の計算結果として、管理DB 4上の関連度計算結果T1200に格納する(S405)。 ここで理由としては「対応者とグループが一致」という文字列を登録する。If the determination result in S404 is "NO", then the responder in INC_H1 is compared with the USERS to acquire the operation manager list USERS2 of the same operation responsible group as the responder (S406). Then, it is determined whether the operation manager T 1004 who has performed the LOG operation is included in the USERS 2 (S 407).
 If the determination result in S407 is "YES", the current relevance degree R3 is subtracted by a subtraction value REDUCTION_BY_USER based on the operation hierarchy (S408). In the present embodiment, REDUCTION_BY_USER is set to “50”. Then, the current degree of relevance R3 (UPPER_LIMIT-REDUCTION_BY_USER = 100-50 = 50) and the reason thereof are calculated as the degree of relevance R3 on the
  S407の判定結果が「NO」の場合には、運用管理者については関連がないとみなされて、関連度R3の値を下限値のLOWER_LIMITに設定する(S409)。そして、現在の関連度R3の値(すなわちLOWER_LIMIT=1)を、INC, INC_H1, LOGに関する関連度R3の計算結果として関連度出力部327を介して管理DB 4上の関連度計算結果T1200に格納する(S405)。 ここで理由としては関係がないことを示す「−」という文字列を登録する。  If the determination result in S407 is "NO", it is considered that the operation manager is not relevant, and the value of the degree of association R3 is set to the lower limit LOWER_LIMIT (S409). Then, the value of the current degree of association R3 (that is, LOWER_LIMIT = 1) is stored in the degree of association calculation result T1200 on the
  S403の判定結果が「YES」の場合には、INC_H1の対応者T404が利用する共通アカウントT805をUSERSから取得して、 LOGの操作を行った共通アカウントと一致するかを判定する(S410)。そして、S410の判定結果が「YES」であればS408、S405と処理を行い、S410の判定結果が「NO」であればS409、S405と処理を行う。  If the determination result in S403 is "YES", the
以上の通り、INC, INC_H1, LOGに関する関連度R3の計算処理を行った後、INC_HISTORIESに未検証の対応履歴があるかを判定し、未検証の対応履歴がある場合にはS401に戻って処理を繰り返す(S411)。 As described above, after calculating the degree of association R3 related to INC, INC_H1 and LOG, it is determined whether INC_HISTORIES has an unverified correspondence history, and if there is an unverified correspondence history, the process returns to S401 for processing. Are repeated (S411).
以降では、トータルの関連度Rxの計算方法の詳細を説明する。本実施例のRxは時刻、システム構成、運用管理者のすべての観点で関連があることを定量的に示するために、R1、R2、R3のすべてが大きいときに値が大きくなるように計算する。本実施例では、これを満たすための合成関数F_rx(r1, r2, r3)として以下の相乗平均を用いる(ここでr1, r2, r3はそれぞれR1、R2、R3の値)。 Hereinafter, details of a method of calculating the total degree of association Rx will be described. In order to quantitatively show that Rx in this embodiment is related in all aspects of time, system configuration, and operation manager, calculation is made such that the value becomes larger when all of R1, R2, and R3 are large. Do. In the present embodiment, the following geometric average is used as a synthesis function F_rx (r1, r2, r3) to satisfy the above (where r1, r2, r3 are the values of R1, R2, R3, respectively).
上記は合成関数の一例であり、各観点の関連度が合成できれば、別の関数を用いてもよい。例えば、重み係数W1, W2, W3を用いて以下の加重平均を用いてもよい。 The above is an example of a combination function, and another function may be used if the degree of association of each viewpoint can be combined. For example, using weighting factors W1, W2, W3, the following weighted average may be used.
加重平均を用いることで、重要な観点毎の重要度に応じて重みづけを行って関連度を計算できる。 By using the weighted average, the degree of association can be calculated by weighting according to the importance of each important viewpoint.
図18は、関連運用操作ログ自動抽出部32のトータルの関連度Rxの計算処理S50, S51の詳細フローチャートの一例である。 図18は、前述の合成関数として前述の相乗平均を用いて実装した場合の一例となっている。 FIG. 18 is an example of a detailed flowchart of the calculation processing S50 and S51 of the total degree of association Rx of the related operation operation log automatic extraction unit 32. FIG. 18 is an example of the case where it is implemented using the above-mentioned geometric mean as the above-mentioned synthetic function.
  関連度計算部320は、INC_HISTORIESの中から未検証のうち、対応日時の最も早い対応履歴INC_H1を取得する(S501)。  The degree-of-
  次に、データ管理部31を介して、管理DB 4上の関連度計算結果T1200からINC, INC_H1, LOGに対応する各関連度R1, R2, R3を取得する(S502)。
さらに、各関連度R1, R2, R3を合成関数f_rx(r1, r2, r3)に入力してトータルの関連度Rxを計算する(S503)。
  ここで、S501〜S503について具体例を説明すると、ログID 1050のLOG、インシデントID 100のINC、インシデント対応ID 1のINC_H1の場合には、関連度計算結果T1200の行T1259の列T1205, T1207, T1209をそれぞれ関連度R1、R2、R3の値として取得する。取得した値を合成関数にあてはめると
続いて、S503で計算したRxの値が関連判定しきい値RT以上かどうかを判定し(S504)、判定結果が「YES」の場合には関連有無として「関連あり」を(S505)、「NO」の場合には「関連なし」を設定する(S506)。先に述べた具体例の場合には、
その後、計算した関連度Rxの値および関連有無の情報をINC, INC_H1, LOGの関連度Rxの計算結果として、関連度出力部327を介して、管理DB 4上の関連度計算結果T1200に格納する(S508)。Next, each degree of association R1, R2, R3 corresponding to INC, INC_H1, LOG is acquired from the degree of association calculation result T1200 on the
 Further, the respective degrees of association R1, R2, R3 are input to the synthesis function f_rx (r1, r2, r3) to calculate the total degree of association Rx (S503).
 Here, to describe a specific example of S501 to S503, in the case of LOG of log ID 1050, INC of
 Subsequently, it is determined whether the value of Rx calculated in S503 is equal to or more than the relation determination threshold value RT (S504), and if the determination result is "YES", "relevant" is set as the relation existence (S505), In the case of "NO", "not related" is set (S506). In the case of the example mentioned above,
 Thereafter, the calculated value of the degree of association Rx and the information on the presence / absence of association are stored in the degree of association calculation result T1200 on the
  以上のとおり、INC, INC_H1, LOGの関連度Rxの計算を行った後で、関連度計算部320は、INC_HISTORIESに未検証の対応履歴があるかを判定し、未検証の対応履歴がある場合には、S501以降の処理を繰り返す(S508)。  As described above, after calculating the degree of association Rx of INC, INC_H1, LOG, the degree of
  また、INC_HISTORIES中のすべての対応履歴に対するRxの計算が終わった後で、管理DB 4上のINC, LOG, INC_HISTORIES中のすべての対応履歴に対応する関連計算結果を参照し、トータルの関連度Rxが最も大きい1件以外を、関連度出力部327を介して管理DB 4上から削除する(S509)。  Also, after calculation of Rx for all correspondence history in INC_HISTORIES is completed, referring to the related calculation result corresponding to all correspondence history in INC, LOG, INC_HISTORIES on the
  S509の具体例を説明すると、(図10に示した関連度計算結果T1200は最終結果のため記載がないが、)ログID 1003のLOG、インシデントID 100のINCの場合を例にとると、インシデント対応ID 1〜5に対応する関連度Rxの結果はそれぞれ「100」「58」「50」「50」「67」となる。この場合には関連度Rxが最も大きい1件としてインシデント対応ID 1に対応する結果だけを残し(行T1253)、その他の結果を管理DB 4上から削除する。  To explain a specific example of S 509, the case of LOG with
以上、本実施例に記載したトータルの関連度Rxの計算方法により、時間、システム構成、運用担当者の各観点で同時に関連が強い場合にのみ関連度が大きくなる。 As described above, according to the method of calculating the total degree of association Rx described in the present embodiment, the degree of association is increased only when the association is strong simultaneously in each of the time, the system configuration, and the person in charge of operation.
以上で示した関連度計算方法は一例であり、本発明は上記計算方法に限定されるものでは無い。インシデントおよびインシデント対応履歴と運用操作ログとを入力として、複数の観点での関連性からインシデントと運用操作ログ間の関連度を計算できるのであれば、別の計算方法を用いてもよい。 The relationship degree calculation method shown above is an example, and the present invention is not limited to the above calculation method. If it is possible to calculate the degree of association between the incident and the operation operation log from the association in a plurality of viewpoints using the incident and the incident response history and the operation operation log as an input, another calculation method may be used.
  図19は、本実施例におけるデータ表示部312によるインシデントに関連する運用操作ログ表示画面の生成のフローチャートの一例である。
運用管理者が表示対象のインシデントを選択すると、選択されたインシデントのIDをキーに、管理DB 4上のインシデントT300およびインシデント対応履歴T400から、キーに対応するインシデントINCおよびその対応履歴のリストINC_HISTORIESを取得する(S601)。FIG. 19 is an example of a flowchart of generation of an operation log display screen related to an incident by the
 When the operation manager selects an incident to be displayed, the incident INC corresponding to the key and the list INC_HISTORIES corresponding to the response history of the key from the incident T300 and the incident response history T400 on the
次に、INCとINC_HISTORIESをキーに 管理DB 4上の関連度計算結果T1200からINCに関する関連度計算結果の集合RESULTSを取得する(S602)。具体例として、インシデントID 100のインシデント(行350)の場合、RESULTSとして行T1250〜T1271を取得する。 Next, using the INC and INC_HISTORIES as keys, a set RESULTS of association degree calculation results regarding INC is acquired from the association degree calculation result T1200 on the management DB 4 (S602). As a specific example, in the case of an incident with an incident ID 100 (row 350), rows T1250 to T1271 are acquired as RESULTS.
  続いて、RESULTS中の各関連度計算結果に含まれるログID T1201をキーにして、管理DB 4上の運用操作ログT900から対応するログのリストLOGSを取得する(S603)。 具体例として、運用操作ログT900として、インシデントID 100の一つの対応結果である行T1253の場合、ログIDは1003となり、図9のアクセスログT1000中の行 T1053を取得する。インシデントID 100のRESULTSすべてに対応する運用操作ログT900としては、アクセスログT1000の行T1050〜T1071を取得する。  Subsequently, using the log ID T1201 included in each relevance calculation result in the RESULTS as a key, the corresponding log list LOGS is acquired from the operation operation log T900 on the management DB 4 (S603). As a specific example, in the case of the row T1253 which is one correspondence result of the
  次に、上記で取得したRESULTSとLOGSをマージした表示用の一時テーブルRESULT_TABLEを生成し(S604)、RESULT_TABLEを用いて表示画面を生成して出力する(S605)。生成される表示画面の具体例は図11に示した通りである。
なお、このインシデントに関連する運用操作ログ表示画面の生成処理は、図13の関連度計算処理の後続で実施しても構わない。Next, a temporary display table RESULT_TABLE is generated by merging the RESULTS and LOGS acquired above (S604), and a display screen is generated and output using RESULT_TABLE (S605). A specific example of the generated display screen is as shown in FIG.
 The generation process of the operation operation log display screen related to the incident may be performed after the association degree calculation process of FIG.
本実施例におけるインシデント対応履歴T400では、列T402からT405以外の情報は、対応内容T406中にテキストとして記載される想定である。しかし、関連付けをするために用いる情報を明示的に別列に分けてもよい。例えば、対応作業の対象となったインスタンス名や調査対象とした稼働データ種別名を列としてもよい。これにより運用管理者による記入の手間や記入内容の制約が増えるが、これらの情報を対応内容中のテキストから抽出して用いる場合に比べて関連付けの精度高められる。 In the incident response history T400 in the present embodiment, information other than the columns T402 to T405 is assumed to be described as text in the corresponding content T406. However, the information used to make the association may be explicitly separated into separate lines. For example, the instance name targeted for the response work or the operation data type name to be surveyed may be a column. As a result, the time and effort of entry by the operation manager and restrictions on entry content increase, but the accuracy of association can be improved as compared to the case where these pieces of information are extracted from the text in the corresponding content.
また、インシデント対応履歴T400では、ひとつのインシデントに対して行った作業を複数の行に分けて管理する。これに対して、作業履歴を一つの行にまとめたとしても、その行の中で時刻と作業内容毎にグルーピングされた情報をパースできれば、本発明を適用できる。 Further, in the incident response history T400, the work performed for one incident is divided into a plurality of lines and managed. On the other hand, even if the work history is integrated into one line, the present invention can be applied as long as information grouped in time and work content in the line can be parsed.
実施例2では、インシデントの関連付け対象となる運用操作ログとして、稼働データのアクセスログに加えて、その他の管理ツールを介した運用操作ログ(コマンド実行ログや操作イベントログ)も用いる場合の例を示す。 In the second embodiment, an example in which an operation log (command execution log or operation event log) via another management tool is also used as an operation log to be associated with an incident in addition to the access log of operation data Show.
  図20に、実施例2で想定するコンピュータシステムを模式的に示す。コンピュータシステムの構成は、実施例1と概ね同様である。ただし、各種管理ツール用のサーバおよび端末7〜9が追加され、管理DB 4 上のシステム構成情報T500および運用操作ログT900上に各種管理ツールに関する情報が追加されている点が異なる。以降では異なる部分についてのみ説明し、実施例1と同様の部分についての説明は省略する。  FIG. 20 schematically shows a computer system assumed in the second embodiment. The configuration of the computer system is substantially the same as that of the first embodiment. The difference is that servers and terminals 7 to 9 for various management tools are added, and information on various management tools is added on the system configuration information T500 on the
  各種管理ツールを搭載したサーバおよび端末としては、リモート操作ツール71を搭載したリモート操作端末7、ジョブ管理ツール81を搭載したジョブ管理サーバ8、VMM管理ツール91を搭載したVMM管理サーバ9が追加されている。運用管理者は、操作端末5を介して、これらの管理ツールの機能を利用して、管理対象システム6上の各インスタンスに対する運用操作を行う。リモート操作ツール71を搭載したリモート接続端末7は、管理対象システム6上の各インスタンスにリモートアクセスして操作を行う機能を提供する。本実施例ではリモート操作ツール71としては、例えばSSH(Secure SHell)クライアントツール等が挙げられる。ジョブ管理ツール81を搭載したジョブ管理サーバ8は管理対象システム6上の各インスタンスに対してジョブ実行およびその実行状態の管理を行う機能を提供する。ここでジョブとは、インスタンスに対する複数の操作や処理を作業ごとにまとめた単位である。ジョブはバッチやスクリプトおよびその組合せによって定義され、これをコンピュータが実行することによって作業を自動実行できる。ジョブ管理ツール8におけるジョブの実行方法としては、スケジュール実行、事前に設定した条件を満たした場合のトリガー実行、運用管理者の手動による即時実行などが考えられる。インシデント対応では対策作業に用いることが多いため、運用管理者の手動実行による即時実行が主な操作となる。VMM管理ツール91を搭載したVMM管理サーバ9は、VMM 61およびVMM 62を運用管理する機能を提供する。VMM管理ツール91を用いることによって、VMM 61およびVM 62の起動/停止やVM 61の追加/削除/割当てリソースの変更等といった操作を行える。  As a server and terminal equipped with various management tools, a remote operation terminal 7 equipped with a
  次に、管理DB 4 上のシステム構成情報T500について述べる。実施例2のシステム構成情報T500では、運用操作ログ設定T1300が追加される。
図21は運用操作ログ設定T1300の一例である。運用操作ログ設定T1300は、管理サーバ/端末とその運用操作ログ種別名の対応関係を記載した情報である。列T1301の管理サーバ/端末の役割は管理ツールの役割に関する情報であり、インスタンス情報T600の役割T603に対応する。列T1302の運用操作ログ種別名は管理サーバ/端末が出力するログ種別名を一意に特定するための情報であり、本実施例に示す管理サーバ/端末が出力する後述の運用操作ログT900には対応する情報が付与される。Next, the system configuration information T500 on the
 FIG. 21 shows an example of the operation log setting T1300. The operation operation log setting T1300 is information describing the correspondence between the management server / terminal and its operation operation log type name. The role of the management server / terminal in the column T1301 is information on the role of the management tool, and corresponds to the role T603 of the instance information T600. The operation operation log type name in the column T1302 is information for uniquely identifying the log type name output by the management server / terminal, and the operation operation log T900 described later output by the management server / terminal shown in this embodiment is described later. Corresponding information is given.
この運用操作ログ設定T1300およびインスタンス情報T600およびシステム依存関係T700に含まれる管理系インスタンスの情報は、管理サーバ/端末(のインスタンス)と管理対象となるインスタンスおよび運用操作ログの種別名を紐付けるために用いる。 Information on the management instance included in this operation log setting T1300, instance information T600, and system dependency T700 links the management server / terminal (of the instance) with the instance to be managed and the type name of the operation log. Use for
  続いて、管理DB 4 上の運用操作ログT900について述べる。実施例2では、各管理ツールを用いた運用操作履歴を記録する運用操作ログとして、コマンド操作ログT1400、ジョブ実行ログT1500、VMMイベント操作ログT1600が追加される。これらの運用操作ログは各管理ツールによって出力されて管理DB 4上に転送・登録される。実施例2では、その具体的な方法として、各管理ツールによって管理サーバ/端末のインスタンス上に一旦出力された運用操作ログT500を、稼働データT100と同様に監視エージェント66およびデータ収集部310を介して管理DB 4上に転送/登録する(図中では各サーバ/端末上の監視エージェントの記載は省略)。  Next, the operation log T 900 on the
以降、追加された運用操作ログT900にはアクセスログT1000と同様にログを一意に識別する情報としてログIDが保持される。本実施例では、これらのログIDには運用操作ログT900全体で一意なIDが付与される。例えば、アクセスログT1000のログIDとコマンド操作ログのログIDの値が重複することはない。これにより、運用操作ログT900の種類が増えても、実施例1のログIDを用いた処理フローチャートや計算結果がそのまま適用できる。 Thereafter, in the added operation operation log T900, as with the access log T1000, a log ID is held as information for uniquely identifying the log. In this embodiment, a unique ID is assigned to these log IDs throughout the operation operation log T900. For example, the log ID of the access log T1000 and the log ID of the command operation log do not overlap. As a result, even if the type of the operation operation log T 900 is increased, the process flowchart and the calculation result using the log ID of the first embodiment can be applied as it is.
  図22は、コマンド操作ログT1400の一例である。コマンド操作ログT1400は、運用管理者がリモート操作ツール71を介して、管理対象となるインスタンスにリモートアクセスして実行したコマンド操作の履歴を格納する。コマンド操作ログT1400は、運用管理者がリモート操作ツール71を介したコマンド入力をするたびに、リモート操作ツール71によって出力される。
列T1401のログIDは、管理DB 4に登録されるコマンド操作ログを一意に識別するための情報である。本実施例では、ログIDは管理DB 4上で自動採番されることとする。また、他の運用操作ログ(例えばアクセスログ)とログIDは重複しないこととする。列T1402の管理サーバ/端末のインスタンス名は、このログを出力したリモート操作端末7のインスタンス名である。列T1403の運用操作ログ種別名は、コマンド操作ログのログ種別名である。これは運用操作ログ設定T1300の列T1302に対応している。列T1404の操作日時は、このログが出力された時刻を示す。列T1405は運用操作対象となるシステム名を示す。列T1406の運用操作アカウントはこの運用操作を行ったアカウント名を示す。実施例2で追加した管理ツールでは運用担当グループごとに用意された共通アカウントを用いる(図6の運用管理情報T800の列T805が対応する情報である)。列T1407のセッションIDは、一定の短時間内に連続して行われたアクセスを関連付けるためのセッション情報を識別する情報を示す。リモート操作ツール71がSSHクライアントの場合には、この列にはSSHによるログインからログアウトまでのセッションを識別する情報が含まれる。列T1006の運用操作詳細はこの操作における操作対象インスタンスやコマンド内容等の詳細情報が含まれる。運用操作詳細の内容は操作によって異なるため、複数のキーと値のペアを「キー=値」の形式で格納している。運用操作詳細の内容には、例えば、「対象インスタンス」、「コマンド」、「コマンド引数」が含まれる。「対象インスタンス」は、操作対象となるインスタンス名を示す。「コマンド」は、実行されたコマンドを示す。また「コマンド引数」はそのコマンドに与えられた引数を示す。本実施例では「コマンド」、「コマンド引数」は日本語の説明に置き換えて表現をしているが、実際には、例えば、OS内部の機能として実装されたコマンドやスクリプトをコマンドライン上で行ったものである。管理DB  4に格納する際には、コマンドライン上の元のデータを記載しても、説明に置き換えたデータを記載してもよい。また、今回の運用操作詳細にはコマンドの操作内容のみが記載されているが、コマンド実行結果の出力(例:コンソールへの標準出力)も合わせて記載してもよい。なお、本実施例に記載のコマンド操作ログでは運用操作詳細に対象インスタンスを必ず含むこととする。
ここで、コマンド操作ログの具体例を説明すると、行T1453は、2015年4月11日の1時0分0秒に、運用管理グループgroup1に所属する運用管理者が共通のアカウントを使って、リモート操作端末のインスタンスterminal1からインスタンスap1server1にアクセスしてAPサーバ設定ファイルを編集した履歴を示している。FIG. 22 shows an example of the command operation log T1400. The command operation log T1400 stores a history of command operations that the operation administrator remotely accessed and executed an instance to be managed through the
 The log ID in the column T1401 is information for uniquely identifying the command operation log registered in the
 Here, a specific example of the command operation log will be described. In line T1453, at 01:00 on April 11, 2015, the operation administrator who belongs to the operation management group group1 uses a common account, It shows the history of editing the AP server configuration file by accessing the instance ap1server1 from the instance terminal1 of the remote control terminal.
図23は、ジョブ実行ログT1500の一例である。ジョブ実行ログT1500は、ジョブ管理ツール81を介して、管理対象となるインスタンスに対するジョブを実行した履歴を格納する。ジョブ実行ログT1500は、ジョブ管理ツール81を介して、ジョブが実行されるたびに、ジョブ管理ツール81によって出力される。ジョブ実行ログT1500に含まれる情報は、セッションIDが無いことと、運用操作詳細の内容の例が「コマンド」、「コマンド引数」ではなく「ジョブ」、「ジョブ引数」に変わっていることを除き、コマンド操作ログT1400と同様のため、詳細な説明は省略する。 FIG. 23 shows an example of the job execution log T1500. The job execution log T1500 stores, through the job management tool 81, a history of execution of a job for an instance to be managed. The job execution log T1500 is output by the job management tool 81 each time a job is executed via the job management tool 81. The information included in the job execution log T1500 has no session ID, and the example of the operation details is changed to “job” or “job argument” instead of “command” or “command argument”. The same as the command operation log T1400, the detailed description is omitted.
  図24は、VMM操作イベントログT1600の一例である。VMM操作イベントログT1600は、VMM管理ツール91を介して、管理対象となるVMMやVMに対して行った操作の履歴を格納する。VMM操作イベントログT1600は、VMM管理ツール91を介して、操作が行われるたびに、VMM管理ツール91によって出力される。VMM操作イベントログT1600に含まれる情報は、セッションIDが無いことと、運用操作詳細の内容の例が「コマンド」、「コマンド引数」ではなく「イベント」に変わっていることを除いて、コマンド操作ログT1400と同様のため、詳細な説明は省略する。  FIG. 24 shows an example of the VMM operation event log T1600. The VMM operation event log T1600 stores, through the
ここで、図22−23の運用操作ログは、管理サーバ/端末のインスタンス名と運用操作ログ種別名を有しているのに対して、図9のアクセスログT1000では有していない。これは実施例1では不要であったためである。しかし、実施例2においては、他の運用操作ログと同様に扱うことを可能とするために、図9のアクセスログT1000に対して管理サーバ/端末のインスタンス名と運用操作ログ種別名の情報を追加してもよい。本実施例の例の場合、全アクセスログT1000の管理サーバ/端末のインスタンス名は「moni1」、運用操作ログ種別名は「稼働データアクセスログ」となる。 Here, the operation log of FIG. 22-23 has the instance name of the management server / terminal and the operation log type name, but does not have the access log T1000 of FIG. This is because it was unnecessary in the first embodiment. However, in the second embodiment, in order to enable handling in the same manner as other operation operation logs, information of the instance name of the management server / terminal and operation operation log type name for the access log T1000 of FIG. You may add it. In the case of the example of this embodiment, the instance name of the management server / terminal of all the access logs T1000 is “moni1”, and the operation log type name is “operation data access log”.
なお、運用操作ログT900は今回管理ツールごとに別々のテーブルに格納する例を示しているが、管理ツールごとのログ種別を識別して検索可能であれば一つのテーブル上に格納してもよい。 In this example, the operation operation log T 900 is stored in a separate table for each management tool at this time, but the log type for each management tool may be identified and stored in one table if searchable .
以降では、本発明の実施例2におけるインシデントに関連する運用操作ログの自動抽出処理について説明する。 In the following, automatic extraction processing of the operation operation log related to the incident in the second embodiment of the present invention will be described.
実施例2の運用操作ログ自動抽出部32による関連度計算処理は、運用操作ログT900として、アクセスログT1000だけでなく、コマンド操作ログT1400、ジョブ実行ログT1500、VMMイベント操作ログT1600を用いる点が異なるが、それ以外については、図13−図19に示した本発明の実施例1における処理内容とほぼ同様である。以下、それ以外の細かい差分をのみを説明する。 The association degree calculation processing by the operation operation log automatic extraction unit 32 according to the second embodiment uses not only the access log T1000 but also the command operation log T1400, the job execution log T1500, and the VMM event operation log T1600 as the operation operation log T900. Although different, the other process is substantially the same as the process contents in the first embodiment of the present invention shown in FIG. 13 to FIG. Hereinafter, only the other detailed differences will be described.
図13に示した関連度計算処理のフローチャート中のS102においては、システム構成情報T500として、区分が「サービス」だけでなく「管理」となっているインスタンス情報T600およびそのシステム依存関係T700も取得する。また、運用操作ログ設定T1300も取得する。 In S102 of the flowchart of the degree of association calculation process shown in FIG. 13, as system configuration information T500, instance information T600 whose classification is not only “service” but also “management” is acquired as well as its system dependency T700. . Also, the operation operation log setting T1300 is acquired.
  また、S104で取得する運用操作ログT900としては、アクセスログT1000だけでなく、その他のログ(具体的にはコマンド操作ログT1400、ジョブ実行ログT1500、VMMイベント操作ログT1600)も取得する。S102で取得した管理系を含めたシステム構成情報T500を用いれば、管理サーバ/端末(のインスタンス)と、管理対象インスタンスおよび運用操作ログの種別名を紐付けられるため、これらをキーとすることで、対象インシデントおよびシステムに関係する運用操作ログを絞り込んで取得できる。
さらに、図17に示した運用管理情報に基づく関連度R3の計算処理のフローチャートにおいては、コマンド操作ログT1400、ジョブ実行ログT1500、VMMイベント操作ログT1600の場合には、運用管理グループ共通のアカウントが利用されるため、S403による判定結果が「YES」となって、その後の処理が行われる。
上述以外の処理については、本発明の実施例1と同様である。Further, as the operation operation log T900 acquired in S104, not only the access log T1000 but also other logs (specifically, the command operation log T1400, the job execution log T1500, and the VMM event operation log T1600) are acquired. By using the system configuration information T500 including the management system acquired in S102, (the instance of the management server / terminal) and the type name of the management target instance and the operation operation log can be linked, by using these as keys , And can narrow down and acquire operation operation logs related to target incidents and systems.
 Furthermore, in the flowchart of the calculation processing of the degree of association R3 based on the operation management information shown in FIG. 17, in the case of the command operation log T1400, the job execution log T1500, and the VMM event operation log T1600, the account common to the operation management group is Since it is used, the determination result in S403 is "YES", and the subsequent processing is performed.
 The processes other than those described above are the same as in the first embodiment of the present invention.
  図25には、図6と図7に示したインシデントID 1のインシデントと図22−図24に示した運用操作ログに対応する計算結果を格納した関連度計算結果T1200の例を示す。格納される情報は図10に示した関連度計算結果T1200の例と同様である。  FIG. 25 shows an example of the association degree calculation result T1200 storing the calculation result corresponding to the incident of the
  実施例1、2に記載したとおり、インシデントに関連する運用操作ログ自動抽出方法として、本発明の運用操作ログ自動抽出部32は、インシデント情報T200(インシデントT300およびインシデント対応履歴T400)、運用操作ログT900を入力として、複数の観点での関連性からインシデントと運用操作ログ間の総合的な関連度を計算し、その関連度に基づいてインシデントに関連する運用操作ログを抽出する。関連度の計算では、管理対象システムに関するシステム構成情報T500、および運用管理者情報T800の情報も入力として活用し、時刻、システム構成、運用管理者という3つの観点におけるインシデントの各対応履歴と運用操作ログの関連度を計算し、それらの関連度を合成してトータルの関連度を計算する。
 本実施例ではインシデント毎に関連する作業や運用操作を明示的に事前定義/指定することなく、インシデントに関連する運用操作ログを抽出できる。
また、時刻、システム構成、運用管理者等の複数の観点に基づいて、インンシデントの各対応履歴と各運用操作ログとの間の関連性を抽出するため、インシデント発生から解決までの期間に発生した運用操作ログをすべて抽出する場合に比べて精度が向上する。
さらに、インシデント対応履歴の記載内容と実際の作業内容との間に乖離があった場合に、対応履歴に未記載の内容についても関連付けられた運用操作ログから発見できる。例えば、図8のインシデント対応履歴T400の行T453(対応ID 4)には記載されていない「稼働データの調査」に該当する運用操作ログが図10の関連度計算結果T1200の行1266に示す通り、関連ありとして抽出される。
運用管理者はインシデントを指定するだけで関連操作ログを取得できるため、インシデントに関連する運用操作ログの収集、検索にかかる時間の短縮できる。As described in the first and second embodiments, as the operation operation log automatic extraction method related to an incident, the operation operation log automatic extraction unit 32 according to the present invention includes: incident information T200 (incident T300 and incident response history T400); Based on T900 as an input, a comprehensive degree of association between the incident and the operation operation log is calculated from the associations in a plurality of viewpoints, and the operation operation log related to the incident is extracted based on the degree of association. In the calculation of the degree of association, the system configuration information T500 concerning the management target system and the information of operation manager information T800 are also used as input, and each correspondence history and operation operation of the incident from three viewpoints of time, system configuration and operation manager The degree of association of logs is calculated, and the degree of association is synthesized to calculate the total degree of association.
 In the present embodiment, it is possible to extract the operation operation log related to the incident without explicitly prescribing / specifying the operation or the operation related to each incident.
 In addition, in order to extract the relationship between each correspondence history of incidents and each operation operation log based on multiple viewpoints such as time, system configuration, operation manager, etc. Accuracy is improved compared to the case where all the operation operation logs are extracted.
 Furthermore, when there is a divergence between the described content of the incident response history and the actual operation content, the content not described in the response history can also be found from the associated operation operation log. For example, as shown in the row 1266 of the degree-of-relevance calculation result T1200 of FIG. 10, the operation operation log corresponding to the “operation data investigation” not described in the row T453 (correspondence ID 4) of the incident response history T400 of FIG. , Extracted as relevant.
 Since the operation manager can acquire the related operation log only by specifying the incident, the time required for collecting and searching the operation operation log related to the incident can be shortened.
取得された運用操作ログに含まれる無関係な情報が減るため、運用操作ログを活用したノウハウ分析処理の精度を向上させられる。 Since the irrelevant information included in the acquired operation operation log is reduced, the accuracy of know-how analysis processing utilizing the operation operation log can be improved.
実施例3では、実施例1における関連度計算方法のバリエーションとして、時刻に基づく関連度R1の計算において、稼働データのアクセスログ中に含まれるインシデント表示のアクセスログを活用する例を示す。 In the third embodiment, an example of utilizing the access log of the incident display included in the access log of operation data in the calculation of the degree of association R1 based on time will be described as a variation of the degree of association calculation method in the first embodiment.
実施例3で想定するコンピュータシステムと同様である。また、計算処理方法についても、時刻に基づく関連度R1の計算処理の一部を除いて、実施例1と同様である。以降では、異なる部分および効果を示す上で必要な部分のみ説明し、実施例1と同様の部分についての説明は省略する。 It is the same as the computer system assumed in the third embodiment. The calculation processing method is also the same as that of the first embodiment except for part of the calculation processing of the degree of association R1 based on time. In the following, only different parts and parts necessary to show the effects will be described, and the description of the same parts as the first embodiment will be omitted.
実施例3の時刻に基づく関連度R1の計算方法では、実施例1にて説明した活性期間Aを予め決めるのではなくインシデント表示のアクセスログがあった場合にはその操作時刻を用いて活性期間Aを決定する。これはインシデントを参照した後、そのインシデントに関連する対応作業を行う可能性が高いという考えに基づく。 In the method of calculating the degree of association R1 based on the time of the third embodiment, when there is an access log for incident display instead of determining the activation period A described in the first embodiment in advance, the activation period is used. Determine A. This is based on the idea that, after referring to an incident, there is a high possibility of performing a response operation related to the incident.
  具体的な処理としては、関連運用操作ログ自動抽出部32はS205の前処理として、データ管理部31を介し、LOGSの中からT0とT1の期間のアクセスログを順に参照して、INCのインシデントIDのインシデント表示を行ったアクセスログを1件検索する。本実施例では、運用操作詳細T1006中の「表示画面」が「インシデント表示」かつ「選択されたインシデントID」がINCのインシデントIDと一致するアクセスログが該当する。該当するアクセスログが見つかった場合、そのアクセスログの操作日時からT1の期間を活性期間Aに設定して、以降のS206までの計算処理を実行する。見つからなかった場合、元々のAの値を用いる。それ以外の処理は実施例1と同様である。
以下、具体例を用いて説明する。実施例1の計算方法を用いた場合と実施例3の計算方法を対比させながら述べる。
稼働データへのアクセスログT1000として、図9に示す稼働データへのアクセスログに加えて、図26に示す稼働データへのアクセスログT1000がある場合を想定する。図25に示したアクセスログ(行T1097とT1098)は、インシデントID 1のインシデントが発生したときに、運用管理者「user1」が偶然に別の目的でこのインシデントに関連のあるインスタンスを調査していた場合を想定したログの例である。この例では、このログの操作の後続として、インシデントID 1に関する稼働データ調査を行っている。つまり、図25に示したアクセスログはインシデントID 1との関連はない。
しかし、実施例1に記載した方法で計算すると、行T1097とT1098のアクセスログは、インシデントが発生してから最初のインシデント対応履歴が登録されるまでの期間に発生したアクセスログであり、予め決めた活性期間30分内に含まれるために、R1がそれぞれ「90」、「79」と大きな値となり、結果としてトータルの関連度Rxから「関連あり」と判定されてしまう。As a specific process, the related operation operation log automatic extraction unit 32 sequentially refers to the access log in the period of T0 and T1 from the LOGS through the
 Hereinafter, description will be made using a specific example. The case where the calculation method of the first embodiment is used and the calculation method of the third embodiment will be described in comparison with each other.
 In addition to the access log to the operation data shown in FIG. 9, it is assumed that there is an access log T1000 to the operation data shown in FIG. 26 as the access log to the operation data T1000. In the access log (rows T1097 and T1098) shown in FIG. 25, when the incident with
 However, when calculated by the method described in the first embodiment, the access logs in lines T1097 and T1098 are access logs that occurred in the period from the occurrence of an incident to the registration of the first incident response history, and are determined in advance Since R1 has a large value of “90” and “79”, respectively, because it is included within the 30-minute activation period, it is determined as “relevant” from the total relevance ratio Rx as a result.
  これらのアクセスログは、時刻以外のシステム構成、運用管理者の各観点でもID 1のインシデントと近いため、関連ありと判定されることはやむを得ない部分があるが、なるべくはこのように誤判定されるノイズも減らしたい。実施例3に記載の例は上記を解決するための一つの手段である。  Since these access logs are similar to the incident of
実施例3に記載した方法で計算すると、インシデントID 1のインシデント表示を行ったアクセスログとして、図9の行T1050が抽出される。このアクセスログの操作日時は「2015年4月10日の9時15分0秒」であり、T1の15分前にあたる。つまり、活性期間は「30分」から「15分」に一時的に変更される。T1097とT1098のアクセスログは変更された活性期間には含まれないため、R1がそれぞれ「33」、「60」と実施例1と比べて小さい値となり、結果としてRxから「関連なし」と判定される。上記の例で示した追加分のアクセスログの関連度計算結果T1200は図27に示すとおりである。 If it calculates by the method described in Example 3, line T1050 of FIG. 9 will be extracted as an access log which performed the incident display of incident ID1. The operation date and time of this access log is "9:15:00 on April 10, 2015", which is 15 minutes before T1. That is, the activation period is temporarily changed from "30 minutes" to "15 minutes". Since the access logs of T1097 and T1098 are not included in the changed activation period, R1 becomes "33", "60" and a smaller value respectively than in Example 1, and as a result, it is determined as "not related" from Rx. Be done. An association log calculation result T1200 of the additional access log shown in the above example is as shown in FIG.
なお、上記では、実施例1に適用する例を示したが、実施例2への適用も可能である。その場合には、アクセスログT1000を参照してインシデント表示のアクセスログを検索/活用する点は同様で、ログLOGSがその他の運用操作ログT500(例:ジョブ実行ログT1500)も対象となる点が異なる。 Although the example applied to the first embodiment has been described above, the application to the second embodiment is also possible. In that case, the point that the access log of the incident display is searched / utilized referring to the access log T1000 is the same, and the log LOGS also targets other operation log T500 (example: job execution log T1500). It is different.
以上のようにして、関連運用操作ログ自動抽出部32は、実施例1における関連度計算方法に加えて、稼働データのアクセスログ中に含まれるインシデント表示のアクセスログを活用して関連度を計算する。これにより、第1〜2の実施例に比べて、より高い精度で時刻に基づく関連抽出を行える。 As described above, in addition to the method of calculating the degree of association in the first embodiment, the related operation operation log automatic extraction unit 32 calculates the degree of association using the access log of the incident display included in the access log of operation data. Do. This enables time-based relation extraction with higher accuracy than in the first and second embodiments.
実施例4では、関連度計算方法のバリエーションとして、運用管理者によって入力あるいはプログラムによって自動生成された運用操作のパターン情報を入力として関連度を補正する例を示す。 In the fourth embodiment, as a variation of the degree of association calculation method, an example in which the degree of association is corrected by using operation pattern information input by an operation manager or automatically generated by a program is described.
実施例4によれば、運用管理者の手作業によって関連有無を判別した入力情報を関連度計算にフィードバックできる。さらに、機械的な運用操作ログの分析結果に基づいて関連度を補正できる。 According to the fourth embodiment, it is possible to feed back to the calculation of the degree of association the input information whose presence / absence of association has been determined manually by the operation manager. Furthermore, the degree of association can be corrected based on the analysis result of the mechanical operation operation log.
図28に、実施例4で想定するコンピュータシステムを模式的に示す。コンピュータシステムの構成は、実施例2と概ね同様である。運用操作のパターン情報、そのパターン情報を活用して関連度を補正する処理部分、操作パターン生成する処理部分が追加されている点が異なる。以降では異なる部分についてのみ説明し、実施例2と同様の部分についての説明は省略する。 FIG. 28 schematically shows a computer system assumed in the fourth embodiment. The configuration of the computer system is substantially the same as that of the second embodiment. The difference is that pattern information of operation and operation, a processing portion for correcting the degree of association using the pattern information, and a processing portion for generating an operation pattern are added. Hereinafter, only different parts will be described, and the description of the same parts as the second embodiment will be omitted.
  管理DB4上に追加されている操作パターン情報T1700は、運用管理者による入力、あるいはプログラムによって自動生成された運用操作のパターン情報である。本実施例では、操作パターン情報T1700は、データ管理部31を介して入出力される。  The operation pattern information T1700 added to the
図29は、実施例4における操作パターン情報T1700の例を示す図である。 FIG. 29 is a diagram showing an example of operation pattern information T1700 in the fourth embodiment.
列T1701のパターンIDはこの操作パターンを一意に識別するための情報であり、システムによって自動的に採番される。列T1702のシステム名は、この操作パターンの対象となるシステム名である。列T1703の操作区分は、この操作パターンがインシデントに関係のある操作かどうかを識別した情報であり、インシデントに関係ない日々の運用作業の一部の場合には「日々運用」が、インシデント対応作業の一部の場合には「インシデント対応」が設定される。列T1704の操作パターンの内容は、運用操作のパターンを表現するために、一つ以上の一連の運用操作ログを記載される。この例では、大カッコで囲んだ情報が一つの運用操作ログを示し、矢印がその順番を示す。なお、操作パターンの内容中の運用操作ログは先に述べた運用操作ログT900の各行に対する完全/部分一致条件をキー=値の形式で記載されている。部分一致条件を記載するために一部の情報は抽象化されている。列T1705の関連度補正係数は、この操作パターンにマッチングした運用操作ログの関連度の値に対する補正係数である。 The pattern ID of the column T1701 is information for uniquely identifying this operation pattern, and is automatically numbered by the system. The system name in column T1702 is the system name targeted for this operation pattern. The operation classification of column T1703 is information identifying whether this operation pattern is an operation related to an incident, and in the case of a part of daily operation work not related to an incident, “daily operation” is an incident response operation. "Incident response" is set in some cases. The contents of the operation pattern of the column T1704 are described with one or more series of operation operation logs in order to express the operation operation pattern. In this example, the information enclosed in brackets indicates one operation log, and the arrows indicate the order. The operation operation log in the content of the operation pattern describes the complete / partial matching condition for each row of the operation operation log T 900 described above in the form of key = value. Some information is abstracted to describe partial match conditions. The degree of association correction coefficient of the column T1705 is a correction coefficient to the value of the degree of association of the operation operation log matched with the operation pattern.
  ここで、具体例をあげて説明すると、行T1701は、システムservice1のひとつの日々運用作業のパターン(パターンID 1)を示す。操作パターンの内容では、稼働データ表示において、インスタンスdbserver1の稼働データ種別OSのディスク利用容量と、インスタンスcmdserver1の 稼働データ種別OSのCPU利用率の前日分の稼働データを順番に閲覧したパターンを示す。ここで、検索時刻条件の「前日」は、運用操作ログT900の具体的な日付に対して抽象化された情報である。  Here, to give a specific example, a row T1701 shows a pattern (pattern ID 1) of daily operation work of the system service1. The contents of the operation pattern show patterns in which the operation data of the operation data type OS of the
  行T1702は、システムservice1のひとつのインシデント対応の操作パターン(パターンID 10)を表す。操作パターンの内容では、リモート操作端末を介したコマンド操作で、APサーバのAPサーバ設定ファイルを編集し、設定ファイルの同時接続数を確認した操作パターンを表す。ここで、対象インスタンス名の「APサーバ」は、運用操作ログT900の具体的なインスタンス名に対して、インスタンス情報T600の役割T603で抽象化された情報である。
  実施例4の関連度運用操作ログ抽出部32は、新たに追加された操作パターン情報に基づいて関連度を補正するプログラムである操作パターンに基づく関連度補正部326を用いて関連度計算の中でトータルの関連度の補正を行う。A row T1702 represents an operation pattern (pattern ID 10) corresponding to one incident of the system service1. The contents of the operation pattern indicate an operation pattern in which the AP server setting file of the AP server is edited by command operation via the remote operation terminal, and the number of simultaneously connected setting files is confirmed. Here, the “AP server” of the target instance name is information abstracted in the role T603 of the instance information T600 with respect to the specific instance name of the operation operation log T900.
 The degree-of-association operation operation log extraction unit 32 according to the fourth embodiment performs calculation of degree of association using the degree-of-association correction unit 326 based on the operation pattern, which is a program for correcting the degree of association based on the newly added operation pattern information. Correct the total degree of association with.
図30に実施例4におけるトータルの関連度Rxの計算処理の詳細フローチャートの中で操作パターンに基づいて関連度を補正する例を示す。この処理は操作パターン情報に基づく関連度補正部分(図中点線内)を除いて、図18に示したトータルの関連度Rxの計算処理と同様である。ここでは差分のみを説明する。 FIG. 30 shows an example of correcting the degree of association based on the operation pattern in the detailed flowchart of the calculation process of the total degree of association Rx in the fourth embodiment. This process is the same as the process of calculating the total degree of association Rx shown in FIG. 18 except for the degree of association correction portion (within the dotted line in the drawing) based on the operation pattern information. Here, only the difference will be described.
  S503を行った後で、関連度運用操作ログ抽出部32の操作パターンに基づく関連度補正部326は、データ管理部31を介して、管理DB 4上からINCのシステムに関連する操作パターン情報T1700をすべて取得する(S801)。続いて、LOGSに対して、S801で取得した操作パターン情報T1700のパターンマッチングを行う(S802)。マッチングは、例えば、同一セッション上での運用操作ログとパターンを比較することに寄って行う。そして、マッチングしたパターンのうち、LOGを含むパターンの関連度補正係数を用いて関連度Rxを補正する(S804)。ここでもし関連度が1〜100の範囲を超えた場合にはそれぞれ下限値/上限値に修正する。その後は、図18に示したトータルの関連度Rxの関連度判定と管理DB 4へ結果を格納する。  After performing S503, the association degree correction unit 326 based on the operation pattern of the association degree operation operation log extraction unit 32 operates the operation pattern information T1700 related to the system of INC from the
  上記をインシデントID 1のインシデントT200の場合を具体例に説明すると、例えば、パターンID 1とパターンID 10の操作パターン情報T1700が取得される。これに対して、LOGSに対するパターンマッチを行うと、実施例3で追加したアクセスログT1097とT1098がパターンID 1の操作パターンにマッチする。そのため、本パターンにおける関連度補正係数T1705を用いて関連度を補正する。ここまでの関連度が実施例3ではなく、実施例1に記載の方法で計算されていたとすると、トータルの関連度はそれぞれ「90×補正係数0.1=9」、「79×補正係数≒8」となる。アクセスログT1097とT1098の操作が日々運用作業であり、そのパターンが登録されていれば、実施例3の方法を用いなくても、関連ありと誤判定されなくなる。また、図22に記載のコマンド操作ログT1400のT1453とT1454はパターンID 10の操作パターンにマッチする。このパターンの
本パターンにおける関連度補正係数T1705を用いて関連度を補正すると、「77×補正係数1.2=92」となる。インシデント対応のパターンを登録することでその運用操作ログの関連度を強くできるため、この例のように関連判定しきい値に近い部分にある運用操作ログの関連度抽出精度を上げられる。Describing the above in the case of the incident T200 of the
  操作パターン情報T1700の生成方法としては、運用管理者がデータ管理部31を介してすべての情報を手動登録する方法、あるいは生成済みの情報の一部を手動更新する方法、運用管理者がインシデントに関連する運用操作ログ表示画面から関連が無い不要なログを除外選択した結果を記録しその選択情報からプログラムが自動生成する方法、プログラムが運用操作ログと計算済みの関連度計算結果から自動生成する方法が考えられる。  As a method of generating the operation pattern information T1700, a method in which the operation manager manually registers all the information via the
  ここでは、操作パターン情報T1700を自動生成する方法の一例として、実施例4の関連度運用操作ログ抽出部32に、新たに追加された操作パターンを自動生成するプログラムである操作パターン自動生成部325によって、運用操作ログと計算済みの関連度計算結果から運用操作パターンを自動生成する処理を示す。図31はその処理フローチャートの一例である。
操作パターン自動生成部325は、データ管理部31を介して、管理DB 4上からすべての運用操作ログT900と関連度計算結果T1200を取得する(S901)。そして、関連度計算結果T1200を用いて、取得した運用操作ログT900を「関連あり」と判定されたログの集合R_LOGSと、「関連なし」と判定されたログの集合NR_LOGSに分ける(S902)。
  以降では、インシデントに関連があると判定されたR_LOGは「インシデント対応」に関する運用操作であり、関連が無いと判定されたNR_LOGは「日々運用」に関する運用操作であると見なして「インシデント対応」と「日々運用」の操作パターンを抽出生成する。Here, as an example of a method of automatically generating the operation pattern information T1700, an operation pattern automatic generation unit 325, which is a program for automatically generating an operation pattern newly added to the association operation operation log extraction unit 32 of the fourth embodiment. Shows a process of automatically generating an operation operation pattern from the operation operation log and the calculated association degree calculation result. FIG. 31 is an example of the processing flowchart.
 The operation pattern automatic generation unit 325 acquires all the operation operation logs T900 and the association degree calculation result T1200 from the
 Hereinafter, R_LOG determined to be related to an incident is an operation operation related to “incident response”, and NR_LOG determined to be not related is regarded as an operation operation related to “daily operation” and “incident response” Extract and generate operation patterns of "daily operation".
まず、インシデント対応の操作パターン抽出・生成の処理を行う。操作パターン自動生成部325は、R_LOGSとその関連度計算結果T1200から、R_LOGSを操作順のかたまり毎に分ける(S903)。その分け方としては、例えば、インシデントID, インシデント対応ID, セッション情報, 操作した運用担当者の組合せごとにグルーピングする等が考えられる。以下、操作順のかたまりを操作シーケンスと呼び、抽出された操作シーケンスの集合をOPS_SETと呼ぶ。 First, processing of operation pattern extraction / generation corresponding to an incident is performed. The operation pattern automatic generation unit 325 divides the R_LOGS into groups of operation order based on the R_LOGS and the calculation result T1200 of the degree of association thereof (S903). For example, grouping can be considered for each combination of an incident ID, an incident response ID, session information, and a person in charge of an operation manager who has operated. Hereinafter, a group of operation orders is referred to as an operation sequence, and a set of extracted operation sequences is referred to as OPS_SET.
  次に、操作パターン自動生成部325は、S903で抽出されたOPS_SET中の操作シーケンス同士をログの内容の一部を具体的な情報から抽象化情報に変換(例えば、絶対時刻を相対的な時刻(前日、翌日等)に変換、インスタンス名を役割に変換、等)した上で比較することによって共通操作を抽出する(S904)。  Next, the operation pattern automatic generation unit 325 converts the operation sequences in the OPS_SET extracted in
  さらに、操作パターン自動生成部325は、S904で抽出された共通操作の内容とその出現回数を用いて、操作区分「インシデント対応」の操作パターン情報T1700を生成して、データ管理部31を介して、管理DB 4に登録する。例えば、図22に記載のコマンド操作ログT1400のT1453〜T1454とT1455〜1456から共通操作を抽出すると、図29のパターンID 10の操作パターンの内容と同様になる。出現回数が2回で1回ごとに0.1係数を補正したとすると、関連度補正係数は「1.2」となる。このような処理により、パターンID 10と同様な操作パターン情報T1700を生成することができる。  Furthermore, the operation pattern automatic generation unit 325 generates the operation pattern information T1700 of the operation classification “incident response” using the content of the common operation extracted in S904 and the number of appearance thereof, and the
このようにして、インシデント対応の操作パターン抽出・生成の処理を行う。 In this way, processing of operation pattern extraction and generation in response to an incident is performed.
  以降の処理S906〜S908では、NR_LOGSを用いて日々運用の操作パターン抽出・生成の処理を行う。処理は概ね前述のS903〜S905と同様である。ただし、S907の操作シーケンス生成においては、分け方にインシデントIDとインシデント対応IDを用いない(用いることができない)点は異なる。  In the subsequent processes S906 to S908, daily operation pattern extraction / generation processing is performed using NR_LOGS. The process is substantially the same as the above-described S903 to S905. However, the operation sequence generation in
以上で述べた操作パターン自動生成方法は単純な一例である。そのため、他の一般的なパターンマッチ手法などを用いても構わない。 The operation pattern automatic generation method described above is a simple example. Therefore, other general pattern matching methods may be used.
実施例4によって、運用管理者の手作業や機械的な運用操作ログの分析に基づく操作パターンに基づいて関連度を補正することで、さらに関連抽出の精度を上げられる。 According to the fourth embodiment, by correcting the degree of association based on the operation pattern of the operation manager based on the manual operation and the analysis of the mechanical operation operation log, the accuracy of the association extraction can be further improved.
  本発明の実施例では、発明を実施するための最良の形態として、システム運用監視業務におけるインシデント管理を例に説明した。しかし、本発明の実施例はコールセンターやカスタマサポート等のヘルプデスク業務におけるインシデント対応管理においても適用可能である。
以上、本発明の実施例について図面を参照して詳述してきたが、具体的な構成はこの実施例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。In the embodiment of the present invention, as the best mode for carrying out the invention, the incident management in the system operation monitoring job has been described as an example. However, embodiments of the present invention are also applicable to incident response management in help desk operations such as call centers and customer support.
 The embodiment of the present invention has been described in detail with reference to the drawings, but the specific configuration is not limited to this embodiment, and includes design and the like within the scope of the present invention.
1…管理ネットワーク、2…物理的な通信回線、3…統合監視サーバ、100…I/F、101…プロセッサ、102…メモリ、103…データバス、31…データ管理部、310…データ収集部、311…データ登録部、312…データ表示部、32…関連運用操作ログ抽出部、320…関連度計算部、321…時刻に基づく関連度計算部、322…システム構成に基づく関連度計算部 、323…運用管理者に基づく関連度計算部、324…トータルの関連度計算部、325…操作パターン自動生成部、326…操作パターンに基づく関連度補正部、327…関連度出力部、4…管理DB、5…操作端末、51…Webブラウザ、6…管理対象システム、61…VMM、62…サーバ(VM/PM)、63…OS、64…ミドルウェア、65…アプリケーション、66…監視エージェント、67…ロードバランサ、7…リモート操作端末、71…リモート操作ツール、8…ジョブ管理サーバ、81…ジョブ管理ツール、9  …VMM管理サーバ、91…VMM管理ツール、T100…稼働データ 、T200…インシデント情報、T300…インシデント、T400…インシデント対応履歴 、T500…システム構成情報、T600…インスタンス情報、T700…システム依存関係、T800…運用管理者情報、T900…運用操作ログ、T1000…稼働データアクセスログ、T1100…関連度計算ルール、T1200…関連度計算結果、T1300…運用操作ログ設定 、T1400…コマンド操作ログ、T1500…ジョブ実行ログ、T1600…VMMイベント操作ログ、T1700…操作パターン情報DESCRIPTION OF
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2015239836AJP6517677B2 (en) | 2015-12-09 | 2015-12-09 | Integrated operation monitoring system and calculation method of association degree of operation operation log | 
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2015239836AJP6517677B2 (en) | 2015-12-09 | 2015-12-09 | Integrated operation monitoring system and calculation method of association degree of operation operation log | 
| Publication Number | Publication Date | 
|---|---|
| JP2017107348A JP2017107348A (en) | 2017-06-15 | 
| JP6517677B2true JP6517677B2 (en) | 2019-05-22 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2015239836AActiveJP6517677B2 (en) | 2015-12-09 | 2015-12-09 | Integrated operation monitoring system and calculation method of association degree of operation operation log | 
| Country | Link | 
|---|---|
| JP (1) | JP6517677B2 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP6972735B2 (en)* | 2017-07-26 | 2021-11-24 | 富士通株式会社 | Display control program, display control method and display control device | 
| JP6612825B2 (en)* | 2017-09-21 | 2019-11-27 | 株式会社東芝 | Plant monitoring device and distributed control system | 
| JP7119769B2 (en) | 2018-08-24 | 2022-08-17 | 富士通株式会社 | Information processing program, information processing method, and information processing apparatus | 
| JP7547594B1 (en) | 2023-10-31 | 2024-09-09 | 株式会社アシュアード | Information processing device and information processing method | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP3675851B2 (en)* | 1994-03-15 | 2005-07-27 | 富士通株式会社 | Computer monitoring method | 
| JP2011076161A (en)* | 2009-09-29 | 2011-04-14 | Nomura Research Institute Ltd | Incident management system | 
| WO2013098915A1 (en)* | 2011-12-26 | 2013-07-04 | 株式会社日立製作所 | Management server, management system, and management method | 
| JP6100515B2 (en)* | 2012-12-11 | 2017-03-22 | 株式会社日立システムズ | Incident response history input system, method and program | 
| Publication number | Publication date | 
|---|---|
| JP2017107348A (en) | 2017-06-15 | 
| Publication | Publication Date | Title | 
|---|---|---|
| US11140233B2 (en) | System and method for separating content site visitor profiles | |
| KR102548705B1 (en) | Systems and methods for identifying process flows from log files and visualizing the flow | |
| US9836710B2 (en) | Resource planning for data protection validation | |
| KR101828506B1 (en) | Visualization of jvm and cross-jvm call stacks | |
| US8356088B2 (en) | Configuration management utility | |
| US20120144374A1 (en) | Capturing Replayable Information at Software Defect Locations in a Multi-Tenant Environment | |
| US20160103750A1 (en) | Application programming interface monitoring tool notification and escalation method and system | |
| CA2955615C (en) | Visual tools for failure analysis in distributed systems | |
| JP6517677B2 (en) | Integrated operation monitoring system and calculation method of association degree of operation operation log | |
| US20110314341A1 (en) | Method and systems for a dashboard testing framework in an online demand service environment | |
| US10476768B2 (en) | Diagnostic and recovery signals for disconnected applications in hosted service environment | |
| US12028429B2 (en) | System and method for separating content site visitor profiles | |
| US20200159607A1 (en) | Veto-based model for measuring product health | |
| US12117981B2 (en) | Automatic discovery of executed processes | |
| US12254360B2 (en) | Visitor stitching with data science notebooks | |
| US9727663B2 (en) | Data store query prediction | |
| US20220414571A1 (en) | Incident management in information technology systems | |
| US20190295097A1 (en) | Cross-functional analytics tool for integrating web analytics data and customer relationship management data | |
| US20170285923A1 (en) | Multi-perspective application components dependencies | |
| CN111414410A (en) | Data processing method, device, equipment and storage medium | |
| US20140108091A1 (en) | Method and System for Attributing Metrics in a CRM System | |
| US20200014595A1 (en) | Device configuration management apparatus, system, and program | |
| US20140108398A1 (en) | Method and System for Recording Responses in a CRM System | |
| US20130024480A1 (en) | Method and system for analysis of database records | |
| JP2018190107A (en) | Internal transaction determination device, internal transaction determination method, and internal transaction determination program | 
| Date | Code | Title | Description | 
|---|---|---|---|
| RD02 | Notification of acceptance of power of attorney | Free format text:JAPANESE INTERMEDIATE CODE: A7422 Effective date:20180216 | |
| RD04 | Notification of resignation of power of attorney | Free format text:JAPANESE INTERMEDIATE CODE: A7424 Effective date:20180301 | |
| A621 | Written request for application examination | Free format text:JAPANESE INTERMEDIATE CODE: A621 Effective date:20180305 | |
| A977 | Report on retrieval | Free format text:JAPANESE INTERMEDIATE CODE: A971007 Effective date:20181130 | |
| A131 | Notification of reasons for refusal | Free format text:JAPANESE INTERMEDIATE CODE: A131 Effective date:20181225 | |
| A521 | Request for written amendment filed | Free format text:JAPANESE INTERMEDIATE CODE: A523 Effective date:20190125 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text:JAPANESE INTERMEDIATE CODE: A01 Effective date:20190402 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text:JAPANESE INTERMEDIATE CODE: A61 Effective date:20190418 | |
| R150 | Certificate of patent or registration of utility model | Ref document number:6517677 Country of ref document:JP Free format text:JAPANESE INTERMEDIATE CODE: R150 |