【0001】[0001]
【発明の属する技術分野】本発明は、並列計算機のイン
ストールに関し、特に並列計算機のシステム起動までに
必要な時間の短縮を図り、残りの拡張部分はシステム起
動後に自動的に複数のインストールを並行して実施して
いくことが可能な、並列インストール方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to the installation of a parallel computer, and more particularly, to shortening the time required until the system of the parallel computer is started, and the rest of the extension is automatically executed in parallel after the system is started. The present invention relates to a parallel installation method that can be carried out.
【0002】[0002]
【従来の技術】計算機ネットワークでのインストール方
式に関しては、例えば特開平5-81036号公報には、管理
システム側から個々の端末システムに、端末システム固
有の環境定義処理情報も送信し、端末システムのインス
トール作業を無人化する方式が提案されている。同様
に、特開平6-309261号公報には、サーバマシンからイン
ストール開始の起動をかけ、一度に全てのクライアント
マシンにインストールする方式が提案されている。さら
に特開平6-59994号公報には、1次局コンピュータ装置か
ら複数の2次局コンピュータ装置へ、同時にインストー
ルを実行する方式が提案されている。これらの提案はい
ずれも、インストール作業のサーバから一度に、遠隔地
に設置された複数のクライアントへインストールを実施
し、かつクライアント側の操作を削減する目的を持って
いる。2. Description of the Related Art With respect to an installation method in a computer network, for example, Japanese Patent Application Laid-Open No. 5-81036 discloses that a management system transmits environment definition processing information unique to a terminal system to each terminal system. A method of making the installation work unattended has been proposed. Similarly, Japanese Patent Laying-Open No. 6-309261 proposes a method of starting installation from a server machine and installing the software on all client machines at once. Further, Japanese Patent Application Laid-Open No. 6-59994 proposes a method of simultaneously performing installation from a primary station computer device to a plurality of secondary station computer devices. Each of these proposals has the purpose of performing installation from a server for installation work to a plurality of clients installed at remote locations at a time, and reducing operations on the client side.
【0003】[0003]
【発明が解決しようとする課題】並列計算機の目的は、
大規模な計算業務を複数に分割し並列に処理すること
で、並列計算機を構成するノード数は例えば1,000台に
も達し得る。これらのノードの全てに、OSやノード制御
プログラム等の、基本的なソフトウェアをインストール
しておかないと、並列計算機システムは起動できず、本
格的な並列計算業務を開始するには、全てのノードに並
列計算用のソフトウェア等をインストールしておく必要
があるため、ノード数の増大に伴ってインストール完了
までの時間が増大する。この時間は必要なものではある
が、上記公知例のようにインストール完了まで長時間待
ち、その後システムをテストするのでは、テストで不具
合を見つけ、インストールをやり直すことになると、浪
費する時間が無視できなくなる。つまり、並列計算機シ
ステムの場合は、ノード数が増えても短時間でシステム
起動可能な環境を構築し、早期にシステムのテストや運
用を開始できるようにする必要がある。The purpose of the parallel computer is to
By dividing a large-scale calculation task into a plurality of pieces and processing them in parallel, the number of nodes constituting the parallel computer can reach, for example, 1,000. Unless basic software such as an OS and node control program is installed on all of these nodes, the parallel computer system cannot be started. It is necessary to install software and the like for parallel calculation in advance, and the time until the installation is completed increases as the number of nodes increases. Although this time is necessary, if you wait a long time until the installation is completed as in the above-mentioned known example and then test the system, if you find a defect in the test and start the installation again, you can ignore the time wasted. Disappears. In other words, in the case of a parallel computer system, it is necessary to construct an environment in which the system can be started in a short time even if the number of nodes increases, so that testing and operation of the system can be started early.
【0004】一方、上記公知例では、一台のサーバが多
数のクライアントへ、順にまたは同時にインストールを
行うことでインストールの自動化を図っているが、ノー
ド数が増大すると、サーバにかかるCPU、ディスクアク
セス、および通信回線の負荷が集中し、あるノード数を
超えるとインストール時間が指数関数的に増加したり、
デッドロック状態に陥ったりする問題がある。この問題
に対し、インストールのサーバとなるノードを複数設
け、負荷集中を回避しようとしても、上記公知例の範囲
内では、個々のサーバの操作が必要になり、操作性が悪
化するという問題がある。それにも増して、例えばノー
ド数が1,000程度に増大すると、どのノードをサーバと
し、どういう手順で起動していくかという、インストー
ル作業のシナリオを決めること自体が困難になるという
問題がある。[0004] On the other hand, in the above-mentioned known example, one server attempts to automate the installation by sequentially or simultaneously installing a large number of clients. However, when the number of nodes increases, the CPU and the disk access required for the server are increased. , And the load on the communication line is concentrated, installation time increases exponentially when the number of nodes exceeds a certain number,
There is a problem of falling into a deadlock state. To solve this problem, even if a plurality of nodes serving as installation servers are provided and load concentration is to be avoided, operation of each server is required within the range of the above-mentioned known example, and there is a problem that operability is deteriorated. . Furthermore, when the number of nodes increases to about 1,000, for example, there is a problem that it is difficult to determine an installation work scenario, which node is used as a server and in what procedure to start.
【0005】本発明は上記の問題を解決し、本格的な計
算業務を開始するまでの時間を短縮する並列計算機にお
けるインストール方法実現するものである。The present invention solves the above problem and realizes an installation method in a parallel computer which shortens the time required to start a full-scale calculation operation.
【0006】[0006]
【課題を解決するための手段】並列計算機の全てのノー
ドに、OSやノード制御プログラム等の基本的なソフトウ
ェアをインストールしておくと、全てのノードに並列計
算用のソフトウェア等をインストールする前でも、運用
上のテスト等が実施でき、並列計算用のソフトウェア等
をインストールし終えたノードのみを使っての、小規模
な計算業務の確認もできる。本発明では、この点に着目
し、インストールすべき全ての対象を、並列計算機のシ
ステム起動に必須な基本部分と、並列計算機を起動した
後の任意の時点でインストール可能な拡張部分とに分類
した上で、全てのノードに基本部分だけをインストール
することで、構築した並列計算機のシステムのテストを
早期に、残りの拡張部分のインストールと並行して実施
し、不具合を見つけた場合でも浪費する時間を削減でき
るようにしている。Means for Solving the Problems If basic software such as an OS and a node control program is installed on all nodes of a parallel computer, even before software for parallel calculation is installed on all nodes. In addition, it is possible to carry out operational tests and the like, and it is also possible to confirm small-scale computation work using only the nodes on which software for parallel computation has been installed. In the present invention, paying attention to this point, all the objects to be installed are classified into a basic part indispensable for starting the system of the parallel computer and an extended part that can be installed at any time after starting the parallel computer. By installing only the basic part on all nodes above, the time of testing the built parallel computer system early and in parallel with the installation of the remaining expansion parts, wasting even if you find a defect To be able to reduce.
【0007】また、本発明ではあらゆるノードが自動的
にインストールのサーバにもクライアントにも成り得、
一括操作で、複数のインストールを並行して実行可能と
することで、多数のノードに対するインストールの操
作、およびシナリオ作りという負担を軽減している。Also, in the present invention, any node can automatically become a server or a client for installation,
By making it possible to execute a plurality of installations in parallel by a collective operation, the burden of installation operations on a large number of nodes and creating a scenario is reduced.
【0008】[0008]
【発明の実施の形態】図1は並列計算機の構成を示す。
並列計算機システム1には、CPUやディスク等から構成さ
れるノードが複数、高速内部ネットワーク11で接続され
ている。例えば、ノード(1)2はノードコンピュータ装置
(1)21とシステムディスク22、及びインストール用デバ
イス23で構成され、高速内部ネットワーク11でノード
(2)3、ノード(3)4、ノード(4)5、…、ノード(n-1)6、ノ
ード(n)7と接続されている。図1の並列計算機システム
は、全てのノードのシステムディスク22、32、42、52、
…、62、72に、OSやノード制御プログラム等の基本的な
インストールを完了した後に、システム起動ができるよ
うになる。FIG. 1 shows the configuration of a parallel computer.
In the parallel computer system 1, a plurality of nodes including a CPU, a disk, and the like are connected by a high-speed internal network 11. For example, node (1) 2 is a node computer device
(1) It is composed of 21, a system disk 22, and an installation device 23.
(2) 3, node (3) 4, node (4) 5, ..., node (n-1) 6, and node (n) 7. The parallel computer system of FIG. 1 has system disks 22, 32, 42, 52,
After completing the basic installation of the OS, the node control program, and the like in 62, 72, the system can be started.
【0009】まず、ノード(1)2が持つインストール用デ
バイス23を使い、自ノードのシステムディスク22へイン
ストールするが、この時点で他のノードは高速内部ネッ
トワーク11を介したインストールが可能なファームウェ
アだけか、古いバージョンのOS等のソフトウェアを持っ
ているだけで、システムを運用できる状態ではない。こ
のため次に、ノード(1)2が自ノードにインストールし終
えたソフトウェアと他ノードの各々に固有なデータを、
ノード(2)3やノード(3)4等へ送信することで、それら他
ノードのシステムディスク32、42へインストールする。First, an installation device 23 of the node (1) 2 is used to install it on the system disk 22 of its own node. At this time, the other nodes only have firmware that can be installed via the high-speed internal network 11. Or, just having an old version of OS or other software is not enough to operate the system. Therefore, next, the node (1) 2 finishes installing the software on its own node and data unique to each of the other nodes,
By transmitting the information to the node (2) 3 and the node (3) 4, etc., it is installed on the system disks 32 and 42 of the other nodes.
【0010】本発明の一実施例においては、並列計算機
としてのシステム立ち上げが可能になれば、本格的な並
列計算を始める前の、運用上のテストや計算規模を小さ
くした動作テストが可能になる点に着目し、先ず基本部
分だけ全ノードにインストールし、残りの拡張部分のイ
ンストール完了を待たずに、本格的な並列計算業務を実
行する前準備を開始することで、導入時間を短縮する。In one embodiment of the present invention, if a system as a parallel computer can be started, an operational test and an operation test with a reduced calculation scale before a full-scale parallel calculation is started can be performed. Focusing on this point, first install only the basic part on all nodes, and start preparation before executing full-scale parallel computing work without waiting for the completion of installation of the remaining extension parts, thereby shortening the introduction time .
【0011】図2は、インストールすべき全対象の、基
本部分と拡張部分との分類例である。基本部分に分類す
るOS核101は個々のノードコンピュータ装置が持つCPUや
メモリ等の資源を管理し、ノード制御111は目的のノー
ドの選択やノード間の通信機能等を持ち、いずれも並列
計算機のシステム起動には必須である。一方、拡張部分
に分類するOS拡張部102、コマンド103、およびライブラ
リ104は、ノードの起動時もノード制御時も必要はな
く、遅くともシステム起動後のテスト等で必要になった
時点で用意すれば良い。同様に、拡張部分に分類する並
列制御プログラムの実行モニタ112、通信ライブラリ11
3、および並列デバガ114も、並列計算プログラムのテス
ト等で必要になった時点で用意すれば良い。FIG. 2 is a classification example of a basic part and an extended part of all objects to be installed. The OS core 101 classified into the basic part manages resources such as CPU and memory of each node computer device, and the node control 111 has a function of selecting a target node and a communication function between nodes. Required for system startup. On the other hand, the OS extension unit 102, the command 103, and the library 104, which are classified into the extension part, are not required at the time of node startup or node control, and should be prepared at the latest at the time of testing after system startup. good. Similarly, the execution monitor 112 of the parallel control program classified into the extension part, the communication library 11
3, and the parallel debugger 114 may be prepared at the time when it becomes necessary in the test of the parallel calculation program or the like.
【0012】通常の場合、基本部分の量が拡張部分の量
に比べ僅かで、将来も拡張部分の増加量が基本部分の増
加量を遥かに凌ぐと予測できるので、請求項1の発明は
システム起動までにかかる時間を短縮できる。In the normal case, the amount of the basic part is small compared to the amount of the extended part, and it can be predicted that the increase of the extended part will far exceed the increase of the basic part in the future. The time required to start can be reduced.
【0013】本発明の他の実施例では、インストールし
ていない部分を残しているノードが、他ノードに対し未
インストール部分を送信するように要求して拡張部分が
インストールされる。拡張部分のインストールは、各ノ
ードに置いたインストール制御プログラムにより、イン
ストール管理簿とインストール対象ノード管理簿に従っ
て、業務のバックグラウンドで行われる。[0013] In another embodiment of the invention, the node leaving the non-installed part requests the other node to send the non-installed part, and the extended part is installed. The installation of the extension is performed in the background of the business by the installation control program placed in each node according to the installation management book and the installation target node management book.
【0014】図3は、拡張部分のインストールが完了し
ていない状態での動作例を示す。ノード(2)3のインスト
ール管理簿35は、チェック状態のOS拡張部、コマンド、
ライブラリ、および通信ライブラリをインストールして
おり、まだチェック状態でない実行モニタと並列デバガ
はインストールできていないことを示す。同様に、ノー
ド(3)4のインストール管理簿45はライブラリと通信ライ
ブラリのみのインストールが完了していることを示す。FIG. 3 shows an operation example in a state where the installation of the extension part has not been completed. The installation management book 35 of the node (2) 3 includes the checked OS extension unit, command,
Indicates that the library and communication library have been installed, and the execution monitor and parallel debugger that have not been checked yet have not been installed. Similarly, the installation management book 45 of the node (3) 4 indicates that the installation of only the library and the communication library has been completed.
【0015】まず、ノード(3)4のインストール制御プロ
グラム44は動作開始時に、インストール管理簿45と請求
項4の発明で使うインストール対象ノード管理簿46を読
み込み、サーバ管理簿47を合成する。サーバ管理簿47
は、インストール対象とそれを持つことが明らかなノー
ドを示す2次元配列で、インストール管理簿45とインス
トール対象ノード管理簿46がファイルの形態をとりカス
タマイズ可能であるのに対し、ファイル読み出しや解読
にかかるシステムの負担を削減させるために、インスト
ール制御プログラム44が処理し易いビットマップ形態を
とる。First, at the start of operation, the installation control program 44 of the node (3) 4 reads the installation management book 45 and the installation target node management book 46 used in the invention of claim 4, and synthesizes the server management book 47. Server management book 47
Is a two-dimensional array that indicates the installation target and the nodes that are supposed to have the installation target.The installation management book 45 and the installation target node management book 46 can be customized in the form of a file, while the file can be read and decrypted. In order to reduce the burden on such a system, a bitmap form is used which is easy for the installation control program 44 to process.
【0016】ノード(3)4のインストール制御プログラム
44は動作開始後や一定時間の休止後に、請求項8の発明
により自ノードの負荷状態を算出し、しきい値以下であ
ればサーバ管理簿47を調べる。(しきい値を超えていれ
ば一定時間休止し、再度インストールを試みる。)サー
バ管理簿47のOS拡張部と自ノードの交差部201をチェッ
クしていないことでインストールされていないことを知
り、次にサーバ管理簿47からサーバ候補の定義順にたど
り、当該サーバ候補とOS拡張部の交差部がチェックされ
ているサーバ候補を捜す。(この際にOS拡張部を持つサ
ーバ候補が見つかれば、当該ノードへOS拡張部の送信を
要求するインストール実行要求を送信しインストールを
開始する。)図3の例ではサーバ候補がノード(2)のみ
で、OS拡張部との交差部202がチェックされていないた
め、(全ての)サーバ候補がOS拡張部を持っていないと判
断し、実体確認の処理を開始する。図3の例ではノード
(3)4のインストール制御プログラム44がノード(2)3へOS
拡張部の実体確認要求を送信する。An installation control program for the node (3) 4
44 calculates the load status of its own node according to the invention of claim 8 after the operation starts or after a pause for a certain period of time, and checks the server management book 47 if it is below the threshold value. (If it exceeds the threshold value, it will pause for a certain period of time and try to install again.) Since it has not checked the intersection 201 between the OS extension part of the server management book 47 and its own node, it is known that it has not been installed, Next, the server candidate is searched from the server management book 47 in the order in which the server candidates are defined, and a server candidate whose intersection with the OS extension is checked is searched. (At this time, if a server candidate having an OS extension is found, an installation execution request for requesting transmission of the OS extension is transmitted to the node and installation is started.) In the example of FIG. 3, the server candidate is the node (2). Only at this point, the intersection 202 with the OS extension is not checked, so that it is determined that (all) server candidates do not have the OS extension, and the entity confirmation processing is started. In the example of Figure 3, the node
(3) Installation control program 44 of 4 is OS to node (2) 3
Sends a request for entity confirmation of the extension.
【0017】ノード(2)3のインストール制御プログラム
34はノード(3)4からの実体確認要求の受信を契機に、イ
ンストール管理簿35とインストール対象ノード管理簿36
から合成したサーバ管理簿37を、OS拡張部と自ノードの
交差部211がチェックされているか調べ、要求されたOS
拡張部を自ノードにインストールしていることを知り、
ノード(3)4へ要求された部分を送信できることを示すイ
ンストール可能応答を送信する。(もし、自ノードにOS
拡張部をインストールしていなければ、OS拡張部がない
ことを示す未インストール応答を送信する。) ノード(3)4のインストール制御プログラム44は、ノード
(2)3からインストール可能応答を受け、サーバ管理簿47
のOS拡張部とノード(2)の交差部202をチェックし、請求
項8の発明により自ノードの負荷状態を算出し、しきい
値を超えていれば一定時間休止し、しきい値以下であれ
ばノード(2)3へインストール実行要求を送信しインスト
ールを開始する。An installation control program for the node (2) 3
Reference numeral 34 designates an installation management list 35 and an installation target node management list 36 upon receipt of an entity confirmation request from the node (3) 4.
The server management book 37 synthesized from the above is checked whether the intersection 211 of the OS extension unit and the own node is checked, and the requested OS
Knowing that the extension is installed on its own node,
An installable response indicating that the requested part can be sent to the node (3) 4 is sent. (If your node has OS
If the extension has not been installed, a non-installation response indicating that there is no OS extension is transmitted. ) The installation control program 44 of the node (3) 4
(2) Receive the installable response from 3 and receive the server management
Check the intersection 202 of the OS extension unit and the node (2), calculate the load state of the own node according to the invention of claim 8, pause for a certain time if it exceeds the threshold, and If there is, an installation execution request is transmitted to the node (2) 3 to start the installation.
【0018】ノード(2)3のインストール制御プログラム
34はノード(3)4からのインストール実行要求の受信を契
機に、請求項8の発明により自ノードの負荷状態を算出
し、しきい値を超えていればビジー応答を送信し、しき
い値以下であれば、要求された部分を送信し始める。送
信する部分が小規模な場合は、全ての部分を一度に送信
するが、規定量を超える場合は請求項7の発明により規
定量を超えた後の分割単位送信後にその時点の負荷を請
求項8の発明により算出し、しきい値を超えているとイ
ンストール中止通知を送信しインストールを中止する。
しきい値以下であれば残りの部分を送信し続ける。本発
明の一実施例においては、ノード(3)4のインストール制
御プログラム44でも働き、規定量を超える受信の後その
時点の負荷を請求項8の発明により算出し、しきい値を
超えているとインストール中止通知をノード(2)3へ送信
しインストールを中止する。ノード(2)3のインストール
制御プログラム34はインストール中止通知を受信する
と、インストール処理を即座に中止する。An installation control program for the node (2) 3
34 calculates the load state of its own node according to the invention of claim 8 upon receiving the installation execution request from the node (3) 4, and if it exceeds the threshold value, transmits a busy response; If so, start transmitting the requested part. When the transmitting portion is small, all the portions are transmitted at one time, but when the transmitting amount exceeds the prescribed amount, the load at that time is transmitted after the division unit transmission after exceeding the prescribed amount according to the invention of claim 7. In the invention according to the eighth aspect, if the threshold value is exceeded, an installation stop notice is transmitted and the installation is stopped.
If it is equal to or less than the threshold value, the remaining part is continuously transmitted. In one embodiment of the present invention, the installation control program 44 of the node (3) 4 also operates, and after the reception exceeding the prescribed amount, the load at that time is calculated by the invention of claim 8, and the load is exceeded. And the installation stop notification is sent to the node (2) 3 to stop the installation. Upon receiving the installation stop notification, the installation control program 34 of the node (2) 3 immediately stops the installation process.
【0019】ノード(3)4のインストール制御プログラム
44は未インストールの部分ごとに、サーバ候補ノードへ
定義順にOS拡張部の実体確認要求を送信し、応答を受け
取ることを繰り返す。あるサーバ候補のノードから要求
した部分を持たないことを示す未インストール応答を受
信したり、インストール可能応答を受信してもインスト
ール開始要求に対し当該ノードが過負荷状態であること
を示すビジー応答を受信したり、インストール処理中に
当該ノードの負荷が増加したことを示すインストール中
止通知を受信したりすると、サーバ候補を次のノードに
変え、全てのサーバ候補を一通り調べ終わると、未イン
ストール部分の残りがなくなるまで上記を繰り返し、そ
の後一定時間休止する。また自らがインストール中止通
知を送信した場合は、その後一定時間休止する。An installation control program for the node (3) 4
The reference numeral 44 repeats transmitting the entity confirmation request of the OS extension unit to the server candidate node in the order of definition for each part not yet installed, and receiving the response. If a non-install response is received from a candidate server node indicating that it does not have the requested part, or a busy response indicating that the node is overloaded is received in response to an installation start request even if an installable response is received. When the server candidate is received or an installation stop notification indicating that the load on the node has increased during the installation process is received, the server candidate is changed to the next node. The above is repeated until there is no residue, and then the operation is paused for a certain time. If the user himself / herself has transmitted the installation stop notification, the operation is suspended for a certain period of time thereafter.
【0020】また本発明の他の実施例においては、イン
ストールの全てを完了したノードが、クライアント候補
の全ノードへインストール可能通知を送信し、クライア
ントとサーバとで行う実態確認要求とインストール可能
応答の送受信を削減し、かつインストール制御プログラ
ムを停止する契機を判断するためのものである。In another embodiment of the present invention, the node that has completed the installation transmits an installable notification to all the client candidate nodes, and sends a request for an actual status check and an installable response to be performed between the client and the server. The purpose is to reduce the number of transmissions and receptions, and to determine the opportunity to stop the installation control program.
【0021】図4は、インストールの全てを完了したノ
ード(2)3が、クライアント候補のノード(3)4へインスト
ール可能通知を送信する例である。図3ではインストー
ル管理簿35とインストール対象ノード管理簿36のサーバ
候補からサーバ管理簿37を合成する例を示したが、図4
の例ではインストール対象ノード管理簿36のクライアン
ト対象からクライアント管理簿38を生成している。内容
はクライアント候補からインストール完了通知を受信し
たか否かを記録するものである。クライアント候補のノ
ード(3)用のチェックボックス301がチェックされていな
い状態は、ノード(3)4からインストール完了通知を受信
していない状態を示す。これは、クライアント管理簿38
のクライアント候補の全てからインストール完了通知を
受信すると、当該ノードがサーバとして存在する必要は
なく、インストール制御プログラム34を停止して良いこ
とを知るために使う。FIG. 4 shows an example in which the node (2) 3 that has completed the entire installation transmits an installable notification to the client candidate node (3) 4. FIG. 3 shows an example in which the server management book 37 is synthesized from the server candidates of the installation management book 35 and the installation target node management book 36.
In the example, the client management book 38 is generated from the client object of the installation target node management book 36. The contents record whether or not an installation completion notification has been received from the client candidate. The state in which the check box 301 for the client candidate node (3) is not checked indicates that the installation completion notification has not been received from the node (3) 4. This is the client management book 38
When the installation completion notification is received from all the client candidates, the node does not need to exist as a server, and is used to know that the installation control program 34 may be stopped.
【0022】ノード(2)3のインストール制御プログラム
34が唯一未インストールの並列デバガをインストールし
終えると、インストール管理簿35の並列デバガのチェッ
クボックスと、サーバ管理簿37の自ノードと並列デバガ
の交差部302をチェックし、自ノードのインストール対
象の全てがチェック状態になったかを調べ、そうなった
場合は、サーバ候補のノードの全てへクライアントとし
てインストール完了通知を送信し、サーバとしてクライ
アント管理簿38の全てのクライアント候補へインストー
ル可能通知を送信する。図4の例では、ノード(1)へイン
ストール完了通知をノード(3)4へインストール可能通知
を送信する。Installation control program for node (2) 3
When 34 completes the installation of the only uninstalled parallel debugger, it checks the parallel debugger checkbox in the installation management book 35 and the intersection 302 of its own node and parallel debugger in the server management book 37, and checks the installation target of its own node. It checks whether all are in the checked state, and if so, sends an installation completion notification as a client to all of the server candidate nodes, and sends an installable notification to all the client candidates in the client management book 38 as a server. . In the example of FIG. 4, an installation completion notification is transmitted to the node (1) and an installation enable notification is transmitted to the node (3) 4.
【0023】ノード(3)4のインストール制御プログラム
44は、インストール可能通知を受信したらサーバ管理簿
47の通知元ノード(2)3のチェックボックスの全て311を
チェック状態にする。この後、ノード(3)4が並列デバガ
をインストールするためのサーバを決める処理で、ノー
ド(2)3と実体確認要求とインストール可能応答を送受信
しないで済む。Installation control program for node (3) 4
44 is the server management book when the installable notification is received
Check all the check boxes 311 of the 47 notification source nodes (2) 3. Thereafter, the node (3) 4 does not need to transmit and receive the entity confirmation request and the installable response with the node (2) 3 in the process of determining the server for installing the parallel debugger.
【0024】ノード(3)4のインストール制御プログラム
44が唯一未インストールの並列デバガをインストールし
終えると、インストール管理簿45の並列デバガのチェッ
クボックスと、サーバ管理簿47の自ノードと並列デバガ
の交差部312をチェックし、自ノードのインストール対
象の全てがチェック状態になったため、サーバ候補のノ
ードへノード(2)3へインストール完了通知を送信し、ノ
ード(3)4はインストール対象ノード管理簿46にクライア
ント候補を持たず、クライアント管理簿の実体を作らな
いためインストール可能通知は送信しない。また、イン
ストールが完了し、サービスすべきクライアントも存在
しないため、インストール制御プログラム44は停止す
る。Installation control program for node (3) 4
When 44 finishes installing the only non-installed parallel debugger, it checks the parallel debugger check box in the installation management book 45 and the intersection 312 of the own node and the parallel debugger in the server management book 47, and checks the installation target of the own node. Since all are in the checked state, the installation completion notification is sent to the node (2) 3 to the server candidate node, and the node (3) 4 does not have the client candidate in the installation target node management book 46, and the entity of the client management book Do not send installable notifications. Further, since the installation is completed and there is no client to be serviced, the installation control program 44 stops.
【0025】ノード(2)3のインストール制御プログラム
34は、インストール完了通知を受信したらクライアント
管理簿38の通知元ノード(3)4のチェックボックス301を
チェック状態にし、クライアント管理簿38の全てのチェ
ックボックスがチェック状態になると、インストールが
完了し、サービスすべきクライアントも存在しないため
停止する。An installation control program for the node (2) 3
34, when the installation completion notification is received, the check box 301 of the notification source node (3) 4 of the client management book 38 is checked, and when all the check boxes of the client management book 38 are checked, the installation is completed, Stop because there are no clients to service.
【0026】請求項5の発明は、拡張部分のインストー
ルが完了していなくても計算規模を縮退してテストする
ことを可能にするものである。並列ジョブを投入したノ
ードにあるノード管理機能が、システム内のノードを割
り当てる際に、各ノードのインストール管理簿のチェッ
ク状態を調べ、並列ジョブの実行に必要な拡張部分のイ
ンストールが完了しているノードのみを割り当てる。た
だし、インストールを完了しているノード数が必要量に
満たないとノードを割り当てられないため、次に説明す
る本発明の一実施例も必要になる場合がある。The invention of claim 5 makes it possible to reduce the computational scale and perform the test even if the installation of the extension part is not completed. When allocating nodes in the system, the node management function of the node that submitted the parallel job checks the check status of the installation management list of each node and completed the installation of the extension necessary for executing the parallel job Assign only nodes. However, if the number of nodes for which installation has been completed is less than the required amount, nodes cannot be assigned, and therefore, an embodiment of the present invention described below may also be required.
【0027】本発明の一実施例では、並列ジョブが必要
とするノード数を確保するためのもので、請求項5の発
明を使っても必要なノード数が確保できない場合、ノー
ド管理機能がインストールのクライアント候補のノード
を決定し、当該ノードへ強制インストール要求を送信す
る。In one embodiment of the present invention, the number of nodes required for a parallel job is secured. If the required number of nodes cannot be secured even by using the invention of claim 5, the node management function is installed. Is determined, and a forced installation request is transmitted to the node.
【0028】例えば、図3のノード(3)4のインストール
管理簿45では並列デバガより前に未インストールのOS拡
張部、コマンド、実行モニタが存在しており、インスト
ール制御プログラム44がこれらを先にインストールしよ
うする確率が大きい。ノード(3)4のインストール制御プ
ログラム44が強制インストール要求の受信を契機に動作
する場合、要求された部分のみをインストールするよう
にサーバを捜す。この結果、ノード(3)4の負荷がしきい
値を超えていたらビジー応答を即時、サーバ候補のいず
れもが未インストール状態であれば未インストール応答
をサーバ候補との送受信時間だけ経過後、インストール
途中でノード(3)4かサーバのノード(2)3のいずれかの負
荷がしきい値を超えた場合、未インストール応答を送受
信に費やした時間だけ経過した後に応答する。要求され
た部分のインストールが完了したら、インストール完了
応答を強制インストール要求の送信元に送信する。For example, in the installation management book 45 of the node (3) 4 in FIG. 3, an uninstalled OS extension, command, and execution monitor exist before the parallel debugger, and the installation control program 44 precedes them. The probability of trying to install is large. When the installation control program 44 of the node (3) 4 operates upon receipt of the forced installation request, the server is searched to install only the requested part. As a result, if the load on the node (3) 4 exceeds the threshold value, a busy response is immediately sent. If the load on either the node (3) 4 or the node (2) 3 of the server exceeds the threshold value on the way, the response is made after the time spent for transmitting and receiving the non-installed response has elapsed. When the installation of the requested part is completed, an installation completion response is sent to the source of the forced installation request.
【0029】並列ジョブを投入したノードにあるノード
管理機能は、不足分のノード数に見合った(失敗を見越
して、多めに強制インストール要求を送信しても構わな
い)数のノードに、同時に強制インストール要求を送信
し、特定の監視時間または不足分のノード数に見合った
数のインストール完了応答を受信するまで、応答を待
つ。特定の監視時間が経過しても不足分が残る場合は、
並列ジョブを異常終了させる。The node management function of the node to which the parallel job has been submitted is simultaneously forced to the number of nodes corresponding to the insufficient number of nodes (a forced installation request may be transmitted more in anticipation of failure). It sends an installation request and waits for a response until it receives the number of installation completion responses for a specific monitoring time or number of missing nodes. If the shortage remains after a certain monitoring period,
Abnormally terminate a parallel job.
【0030】皿日本発明の他の実施例においては、ノー
ドの負荷をインストール処理で使うCPU、システムディ
スクが接続されるチャネルやアダプタ、および高速内部
ネットワークを構成する通信回線の3種類の資源に対し
測定し、それぞれの資源の重要度に合った重み付けで同
じ単位に正規化した一つの数値にし、しきい値と比較し
てインストールの実行可否を判断するものである。負荷
の測定機構はOSが統計情報記録機構等として備えている
場合がく既知の技術であり、OSが備えていなくても測定
開始時刻:Tsを記録し、占有時間の累積:Σを0にして、
資源の割り当て処理で割り当て時刻:Taと資源の解放時
刻:Tfを測定し、占有時間:Tf−TaをΣに累積していき、
測定終了つまり次の測定開始時刻に、時刻:Teから測定
時間をTe−Tsで算出し、Σと測定時間の商をその資源の
ビジー率として算出する等で、4種類の時刻を計測し加
工することで容易に実現できる。In another embodiment of the present invention, three types of resources are used: a node load, a CPU used in an installation process, a channel and an adapter connected to a system disk, and a communication line constituting a high-speed internal network. This is measured, made into one numerical value normalized to the same unit by weighting that matches the importance of each resource, and compared with a threshold to determine whether or not the installation can be executed. The load measurement mechanism is a well-known technique that the OS is equipped with as a statistical information recording mechanism, etc., even if the OS is not provided, the measurement start time: Ts is recorded, and the occupation time accumulation: に し て is set to 0 ,
In the resource allocation process, the allocation time: Ta and the release time of the resource: Tf are measured, and the occupation time: Tf−Ta is accumulated in Σ,
At the end of measurement, that is, at the next measurement start time, four types of time are measured and processed, such as calculating the measurement time from the time: Te using Te-Ts and calculating the quotient of Σ and the measurement time as the busy rate of the resource. Can be easily realized.
【0031】資源ごとの負荷:L1、L2、L3を測定し、資
源固有の重み:W1、W2、W3との積の和:L1×W1+L2×W2+
L3×W3をしきい値と比較するため、個々の負荷の単位、
測定方法が異なっても重みの単位を調整して、全ての積
を同じ単位に正規化できる。しきい値の単位は正規化さ
れた単位に合わせれば良い。Load for each resource: L1, L2, L3 is measured, and a resource-specific weight: sum of products of W1, W2, and W3: L1 × W1 + L2 × W2 +
To compare L3 x W3 with the threshold, the unit of each load,
Even if the measurement method is different, the unit of the weight can be adjusted to normalize all products to the same unit. The unit of the threshold may be the same as the normalized unit.
【0032】以上の実施例によれば、本格的な計算業務
を開始するまでの時間を短縮する現実的な解法であり、
本格的な計算業務を開始するシステム前には様々な運用
上のテストや前準備が存在する前提で、これらと拡張部
分のインストールを並行させ、見かけ上の拡張部分のイ
ンストール時間を隠す効果を有する。According to the above embodiment, there is provided a practical solution for shortening the time required for starting full-scale calculation work.
Assuming that there are various operational tests and preparations before the system that starts full-scale calculation work, this has the effect of parallelizing the installation of these and the extension, and hiding the apparent installation time of the extension. .
【0033】一つのノードにインストールする時間をT
i、全てのノード数をnとすると、インストールを全て完了
させるには最長Ti×nかかる計算である。(n人が同時に
インストールを行えば時間はTiに短縮できるが非現実的
である。)これに対し、本発明が最良の条件で動作するケ
ース、つまりインストールを完了したノードが次々にサ
ーバとなる場合は、図5に示すとおり、n=2のk-1乗ノード
のインストールを全て完了させるにはTi×k=Ti×{1+l
og2(n)}かかる計算になる。(log2は2を底とする対数と
する)この場合、最も多くクライアント候補を持つノード
(1)でもk-1=log2(n)ノードを相手にすれば良い。例え
ば、1ノードのインストールに1時間かかり、1,024ノード
のインストールを完了させる場合、1ノードずつインスト
ールしていくと1,024時間(43日間)かかるが、インストー
ルを完了したノードが次々にサーバになれば11時間かか
るだけである。The time to install on one node is T
Assuming that i and the number of all nodes are n, the calculation takes the longest Ti × n to complete the installation. (If n people install at the same time, the time can be reduced to Ti, but it is unrealistic.) In contrast, the case where the present invention operates under the best conditions, that is, nodes that have completed installation become servers one after another In this case, as shown in FIG. 5, Ti × k = Ti × {1 + 1
og2 (n)}. (log2 is a logarithm with base 2) In this case, the node with the most client candidates
Even in (1), it suffices that k-1 = log2 (n) node be the partner. For example, if it takes one hour to install one node and complete the installation of 1,024 nodes, installing one node at a time takes 1,024 hours (43 days), but if the nodes that have completed installation become servers one after another, 11 It only takes time.
【0034】上記の例のような台数効果を現実の機器構
成で得るには、インストールの最終段階で高速内部ネッ
トワーク上で全ノードが送受信できる能力を持つ必要が
ある。並列計算機はその目的からそのような高速セット
ワークを備えているが、計算機同士を通常の通信回線で
接続したコンピュータネットワークでは、通信化緯線の
能力に制限されてしまう。ただし、本発明を使用するこ
とで、負荷集中によるデッドロックが回避できる。In order to obtain the number-of-units effect as in the above example with an actual device configuration, it is necessary that all nodes have a capability of transmitting and receiving on the high-speed internal network at the final stage of installation. The parallel computer is provided with such a high-speed network for the purpose, but in a computer network in which computers are connected to each other by a normal communication line, the capability is limited to the capacity of the communication latitude. However, by using the present invention, deadlock due to load concentration can be avoided.
【0035】[0035]
【発明の効果】上記の通り本発明は、インストール対象
の分別、及び処理の並列化でインストール時間を短縮す
るものである。As described above, according to the present invention, the installation time is reduced by separating the installation targets and parallelizing the processing.
【図1】図1は本発明の対象となる並列計算機システム
が、各自独立したシステムディスクを持つノード間を高
速内部ネットワークで接続された形態であることを示す
構成図である。FIG. 1 is a configuration diagram showing that a parallel computer system to which the present invention is applied is configured such that nodes having independent system disks are connected by a high-speed internal network.
【図2】図2はインストールすべき対象を基本部分と拡
張部分に分類する例を示す図である。FIG. 2 is a diagram illustrating an example in which a target to be installed is classified into a basic part and an extended part;
【図3】図3はインストールのクライアントとなるノー
ドからサーバ候補のノードと交渉してインストールを行
う動作を説明するための一例を説明する図である。FIG. 3 is a diagram illustrating an example for explaining an operation of negotiating with a node serving as a server candidate from a node serving as an installation client and performing installation;
【図4】図4はインストールのサーバと成り得るノード
からクライアント候補のノードへサーバを捜す交渉を削
減する通知を渡す動作、及びインストール制御プログラ
ムの停止動作を説明するための一例を説明する図であ
る。FIG. 4 is a diagram illustrating an example for explaining an operation of passing a notification for reducing negotiation for searching for a server from a node that can be a server for installation to a client candidate node, and an operation of stopping an installation control program; is there.
【図5】図5はインストールを完了したノードが次々に
サーバになっていく動作を示し、本発明の効果を説明す
る図である。。FIG. 5 is a diagram illustrating an operation in which a node that has completed installation becomes a server one after another, and illustrates an effect of the present invention. .
1…並列計算機システム 11…高速内部ネットワーク 2…ノード(1) 21…ノードコンピュータ装置(1) 22…(ノード(1)の)システムディスク 23…インストール用デバイス 3…ノード(2) 32…(ノード(2)の)システムディスク 35…(ノード(2)の)インストール管理簿 36…(ノード(2)の)インストール対象ノード管理簿 37…(ノード(2)の)サーバ管理簿 38…(ノード(2)の)クライアント管理簿 4…ノード(3) 42…(ノード(3)の)システムディスク 44…(ノード(3)の)インストール制御プログラム 45…(ノード(3)の)インストール管理簿 46…(ノード(3)の)インストール対象ノード管理簿 47…(ノード(3)の)サーバ管理簿 5…ノード(4) 52…(ノード(4)の)システムディスク 6…ノード(n-1) 62…(ノード(n-1)の)システムディスク 7…ノード(n) 72…(ノード(n)の)システムディスク 101…OS核 102…OS拡張部 103…コマンド 104…ライブラリ 111…ノード制御(プログラム) 112…実行モニタ 113…通信ライブラリ 114…並列デバガ 201…ノード(3)にOS拡張部がインストールされているか
否かのチェックボックス 202…ノード(2)にOS拡張部がインストールされているか
否かのチェックボックス 211…ノード(2)にOS拡張部がインストールされているか
否かのチェックボックス 301…ノード(3)がインストールを全て完了しているか否
かのチェックボックス 302…ノード(2)に並列デバガがインストールされている
か否かのチェックボックス 311…ノード(2)にインストールされている部分のチェッ
クボックスの全て 312…ノード(3)に並列デバガがインストールされている
か否かのチェックボックス1 ... Parallel computer system 11 ... High-speed internal network 2 ... Node (1) 21 ... Node computer device (1) 22 ... System disk (of node (1)) 23 ... Installation device 3 ... Node (2) 32 ... (Node (2) System disk 35 ... (Node (2)) installation management book 36 ... (Node (2)) installation target node management book 37 ... (Node (2)) server management book 38 ... (Node (2) 2)) Client management book 4 ... Node (3) 42 ... (Node (3)) system disk 44 ... (Node (3)) installation control program 45 ... (Node (3)) installation management book 46 ... Installed node management book (of node (3)) 47 ... Server management book (of node (3)) 5 ... Node (4) 52 ... System disk (of node (4)) 6 ... Node (n-1) 62 ... System disk (of node (n-1)) 7 ... Node (n) 72 ... System disk (of node (n)) 101 ... OS core 102 ... OS extension 103 ... Command 104: library 111: node control (program) 112: execution monitor 113: communication library 114: parallel debugger 201: check box as to whether the OS extension is installed in the node (3) 202: to the node (2) Check box for whether or not the OS extension is installed 211 ... Check box for whether or not the OS extension is installed in node (2) 301 ... Whether or not all the installations for node (3) are completed Check box 302: Check box as to whether or not parallel debugger is installed in node (2) 311: All check boxes of parts installed in node (2) 312 ... Parallel debugger is installed in node (3) Check box for whether or not
───────────────────────────────────────────────────── フロントページの続き (72)発明者 津野 洋明 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内 (72)発明者 峯岸 正明 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Hiroaki Tsuno 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture Inside the Software Development Division of Hitachi, Ltd. (72) Masaaki Minegishi 6-chome Onoecho, Naka-ku, Yokohama-shi, Kanagawa 81 Hitachi Software Engineering Co., Ltd.
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10095690AJPH11296349A (en) | 1998-04-08 | 1998-04-08 | Parallel installation method for parallel computers |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10095690AJPH11296349A (en) | 1998-04-08 | 1998-04-08 | Parallel installation method for parallel computers |
| Publication Number | Publication Date |
|---|---|
| JPH11296349Atrue JPH11296349A (en) | 1999-10-29 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10095690APendingJPH11296349A (en) | 1998-04-08 | 1998-04-08 | Parallel installation method for parallel computers |
| Country | Link |
|---|---|
| JP (1) | JPH11296349A (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002175130A (en)* | 2000-12-07 | 2002-06-21 | Toshiba Corp | Parallel computer and parallel computer system |
| US6721612B2 (en) | 2000-03-23 | 2004-04-13 | Hitachi, Ltd. | Method and system for installing program in parallel computer system |
| US7143189B2 (en)* | 2001-01-24 | 2006-11-28 | Microsoft Corporation | System and method for incremental and reversible data migration and feature deployment |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6721612B2 (en) | 2000-03-23 | 2004-04-13 | Hitachi, Ltd. | Method and system for installing program in parallel computer system |
| JP2002175130A (en)* | 2000-12-07 | 2002-06-21 | Toshiba Corp | Parallel computer and parallel computer system |
| US7143189B2 (en)* | 2001-01-24 | 2006-11-28 | Microsoft Corporation | System and method for incremental and reversible data migration and feature deployment |
| US7167914B2 (en)* | 2001-01-24 | 2007-01-23 | Microsoft Corporation | System and method for incremental and reversible data migration and feature deployment |
| Publication | Publication Date | Title |
|---|---|---|
| US10044882B2 (en) | Agent device, image-forming-device management system, image-forming-device management method, image-forming-device management program, and storage medium | |
| Elmroth et al. | Grid resource brokering algorithms enabling advance reservations and resource selection based on performance predictions | |
| KR100998391B1 (en) | Computer-readable storage media and systems for establishing regulations governing data processing systems | |
| CN113886069B (en) | Resource allocation method, device, electronic device and storage medium | |
| US20030135617A1 (en) | Intelligent system control agent | |
| US7003769B1 (en) | System diagnosis apparatus, system diagnosis method and computer-readable recording medium recording system diagnosis program | |
| CN107430526B (en) | Method and node for scheduling data processing | |
| CN114721824A (en) | A resource allocation method, medium and electronic device | |
| CN114546587A (en) | A method for expanding and shrinking capacity of online image recognition service and related device | |
| JP4677813B2 (en) | Server performance measurement method, server performance measurement system, and computer program used therefor | |
| CA2442795A1 (en) | Software license optimization | |
| JPH11296349A (en) | Parallel installation method for parallel computers | |
| JP6679201B1 (en) | Information processing apparatus, information processing system, program, and information processing method | |
| JP5045576B2 (en) | Multiprocessor system and program execution method | |
| US20060250970A1 (en) | Method and apparatus for managing capacity utilization estimation of a data center | |
| JP2002342098A (en) | Management apparatus, data processing system, management method, and program for causing computer to execute management method | |
| JPWO2005116832A1 (en) | Computer system, method and program for controlling job execution in a distributed processing environment | |
| WO2022222975A1 (en) | Load processing method, calculation node, calculation node cluster, and related device | |
| KR100625867B1 (en) | Device, system and method for analyzing, extracting, storing, managing, and statistics information about programs installed, running, or in use on the computer, and computer-readable recording media that program them. | |
| JP5751372B2 (en) | Data processing system, computer program thereof, and data processing method | |
| US8180846B1 (en) | Method and apparatus for obtaining agent status in a network management application | |
| JP3003596B2 (en) | Client server system | |
| CN115509750B (en) | A task allocation method, device and storage medium | |
| JPH11143838A (en) | Distributed processing system | |
| CN110602220B (en) | Task allocation method and device, electronic equipment and computer readable storage medium |