[go: up one dir, main page]

JP3976275B2 - Non-interventional dynamic hot plug and hot removal of server nodes in SMP - Google Patents

Non-interventional dynamic hot plug and hot removal of server nodes in SMP Download PDF

Info

Publication number
JP3976275B2
JP3976275B2 JP2004131849A JP2004131849A JP3976275B2 JP 3976275 B2 JP3976275 B2 JP 3976275B2 JP 2004131849 A JP2004131849 A JP 2004131849A JP 2004131849 A JP2004131849 A JP 2004131849A JP 3976275 B2 JP3976275 B2 JP 3976275B2
Authority
JP
Japan
Prior art keywords
processing unit
data processing
processing system
configuration
hot plug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004131849A
Other languages
Japanese (ja)
Other versions
JP2004326808A (en
Inventor
ラヴィ・クマル・アリミリ
マイケル・スティーブン・フロイド
ケヴィン・フランクリン・リック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004326808A publication Critical patent/JP2004326808A/en
Application granted granted Critical
Publication of JP3976275B2 publication Critical patent/JP3976275B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/10Program control for peripheral devices
    • G06F13/12Program control for peripheral devices using hardware independent of the central processor, e.g. channel or peripheral processor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Stored Programmes (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Description

本発明は、一般にデータ処理システムに関し、具体的には、データ処理システムのホットプラグ可能なコンポーネントに関する。更に具体的には、本発明は、対称マルチプロセッサ(SMP)データ処理システムのプロセッサノードの非介入ホットプラグ拡張および縮小を可能とする方法、システム、およびデータ処理システム構成に関する。   The present invention relates generally to data processing systems and, more particularly, to hot-pluggable components of data processing systems. More specifically, the present invention relates to a method, system, and data processing system configuration that enables non-intervening hot plug expansion and reduction of processor nodes of a symmetric multiprocessor (SMP) data processing system.

個人用および商用の双方において、より優れた、リソースの豊富なデータ処理システムが要望されていることによって、業界では、顧客利用のために設計されているシステムの改善が続いている。一般に、商用および個人用の双方において、プロセッサの高速化、上位レベルキャッシュの増大、読み取り専用メモリ(ROM)の大容量化、ランダムアクセスメモリ(RAM)スペースの増大等に焦点を当てて改善が行われている。   The need for better, resource-rich data processing systems, both personal and commercial, continues to improve systems designed for customer use in the industry. In general, for both commercial and personal use, improvements have been made with a focus on faster processors, higher-level cache, larger read-only memory (ROM), and increased random access memory (RAM) space. It has been broken.

顧客の要望を満たすためには、顧客が、ハードウエアリソースを含めて、追加のリソースによって既存のシステムを向上または拡張可能であることが必要である。例えば、CD−ROMを搭載したコンピュータを有する顧客は、後に、DVDドライブに「アップグレード」したり、DVDドライブを追加したりしようとする場合がある。あるいは、顧客は、64KバイトメモリのPentium1プロセッサを有するシステムを購入し、後に、チップをPentium3チップにアップグレード/変更して、メモリ容量を256Kバイトに増大させようとする場合がある。   To meet customer demands, customers need to be able to enhance or extend existing systems with additional resources, including hardware resources. For example, a customer who has a computer with a CD-ROM may later try to “upgrade” to a DVD drive or add a DVD drive. Alternatively, a customer may purchase a system with a Pentium 1 processor with 64K bytes of memory and later upgrade / change the chip to a Pentium 3 chip to increase the memory capacity to 256K bytes.

現在のデータ処理システムは、わずかな努力でシステムのハードウエア構成にこれらの基本的な変更を加えられるように設計されている。当業者には既知であるように、プロセッサやメモリをアップグレードするには、コンピュータの外箱を外して、マザーボード上で利用可能なプロセッサデッキまたはメモリスロットに新しいチップまたはメモリスティックを「留める」ことが必要である。同様に、DVDプレーヤは、マザーボード上の内部入出力(I/O)ポートの1つに接続することができる。システムによっては、外部DVDドライブを、シリアルポートまたはUSBポートの1つに接続することも可能である。   Current data processing systems are designed to make these basic changes to the system hardware configuration with little effort. As is known to those skilled in the art, to upgrade a processor or memory, the computer's outer box can be removed and the new chip or memory stick can be "fastened" in an available processor deck or memory slot on the motherboard. is necessary. Similarly, a DVD player can be connected to one of the internal input / output (I / O) ports on the motherboard. In some systems, an external DVD drive can be connected to one of the serial port or USB port.

更に、特に商用システムでは、処理リソースを増やすこと、すなわち、現在のプロセッサをもっと高速なものと置換するのではなく、同じ処理システムを更にいくつか購入し、それらを共にリンクさせて全体の処理能力を高くすることを含む改善が行われている。最新の商用システムは、単一のシステムにおいて多数のプロセッサを有するように設計されている。多くの商用システムは、分散型またはネットワーク化システムであり、多数の個別のシステムが互いに相互接続され、処理タスク/作業負荷を共有している。しかしながら、これらの「大規模」商用システムであっても、顧客の要望が変化すれば、頻繁にアップグレードまたは拡張を行わなければならない。   In addition, especially in commercial systems, rather than increasing processing resources, ie replacing current processors with faster ones, you can purchase several more identical processing systems and link them together to get the overall processing power Improvements have been made, including increasing Modern commercial systems are designed to have multiple processors in a single system. Many commercial systems are distributed or networked systems, where many individual systems are interconnected with each other and share processing tasks / workloads. However, even these “large” commercial systems must be upgraded or expanded frequently as customer demands change.

とりわけ、システムをアップグレードまたは変更する場合、特に内部に追加したコンポーネントについては、インストールを完了する前にシステムの電源を切る必要があることが多い。しかしながら、外部に接続したI/Oコンポーネントでは、システムを起動し実行している間に、単にコンポーネントをプラグインすれば良い場合がある。コンポーネントを追加する(内部追加または外部追加)ために用いる方法には無関係に、システムは、ファブリックと呼ばれる接続機構に関連した論理を含み、これによって、追加のハードウエアが追加されたこと、または単にシステム構成の変更が行われたことを認識する。次いで、この論理は、ユーザにプロンプトを出力して(または自動的に)、システム構成のアップグレードを開始させ、必要な場合には、必要なドライバをロードして新しいハードウエアのインストールを完了することができる。とりわけ、システム構成のアップグレードは、システムからコンポーネントを除去する場合にも必要である。   In particular, when upgrading or changing the system, it is often necessary to power down the system before completing the installation, especially for internally added components. However, for externally connected I / O components, it may be sufficient to simply plug in the components while the system is up and running. Regardless of the method used to add the component (internal addition or external addition), the system includes logic associated with a connection mechanism called a fabric, which allows additional hardware to be added, or simply Recognize that the system configuration has changed. This logic then prompts the user (or automatically) to initiate a system configuration upgrade and, if necessary, loads the necessary drivers to complete the installation of the new hardware. Can do. In particular, system configuration upgrades are also necessary when removing components from the system.

新しいI/Oハードウエアをデータ処理システムによってほぼ即座に利用可能とするプロセスは、当技術分野では一般に「プラグアンドプレイ」と呼ばれている。この現システムの機能によって、いったんコンポーネントが認識され、適切な動作のために必要なドライバ等がインストールされると、システムは自動的に、システムによるコンポーネントの利用を可能とする。   The process of making new I / O hardware available almost immediately by a data processing system is commonly referred to in the art as “plug and play”. With the function of the current system, once a component is recognized and a driver or the like necessary for proper operation is installed, the system can automatically use the component by the system.

図1は、商用SMPを示す。これは、第1プロセッサ101、第2プロセッサ102、メモリ104、および入出力(I/O)デバイス106を備え、これらは全て相互接続機構108によって接続されている。相互接続機構108は、ワイヤおよび制御論理を含み、これによって、コンポーネント間の通信をルーティングすると共に、ハードウエア構成における変更に対するMP100の応答を制御する。このため、新しいハードウエアコンポーネントは、相互接続機構108を介して既存のコンポーネントにも(直接的または間接的に)接続される。   FIG. 1 shows a commercial SMP. It comprises a first processor 101, a second processor 102, a memory 104, and an input / output (I / O) device 106, all connected by an interconnect mechanism 108. The interconnect mechanism 108 includes wires and control logic, thereby routing communications between components and controlling the MP 100 response to changes in hardware configuration. Thus, new hardware components are also connected (either directly or indirectly) to existing components via the interconnect mechanism 108.

図1に例示するように、MP100は、点線で示される論理パーティション110(すなわちソフトウエアによって実施されるパーティション)を備え、これが、第2プロセッサ102から第1プロセッサ101を論理的に分けている。MP100内で論理パーティション110を利用することによって、第1プロセッサ101および第2プロセッサ102は、互いに独立して動作することができる。また、論理パーティション110は、他のプロセッサの動作問題およびダウンタイムから各プロセッサを実質的に遮断する。   As illustrated in FIG. 1, the MP 100 includes a logical partition 110 (that is, a partition implemented by software) indicated by a dotted line, which logically separates the first processor 101 from the second processor 102. By using the logical partition 110 in the MP 100, the first processor 101 and the second processor 102 can operate independently of each other. In addition, the logical partition 110 substantially isolates each processor from other processor operating problems and downtime.

SMP100等の商用システムは、上述のように、顧客の要望を満たすように拡張することができる。更に、商用システムに対する変更は、コンポーネントが故障して、システムがフルに動作することができなくなったり、最悪の場合には動作不能になった場合に行われることもある。その場合は、故障したコンポーネントを取り替えなければならない。ある顧客は、システムの製造業者/供給業者に、必要な修理またはアップグレードの管理を依頼する。他の顧客は、サービス技術者(または技術サポート員)を採用する。そのようなサービス技術者の主な仕事は、確実にシステムを機能させること、ならびに、顧客の社員がシステムにアクセスする能力およびシステムが処理時間に影響を受けやすい作業を継続する能力を大きく損ねることなく、システムに必要なアップグレードや修理を完了させることである。   Commercial systems such as SMP 100 can be expanded to meet customer demands as described above. In addition, changes to commercial systems may be made when a component fails and the system becomes unable to operate fully or, in the worst case, becomes inoperable. In that case, the failed component must be replaced. A customer asks the system manufacturer / supplier to manage the necessary repairs or upgrades. Other customers hire service technicians (or technical support personnel). The main task of such service technicians is to significantly impair the ability of the system to function and the ability of customer employees to access the system and to keep the system sensitive to processing time. Rather, complete the upgrades and repairs necessary for the system.

現在のシステムでは、顧客(すなわち技術サポート員)が、図1のシステムから1つのプロセッサ(例えば第1プロセッサ101)を取り外したい場合、顧客は以下の一連のステップを完了させなければならない。
(1)第1プロセッサ101上での命令の実行を停止させ、全てのI/Oを阻止する。
(2)プロセッサ間にパーティションを置く。
(3)次いでシステムをシャットダウンする(電源を切る)。顧客の見地からは、システムがいかなる処理も可能でなくなったので(すなわち第2プロセッサ102上の動作も停止する)、故障停止に見える。
(4)第1プロセッサ101を取り外し、システムの電源を再び入れる。
(5)次いで、システム(第2プロセッサ102)を休止解除させる。休止解除プロセスは、システムの再起動、OSのリブート、I/O動作の再開、および命令の処理を伴う。
In current systems, if a customer (ie, a technical support representative) wants to remove one processor (eg, the first processor 101) from the system of FIG. 1, the customer must complete the following sequence of steps:
(1) Stop execution of instructions on the first processor 101 and block all I / O.
(2) Put a partition between processors.
(3) Next, the system is shut down (power is turned off). From the customer's point of view, it appears to be a failure stop because the system is no longer capable of any processing (ie, the operation on the second processor 102 is also stopped).
(4) Remove the first processor 101 and turn on the system again.
(5) Next, the system (second processor 102) is released from hibernation. The hibernation release process involves system restart, OS reboot, I / O operation restart, and instruction processing.

同様に、顧客が、第2プロセッサ102のみを有するシステムにプロセッサ(例えば第1プロセッサ101)を追加したい場合、前とは逆の一連のステップを実行しなければならない。
(1)第2プロセッサ102上での命令の実行を停止させ、全てのI/Oを阻止する。顧客の見地からは、システムがいかなる処理も可能でなくなったので(すなわち第2プロセッサ102上の動作が停止する)、故障停止に見える。
(2)次いでシステムをシャットダウンする(電源を切る)。
(3)第1プロセッサ101を追加し、システムの電源を再び入れる。第1プロセッサ101はこの時点で初期化する。初期化は、通常、BIST(組み込み自己診断テスト)等を含む一連のテストを行うことを伴う。
(4)次いで、システムを休止解除する。休止解除プロセスは、システムの再起動、I/O動作の再開、および双方のプロセッサ上での命令の処理の再開を伴う。
Similarly, if a customer wishes to add a processor (eg, the first processor 101) to a system that has only the second processor 102, a series of steps reverse to the previous must be performed.
(1) Stop execution of instructions on the second processor 102 and block all I / O. From the customer's point of view, the system is no longer capable of doing anything (i.e., the operation on the second processor 102 stops) and appears to be a failure stop.
(2) Next, shut down the system (turn off the power).
(3) The first processor 101 is added and the system is turned on again. The first processor 101 is initialized at this point. Initialization usually involves performing a series of tests including BIST (Built-in Self-Diagnosis Test) and the like.
(4) Next, the system is released from hibernation. The hibernation release process involves restarting the system, resuming I / O operations, and resuming instruction processing on both processors.

大規模商用システムでは、上述のプロセスは、極めて長い時間を要する可能性があり、状況によっては完了に数時間から何時間もかかる。このダウンタイム中、顧客はシステムを利用/アクセスすることができない。従って、故障停止は、業界またはシステムの特定の使用によっては、著しい経済的損失となる恐れがある。また、上述のように、プロセスの追加または除去のいずれかを完了させるために、システムの小規模リブートまたは完全リブートが必要である。上述の故障停止は、実際の物理パーティションを有するシステムでも経験されるが、これについて以下で説明する。   In large commercial systems, the process described above can take a very long time and can take hours to hours to complete depending on the situation. During this downtime, the customer cannot use / access the system. Thus, a failure outage can be a significant economic loss depending on the specific use of the industry or system. Also, as noted above, a small or complete reboot of the system is required to complete either the addition or removal of processes. The failure outage described above is also experienced in systems with actual physical partitions, as will be described below.

図2は、物理パーティションを有するMPサーバクラスタの一例を示す。MPサーバクラスタ120は、バックプレーンコネクタ128を介して相互接続された3台のサーバ121、122、123を備える。各サーバは、図1のMP100と同様、プロセッサ131、メモリ136、およびI/O138を有する完全な処理システムである。点線で示す物理パーティション126は、サーバ121および122からサーバ123を分ける。サーバ121および122は、最初に相互に結合することができ、後にサーバ123を追加する。あるいは、全てのサーバを最初に相互に結合することができ、後にサーバ123を除去する。サーバ123を追加するか除去するかにかかわらず、システム全体の再構成を伴い、結果として顧客が故障停止を経験する上述の多ステッププロセスは、MPサーバクラスタ120においてサーバ123を追加/除去するための唯一の既知の方法である。   FIG. 2 shows an example of an MP server cluster having physical partitions. The MP server cluster 120 includes three servers 121, 122, and 123 that are interconnected via a backplane connector 128. Each server is a complete processing system having a processor 131, a memory 136, and an I / O 138, similar to the MP 100 of FIG. A physical partition 126 indicated by a dotted line separates the server 123 from the servers 121 and 122. Servers 121 and 122 can be initially coupled to each other, and server 123 is added later. Alternatively, all servers can be coupled together first and server 123 is removed later. Regardless of whether the server 123 is added or removed, the multi-step process described above, which involves reconfiguration of the entire system and the customer experiences a failure outage, adds / removes the server 123 in the MP server cluster 120. Is the only known method.

より大きなシステムからサーバまたはプロセッサを除去することは、多くの場合、そのコンポーネントが動作中に問題を生じたことが契機になっている。これらの問題は、不良のトランジスタ、故障した論理または配線等、様々な理由で生じ得る。通常、システム/リソースを製造すると、システムが正しく動作しているか否かを判定するため、システムは一連の試験を受ける。これは、図2のようなサーバシステムについて特に当てはまる。試験においてほぼ100パーセントの正確さであっても、製造中にいくつかの問題が検出されない場合がある。更に、製造後しばらくしてから内部コンポーネント(トランジスタ等)が不良になることが少なくないが、システムは顧客に出荷されて顧客の既存のシステムに追加されてしまうことがある。通常、システムを顧客の既存のシステムに接続すると、システムで2回目の一連の試験を行って、既存のシステムの確立したパラメータ内で追加システムが動作していることを保証する。後者の試験シーケンス(顧客レベル)は、技術者(または設計技術者)によって開始される。その仕事は、既存のシステムができるだけ短いダウンタイムで動作し続けることを確実にすることである。   Removing a server or processor from a larger system is often triggered by a problem that the component has in operation. These problems can arise for a variety of reasons, such as bad transistors, failed logic or wiring. Typically, when a system / resource is manufactured, the system undergoes a series of tests to determine whether the system is operating properly. This is particularly true for server systems such as those in FIG. Even with nearly 100 percent accuracy in the test, some problems may not be detected during manufacturing. In addition, internal components (such as transistors) often fail after a short time after manufacture, but the system may be shipped to the customer and added to the customer's existing system. Typically, when a system is connected to a customer's existing system, the system performs a second series of tests to ensure that the additional system is operating within the established parameters of the existing system. The latter test sequence (customer level) is initiated by an engineer (or design engineer). Its job is to ensure that existing systems continue to operate with as little downtime as possible.

極めて大きい複雑なシステムでは、既存のシステムおよび新しい追加したシステム上で試験を実行するタスクは、多くの場合、技術者の時間の大きな部分を占めている。問題が生じた場合、この問題は通常、問題が生じてからしばらく(おそらく数日)経った後まで認識されない。問題が特定のリソースで見出されると、多くの場合、このリソースを取り替えなければならない。上述のように、リソースを置換するには、置換/除去されているリソースが残りのシステムから論理的または物理的に分けられている場合であっても、技術者はシステム全体の再構成を行わなければならない。   In very large and complex systems, the task of performing tests on existing and newly added systems often occupies a large portion of the technician's time. If a problem occurs, this problem is usually not recognized until some time (possibly several days) after the problem has occurred. If a problem is found with a particular resource, this resource often must be replaced. As noted above, replacing a resource allows the technician to reconfigure the entire system, even if the resource being replaced / removed is logically or physically separated from the rest of the system. There must be.

問題のあるコンポーネントがシステムの作業負荷を共有していると、結果として、そのコンポーネントを有しないシステムよりも作業生成の効率が低くなり得る。あるいは、問題のあるコンポーネントは、処理エラーを引き起こし、これによってシステム全体が非効率的になる恐れがある。現在、かかるコンポーネントを除去するには、技術者が、最初にシステム全体の試験を行い、問題を起こしているコンポーネントを分離し、次いで上述の除去ステップシーケンスを開始する必要がある。このため、システム保守の大部分では、技術者が継続的にシステムの診断試験を行う必要がある。システムの監視は、多数の工数を費やし、顧客に対して極めてコスト高となる恐れがある。また、問題のあるコンポーネントは、技術者が診断を実行するまで識別されず、システムによって処理されている動作を損なうまで識別されない可能性がある。処理結果を廃棄して、システムを最後の正しい状態にバックアップしなければならないことがある。   If problematic components share the workload of the system, the result can be less efficient in generating work than systems that do not have that component. Alternatively, problematic components can cause processing errors, which can make the entire system inefficient. Currently, to remove such components, a technician must first test the entire system, isolate the offending component, and then initiate the removal step sequence described above. For this reason, the majority of system maintenance requires engineers to continually perform system diagnostic tests. System monitoring can be labor intensive and can be very costly to the customer. Also, problematic components may not be identified until a technician performs a diagnosis and may not be identified until the operation being processed by the system is compromised. It may be necessary to discard the processing results and back up the system to the last correct state.

本発明は、システムが、外部のプラグアンドプレイコンポーネントのホットプラグ機能を、追加の処理能力を必要とする大規模サーバシステムに拡張するためのシステムおよび方法を提供することが望ましいということを認識している。MPサーバをSMPにホットプラグするための方法およびシステムは、望ましい改善であろう。ホットプラグ動作中にシステムにおいてダウンタイムを全く経験せず、このため顧客にこの動作が見えないままであれば、更に望ましいであろう。これらおよび他の利点は、ここに記載する本発明によって提供される。   The present invention recognizes that it is desirable for a system to provide a system and method for extending the hot plug functionality of external plug and play components to large server systems that require additional processing power. ing. A method and system for hot plugging an MP server to SMP would be a desirable improvement. It would be further desirable if no downtime was experienced in the system during hot plug operation, so that this operation remains invisible to the customer. These and other advantages are provided by the invention described herein.

開示されるのは、処理システム全体の現在の動作に介入することなく、個々のホットプラグ可能コンポーネントのホットプラグ追加/除去機能を提供するデータ処理システムである。この処理システムは、プロセッサ、メモリ、およびI/Oデバイス等の主コンポーネントを含む。これらのコンポーネントは、接続ワイヤ、接続ポート、および論理コンポーネントから成る相互接続機構(相互接続ファブリック)を介して相互に接続されている。接続ポートは、ホットプラグコンポーネントをサポートし、外部のホットプラグ可能コンポーネントをデータ処理システムに結合することができるようになっている。ハードウエアコンポーネントに加えて、データ処理システムは、ソフトウエアコンポーネント、すなわちサービス要素およびオペレーティングシステム(OS)を含む。論理コンポーネントは、構成(コンフィギュレーション)、ルーティング論理、および動作論理を含む。構成論理は、データ処理システムが動作中に従う構成プロファイル/パラメータを選択する。ルーティング論理および動作論理は、データ処理システム上でどのように通信(データ等)をルーティングするかを制御するルーティングプロトコルを提供する。   Disclosed is a data processing system that provides hot plug addition / removal functions for individual hot pluggable components without interfering with the current operation of the entire processing system. The processing system includes main components such as a processor, memory, and I / O devices. These components are connected to each other via an interconnection mechanism (interconnect fabric) consisting of connection wires, connection ports, and logical components. The connection port supports hot plug components and allows external hot pluggable components to be coupled to the data processing system. In addition to the hardware components, the data processing system includes software components, i.e., service elements and an operating system (OS). The logic components include configuration, routing logic, and operational logic. The configuration logic selects the configuration profile / parameter that the data processing system follows during operation. Routing logic and operational logic provides a routing protocol that controls how communications (such as data) are routed on the data processing system.

ホットプラグ可能コンポーネントを利用可能なシステムコネクタに接続すると、サービス要素は、自動的に接続を検出し、拡張システムのための正しい構成ファイルを選択する。最初のコンポーネントのサービス要素は、マスタの役割を負い、新たに追加されたコンポーネントのサービス要素は、マスタサービス要素によって制御される。いったん構成ファイルをハードウエア構成レジスタにロードし、新しい要素のシステムチェックによって新しい要素の動作の準備ができたことが示されると、新しい要素を既存のシステムに統合する。サービス要素は、OSに、新しい要素への作業負荷の割り当てを開始することを知らせる。顧客の見地からは、電力を切ることも既存の要素の動作を中断することもなく、全プロセスが行われる。   When connecting a hot-pluggable component to an available system connector, the service element automatically detects the connection and selects the correct configuration file for the expansion system. The service component of the first component assumes the role of master, and the service component of the newly added component is controlled by the master service element. Once the configuration file is loaded into the hardware configuration register, the new element is integrated into the existing system once the system check for the new element indicates that the new element is ready for operation. The service element informs the OS that it will begin assigning workload to the new element. From the customer's point of view, the entire process takes place without turning off power or interrupting the operation of existing elements.

別の実施形態では、残っている主システムの現在の処理に介入することなく、ホットプラグ可能コンポーネントの除去も達成される。この除去は、サービス技術者によって開始するか、または自動化することができる。   In another embodiment, removal of hot-pluggable components is also achieved without intervening in the current processing of the remaining main system. This removal can be initiated by a service technician or automated.

本発明の上述および追加の目的、特徴、および利点は、以下の詳細な説明において明らかとなろう。   The above as well as additional objectives, features, and advantages of the present invention will become apparent in the following detailed written description.

本発明の新規の特性と考えられる特徴は、特許請求の範囲において述べる。しかしながら、本発明自体は、その好適な使用形態、更に別の目的および利点と共に、添付図面と関連付けて読む例示的な実施形態の以下の詳細な説明を参照することによって、最も良く理解されよう。   The novel features believed characteristic of the invention are set forth in the appended claims. However, the invention itself, together with its preferred mode of use and further objects and advantages, will be best understood by referring to the following detailed description of exemplary embodiments read in conjunction with the accompanying drawings.

本発明は、現在のシステムでは避けられないダウンタイムを結果として生じることなく、処理システムの主コンポーネントの機能のホットプラグ追加/除去を可能とする方法およびシステムを提供する。具体的には、本発明は、データ処理システム業界に3つの大きな進歩をもたらす。(1)進行中のシステム動作に介入することのない、対称マルチプロセッサシステム(SMP)におけるホットプラグ可能なプロセッサ/サーバ。(2)進行中のシステム動作に介入することのない、マルチプロセッサシステム(MP)における、メモリ、異種プロセッサ、および入出力(I/O)拡張デバイスを含むホットプラグ可能コンポーネント、および(3)他のシステムコンポーネントの動作を停止させない、システムのホットプラグコンポーネントに影響を与える問題の自動検出および問題のあるコンポーネントの動的除去。   The present invention provides a method and system that allows hot plug addition / removal of the functionality of the main components of the processing system without resulting in downtime that is unavoidable with current systems. Specifically, the present invention provides three major advances in the data processing system industry. (1) A hot-pluggable processor / server in a symmetric multiprocessor system (SMP) without intervening in ongoing system operation. (2) Hot-pluggable components including memory, heterogeneous processors, and input / output (I / O) expansion devices in a multiprocessor system (MP) without intervening in ongoing system operation, and (3) others Automatic detection of problems affecting system hot-plug components and dynamic removal of problematic components without disrupting the operation of other system components.

簡略化のため、上述の3つの改善は、別個の見出しで識別するセクションとして提示し、一般的なホットプラグ機能は、ホット追加のセクションおよび別個のホット除去のセクションに分ける。これらのセクションの内容は重複する場合がある。しかしながら、実施形態の機能において生じる重複は、最初に発生した場合および後に参照する場合に詳細に記載する。   For simplicity, the above three improvements are presented as sections identified by separate headings, and the general hot plug functionality is divided into hot add sections and separate hot remove sections. The contents of these sections may overlap. However, the duplication that occurs in the function of the embodiments will be described in detail when it occurs first and when it is later referenced.

I.ハードウエア構成
ここで図面、特に図3を参照すると、本発明の様々な機構の実施を可能とする接続機構および他のコンポーネントによって設計されたマルチプロセッサシステム(MP)が示されている。MP200は、プロセッサ201および202を備える。また、MP200は、メモリ204および入出力(I/O)コンポーネント206も備える。様々なコンポーネントは、ホットプラグコネクタ220を備える相互接続機構208を介して相互接続されている。新しいホットプラグ可能コンポーネントの追加は、相互接続機構208のホットプラグコネクタ220を介して(直接的または間接的に)行われるが、これについては以下で更に詳細に説明する。
I. Hardware Configuration Referring now to the drawings, and particularly to FIG. 3, there is shown a multiprocessor system (MP) designed with connection mechanisms and other components that enable implementation of the various mechanisms of the present invention. The MP 200 includes processors 201 and 202. The MP 200 also includes a memory 204 and an input / output (I / O) component 206. The various components are interconnected via an interconnect mechanism 208 that includes a hot plug connector 220. The addition of new hot-pluggable components is done (either directly or indirectly) via the hot-plug connector 220 of the interconnect mechanism 208, as will be described in more detail below.

相互接続機構208は、配線および制御論理を含み、これによって、コンポーネント間の通信をルーティングすると共に、ハードウエア構成の変更に対するMP200の応答を制御する。制御論理は、ルーティング論理207および構成設定論理209を備える。具体的には、MP200の左側に示すように、構成設定論理209は、第1および第2の構成設定、すなわちコンフィギュレーションA214およびコンフィギュレーションB216を備える。コンフィギュレーションA214およびコンフィギュレーションB216は、ラッチ217によって制御されるモード設定レジスタ218に結合されている。構成設定論理209内のコンポーネントの実際の動作については、以下で更に詳細に述べる。   The interconnect mechanism 208 includes wiring and control logic to route communications between components and to control the MP 200 response to hardware configuration changes. The control logic includes routing logic 207 and configuration setting logic 209. Specifically, as shown on the left side of the MP 200, the configuration setting logic 209 includes first and second configuration settings, that is, a configuration A 214 and a configuration B 216. Configuration A 214 and configuration B 216 are coupled to a mode setting register 218 controlled by latch 217. The actual operation of the components in the configuration logic 209 is described in further detail below.

上述のコンポーネントに加えて、MP200は、サービス要素(S.E.)212も備える。S.E.212は、小さいマイクロコントローラであり、(オペレーティングシステム(OS)とは別個の)特別なソフトウエア符号化論理を備え、これを用いて、システムのコンポーネントを維持し、大規模システムに対するインタフェース動作を完了させる。このため、S.E.212は、MP200を制御するために必要なコードを実行する。S.E.212は、OSに、MP内の追加のプロセッサリソース(すなわちプロセッサ数の増加/削減)を通知し、他のシステムリソース(すなわちメモリ、I/O等)の追加/除去を通知する。   In addition to the components described above, the MP 200 also includes a service element (SE) 212. S. E. 212 is a small microcontroller with special software encoding logic (separate from the operating system (OS)) that is used to maintain system components and complete interface operations for large systems Let For this reason, S.H. E. 212 executes code necessary for controlling the MP 200. S. E. 212 notifies the OS of additional processor resources (that is, increase / decrease in the number of processors) in the MP, and notifies addition / removal of other system resources (that is, memory, I / O, etc.).

図4および5は、図3の200に類似した2つのMPを示し、これらは、ホットプラグコネクタ220を介して共に結合されて、より大きな対称MP(SMP)システムを形成する。MP200は、要素0および要素1と示されるが、かかる表示は説明の目的のために必要なものである。要素1は、別個のMPのホットプラグコネクタ220を結合するために設計された配線、コネクタピン、またはケーブル接続を介して要素0に結合することができる。1つの実施形態では、MPを実際に背景プロセッサ拡張ラックにプラグインし、これによって顧客のSMPを拡張して追加のMPを収容することができる。   4 and 5 show two MPs similar to 200 in FIG. 3, which are coupled together via a hot plug connector 220 to form a larger symmetric MP (SMP) system. MP 200 is shown as element 0 and element 1, but such an indication is necessary for purposes of explanation. Element 1 can be coupled to element 0 via wires, connector pins, or cable connections designed to couple separate MP hot plug connectors 220. In one embodiment, the MP can actually be plugged into the background processor expansion rack, thereby extending the customer's SMP to accommodate additional MPs.

一例として、要素0は、顧客の主システム(またはサーバ)であり、この顧客が主システムの処理機能/リソースの増大を望んでいるものとする。要素1は、システム技術者によって主システムに追加される二次システムである。本発明によれば、要素1の追加は、ここに提供するホットプラグ動作によって行われ、要素1を接続している間、顧客は要素0のダウンタイムを経験することはない。   As an example, element 0 is the customer's main system (or server), and this customer wants to increase the processing capabilities / resources of the main system. Element 1 is a secondary system that is added to the main system by a system engineer. According to the present invention, the addition of element 1 is performed by the hot plug operation provided herein, and the customer does not experience element 0 downtime while connecting element 1.

図4および5内に示すように、SMP300は、点線で示す物理パーティション210を備え、これが要素1から要素0を分けている。物理パーティション210によって、各MP200は互いにある程度独立して動作することができる。ある実施では、物理パーティション210は、他のMP200の動作上の問題およびダウンタイムから各MP200をほぼ遮断する。   As shown in FIGS. 4 and 5, the SMP 300 includes a physical partition 210 indicated by a dotted line, which separates element 0 from element 1. The physical partitions 210 allow each MP 200 to operate to some extent independently of each other. In one implementation, physical partition 210 substantially isolates each MP 200 from other MP 200 operational problems and downtime.

II.SMPにおけるプロセッサの非介入ホットプラグ可能追加
図6は、要素0に要素1を追加する非介入ホットプラグ動作を行うプロセスのフローチャートを示す。以下に説明する「ホット追加」の例では、MP200の最初の動作状態は以下の通りである。
要素0:相互接続機構208上でコンフィギュレーションA214を用いてOSおよびアプリケーションを実行している。また、要素0は要素1から電気的および論理的に分かれている。
サービス要素0:単一のMPすなわち要素0のコンポーネントを管理している。
接続機構:コンフィギュレーションA214を介したルーティング制御等。ラッチ位置はコンフィギュレーションAに設定されている。
要素1:まだ存在していないか、または存在しているが、まだシステムにプラグインされていない。
II. Non-Interventional Hot Pluggable Addition of Processor in SMP FIG. 6 shows a flowchart of a process for performing a non-interventional hot plug operation to add element 1 to element 0. In the “hot addition” example described below, the initial operating state of the MP 200 is as follows.
Element 0: OS and application are running on the interconnect mechanism 208 using configuration A214. Element 0 is electrically and logically separated from element 1.
Service element 0: managing a single MP, i.e. element 0 component.
Connection mechanism: routing control via configuration A 214, etc. The latch position is set in configuration A.
Element 1: Does not yet exist or exists but has not yet been plugged into the system.

図3、4、および5に示すもの以外に他のハードウエアコンポーネントが可能である。設けられているものは例示の目的のためのみに示し、本発明を限定することを意図していない。本実施形態では、MP200は、設定されたサイクル数内での切り替えを実行可能とするための論理も備えるので、顧客には動作時間の明らかな損失は見られない。ある数のサイクルを割り当てて、切り替えを行うことができる。接続機構制御論理は、構成切り替えを実行するため、アービタからそのサイクル量を要求する。ほとんどの実施では、実際の必要な時間は、1秒の約100万分の1(1マイクロ秒)であり、これは顧客の観点からは無視できる(または見えない)。   Other hardware components are possible other than those shown in FIGS. What has been provided is shown for illustrative purposes only and is not intended to limit the invention. In the present embodiment, the MP 200 also includes logic for enabling switching within the set number of cycles, so that there is no apparent loss of operating time for the customer. A certain number of cycles can be assigned and switched. The connection mechanism control logic requests the cycle amount from the arbiter to perform the configuration switch. In most implementations, the actual time required is about one millionth of a second (1 microsecond), which is negligible (or invisible) from the customer's perspective.

図6に戻ると、プロセスはブロック402において開始し、ここでサービス技術者は、要素0(EL0)が実行している間に、要素0のホットプラグコネクタ220に要素1(EL1)を物理的にプラグインする。次いで、ブロック404に示すように要素1に電力を印加する。1つの実施では、技術者は、要素1を物理的に電源に接続する。しかしながら、本発明では、ホットプラグコネクタ220を介して電力を供給することも考えられるので、電源に直接接続しなければならないのは主システムすなわち要素0のみである。これは、全てのMPをプラグ接続するバックプレーンコネクタを介して達成可能である。   Returning to FIG. 6, the process begins at block 402 where the service technician physically transfers element 1 (EL1) to element 0 hot plug connector 220 while element 0 (EL0) is running. Plug in. Then, power is applied to element 1 as shown in block 404. In one implementation, the technician physically connects element 1 to a power source. However, in the present invention, it is also conceivable to supply power via the hot plug connector 220, so only the main system or element 0 has to be connected directly to the power source. This can be achieved via a backplane connector that plugs all MPs.

いったん要素1が電力を受容すると、要素1内のS.E.は、要素1を初期化するためのチェックポイントステップのシーケンスを完了させる。1つの実施形態では、要素1に一組の物理ピンを設け、これらをサービス技術者によって選択してチェックポイントプロセスを開始する。しかしながら、ここで説明する実施形態では、ブロック406に示すように、S.E.0が、要素0に対する別の要素のプラグインの自動検出を完了する。次いで、S.E.0は、マスタの役割を負い、S.E.1をトリガして、ブロック408に示すように、要素1のパワーオンリセット(POR)を開始する。PORの結果、クロックがオンし、BISTを実行し、要素1のプロセッサ、メモリおよび接続機構を初期化する。   Once element 1 receives power, the S.I. E. Completes the sequence of checkpoint steps for initializing element 1. In one embodiment, element 1 is provided with a set of physical pins that are selected by a service technician to initiate the checkpoint process. However, in the embodiment described herein, S.P. E. 0 completes automatic detection of another element's plug-in for element 0. Then S. E. 0 assumes the role of the master. E. Trigger 1 to initiate a power-on reset (POR) of element 1 as shown in block 408. As a result of the POR, the clock is turned on, BIST is executed, and the processor, memory and connection mechanism of the element 1 are initialized.

1つの実施形態では、S.E.1は、試験アプリケーションを実行して、要素1が適切に動作していることを保証する。このため、ブロック410において、上述の試験に基づき、要素1が「クリーン」か、すなわち主システム(要素0)に統合される準備ができているか否かを判定する。要素1が統合のためにクリアされていると仮定すると、次いで、ブロック412に示すように、S.E.0およびS.E.1は、双方のMP200が動作/実行している間に、各MP200の接続機構間の相互接続を初期化する。このプロセスは、通信ハイウエイを開放するので、双方の接続機構はタスクを共有することができ、情報のルーティングを効率的に調整することができる。このプロセスには、電気的に接続されたドライバおよび受信器をイネーブルすること、および、必要な場合には、ブロック414に示すように、この結合システムの最も効率的な動作のためにインタフェースを調整することが含まれる。1つの実施形態では、インタフェースの調整は内部プロセスであり、接続機構の制御論理によって自動的に完了する。システム全体で動作を同期させるため、要素0の制御論理がマスタの役割を負う。すると、要素0の制御論理は、要素0および要素1の双方の全ての動作を制御する。要素1の制御論理は、要素0の動作パラメータ(例えば構成モード設定)を自動的に検出し、それ自身の動作パラメータを同期させて、要素0のものを反映させる。相互接続機構208は、要素0の論理の制御のもとで、論理的および物理的に結合される。   In one embodiment, S.I. E. 1 executes the test application to ensure that element 1 is operating properly. Thus, at block 410, based on the above test, it is determined whether element 1 is “clean”, ie, ready to be integrated into the main system (element 0). Assuming that element 1 has been cleared for integration, then S.I. E. 0 and S.M. E. 1 initializes the interconnection between the connection mechanisms of each MP 200 while both MPs 200 are operating / executing. This process frees the communication highway so that both connection mechanisms can share tasks and efficiently coordinate information routing. This process includes enabling the electrically connected driver and receiver and, if necessary, adjusting the interface for the most efficient operation of the combined system, as shown in block 414. For example. In one embodiment, interface coordination is an internal process and is completed automatically by the control logic of the attachment mechanism. In order to synchronize operations throughout the system, the control logic of element 0 assumes the role of the master. Then, the control logic of element 0 controls all operations of both element 0 and element 1. Element 1's control logic automatically detects the operating parameters of element 0 (eg, configuration mode settings) and synchronizes its own operating parameters to reflect those of element 0. Interconnect mechanism 208 is logically and physically coupled under the control of element 0 logic.

インタフェースの調整を行っている間、ブロック416に示すように、双方の要素のモード設定レジスタ218にコンフィギュレーションB216をロードする。同じ構成モードをロードすることによって、この結合システムは、接続機構レベルで同じルーティングプロトコルにより動作することができる。どちらか一方の構成モード/プロトコルを選択するプロセスは、ラッチ217によって制御される。動的な例では、S.E.によって、次の要素がプラグインされ、初期化を完了し、システム内に組み込まれる準備ができたことが示されると、新しいトポロジのため、既存の要素および新しい要素の双方で構成レジスタをセットアップする。次いでSEは、ハードウエアに「ゴー」コマンドを発する。例示の実施形態では、ゴーコマンドを実行すると、自動化状態機械は接続機構の動作を一時的に停止し、ラッチ217を変更してコンフィギュレーションBを用い、接続機構の動作を再開する。代替的な実施形態では、SEのゴーコマンドは、全要素上のラッチ217を同期して変更する。いずれの実施形態でも、コンピュータシステムにおけるOSおよびI/Oデバイスは、故障停止を経験しない。なぜなら、構成切り替えは、ほぼプロセッササイクルで生じるからである(この実施形態ではマイクロ秒未満)。ラッチの値は、SMP上でどのように情報をルーティングするかをハードウエアに示し、接続機構上で実施されるルーティング/動作プロトコルを決定する。1つの実施形態では、ラッチはマルチプレクサ(MUX)のための選択入力として機能し、そのデータ入力ポートは構成レジスタの一方に結合されている。ラッチ内の値は、一方の構成レジスタまたは他方の構成レジスタをMUX出力として選択させる。MUXの出力は、モード設定レジスタ218にロードされる。次いで、自動化状態機械コントローラは、システムが実行している間にプロトコルを実施する。   During interface adjustment, configuration B 216 is loaded into the mode setting register 218 of both elements, as shown in block 416. By loading the same configuration mode, this combined system can operate with the same routing protocol at the attachment level. The process of selecting either configuration mode / protocol is controlled by latch 217. In the dynamic example, S.M. E. Sets up the configuration registers on both the existing and new elements for the new topology when indicates that the next element has been plugged in, completed initialization, and ready to be incorporated into the system . The SE then issues a “go” command to the hardware. In the illustrated embodiment, upon executing a go command, the automated state machine temporarily stops operation of the connection mechanism, changes the latch 217 and uses configuration B to resume operation of the connection mechanism. In an alternative embodiment, the SE Go command changes the latches 217 on all elements synchronously. In either embodiment, the OS and I / O devices in the computer system do not experience a failure outage. This is because configuration switching occurs in approximately processor cycles (less than microseconds in this embodiment). The value of the latch indicates to the hardware how to route information on the SMP and determines the routing / operation protocol implemented on the connection mechanism. In one embodiment, the latch functions as a select input for a multiplexer (MUX), whose data input port is coupled to one of the configuration registers. The value in the latch causes one configuration register or the other configuration register to be selected as the MUX output. The output of the MUX is loaded into the mode setting register 218. The automated state machine controller then implements the protocol while the system is running.

ホットプラグ動作の後のシステムの動作状態は以下の通りである。
要素0:接続機構208上でコンフィギュレーションB216を用いてOSおよびアプリケーションを実行している。要素0は、電気的および論理的に要素1に接続されている。
要素1:接続機構208上でコンフィギュレーションB216を用いてOSおよびアプリケーションを実行している。要素1は、電気的および論理的に要素0に接続されている。
サービス要素0:要素0および要素1の双方のコンポーネントを管理する。
接続機構:コンフィギュレーションBを介したルーティング制御等。ラッチ位置はコンフィギュレーションBに設定されている。
The operating state of the system after the hot plug operation is as follows.
Element 0: The OS and application are executed using the configuration B 216 on the connection mechanism 208. Element 0 is electrically and logically connected to element 1.
Element 1: An OS and an application are executed on the connection mechanism 208 using the configuration B 216. Element 1 is electrically and logically connected to element 0.
Service element 0: Manages both components of element 0 and element 1.
Connection mechanism: routing control via configuration B, etc. The latch position is set in configuration B.

ブロック418に示すように、この結合システムは、増大した処理能力、分散メモリ等を考慮した新しいルーティングプロトコルで動作を続ける。顧客は、主システムのダウンタイムを経験することなく、更にシステムをリブートする必要もなく、すぐに結合システムの増大した処理リソース/能力の利点を得る。   As shown in block 418, the combined system continues to operate with a new routing protocol that takes into account increased processing power, distributed memory, and the like. Customers immediately benefit from the increased processing resources / capacity of the combined system without experiencing downtime of the main system and without having to reboot the system.

上述のプロセスは、一度に1つ、または同時に複数のいずれかで、多数の追加要素の接続を含むように拡張可能である。一度に1つを完了すると、選択された構成レジスタは、要素を新しく追加(または除去)するたびに切り替えられる。また、別の実施形態では、異なる構成レジスタ範囲を設けて、ある特定の数までのホットプラグされた要素を処理することができる。例えば、システムが1、2、3、または4個の要素を含むことに基づいて、4個の異なるレジスタファイルを選択のために利用可能である。構成レジスタは、メモリ内で特定の位置を示すが、この位置に、特定のハードウエア構成用に設計されたより大きな動作/ルーティングプロトコルが格納され、処理システムの現在の構成に基づいて活性化される。   The process described above can be extended to include the connection of multiple additional elements, either one at a time or multiple simultaneously. When one is completed at a time, the selected configuration register is switched each time a new element is added (or removed). In another embodiment, different configuration register ranges can be provided to handle up to a certain number of hot-plugged elements. For example, based on the system including 1, 2, 3, or 4 elements, 4 different register files are available for selection. The configuration register indicates a specific location in memory, where a larger operation / routing protocol designed for a specific hardware configuration is stored and activated based on the current configuration of the processing system .

III.メモリ、I/Oチャネル、および異種プロセッサの非介入ホットプラグ
図8に、ホットプラグ機能の1つの追加的な拡張を示す。具体的には、図8は、上述の非介入ホットプラグ機能の機構を拡張して、追加メモリおよびI/Oチャネルならびに異種プロセッサのホットプラグ追加に対応する。MP500は、図2のMP200と同様の主コンポーネントを含み、新しいコンポーネントは500番台の参照番号で識別する。主コンポーネント(すなわち、相互接続機構208を介して共に結合されたプロセッサ201および202、メモリ504A、ならびにI/Oチャネル506A)に加えて、MP500は、接続機構208上にいくつかの追加のコネクタポートを含む。これらのコネクタポート間に、ホットプラグメモリ拡張ポート521、ホットプラグI/O拡張ポート522、およびホットプラグプロセッサ拡張ポート523が含まれる。
III. Memory, I / O Channels, and Heterogeneous Processor Non-Intrusive Hot Plug FIG. 8 illustrates one additional extension of the hot plug functionality. Specifically, FIG. 8 extends the non-intervening hot plug functionality mechanism described above to accommodate additional memory and I / O channels and heterogeneous processor hot plug additions. The MP 500 includes main components similar to those of the MP 200 in FIG. 2, and new components are identified by reference numbers in the 500s. In addition to the main components (ie, processors 201 and 202, memory 504A, and I / O channel 506A coupled together via interconnect mechanism 208), MP 500 has several additional connector ports on connection mechanism 208. including. Among these connector ports, a hot plug memory expansion port 521, a hot plug I / O expansion port 522, and a hot plug processor expansion port 523 are included.

各拡張ポートは、対応する構成論理509A、509B、および509Cを有し、それぞれのコンポーネントのためのホットプラグ動作を制御する。メモリ504Aに加えて、追加のメモリ504Bを、MP300ならびに要素0および要素1に対して上述したプロセスと同様に、接続機構208のメモリ拡張ポート521に「プラグイン」することができる。アドレス0からNまでの初期メモリ範囲を拡張して、N+1からMまでのアドレスを含ませる。いずれのサイズのメモリの構成モードも、ラッチ517Aによって選択可能である。ラッチ517Aは、追加のメモリ504Bを付加する場合、S.E.212によって設定される。また、I/Oチャネル506B、506CをホットプラグI/O拡張ポート522にホットプラグすることによって、追加のI/Oチャネルを提供可能である。ここでも、追加のI/Oチャネル506B、506Cを追加する場合、I/Oチャネルのサイズの構成モードは、S.E.212によって設定されるラッチ517Cにより選択可能である。   Each expansion port has corresponding configuration logic 509A, 509B, and 509C to control hot plug operation for the respective component. In addition to memory 504A, additional memory 504B can be “plugged in” to memory expansion port 521 of connection mechanism 208, similar to the process described above for MP 300 and element 0 and element 1. The initial memory range from addresses 0 to N is expanded to include addresses from N + 1 to M. Any size memory configuration mode can be selected by latch 517A. When the additional memory 504B is added to the latch 517A, the S.L. E. 212. Also, additional I / O channels can be provided by hot plugging the I / O channels 506B, 506C to the hot plug I / O expansion port 522. Again, when additional I / O channels 506B, 506C are added, the configuration mode for the size of the I / O channel is S.I. E. This can be selected by a latch 517C set by 212.

最後に、非対称プロセッサ(すなわちMP200内のプロセッサ201および202とは異なる方法で構成/設定されたプロセッサ)を、ホットプラグプロセッサ拡張ポート523にプラグインし、サーバ/要素1について上述したプロセスと同様に初期化することができる。しかしながら、利用可能なメモリおよびI/Oリソースの量の増大のみを検討しなければならない他の構成論理509A、509Bとは異なり、プロセッサ追加のための構成論理509Cでは、より多くのパラメータを考慮する必要がある。なぜなら、プロセッサは非対称であり、正しい構成モードの選択において作業負荷の分割、割り当て等を考慮しなければならないからである。   Finally, an asymmetric processor (ie, a processor configured / configured differently than processors 201 and 202 in MP 200) is plugged into hot plug processor expansion port 523 and similar to the process described above for server / element 1 It can be initialized. However, unlike the other configuration logic 509A, 509B, where only an increase in the amount of available memory and I / O resources must be considered, the configuration logic 509C for adding processors considers more parameters. There is a need. This is because the processor is asymmetric, and workload division, allocation, etc. must be considered in selecting the correct configuration mode.

上述の構成によって、システムは、MP500上の処理に著しい障害を生じることなく、プロセッサ、メモリ、I/Oチャネル等を縮小/拡張することができる。具体的には、上述の構成によって、メモリおよびI/Oの双方で利用可能なアドレス空間を拡張(および縮小)することが可能となる。アドオンまたは除去の各々は互いに独立して、すなわちプロセッサ対メモリまたはI/Oとして処理され、図示のように別個の論理によって制御される。従って、本発明は、「ホットプラグ」の概念を、従来の言葉の意味ではホットプラグすることができないデバイスに拡大する。   With the above-described configuration, the system can reduce / expand the processor, memory, I / O channel, and the like without causing a significant obstacle to processing on the MP 500. Specifically, the above configuration makes it possible to expand (and reduce) the address space that can be used by both the memory and the I / O. Each add-on or removal is treated independently of each other, i.e. as processor-to-memory or I / O, and is controlled by separate logic as shown. Thus, the present invention extends the concept of “hot plugging” to devices that cannot be hot plugged in the conventional sense of the word.

図8に示すシステムの初期状態は、メモリ空間量N、I/O空間の数(すなわち、I/Oデバイスを接続するチャネル)R、速度Zでの処理能力量Yなどを含む。   The initial state of the system shown in FIG. 8 includes the amount of memory space N, the number of I / O spaces (that is, channels connecting I / O devices) R, the processing capacity amount Y at speed Z, and the like.

システムの最終状態は、上述の初期状態から、メモリ空間量M(M>N)、I/Oチャネル数T(T>R)、ならびに速度ZおよびZ+Wでの処理能力量Y+Xまでの範囲である。   The final state of the system ranges from the initial state described above to the memory space amount M (M> N), the number of I / O channels T (T> R), and the processing capacity amount Y + X at speeds Z and Z + W. .

上述の変数は、例示の目的のためにのみ用い、特定のパラメータ値を示したり本発明を限定したりする意図はない。   The above variables are used for illustrative purposes only and are not intended to indicate particular parameter values or limit the invention.

上述の実施形態では、サービス技術者が、追加のメモリ、プロセッサまたはI/Oを物理的にプラグインすることによって新しいコンポーネント(複数可)をインストールし、次いでS.E.212が自動検出および初期化/構成プロセスを完了させる。追加のメモリがインストールされると、S.E.212は信頼性試験を実行し、全てのコンポーネントで、S.E.212はBISTを実行する。次いで、S.E.212は、インタフェース(点線で表す)を初期化し、代替の構成レジスタ(複数可)をセットアップする。S.E.212は、1マイクロ秒未満で全ハードウエアの切り替えを完了し、次いで、OSに新しいリソースの可用性を通知する。次いでOSは、どのコンポーネントが利用可能で、どの構成が実行しているかに従って、作業負荷の割り当てを完了させる。   In the above embodiment, the service technician installs the new component (s) by physically plugging in additional memory, processor or I / O, and then E. 212 completes the auto-detection and initialization / configuration process. When additional memory is installed, S.M. E. 212 performs a reliability test, and S.212 E. 212 executes the BIST. Then S. E. 212 initializes the interface (represented by a dotted line) and sets up alternative configuration register (s). S. E. 212 completes the entire hardware switch in less than 1 microsecond and then notifies the OS of the availability of the new resource. The OS then completes the workload assignment according to which components are available and which configuration is running.

IV.処理システムにおけるホットプラグされたコンポーネントの非介入除去
図7は、ホットプラグコンポーネントの非介入除去を完了させるプロセスのフローチャートを示す。以下、図4および図5も参照して、要素1および要素0の双方を備える処理システムにおける要素1の除去について説明する。図7に示す除去の例では、SMPの最初の動作状態は、図6のホットプラグ動作の後の上述の動作状態である。
IV. Non-interventional removal of hot-plugged components in a processing system FIG. 7 shows a flowchart of a process for completing non-interventional removal of hot-plug components. Hereinafter, the removal of element 1 in a processing system including both element 1 and element 0 will be described with reference to FIGS. 4 and 5 as well. In the example of removal shown in FIG. 7, the first operation state of SMP is the above-described operation state after the hot plug operation of FIG.

要素1を除去するためには、サービス技術者が、最初に何らかの方法で待ち状態の除去を知らせる必要がある。1つの実施形態では、各要素の外面上にホット除去ボタン225を設ける。ボタン225は、発光ダイオード(LED)またはその他の信号手段を含み、これによって、動作中の要素が、「オンライン」すなわちプラグインおよび機能しているか、またはオフラインであるとして、サービス技術者によって視覚的に識別可能である。従って、図7において、サービス技術者が要素1を除去したい場合、ブロック452に示すように、技術者は最初にボタン225を押す。別の実施形態では、各要素は何らかの種類のバックプレーンコネクタに留められていると仮定し、要素1を適所に保持しているクランプの除去によって、S.E.212に再構成プロセスの開始を知らせる。更に別の実施形態では、システム管理者が、S.E.212をトリガして、特定のコンポーネントの除去動作を開始させることができる。トリガは、システム上で実行しているソフトウエア構成ユーティリティ内で除去オプションを選択することで行われる。以下のセクション5において、サービス技術者またはシステム管理者による開始を必要としない自動除去方法について説明する。   In order to remove element 1, the service technician must first inform the removal of the wait state in some way. In one embodiment, a hot removal button 225 is provided on the outer surface of each element. Button 225 includes a light emitting diode (LED) or other signal means, so that the active element is visually “online”, ie plugged in and functioning, or offline by a service technician as being offline. Can be identified. Thus, in FIG. 7, if the service technician wishes to remove element 1, the technician first presses button 225, as shown in block 452. In another embodiment, it is assumed that each element is fastened to some type of backplane connector, and the S.P. E. 212 notifies the start of the reconfiguration process. In yet another embodiment, the system administrator may E. 212 can be triggered to initiate the removal operation of a particular component. Triggering is performed by selecting a removal option within a software configuration utility running on the system. Section 5 below describes an automatic removal method that does not require initiation by a service technician or system administrator.

いったんボタン225が押されると、顧客からは隠されて(すなわち要素0は実行したままで)、再構成プロセスが背景で開始する。ブロック454に示すように、S.E.212は、OSに、要素1のリソースの喪失処理を通知する。これに応答して、OSは、ブロック456に示すように、要素1から要素0にタスク/作業負荷を再割り当てし、要素1を解放する。S.E.212は、OSが要素1から要素0に全処理(およびデータ格納)の再割り当てを完了したという指示を監視し、ブロック458において、再割り当てが完了したか否かについて判定を行う。いったん再割り当てが完了すると、ブロック460に示すように、OSはS.E.212にメッセージを送り、ブロック462に示すように、S.E.212は代替的な構成設定を構成レジスタ218にロードする。代替的な構成設定のロードを行うには、S.E.212が、その構成設定を選択するためラッチ217内で値を設定する。別の実施形態では、ラッチ217は、ボタン225が最初に押されて除去をトリガした場合に設定される。要素1は、要素0を中断することなく、SMP接続機構から論理的に除去され、電気的に除去される。次いで、ブロック464に示すように、S.E.212はボタン225を明るくする。この照明によって、サービス技術者に再構成プロセスが完了したことを知らせる。次いで、ブロック466に示すように、技術者は電源を切り要素1を物理的に除去する。   Once button 225 is pressed, it is hidden from the customer (ie, element 0 remains running) and the reconstruction process begins in the background. As shown in block 454, S.I. E. 212 notifies the OS of the process of losing the resource of the element 1. In response, the OS reassigns the task / workload from element 1 to element 0 and releases element 1 as shown in block 456. S. E. 212 monitors an indication that the OS has completed the reassignment of all processing (and data storage) from element 1 to element 0, and determines at block 458 whether the reassignment is complete. Once the reassignment is complete, the OS E. A message is sent to 212 and S.212 is entered as shown in block 462. E. 212 loads alternative configuration settings into configuration register 218. To load an alternative configuration setting, E. 212 sets a value in latch 217 to select that configuration setting. In another embodiment, latch 217 is set when button 225 is first pressed to trigger removal. Element 1 is logically removed and electrically removed from the SMP attachment without interrupting element 0. Then, as shown in block 464, S.I. E. 212 brightens the button 225. This lighting informs the service technician that the reconstruction process is complete. The technician then turns off and physically removes element 1 as shown in block 466.

上述の実施形態では、ボタン225内のLEDを利用してサーバの動作状態を知らせる。このため、予め確立されたカラーコードを設定して、要素をオン(ホットプラグ)またはオフ(除去)した場合に顧客または技術者に認識させる。例えば、青い色は、要素が充分に機能し、電気的および論理的に取り付けられていることを示し、赤い色は、要素が再構成の過程にあり、まだ物理的に除去してはいけないことを示し、緑色(または照明なし)は、要素の再構成が済んでおり(またはもはや論理的にも電気的にも存在しない)、物理的に除去可能であることを示す。   In the above-described embodiment, the operating state of the server is notified using the LED in the button 225. For this reason, a pre-established color code is set so that customers or technicians can recognize when an element is turned on (hot plug) or turned off (removed). For example, a blue color indicates that the element is fully functional and is electrically and logically attached, and a red color indicates that the element is in the process of being reconfigured and must not yet be physically removed Green (or no illumination) indicates that the element has been reconfigured (or no longer logically or electrically present) and can be physically removed.

V.問題のあるコンポーネントの非介入自動検出および除去
ホットプラグコンポーネントによる上述の手動除去機能が与えられれば、本発明を拡張することによって、問題のある要素(またはコンポーネント)の非介入自動検出、および、予め確立された(または所望の)動作レベルで機能していない要素または不良の要素の自動分離が行われる。本発明の非介入ホットプラグ機能により、技術者は、処理システム全体を分解することなく問題のある要素を除去することができる。本発明は、この機能を更にもう一段階拡張して、システムにプラグインされたコンポーネントの自動的な問題検出を可能とし、その後、非介入的に(システムが動作している間に)システムから問題のある/不良のコンポーネントを動的に除去する。技術者が開始する再構成とは異なり、この問題要素/コンポーネントの検出およびこれに応じた再構成は自動的に行われ、残りの処理システムで顕著な故障停止を生じることなく背景で行われる。本実施形態によって、問題のある/不良のコンポーネントの効率的な検出が可能となり、問題のあるコンポーネントを処理タスクに用いた場合の、システム全体の完全性に対する潜在的な問題を軽減する。この実施形態は、更に、残りのシステムに故障停止を生じることなく適時に不良のコンポーネントを置換することに役立つ。
V. Non-interventional automatic detection and removal of problematic components Given the manual removal capability described above with hot-plug components, the present invention can be extended to provide non-interventional automatic detection of problematic elements (or components) and pre- Automatic separation of elements that are not functioning at the established (or desired) level of operation or defective elements is performed. The non-intervening hot plug feature of the present invention allows technicians to remove problematic elements without disassembling the entire processing system. The present invention extends this functionality a further step to allow automatic problem detection of components plugged into the system and then from the system non-interventional (while the system is running). Dynamically remove problem / bad components. Unlike engineer-initiated reconfiguration, this problem element / component detection and corresponding reconfiguration takes place automatically and in the background without significant failure outages in the rest of the processing system. This embodiment allows for efficient detection of problematic / bad components and mitigates potential problems for overall system integrity when problematic components are used for processing tasks. This embodiment further helps to replace defective components in a timely manner without causing a failure outage in the rest of the system.

図9は、ホットプラグ環境内における問題のあるコンポーネントの自動検出および動的割り当て解除のプロセスを示す。このプロセスはブロック602において開始し、S.E.が、システムに追加されている新しいコンポーネントを検出し、システムの現在の有効動作状態(プロセッサ、構成レジスタ等の構成状態)をセーブする。あるいは、自動的に、S.E.は、システム動作中の予め確立された時間間隔で、更に、新しいコンポーネントがシステムに追加された場合はいつでも、動作状態をセーブする。ブロック604に示すように、新しい動作状態を入力し、システムハードウエア構成(新しいコンポーネントを含む)を試験する。ブロック606において、新しい動作状態およびシステム構成の試験がOK信号を生成するか否かを判定する。システム構成の試験には、システム全体に対するBISTまたは新しいコンポーネントのみに対するBIST、および新しいコンポーネントの信頼性試験等の他の構成試験が含まれ得る。試験がOK信号を戻した場合、ブロック608に示すように、新しい動作状態を現在の状態としてセーブする。次いで、ブロック610に示すように、新しい動作状態がシステム全体に実装される。プロセスループは、変更があった場合または所定の時間間隔が経過した場合に、いずれかの新しい動作状態の試験に戻る。   FIG. 9 illustrates the process of automatic detection and dynamic deallocation of problematic components within a hot plug environment. The process begins at block 602 and S.P. E. Detects new components being added to the system and saves the current active operating state of the system (configuration state of the processor, configuration registers, etc.). Alternatively, automatically E. Saves the operating state at pre-established time intervals during system operation and whenever a new component is added to the system. As shown in block 604, a new operating state is entered to test the system hardware configuration (including new components). In block 606, it is determined whether a new operating state and system configuration test generates an OK signal. System configuration tests may include BIST for the entire system or BIST for new components only, and other configuration tests such as new component reliability tests. If the test returns an OK signal, the new operating state is saved as the current state, as shown in block 608. The new operating state is then implemented throughout the system, as shown at block 610. The process loop returns to testing for any new operating state when there is a change or when a predetermined time interval has elapsed.

試験が問題ありの指示を戻した場合、例えばBISTが失敗したか、または実行時エラーチェック回路が活性化した場合、検出および割り当て解除プロセスの割り当て解除段階を開始する。S.E.は、図7に示したステップと同様の一連のステップを経るが、サービス技術者が除去プロセスを開始した図7とは異なり、この実施形態の除去プロセスは自動化されており、あるレベルで試験が失敗したことの指示を受信したことの直接の結果として開始する。S.E.は、ブロック612に示すように除去プロセスを開始する。ブロック614に示すように、出力デバイスにメッセージを送信して、顧客またはサービス技術者に、特定のコンポーネントで問題が見つかり、そのコンポーネントを除去したこと(または除去していること)(すなわちオフラインとすること)を知らせる。1つの実施形態では、出力デバイスは、処理システムに接続されたモニタであり、これによってサービス技術者はシステム全体の動作パラメータを監視する。別の実施形態では、問題は、製造業者または供給業者に(ネットワーク媒体を介して)メッセージとして送られ、次いでその業者が、ブロック616に示すように、不良のコンポーネントを置換または修理するための迅速な処置を取ることができる。   If the test returns an indication of a problem, for example if the BIST fails or the runtime error check circuit is activated, the deallocation phase of the detection and deallocation process is started. S. E. Is a series of steps similar to those shown in FIG. 7, but unlike FIG. 7, where the service technician started the removal process, the removal process of this embodiment is automated and tested at a certain level. Start as a direct result of receiving an indication of failure. S. E. Begins the removal process as shown in block 612. As shown in block 614, a message is sent to the output device to inform the customer or service technician that a problem has been found with a particular component and that the component has been removed (or removed) (ie taken offline). ) In one embodiment, the output device is a monitor connected to the processing system, whereby the service technician monitors the operating parameters of the entire system. In another embodiment, the problem is sent as a message (via a network medium) to the manufacturer or supplier, who then prompts to replace or repair the defective component, as shown in block 616. Can take various actions.

1つの実施形態では、検出段階は、チップレベルでの試験を含む。このため、製造業者レベルの試験が、システムが動作している間およびシステムを顧客に出荷した後に、システム上で行われる。上述のプロセスによって、システムは、製造品質自己試験機能およびそれらの試験に基づく自動的な非介入動的再構成が可能である。ある1つの特定の実施形態は、パーティションのバーチャル化を伴う。パーティション切り替え時に、パーティションの状態をセーブする。製造業者品質自己試験は、様々なコンポーネントにおいて専用ハードウエアによって実行される。試験は、上述のように非介入でパーティションを切り替えるのに要するのとほぼ同じ時間(1マイクロ秒)のみを要する。試験によってパーティションが悪いことが示されると、S.E.は、自動的に悪いコンポーネントから作業負荷を再割り当てし、セーブされた以前の良好な状態を復元する。   In one embodiment, the detection step includes testing at the chip level. For this reason, manufacturer-level tests are performed on the system while the system is operating and after the system has been shipped to the customer. The process described above allows the system to make manufacturing quality self-test functions and automatic non-intervening dynamic reconfiguration based on those tests. One particular embodiment involves partition virtualization. Save partition status when switching partitions. Manufacturer quality self-tests are performed by dedicated hardware on various components. The test only takes about the same amount of time (1 microsecond) as it takes to switch partitions without intervention as described above. If the test shows that the partition is bad, S.M. E. Automatically reassigns workload from bad components and restores previous good state saved.

本発明について好適な実施形態を参照して具体的に図示し説明したが、当業者には、本発明の精神および範囲から逸脱することなく、形態および詳細において様々な変更を行い得ることは理解されよう。   Although the invention has been particularly shown and described with reference to preferred embodiments, those skilled in the art will recognize that various changes can be made in form and detail without departing from the spirit and scope of the invention. Let's be done.

従来技術によるマルチプロセッサシステム(MP)の主なコンポーネントのブロック図である。1 is a block diagram of the main components of a multiprocessor system (MP) according to the prior art. 従来技術によるサーバクラスタの複数のサーバを示すブロック図である。It is a block diagram which shows several servers of the server cluster by a prior art. 本発明の1実施形態に従って、様々なホットプラグ機構を提供するように用いられる接続機構制御論理によって設計されたデータ処理システム(サーバ)のブロック図である。1 is a block diagram of a data processing system (server) designed with attachment mechanism control logic used to provide various hot-plug mechanisms in accordance with one embodiment of the present invention. FIG. 本発明の1実施形態に従ってホットプラグのために構成された図3の2つのサーバを含むMPのブロック図である。FIG. 4 is a block diagram of an MP including the two servers of FIG. 3 configured for hot plug according to one embodiment of the present invention. 本発明の1実施形態に従ってホットプラグのために構成された図3の2つのサーバを含むMPのブロック図である。FIG. 4 is a block diagram of an MP including the two servers of FIG. 3 configured for hot plug according to one embodiment of the present invention. 本発明の1実施形態に従って図4のMPにサーバを追加するプロセスを示すフローチャートである。FIG. 5 is a flowchart illustrating a process for adding a server to the MP of FIG. 4 in accordance with an embodiment of the present invention. 本発明の1実施形態に従って図4のMPからサーバを除去するプロセスを示すフローチャートである。5 is a flowchart illustrating a process for removing a server from the MP of FIG. 4 in accordance with one embodiment of the present invention. 本発明の1実施形態に従って全ての主コンポーネントのホットプラグ拡張を可能とするデータ処理システムのブロック図である。1 is a block diagram of a data processing system that enables hot plug expansion of all main components in accordance with one embodiment of the present invention. FIG. 本発明の1実施形態に従って、検出可能な問題を生じているホットプラグされたコンポーネントの自動検出および動的除去を完了するプロセスを示すフローチャートである。4 is a flowchart illustrating a process for completing automatic detection and dynamic removal of hot-plugged components that are causing a detectable problem, in accordance with one embodiment of the present invention.

Claims (21)

データ処理システムであって、
内部のコンポーネントを相互接続する相互接続機構を含む第1の処理ユニットであって、前記相互接続機構は少なくとも1つのホットプラグコネクタを含み、及び前記相互接続機構は前記相互接続機構のルーティングおよび通信動作を制御するための構成を複数の構成から動的に選択するための論理を更に含む、前記第1の処理ユニットと、
前記ホットプラグコネクタを介して前記第1の処理ユニットに電気的および論理的に接続できる第2の処理ユニットと、
前記第1の処理ユニット上で行われている動作に介入することなく前記第1の処理ユニットと前記第2の処理ユニットとの間で電気的および論理的な接続を実行するための手段と、
を含み、前記データ処理システムが前記第1の処理ユニットのみを含む場合、前記論理は第1の構成を選択し、前記データ処理システムが前記第1の処理ユニットおよび前記第2の処理ユニットの双方を含む場合、前記論理は第2の構成を選択する、データ処理システム。
A data processing system,
A first processing unit including an interconnect mechanism for interconnecting internal components, the interconnect mechanism including at least one hot plug connector, and the interconnect mechanism includes routing and communication operations of the interconnect mechanism Said first processing unit further comprising logic for dynamically selecting a configuration for controlling the plurality of configurations;
A second processing unit that can be electrically and logically connected to the first processing unit via the hot plug connector;
Means for performing an electrical and logical connection between the first processing unit and the second processing unit without intervening operations being performed on the first processing unit;
And the data processing system includes only the first processing unit, the logic selects a first configuration, and the data processing system includes both the first processing unit and the second processing unit. A data processing system, wherein the logic selects a second configuration.
前記電気的および論理的な接続の後に前記第1の処理ユニットの作業負荷を自動的に前記第2の処理ユニットに共有させるための手段を更に含む、請求項1に記載のデータ処理システムThe data processing system of claim 1, further comprising means for causing the second processing unit to automatically share the workload of the first processing unit after the electrical and logical connections. 前記接続を実行するための手段は、前記第1の処理ユニット内で動作するサービス要素であって、前記第1の処理ユニットに前記第2の処理ユニットが接続されていることを検出すると前記論理をトリガして前記第2の構成を選択するサービス要素を含む、請求項1又は2に記載のデータ処理システム。   The means for performing the connection is a service element that operates in the first processing unit, and detects that the second processing unit is connected to the first processing unit. The data processing system according to claim 1, further comprising a service element that triggers and selects the second configuration. 前記第1の処理ユニットは、前記データ処理システム上の動作を制御し、前記データ処理システムの現在の構成に基づいて前記データ処理システム内のプロセッサおよび他のコンポーネントの間で作業負荷を割り当てるオペレーティングシステム(OS)を含み、
前記接続を実行するための手段は、前記第1の処理ユニット内で動作すると共に前記OSをトリガして前記第1の処理ユニットおよび前記第2の処理ユニットの双方の間で前記第1の処理ユニットの作業負荷を割り当てるサービス要素を含む、
請求項1に記載のデータ処理システム。
The first processing unit controls operations on the data processing system and allocates workload among processors and other components in the data processing system based on the current configuration of the data processing system (OS)
The means for executing the connection operates in the first processing unit and triggers the OS to cause the first processing between the first processing unit and the second processing unit. Including service elements that allocate unit workloads,
The data processing system according to claim 1 .
前記接続を実行するための手段は、前記第1の処理ユニット内で動作すると共に、前記第1の処理ユニットに前記第2の処理ユニットが接続されていることの検出に応答して前記第2の処理ユニットに対する一連の動作試験をトリガするサービス要素を含み、前記動作試験が肯定的な結果を戻した後にのみ前記論理接続が完了する、請求項1又は2に記載のデータ処理システム。   The means for performing the connection operates in the first processing unit and is responsive to detecting that the second processing unit is connected to the first processing unit. 3. A data processing system according to claim 1 or 2, comprising a service element that triggers a series of operational tests on a plurality of processing units, wherein the logical connection is completed only after the operational test returns a positive result. 前記第1の処理ユニットの前記ホットプラグコネクタおよび前記第2の処理ユニットの関連するホットプラグコネクタを相互接続するための接続ポートを提供する接続バックプレーンを更に含む、請求項1又は2に記載のデータ処理システム。   The connection backplane of claim 1 or 2, further comprising a connection backplane that provides a connection port for interconnecting the hot plug connector of the first processing unit and an associated hot plug connector of the second processing unit. Data processing system. 前記第1の処理ユニット上で行われている動作に介入することなく前記第1の処理ユニットと前記第2の処理ユニットとの間の電気的および論理的接続を除去するための手段を更に含む、請求項1又は2に記載のデータ処理システム。   And further includes means for removing electrical and logical connections between the first processing unit and the second processing unit without intervening operations being performed on the first processing unit. The data processing system according to claim 1 or 2. 前記ホットプラグコネクタは第1のホットプラグコネクタであり、前記第2の処理ユニットは、前記ホットプラグコネクタを介して前記第1の処理ユニットに前記第2の処理ユニットを接続するために利用される第2のホットプラグコネクタを有する第2の相互接続機構を含む、請求項1又は2に記載のデータ処理システム。   The hot plug connector is a first hot plug connector, and the second processing unit is used to connect the second processing unit to the first processing unit via the hot plug connector. The data processing system of claim 1 or 2, comprising a second interconnect mechanism having a second hot plug connector. 前記第1の処理ユニット上で行われている動作に介入することなく前記第1の処理ユニットから前記第2の処理ユニットの電気的および論理的な除去を実行するための手段を更に含む、請求項1又は2に記載のデータ処理システム。   And further comprising means for performing electrical and logical removal of the second processing unit from the first processing unit without intervening operations being performed on the first processing unit. Item 3. The data processing system according to Item 1 or 2. 前記除去を実行するための手段は、前記第1の処理ユニット内で動作するサービス要素であって、前記第1の処理ユニットからの前記第2の処理ユニットの除去の開始を検出すると前記論理をトリガして前記第1の構成を選択するサービス要素を含む、請求項に記載のデータ処理システム。 The means for performing the removal is a service element that operates in the first processing unit, and detects the start of removal of the second processing unit from the first processing unit. The data processing system of claim 9 , comprising a service element that triggers to select the first configuration. 前記第1の処理ユニットは、前記データ処理システム上の動作を制御し、前記データ処理システムの現在の構成に基づいて前記データ処理システム内のプロセッサおよび他のコンポーネントの間で作業負荷を割り当てるオペレーティングシステム(OS)を含み、
前記除去を実行するための手段は、前記第1の処理ユニット内で動作すると共に前記OSをトリガして前記第2の処理ユニットから前記第1の処理ユニットに作業負荷を割り当てるサービス要素を含む、請求項に記載のデータ処理システム。
The first processing unit controls operations on the data processing system and allocates workload among processors and other components in the data processing system based on the current configuration of the data processing system (OS)
The means for performing the removal includes a service element that operates within the first processing unit and that triggers the OS to assign a workload from the second processing unit to the first processing unit. The data processing system according to claim 9 .
前記除去を実行するための手段は、前記第1の処理ユニット内で動作すると共に、前記第2の処理ユニットと前記第1の処理ユニットとの間の論理分離を自動的に発生するサービス要素を含む、請求項に記載のデータ処理システム。 The means for performing the removal includes a service element that operates within the first processing unit and that automatically generates a logical separation between the second processing unit and the first processing unit. The data processing system according to claim 9 , comprising: 前記第1の処理ユニットの前記ホットプラグコネクタおよび前記第2の処理ユニットの関連するホットプラグコネクタを相互接続するための接続ポートを提供する接続バックプレーンを更に含む、請求項に記載のデータ処理システム。 The data processing of claim 9 , further comprising a connection backplane that provides a connection port for interconnecting the hot plug connector of the first processing unit and an associated hot plug connector of the second processing unit. system. 第3の処理ユニットと、
前記第1の処理ユニット上で行われている動作に介入することなく、前記第1の処理ユニットと前記第3の処理ユニットとの間で電気的および論理的接続を動的に確立するための手段と、
前記データ処理システムを動的に再構成して、前記第1の処理システム上での動作に介入することなく前記第3の処理ユニットを提供するための手段と、
を更に含む、請求項に記載のデータ処理システム。
A third processing unit;
For dynamically establishing an electrical and logical connection between the first processing unit and the third processing unit without intervening in operations being performed on the first processing unit; Means,
Means for dynamically reconfiguring the data processing system to provide the third processing unit without intervening operation on the first processing system;
The data processing system of claim 9 , further comprising:
第1の処理ユニットに第2の処理ユニットをホットプラグするためのデータ処理システムであって、第1の処理ユニットが相互接続機構を含み、前記相互接続機構が少なくとも1つのホットプラグコネクタと前記相互接続機構のルーティングおよび通信動作を制御するための構成を複数の構成から動的に選択するための論理とを含み、
前記データ処理システムは、
前記ホットプラグコネクタを介して前記第1の処理ユニットに前記第2の処理ユニットを接続するための手段と、
前記第2の処理ユニットの接続を検出し前記第2の処理ユニットが正しく機能しているか否かを判定するための手段と、
正しく機能している第2の処理ユニットが検出された場合、前記第2の処理ユニットを動作可能にするための手段と
を含み、前記データ処理システムが前記第1の処理ユニットのみを含む場合、前記論理は第1の構成を選択し、前記データ処理システムが前記第1の処理ユニットおよび前記第2の処理ユニットの双方を含む場合、前記論理は第2の構成を選択する、データ処理システム。
A data processing system for hot plugging a second processing unit to a first processing unit, the first processing unit including an interconnect mechanism, wherein the interconnect mechanism includes at least one hot plug connector and the interconnect. Logic for dynamically selecting a configuration for controlling routing and communication operations of the attachment mechanism from a plurality of configurations;
The data processing system includes:
Means for connecting the second processing unit to the first processing unit via the hot plug connector;
Means for detecting a connection of the second processing unit and determining whether the second processing unit is functioning correctly;
If a second processing unit that is functioning correctly is detected, means for enabling the second processing unit; and if the data processing system includes only the first processing unit, A data processing system, wherein the logic selects a first configuration and the logic selects a second configuration when the data processing system includes both the first processing unit and the second processing unit.
前記第2の処理ユニットに前記第1の処理ユニットの作業負荷を共有させるための手段を更に含む、請求項15に記載のデータ処理システム。 16. The data processing system of claim 15 , further comprising means for causing the second processing unit to share the work load of the first processing unit. 前記第1の処理ユニットの動作に介入することなく前記第2の処理ユニットのホット除去を可能とするための手段を更に含む、請求項15又は16に記載のデータ処理システム。 17. A data processing system according to claim 15 or 16 , further comprising means for enabling hot removal of the second processing unit without intervening in the operation of the first processing unit. 前記データ処理システム上の動作を制御し、前記データ処理システムの現在の構成に基づいて、前記データ処理システム内でプロセッサおよび他のコンポーネント間で作業負荷を割り当てるオペレーティングシステム(OS)を更に含む、請求項15に記載のデータ処理システム。 An operating system (OS) that controls operations on the data processing system and that allocates a workload among processors and other components within the data processing system based on a current configuration of the data processing system. Item 16. The data processing system according to Item 15 . 第1の処理ユニットを含むデータ処理システムにおいて、前記第1の処理ユニットに第2の処理ユニットをホットプラグするための方法であって、前記第1の処理ユニットは相互接続機構を含み、前記相互接続機構は少なくとも1つのホットプラグコネクタを含み、及び前記相互接続機構は前記相互接続機構のルーティングおよび通信動作を制御するための構成を複数の構成から動的に選択するための論理を更に含み、
前記方法は、
前記ホットプラグコネクタを介して前記第1の処理ユニットに対する第2の処理ユニットの接続を検出するステップと、
前記第2の処理ユニットが正しく機能しているか否かを判定するステップと、
前記第2の処理ユニットが検出され正しく機能している場合、前記第1の処理システム上の動作に介入することなく前記第2の処理ユニットを動作可能にするステップと
を含み、前記データ処理システムが前記第1の処理ユニットのみを含む場合、前記論理は第1の構成を選択し、前記データ処理システムが前記第1の処理ユニットおよび前記第2の処理ユニットの双方を含む場合、前記論理は第2の構成を選択する、方法。
In a data processing system including a first processing unit, a method for hot plugging a second processing unit into the first processing unit, the first processing unit including an interconnection mechanism, wherein the mutual processing The connection mechanism includes at least one hot plug connector, and the interconnect mechanism further includes logic for dynamically selecting a configuration for controlling routing and communication operations of the interconnect mechanism from a plurality of configurations;
The method
Detecting a connection of a second processing unit to the first processing unit via the hot plug connector;
Determining whether the second processing unit is functioning correctly;
Enabling the second processing unit to operate without intervening in the operation on the first processing system if the second processing unit is detected and functioning correctly, the data processing system comprising: If the data processing system includes only the first processing unit, the logic selects the first configuration, and if the data processing system includes both the first processing unit and the second processing unit, the logic is A method of selecting a second configuration.
前記第2の処理ユニットに前記第1の処理ユニットの作業負荷を共有させるステップを更に含む、請求項19に記載の方法。 The method of claim 19 , further comprising causing the second processing unit to share a workload of the first processing unit. 前記第1の処理ユニットの動作に介入することなく前記第2の処理ユニットのホット除去を可能とするステップを更に含む、請求項19又は20に記載の方法。 21. A method according to claim 19 or 20 , further comprising the step of allowing hot removal of the second processing unit without intervening in the operation of the first processing unit.
JP2004131849A 2003-04-28 2004-04-27 Non-interventional dynamic hot plug and hot removal of server nodes in SMP Expired - Fee Related JP3976275B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/424,277 US6990545B2 (en) 2003-04-28 2003-04-28 Non-disruptive, dynamic hot-plug and hot-remove of server nodes in an SMP

Publications (2)

Publication Number Publication Date
JP2004326808A JP2004326808A (en) 2004-11-18
JP3976275B2 true JP3976275B2 (en) 2007-09-12

Family

ID=33299324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004131849A Expired - Fee Related JP3976275B2 (en) 2003-04-28 2004-04-27 Non-interventional dynamic hot plug and hot removal of server nodes in SMP

Country Status (5)

Country Link
US (1) US6990545B2 (en)
JP (1) JP3976275B2 (en)
KR (1) KR100615772B1 (en)
CN (1) CN1308869C (en)
TW (1) TWI289761B (en)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7234014B2 (en) * 2004-01-14 2007-06-19 International Business Machines Corporation Seamless user interactions for portable storage devices
US7765250B2 (en) * 2004-11-15 2010-07-27 Renesas Technology Corp. Data processor with internal memory structure for processing stream data
JP2007004338A (en) * 2005-06-22 2007-01-11 Renesas Technology Corp Data processor
US7907954B2 (en) * 2005-03-23 2011-03-15 Nokia Corporation System and method for dynamic interface management
US7260666B2 (en) * 2005-07-26 2007-08-21 Hewlett-Packard Development Company, L.P. Supporting multiple methods for device hotplug in a single computer
US20070033314A1 (en) * 2005-08-04 2007-02-08 Arad Rostampour Event generation for device hotplug
TW200712841A (en) * 2005-09-30 2007-04-01 Tyan Computer Corp Processor configuration architecture of multi-processor system
US7882382B2 (en) * 2006-06-14 2011-02-01 International Business Machines Corporation System and method for performing computer system maintenance and service
US7461241B2 (en) * 2006-07-31 2008-12-02 International Business Machines Corporation Concurrent physical processor reassignment method
KR100751284B1 (en) 2007-03-12 2007-08-23 주식회사 아이오셀 Method of blocking unnecessary message display of computer system and computer readable recording medium recording the method
JP2009054103A (en) * 2007-08-29 2009-03-12 Panasonic Corp Host device that controls multiple memory cards
US7689797B2 (en) * 2007-08-29 2010-03-30 International Business Machines Corporation Method for automatically configuring additional component to a storage subsystem
JP5381179B2 (en) * 2008-06-06 2014-01-08 株式会社リコー Image processing device
US7743375B2 (en) * 2008-06-27 2010-06-22 International Business Machines Corporation Information handling system including dynamically merged physical partitions
US8111615B2 (en) 2008-07-07 2012-02-07 Intel Corporation Dynamic update of route table
JP5204613B2 (en) * 2008-10-17 2013-06-05 株式会社バッファロー Terminal device
US8001310B2 (en) * 2009-03-04 2011-08-16 Hewlett-Packard Development Company, L.P. Scalable computer node having an expansion module that is socket-compatible with a central processing unit
JP5321170B2 (en) * 2009-03-17 2013-10-23 株式会社リコー Image forming apparatus, information processing method, and program
US20110161592A1 (en) * 2009-12-31 2011-06-30 Nachimuthu Murugasamy K Dynamic system reconfiguration
US20110179311A1 (en) * 2009-12-31 2011-07-21 Nachimuthu Murugasamy K Injecting error and/or migrating memory in a computing system
KR101532397B1 (en) * 2011-08-31 2015-06-29 후아웨이 테크놀러지 컴퍼니 리미티드 Method for managing a memory of a computer system, memory management unit and computer system
US9342394B2 (en) 2011-12-29 2016-05-17 Intel Corporation Secure error handling
CN103246634B (en) * 2013-04-26 2017-02-08 华为技术有限公司 Method and device for configuring working modes of multi-processor system
CN103369077A (en) * 2013-07-01 2013-10-23 惠州Tcl移动通信有限公司 Mobile terminal and circuit for implementing hot plug of subscriber identity module card of mobile terminal
US9460049B2 (en) * 2013-07-18 2016-10-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Dynamic formation of symmetric multi-processor (SMP) domains
CN103631736B (en) * 2013-11-27 2016-08-17 华为技术有限公司 device resource control method and device
CN105260336B (en) * 2015-11-17 2018-12-18 上海交通大学 Can byte addressing nonvolatile memory hot-plug method and device
CN105700975B (en) 2016-01-08 2019-05-24 华为技术有限公司 A kind of central processing unit CPU heat removal, hot addition method and device
US10013382B2 (en) * 2016-04-27 2018-07-03 Quanta Computer Inc. Smart plug node management
CN106775857A (en) * 2016-12-07 2017-05-31 珠海格力电器股份有限公司 Method and device for hot deletion, hot addition and hot replacement of components of server
CN107273260B (en) * 2017-06-15 2022-03-25 联想(北京)有限公司 A processing method and electronic device
US10489341B1 (en) * 2018-06-25 2019-11-26 Quanta Computer Inc. Flexible interconnect port connection
US11086686B2 (en) 2018-09-28 2021-08-10 International Business Machines Corporation Dynamic logical partition provisioning
WO2020187182A1 (en) * 2019-03-15 2020-09-24 上海小麦互动企业发展有限公司 Processing apparatus and processing method therefor
US11106611B2 (en) * 2019-12-10 2021-08-31 Baker Hughes Oilfield Operations Llc Control system migration using interface card
TWI812970B (en) * 2021-06-25 2023-08-21 瑞昱半導體股份有限公司 Power supplying circuit and power supplying method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396635A (en) * 1990-06-01 1995-03-07 Vadem Corporation Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system
KR19980027995A (en) * 1996-10-18 1998-07-15 김광호 Apparatus and method having hot-swapping capability
US5964855A (en) * 1997-04-07 1999-10-12 International Business Machines Corporation Method and system for enabling nondisruptive live insertion and removal of feature cards in a computer system
US6263387B1 (en) * 1997-10-01 2001-07-17 Micron Electronics, Inc. System for automatically configuring a server after hot add of a device
US6158015A (en) * 1998-03-30 2000-12-05 Micron Electronics, Inc. Apparatus for swapping, adding or removing a processor in an operating computer system
US6061746A (en) * 1998-04-30 2000-05-09 Compaq Computer Corporation Device bay system without 1394 PHY/Link interface to device bay controller having a software intercepting a GUID query and returning a stored unique identifier
US6338107B1 (en) * 1998-12-16 2002-01-08 International Business Machines Corporation Method and system for providing hot plug of adapter cards in an expanded slot environment
US6282596B1 (en) * 1999-03-25 2001-08-28 International Business Machines Corporation Method and system for hot-plugging a processor into a data processing system
US6535944B1 (en) * 1999-03-30 2003-03-18 International Business Machines Corporation Hot plug control of MP based computer system
US6421755B1 (en) * 1999-05-26 2002-07-16 Dell Usa, L.P. System resource assignment for a hot inserted device
US7065169B2 (en) * 2000-08-31 2006-06-20 Hewlett-Packard Development Company, L.P. Detection of added or missing forwarding data clock signals
US7673090B2 (en) * 2001-12-19 2010-03-02 Intel Corporation Hot plug interface control method and apparatus

Also Published As

Publication number Publication date
TWI289761B (en) 2007-11-11
KR100615772B1 (en) 2006-08-25
CN1542638A (en) 2004-11-03
JP2004326808A (en) 2004-11-18
TW200508880A (en) 2005-03-01
CN1308869C (en) 2007-04-04
US6990545B2 (en) 2006-01-24
US20040215865A1 (en) 2004-10-28
KR20040093393A (en) 2004-11-05

Similar Documents

Publication Publication Date Title
JP3976275B2 (en) Non-interventional dynamic hot plug and hot removal of server nodes in SMP
JP3962394B2 (en) Dynamic detection of hot-pluggable problematic components and reallocation of system resources from problematic components
JP2005011319A (en) Non-intervening dynamic hot addition and removal of asymmetric data processing system resources
US8359415B2 (en) Multi-root I/O virtualization using separate management facilities of multiple logical partitions
US5860002A (en) System for assigning boot strap processor in symmetric multiprocessor computer with watchdog reassignment
US8141092B2 (en) Management of an IOV adapter through a virtual intermediary in a hypervisor with functional management in an IOV management partition
US7007192B2 (en) Information processing system, and method and program for controlling the same
US6529978B1 (en) Computer input/output (I/O) interface with dynamic I/O adaptor processor bindings
US7953831B2 (en) Method for setting up failure recovery environment
KR100612715B1 (en) Autonomic recovery from hardware errors in an input/output fabric
AU2002324671B2 (en) Computer system partitioning using data transfer routing mechanism
US6295566B1 (en) PCI add-in-card capability using PCI-to-PCI bridge power management
JPS63231560A (en) data processing system
US7194614B2 (en) Boot swap method for multiple processor computer systems
CN117369891B (en) Method and device for starting and running server, server and storage medium
US7039736B2 (en) Systems and methods for accessing bus-mastered system resources
US6769069B1 (en) Service processor control of module I / O voltage level
US20030115382A1 (en) Peripheral device testing system and a peripheral device testing method which can generally test whether or not a peripheral device is normally operated
CN119883988A (en) Server and control method
TWI528286B (en) Server system
JPS63104167A (en) Deciding system for boot strap processor
JP7318799B2 (en) Information processing device, operation control method and operation control program
JP2000099360A (en) Double system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061010

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061010

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20061010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070516

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070612

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110629

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110629

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120629

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120629

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130629

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees