JP2003178039A

JP2003178039A - 分散共有仮想メモリーとその構成方法

Info

Publication number: JP2003178039A
Application number: JP2002280316A
Authority: JP
Inventors: Jonathan Sandberg; サンドバーグジヨナサン
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-03-27
Filing date: 2002-09-26
Publication date: 2003-06-27
Also published as: US5522045A; US5592625A; JPH0619785A

Abstract

(57)【要約】【課題】複数のプロセッサやコンピュータ、マルチプ
ロセッサ、および電子的あるいは光デバイスを接続する
分散共有メモリーによってプロセッサ間通信を行う。【解決手段】複数のコンピュータノードからなるコン
ピュータネットワークの各ノードに１つのプロセッサを
有し、ネットワークは前記ノード間の相互接続よりな
り、各ノードにネットワークに相互接続するためのリン
クハードウエアからなるアダプターカードと、入力バッ
ファーと、メモリーロケーションと、ページテーブル
と、１組の制御・ステータスレジスターと、出力バッフ
ァーを有する。これにより、すべてのネットワークのア
クティビテーが書き込みと制御動作だけで完了し得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ネットワーク中の
複数の遠隔地点のノードに分散しているメモリーの共有
に関する。特に、非同期的に動作している複数のノード
について、ネットワークに接続されているコンピュータ
ーの物理的メモリーへの書き込みのみならず、仮想メモ
リーキャッシュ（ｃａｃｈｅ）へのアクセスや、また相
互通信における共有仮想メモリー空間へのマッピングな
どについての方法ならびに手段を教示する。

【０００２】

【従来の技術】マルチコンピューターの配置法の高度化
によって、マルチプロセッサーシステムが開発されてき
た結果、データ処理の必要性が高まってきている。マル
チプロセッサーの分野では、複数のプロセッサーが同時
にプログラムを実行し、入出力デバイスなどの資源を共
有して、相互に影響を及ぼし合う。一般的に、このよう
なシステムのマルチプロセッサーは共通メモリーにたく
わえられたデータを共有している。それ以外にも、各プ
ロセッサーは非共有データ用の付加的メモリーに対して
も専用のアクセスを行う。共有メモリーに関しては、多
くのプロセッサーがデータにアクセスしようとして競合
し、そのことは時間的にも資源的にも、効率低下をもた
らす。

【０００３】マルチコンピューターシステムは、共有デ
ータのそれぞれのコピーを持つ多くのノードを通して動
作することが多い。共有メモリーが矛盾なく動作するた
めには、各ノードは、すべての関連するノードにある共
有データを同時に書き換えることができるように、他の
ノードにしまわれているデータ、すなわち、「物理メモ
リー」に直接アクセスできなければならない。共有物理
メモリーについての一つの問題点は、メモリーの同じロ
ケーションに１つ以上のコンピューターが同時に書き込
もうとすると、ノード間に矛盾が生ずることである。さ
らに、一つのノードは、他の何れかのノードがデータ更
新のため書き込み動作期間にある間、インアクティブに
保持されなければならないということも問題である。

【０００４】その他にも、一時に１つの更新のみが可能
な１つのメモリーを共有する２つ以上のノードを持つシ
ステムでは、異なるノード間では、対応するメモリー位
置において異なる値、すなわち、一方では更新されてい
るが、他方では未だ更新されていない、ということがあ
るかも知れない、というよりは、大いにあり得る。一般
的には、メモリーの共有を行うために、ネットワーク中
の他のノードからの直接アクセスを確保するため、共有
されるべきデータが各ノードのモード空間中で同一のメ
モリー位置を占めることが要求されてきていた。この固
定したロケーションの物理メモリーを共有するというこ
とは、各ノードにそれら自身ののメモリー空間を最も効
率的に割当てることを妨げるものである。２台以上の機
器にこのメモリー共有の概念を拡張することは、上述の
障害がある限り困難である。

【０００５】プロセッサー間の通信は、ネットワークの
バンド幅や上述の整合に関する問題によって制限され
る。最近提案されている高速コンピューターネットワー
クのアーキテクチャーの多くのものは、従来の物理的接
続にもとづくバスやリングから、集中スイッチングにも
とづく接続へと移行しつつある。このスイッチング・ネ
ットワークのアーキテクチャーは、分散システム上で動
く画像やマルチメディアなどへの応用の、より高速なデ
ータ伝送速度ならびにスループットを約束するものであ
る。さらに、高速スイッチング技術にもとづくネットワ
ーク・アーキテクチャーは、パーソナルコンピューター
からスーパーコンピューターシステムまでを含む商用コ
ンピューターネットワークを悩ませているプロセッサー
間通信のボトルネックを根本的に取除く可能性を秘めて
いる。

【０００６】プロセッサー間通信のボトルネックを除く
ためには、ＳＲＡＭアクセスのスピードが要求される
し、またこのことは、さらに、以下に述べる同程度に重
要な次の二つの問題の解決を必要としている。これら二
つの問題を、１つのネットワークにリンクされた２つの
コンピューターまたは２つのノード、１０および１１、
を含む従来例を示す図１を用いて説明する。それぞれの
コンピューターは、それぞれプロセッサー（Ｐ）１２、
１３、メモリー（Ｍ）１４、１５、および、ネットワー
クアダプタ(ＮＡ)１６、１７からなる。「Ａ」とラベル
した線路１８、１９は、それぞれのコンピューター内に
おいて、メモリーをネットワークアダプタに接続するも
のであり、ユーザーのメモリーアドレス空間からネット
ワークアダプタ・ハードウエアの出力ポートまでのバン
ド幅を表わしている。番号２０で示した「Ｂ」とラベル
した線路はネットワークについてのバンド幅、すなわ
ち、ネットワークアダプタの出力ポート、たとえば１
６、からいま一つのネットワークアダプタの対応する出
力ポート、ここでは１７、までのネットワークのバンド
幅を表わしている。一言で云えば、プロセッサー間通信
の目標とするところは、データを１つのコンピューター
のメモリー空間から他の１つまたはそれ以上の数のコン
ピューターのメモリー空間へ動かすことである。したが
って、「Ａ」とか「Ｂ」で表わされているバンド幅は、
いずれもネットワークの性能に密接に関係する。

【０００７】上記の２つの問題のうちの第１の問題は、
ネットワークのバンド幅の問題であり、分散共有メモリ
ーの更新に必要と考えられるであろうことであって、潜
在的に大きなネットワーク全体に対して、如何にして、
データを迅速かつ確実に多方方向に送り出すかというこ
とである。バンド幅「Ｂ」がネットワーク全体を通じて
維持されるのでなければ、ネットワークを通じての伝送
は分散システムのボトルネックを解消することはできな
い。一旦データがネットワークに与えられたならば、そ
れが如何なるルートを通って指定された組のネットワー
クの目的地に配送されるかが、バンド幅の「過密」の解
消に特に重要である。分散メモリーを共有することは、
ネットワーク中の何れの場所においても、メモリーのコ
ピーを持っていることになるから、相互に接続された機
器間のメモリー読み込み通信は不要になる。

【０００８】しかし、ネットワークの各地点でメモリー
の最新のコピーを常に維持するためには、メモリー書き
込みまたは更新は、それがどこで起ころうとも、ネット
ワーク全体に多方向に送出されなければならない。プロ
セッサー間通信のボトルネックに直面する時に遭遇する
第２の問題は、プロセスからプロセスへのバンド幅の問
題である。ユーザー・メモリー、したがって、プロセッ
サーを接続しているケーブル、すなわち、図１中の１８
および１９で示した線路「Ａ」からネットワークへのデ
ータのロードや、それからの読み込み動作を最適化する
必要がある。もし、ユーザー・プロセッサーのアクセス
が数分の１のバンド幅しか持っていなければ、ネットワ
ークへの接続はボトルネックにとどまることになる。ネ
ットワークのバンド幅問題を解決する努力が大いになさ
れた結果、多くのネットワークにおいて、「Ｂ」が
「Ａ」よりもはるかに大きいという特性を持つようにな
った。その結果、多くのノード上のユーザー・プロセッ
サーやメモリー空間、あるいはパーソナルコンピュータ
ーが、如何にしてこのように性能向上したネットワーク
に迅速にアクセスできるかという問題が残ってきた。し
たがって、複数台のコンピューターの大規模ネットワー
ク化を促進改善するために関連のある問題として、以下
のような事項をあげることができる。すなわち、ネット
ワークのバンド幅、個々のプロセッサー内で得られるプ
ロセス間のバンド幅、共有メモリーの書き込みの順番と
受け付け、同種または異種のオペレーティングシステム
を持つ広範なロケーション間の相互接続、などである。

【０００９】分散メモリーを共有し、相互のローカルメ
モリーに書き込む能力を有するネットワーク中に分散ノ
ードを配置するシステムが、「忘れっぽいメモリーコン
ピューターネットワーク化」と題して、１９９０年３月
２８日公開、公開番号０３６０１５３のヨーロッパ特許
出願８９１１７０２４．３、対応米国特許出願２４９，
６４５、に述べられている。そこで述べられている通信
ネットワークでは、ネットワーク中の何れの機器も、ネ
ットワーク中の他の機器の分散共有メモリーのロケーシ
ョンに書き込むことができる。そこでは、相互接続され
た機器中の共有メモリーの対応するロケーションの物理
アドレスがしまわれている分散メモリーを付随して持つ
ファイルレジスタが設置されている。

【００１０】リンクされたノード、いわゆるビクテイム
ノード、への書き込み動作は、それのアドレスがアドレ
シングに付随するファイルレジスタ（すなわちホストユ
ニット）に常駐している物理メモリーに対して行われ
る。ここでビクテイムとはローカルなメモリーが離れた
ところから書き込まれるところの場所、つまりノードの
ことを言う。ビクテイムロケーションはメモリーの更新
の制御をしたり、それに参加したりすることはない。ネ
ットワークのロケーションは、ホストコンピューターが
希望するファイルのロケーションを「ルックアップ」
し、分散共有メモリー中のビクテイムのロケーションに
対してアドレスパケットを準備するように、物理メモリ
ーロケーション中にメモリーマップされる。０３６０１
５３のシステムでは、主として、確認メッセージを省略
することによってネットワークのバンド幅問題を極小化
し、データをメインメモリーのスピードでネットワーク
中に伝送できるようにして、従来技術を改良している。
確認機構を省略することによって、この方法は弱い一致
検出方式に頼ることになり、共有メモリーロケーション
間の厳密な一致検出は放棄されている。

【００１１】０３６０１５３のシステムのいま一つの改
良点は、ホスト、すなわち、データ送出側のプロセッサ
ーは、ビクティムプロセッサーの更新データの受取りな
らびに処理のサイクルの期間中、その動作の中断を必要
としないことである。ネットワークアダプタ、たとえば
１６、からコンピューター１０のメモリー空間１４への
実際のネットワークの伝送や内部メモリーのストアトラ
ンザクションの作成などはホストプロセッサーのたすけ
を借りることなく、あるいは、ホストプロセッサーに
「気づかれる」ことさえなく行われる。書き込みプロセ
スが行われることによって、ホストプロセッサーは更新
データの送出後のすべての動作を忘れることが許され
る。弱い一致検出方式の一つの欠点は、共有メモリーロ
ケーションに対する更新がそれらが生成された順番に行
われなければならないことである。

【００１２】０３６０１５３のシステムに見られるメモ
リーマップされた中断機構は、それが非選択的である点
でまた問題である。しばしば、ロケーションプロセスは
ネットワークサービスを要求するのにリーダープロセス
に全面的に中断発生を要求する。１台の目標の機器に中
断を発生させるのに、その他のすべての付随する機器は
その中断を受入れ、処理しなければならない。中断の機
構は、中断のターゲットがただ１台のプロセッサーであ
る場合に、データ転送をはじめたりサービスを要求した
りすることに対して、上述のように重要である。全域の
中断を発生する必要のある例は多いが、ネットワーク中
に選択的な中断あるいは多方向での中断を生起させ、進
行中のネットワーク通信があっても、多くの加入者に対
して、その中断動作を継続させるような機能を持つこと
が望ましいこともある。０３６０１５３システムの今一
つの欠点はメモリーの更新を行うために、物理メモリー
のロケーションが相互接続されている各ノードにあるレ
ジスタに「マップ」されるということである。共有メモ
リーの物理的ロケーションはローカルなプロセッサーか
らは変更できないから、このことはそれらのメモリー空
間の最も効率的な割当て能力を制限することになる。

【００１３】ＮｉｇｅｌＬｌｅｗｅｌｙｎＶｉｎｃ
ｅによって開発され、ヨーロッパ特許公開００９２
８９５で１９８８年５月１１日付けで開示されたヨーロ
ッパ特許出版第８３３１１５１６．８に、仮想アドレス
を用いた関連プロセッサーのメモリーへの接近法が開示
されている。ホストプロセッサーファイルレジスタや相
互に接続されている各プロセッサーはメモリー格納場所
の仮想アドレスを含んでいる。ホストプロセッサーは仮
想アドレスやその更新内容を含む書き込みパケットをア
ッセンブルする。ビクテイムプロセッサーはパケットを
受け取り、引き続いて更新すべきメモリーの物理的ロケ
ーションにアクセスするために仮想アドレスをデコード
する。入って来るパケットは全て、それらが発生した順
序で受信されなければならない。Ｖｉｎｃｅ特許はパケ
ットの順序の維持を必要とするトークンリングを用いた
実施例について述べている。Ｖｉｎｃｅ特許のより広範
な応用において、トークンリング以外の相互接続ネット
ワークの使用についても検討しているが、その場合で
も、カウンターとかその他の手段でパケットの順序維持
という特徴は保持されることが必要である。この様なパ
ケットの順序維持の必要性は相互接続システムで到達可
能なスピードを制限するものである。

【００１４】

【特許文献１】欧州特許公開第０３６０１５３号公報

【特許文献２】欧州特許公開第００９２８９５号公報

【００１５】

【発明が解決しようとする課題】ネットワーク全体を通
じて物理的のみならず仮想メモリーアドレスへのアクセ
スを提供する仮想メモリーマッピングの能力は、ネット
ワークの効率を飛躍的に向上させる。仮想共有メモリー
への直接のネットワークアクセスに対する仮想メモリー
アドレッシングの概念の拡張はネットワーク通信を容易
にし、プロセッサーの介入なしに即時メモリー更新を可
能にするものである。その上、仮想メモリー空間を実際
に設置されている物理メモリーよりも大幅に拡大して取
ることができる。したがって、広域に分散したネットワ
ーク全体を通じて仮想共有メモリーを提供することが本
発明の目的とするところである。本発明の更に目的とす
るところは、プロセッサーの介入なしに仮想共有メモリ
ーに対してネットワークアクセスを提供することであ
る。本発明のいま１つの目的は、既存のネットワークに
対して仮想メモリーマッピングならびにアクセスの能力
を提供することである。本発明の更に目的とするところ
は、異種のオペレーテイングシステム（ＯＳ）で動作
し、また異なるメインメモリーバイト数を持つノード間
に相互接続を提供することである。更にいま１つの目的
は、既存のネットワークに対してダイナミック再配置の
能力を提供することである。

【００１６】

【課題を解決するための手段】請求項１の発明の方法
は、第１のノードが第１のメモリーロケーションを更新
する方法であって、それぞれの前記第１のノードは少な
くとも１つの第１のプロセッサーと、第１のオペレーテ
ィングシステムと、第１の仮想メモリーロケーションア
ドレスを有する前記第１のメモリーロケーションとを持
ち、前記第１のノードは、ネットワークを通じて複数の
第２のノードに接続され、それぞれの前記第２のノード
は少なくとも１つの第２のプロセッサーと、第２のオペ
レーティングシステムと、第２の仮想メモリーロケーシ
ョンアドレスを有する第２のメモリーロケーションとを
持ち、前記第１のメモリーロケーション及び前記複数の
第２のメモリーロケーションは共有メモリー値を有し、
それぞれの前記第１のノードは、前記第１のノードにお
ける前記第１のメモリーロケーションの仮想アドレス及
び物理アドレスと前記複数の第２のノードにおける前記
第２のメモリーロケーションの仮想アドレス及び物理ア
ドレスとを有する少なくとも１つのページテーブルを持
つ、下記のステップを有する方法である。：（ａ）前記第１のノードにおいて、更新値と前記第１の
仮想メモリーロケーションアドレスとを含む前記ネット
ワークからのパケットを受け取るステップ、（ｂ）前記
少なくとも１つのページテーブルにアクセスして、前記
第１の仮想メモリーロケーションアドレスを前記第１の
メモリーロケーションに対応する物理メモリーアドレス
に翻訳するステップ、（ｃ）前記物理メモリーアドレス
で、前記第１のメモリーロケーションを前記更新値で更
新するステップ、ここで、前記受け取り及び前記更新
は、前記第１のオペレーティングシステムの動作から独
立して自動的に生じる。

【００１７】請求項２の発明の装置は、第１のメモリー
ロケーションを更新する、第１のノードにおける装置で
あって、それぞれの前記第１のノードは少なくとも１つ
の第１のプロセッサーと、第１のオペレーティングシス
テムと、第１の仮想メモリーロケーションアドレスを有
する第１のメモリーロケーションとを持ち、前記第１の
ノードは、ネットワークを通じて複数の第２のノードに
接続され、それぞれの前記第２のノードは少なくとも１
つの第２のプロセッサーと、第２のオペレーティングシ
ステムと、第２の仮想メモリーロケーションアドレスを
有する第２のメモリーロケーションとを持ち、前記第１
のメモリーロケーション及び前記複数の第２のメモリー
ロケーションは共有メモリー値を有し、それぞれの前記
第１のノードは、前記第１のノードにおける前記第１の
メモリーロケーションの仮想アドレス及び物理アドレス
と前記複数の第２のノードにおける前記第２のメモリー
ロケーションの仮想アドレス及び物理アドレスとを有す
る少なくとも１つのページテーブルを持つ、下記を有す
る装置である。：（ａ）更新値と前記第１の仮想メモリーロケーションア
ドレスとを含む前記ネットワークからのパケットを受け
取る、前記第１のノードにおけるリンクハードウエア手
段、（ｂ）前記少なくとも１つのページテーブルにアク
セスして、前記第１の仮想メモリーロケーションアドレ
スを前記第１のメモリーロケーションに対応する物理メ
モリーアドレスに翻訳する手段、（ｃ）前記物理メモリ
ーアドレスで、前記第１のメモリーロケーションを前記
更新値で更新する手段、ここで、前記受け取り手段及び
前記更新手段は、前記第１のオペレーティングシステム
の動作から独立して自動的に動作する。

【００１８】

【作用】上記発明の目的は上記の課題を解決するための
手段に示された構成により、アダプタカードが既存のノ
ードに取付けられ、さらに本発明のスイッチポートとバ
ス配列を経てネットワークに接続されることによって達
成される。アダプタとスイッチポートは物理的あるいは
仮想メモリーアドレスに対してのみならず、ネットワー
ク中の通信を実行し得るネットワークの仮想共有メモリ
ーアドレスに対しても、優れたメモリーマッピングを提
供し得る制御ならびにステータスレジスタ、ページテー
ブル、入力ならびに出力ＦＩＦＯならびにリンクハード
ウエアなどよりなる。アダプタの構成に含まれるものに
は、さらに、相互に接続されたネットワークの各ロケー
ション間で共有されているメモリー値をたくわえている
物理的メモリーがある。ネットワークアダプタはルート
を設定したり、ネットワークのパケットを多方向送出し
たりするために、スイッチポートにおいて、あらかじめ
ロードされているページテーブルと動作時アドレス翻訳
を用いている。本発明は、地理的に広範囲な地域に広が
る任意に大きな数の高速ノードあるいはプロセッサーを
相互接続するのに用いることができる。さらに、ネット
ワーク中のプロセッサーの接続について、その数、ロケ
ーション、タイプなどを、広範囲にそのスケールを変更
することができるものである。

【００１９】

【発明の実施の形態】以下本発明の実施をするための最
良の形態を具体的に示した実施例について、図面ととも
に記載する。

【００２０】《実施例》本発明の詳細を、その構成なら
びに動作の両面について、以下添付の図面を参照しつつ
説明する。本発明は共有仮想メモリーレベルにおけるプ
ロセッサー間ネットワーク通信を行うための方法と手段
を提供するものである。ここで、本発明は、その構成要
素として、本文中では詳しく述べていない周知のコンピ
ューター回路、種々の素子、機能性ユニットなどを含む
新しい構成に関係しているということを指摘しておかな
ければならない。したがって、これらの周知の回路や素
子の構造、制御ならびに配列などについては、わかりや
すいように、本発明に関連する特定の部分についてだけ
ブロック図とそれらの機能についてのダイアグラムで表
わすこととする。このことは、それらの機能についての
記述という点から考えて、この分野に精通している人に
は、明白な構造上の詳細な記述がかえって発明そのもの
を不明瞭にすることを避けたいためである。このように
すれば、これらのシステムの種々の部分が確認され、機
能によって分類されるので、発明に関連のあるそれらの
特徴を強調することができる。

【００２１】以下の記述は、この分野に精通している人
が、ここに開示される発明の可能性と能力を十分に理解
し、これを種々のコンピューターアーキテクチャに組込
むことができるように配慮してある。本発明の利点を実
現するシステムは、すぐれたネットワーク対バンド幅特
性を備えていなければならない。本発明を実現するのに
必要な現在入手可能なハードウエアの中には、是非とも
必要というわけではないが、パラレルシリアルクロック
変換可能なデータ伝送のできるＡＭＤタクシー（ＡＭＤ
社の登録商標）チップ、光電変換可能な光データリン
ク、データのフローをバッファしたり制御する入出力Ｆ
ＩＦＯ、ならびに、ＳＡＲＭ、などなどの種々の光ある
いはエレクトロニックなパーツが含まれている。今迄是
非とも必要とされたもので構成要素リストに記載されな
くなることが特に目立つパーツは、オンボードプロトコ
ルプロセッサーであるが、これは本発明によって不要と
なるものである。

【００２２】以下に述べる本発明の記述を通じて、ある
種の広義な用語が記述の統一性と明確性のために用いら
れている。本発明者は、それらの用語が当該技術のより
広範な局面に用いられることが意図されていることが明
らかな時にもそれらの用語の用法が厳密な解釈に限られ
るということは望まないものである。特に、以下の用語
は広義の用法で用いられることを断っておく。「ノー
ド」という語はプロセッサー、コンピューター、スーパ
ーコンピューター、あるいは、マルチプロセッサーなど
を含む（それらに限られないが）、独立して動作する機
器を表示するのに使われる。「プロセッサー」という語
はノード中にある制御プロセッサーを指すのに使われ
る。「ホストプロセッサー」という語は受信あるいは犠
牲プロセッサーに通信されるべき書き込みあるいは制御
コマンドを送出している一つのノード中のプロセッサー
を指すのに使われる。「インタープロセッサー」という
語は独立したノード間のネットワーク、あるいはそのよ
うな独立したノード間のネットワーク中にある通信を指
す。

【００２３】基本的に、あるいは概念的に、本発明中に
おけるコンピューターノードというものは、メモリーの
マッピングを通じて、メモリーバスの書き込みあるいは
ネットワーク上の制御コマンドを繰り返すだけでアクセ
スできる仮想アドレス空間にリンクされている。各ノー
ドで実行されているプログラムは仮想メモリーのひとつ
あるいはそれ以上のセグメントを共有し、それらのセグ
メントをあたかも各プログラムの一部であるかのように
使う。メモリーの共有されたセグメントは個々のプログ
ラムから同時にアクセス可能である。したがって、ネッ
トワーク上のプログラムは共通のメモリーセグメントを
通じて互いにデータを交換することによって通信するこ
とができる。共有メモリー通信のこのような形態は、共
有メモリーを通して通信しているプロセスに対するイン
タープロセス通信について、それらのプロセスが同じノ
ード（すなわち、シングルの）上で走っている場合に
は、既にサポートされている。この例における共有メモ
リーは、ワークステーションあるいはノードの物理メモ
リーである。現在のところ、多くのノード上で動作して
いるプロセス間の通信を成立させるために、ノード内で
動作するＳＲＡＭのスピードで共有メモリーコールを用
いる方法は、本発明以外存在しない。

【００２４】このような低レベルのメモリーでインター
プロセッサー通信を行うことには、利点と欠点の両面が
ある。欠点は、一つには、新しい共有メモリーのプログ
ラミングモデルを必要とすることであり、一つには、ア
ーキテクチャーの異なるコンピューター間で、あるタイ
プのデータ（たとえば、浮動小数点データ）を送るとき
にデータタイプ間の変換を必要とすることである。プロ
グラミング技術に精通した人ならば、このような比較的
軽微な不便さを簡単に補償することができる。利点とし
ては、インタープロセッサー通信に対して、ＯＳの違い
にほとんどかあるいは全く依存しない点が含まれる。Ｏ
Ｓ依存性の少なさは、インタープロセッサー通信のメモ
リーマッピングからきている。

【００２５】その上、ネットワーク通信や共有メモリー
のやりとりは、固定した物理メモリーロケーションを指
定せずにアクセスできる適宜なキャッシュ中のメモリー
を指定する能力をノードに対して制限することなしに、
ノード内のメモリーにアクセスすることを可能としてい
る。システムは、その仮想メモリーページのある箇所を
共有するように指定したり、それ自身のアダプタカード
のメモリーロケーションの更新をおこなったり、また他
の組み合わさっているネットワークの多くのノードのペ
ージテブルを同時に更新するように多方向に指令を発し
たりして、そのメモリー空間を連続的に管理することを
許している。このようにして、ネットワーク上の各ノー
ドは基本的には、仮想メモリー空間を経由して関連する
ノードのいかなるレベルのメモリーにも直接アクセスす
ることができる。もしも、ある一つのノードのみがある
データにアクセスすることができるようにしたければ、
共有仮想メモリーのすべてのメモリーページの内容は、
一般に、他の仮想メモリーページが保護されているのと
同じやりかたで保護されている必要がある。プログラム
は、共有可能である旨をパブリックにあるいはプライベ
ートに宣言されているページに対して、読み／書きの優
先権を与えられている。

【００２６】共有仮想メモリー（ＳＶＭ）でマップされ
たコンピューターネットワークについてのルート選択や
管理と言うものは、まったく新しい概念である。ＳＶＭ
のアドレス空間は各ユーザーの仮想メモリーアドレス空
間についても、また、いずれのホストノード上のＯＳの
アドレス空間についても独立なものである。共有仮想空
間は単一のネットワークの広さのアドレス空間を持ち、
このシステムはプログラムがそれらの仮想メモリーのセ
グメントをひっつけたりすることができるように設計さ
れている。システムはプログラムに対し、それらの仮想
メモリーページのどこかあるいはすべてに共有されるこ
とを指示することができる。共有メモリーセグメントは
どのような固定の標準サイズに制限されることもない。

【００２７】ＳＶＭ空間は長いアドレス（たとえば、12
8ビット長の）をも含む共有仮想メモリーロケーション
の１次元の並びである。共有仮想メモリー空間は非常に
大きいので、各共有仮想メモリーページが実際の物理的
なＲＡＭの１ページを表わすということはありそうにな
い。したがって、この場合には、共有仮想メモリーのア
ドレスは、ただ単に、共有セグメントを作るときにどの
ようなネットワークプログラミングによっても使われる
名前として機能しているに過ぎない。もし、あるプロセ
スがＳＶＭのある与えられたページに対する保証機能と
して動作することに同意するならば、その与えられたペ
ージ内にうまくマップすることのできるプログラムは、
上の保証機能がメモリー割当てプロセスの一部としてＳ
ＶＭページの内容のコピーを送ってくるであろうことを
期待できる。本発明のシステムは高機能なコンピュータ
ーネットワークの管理を簡単化するために、ＳＶＭアド
レス空間を使う。

【００２８】図２は、ＳＶＭアドレス空間２４中のペー
ジ１、ｋ、ｚの３ページを、互いに大きな距離を隔てて
位置するノード上を走ってアダプタロケーション共有メ
モリーへメモリーマッピングをするところを説明する図
である。ロケーション２１にあるノードでは、アダプタ
メモリーのページ０がＳＶＭのページ１に、さらに、ロ
ケーション２３のメモリーのページ０にマップされる。
ロケーション２１と２３は高速２方向リンクとして、そ
れらの物理的共有メモリーのページ０を用いている。ロ
ケーション２１のメモリーのページｋはＳＶＭのページ
ｋに、また、ＳＶＭのページｋはロケーション２２のペ
ージ１とロケーション２３のページ１にデータを送るこ
とができる。各ロケーションにおけるノードはＳＶＭの
ページｋを通じて３方向の通信を行うことができる。こ
れはＳＶＭネットワーク中でデータを多方向送出する一
つの方法である。ロケーション２１のメモリーページｋ
の更新はその度に物理メモリーのページ１にあるロケー
ション２２とロケーション２３から見ることができる。
アドレスの変更はすべて動作時に行われる。このことに
ついては、後で、さらに検討する。

【００２９】ネットワーク管理の方針として、ＳＶＭ空
間の継続するページは特定のノードに静的に割当てるこ
とができる。ＳＶＭアドレスの静的な割当ては、プログ
ラムからの要請による通信チャンネルの迅速な自動立ち
上がりを支援するものである。たとえば、図２におい
て、ロケーション２１のノードはＳＶＭのページｋから
ｋ＋１００を有し得る（の保証者である）と考えてよ
い。ロケーション２２と２３に走っているアプリケーシ
ョンがロケーション２１にデータの転送を要求すると
き、それらのデータは一旦、ＳＶＭのページｋにマップ
される。各ノード間のネットワーク通信はメモリー（バ
ス）の書き込みあるいは制御コマンドを特別につくった
通信ネットワークのスイッチとバスシステム（詳細は後
述）を通じて繰り返すことによって実行される。光、同
軸、その他の最近入手可能となってきた伝送誤り率の低
い改良された伝送システムにより、ネットワーク全体に
わたってメモリーバスに書き込み要求を繰り返すだけの
ことによってネットワークのインタープロセッサー通信
を可能にするようになってきた。

【００３０】仮想共有メモリーの能力の物理的な実現
は、図３に示された種々の物理メモリーとネットワーク
インターフェースなどからなるアダプタカード３０にお
いてなされる。アダプタカードは、ＯＳやノードのメモ
リーアドレスの翻訳アーキテクチャには無関係に、ネッ
トワークに存在するノードに挿入して使われるように設
計されている。現在計画されている好ましい実施例は、
さらに以下に述べられる本発明のスイッチやバスの相互
接続システムを含んではいるけれども、アダプタカード
を特別のポートやバス配列を経由して接続する必要はな
い。アダプタカード３０の物理的要素は以下のとおりで
ある。３つの形の物理メモリーはひと組の制御とステー
タスレジスタ３１、データロケーションメモリー３２、
ページ翻訳テーブルメモリー３３を含んでおり、またネ
ットワークインターフェースは入力ＦＩＦＯ３４、出力
ＦＩＦＯ３５、リンクハードウエア３６からなってい
る。

【００３１】アダプタは入力ならびに出力ＦＩＦＯでリ
ンクハードウエアと呼ばれている入力あるいは出力シリ
アルネットワークを経て接続相互通信ネットワークに接
続されている。アダプタは、ノードで、それにつながっ
ているプロセッサー４０にメモリーバス３７を経て接続
され、指定された範囲の物理メモリーアドレスに対して
読み書きコマンドに応答するメモリーとしてメモリーバ
スとプロセッサーに現れる。アダプタ上のレジスタ、ペ
ージテーブル、ならびに、データなどのロケーションメ
モリーが順次、プロセッサーに対してすべてメモリーカ
ード上で単に別々のメモリーロケーションとして現れ
る。

【００３２】以下に、アダプタの複数の素子やそれらの
素子の機能などについて、特に図３と図４を参照して詳
しく議論する。これらの図中では、共通の参照番号が用
いられている。リンクハードウエア３６がアダプタを、
したがって、ノードを物理的にネットワークに接続す
る。リンクハードウエアは、そのアダプタとそれに関連
するノード／プロセッサーについての点から点へのフロ
ーの制御、光電変換、短いコマンド復号、ならびにハー
ドウエアの伝送エラーの検出機能などのすべてを行うの
で、ネットワーク機能の重要な部分となっている。リン
クハードウエアは、入出力ＦＩＦＯを通じて光信号をア
ダプタにリンクすることのできる何等かの最新のハード
ウエアを使うことによって実現することができる。エレ
メント、即ち伝送メッセージのデイジタル要素が入力Ｆ
ＩＦＯ３４から出てゆくとき、それらはメッセージにま
とめられ、アダプタカード上で処理される。エレメント
が出力ＦＩＦＯ３５から出てゆくにつれて、それらはリ
ンクハードウエアを通してネットワークに送出される。

【００３３】入出力ＦＩＦＯ３４と３５はシーケンシャ
ルなバッファであり、スタート／ストップのフロー制御
方式を用いて、アダプタのネットワークポートを通じて
情報の流れを制御する。入力ならびに出力ＦＩＦＯのそ
れぞれについて、そのいずれかひとつについてだけを図
に示した。しかし、そのノードとネットワークの要求に
よって決められるときは、アダプタハードウエア中にそ
れぞれ１個以上のＦＩＦＯロケーションがあってもかま
わない。ネットワークからメッセージが届くと、それら
は、図４中に例として４４、４５で示すようにシーケン
シャルに、ＦＩＦＯ中に待ち行列をつくる。種々の送信
源からのメッセージがネットワーク中で相互に挿入され
た形になるなるだろうが、受信の順番はバッファによっ
て保存される。カードが入力ＦＩＦＯからメッセージを
出してゆくにつれて、制御レジスタ３１あるいはメモリ
ー３２はメッセージの内容にしたがって更新されてゆ
く。プロセッサーからカードにメモリーとレジスタの書
き込みが発せられると、それに対応したネットワークパ
ケットが、自動送信のために出力ＦＩＦＯ中に、説明の
目的で４５、５５として示したロケーションで待ち行列
をつくって並ぶ。

【００３４】図３中の制御・ステータスレジスタ３１は
ハードウエアの制御に対するメモリーマップされたユー
ザーインターフェースである。このレジスタは、ネット
ワーク上の個々のハードウエアに一義的に割当てられた
無符号の識別用整数（ＵＩＤと呼ばれる）をそれぞれが
もつ読み出し専用レジスタを含んでいる。このＵＩＤ
は、それがネットワークハードウエア上の各ハードウエ
アに一義的である。このＵＩＤはネットワークハードウ
エアを管理、制御するためにネットワークソフトウエア
によって用いられるものであるから特に重要である。動
作時、すべての制御メッセージ（下に、詳しく述べられ
るように、ダイナミックな再構成用のもの）はネットワ
ークアドレスとしてのＵＩＤを用いてルート決定がなさ
れる。

【００３５】他のコマンドメッセージも、目的とする受
信者をはっきりさせるために、かならずＵＩＤが付けら
れる。ＵＩＤを付けられたネットワークハードウエア構
成要素は、どれも同一のＵＩＤを持つことはない。ＵＩ
Ｄの値のうち、あるものの値（複数）は特別であって、
どれか一つのネットワークハードウエアに割当てられる
ことなく使われる。この場合は、単独のＵＩＤ値の一致
を見るのではなく全てのＵＩＤ値の一致を見るように使
われ、また、コマンドパケットのルート決定用ＵＩＤの
マッチは見ないようにする。制御及びステータスレジス
タがＵＩＤを読み出したり、入出力ＦＩＦＯをイネーブ
ルにしたり、コマンドをネットワーク全体に送り出した
り、ページテーブルへのエントリーをリセットしたりす
るのに使われる。制御ならびにステータスレジスタ３１
の定義ならびに動作は、特に本発明において新しいもの
ではない。先にも述べたように、それの特徴について
は、当該技術分野では周知であり、それを不必要に詳細
に述べることは本発明の新規性の詳細をかえって不明瞭
にするだけである。

【００３６】図３、あるいは、図４にさらに詳細に示し
てあるように、３１中では、たとえば、「ロケーショ
ン」レジスタ、すなわち、レジスタ４１、５１、６１中
には、レジスタ値がしまわれており、同様に、データロ
ケーションメモリーは４２、５２に中にはメモリー値が
しまわれており、また、ページテーブル中には物理ペー
ジ数と仮想メモリーアドレスの順序化された対からなる
エントリーがたとえば、その４３と５３にしまわれてい
る。入出力ＦＩＦＯは、それぞれ、ロケーション４４、
５４、ならびに、４５、５５を持っており、それらは、
各エントリーが１個のネットワークパケットに対応して
いるごときエントリーの待ち行列をしまっている。各レ
ジスタに固有の詳細なる項は、以下の本発明の動作につ
いての記述の明確性を保持するために、当該技術分野に
精通した人にゆだねるが、それら固有のレジスタの内容
に関しては、ある仮定を設定しておく。特に、図３中の
５１で示したレジスタ０は、アダプタのＵＩＤをしまっ
ている読み出し専用レジスタであり、６１で示したレジ
スタ１はアダプタのアドレシングモードを、仮想あるい
は物理アドレシングにかかわらず、表わすコードだけを
しまっているレジスタである。

【００３７】ＳＶＭアドレス空間にマップされたデータ
ロケーションメモリーのロケーションをもつことに加え
て、ステータスと制御のレジスタとロケーションのペー
ジテーブルもＳＶＭアドレス空間にマップされる。制御
とステータスのレジスタは物理メモリーアドレスの最初
のセットにマップされる。物理アドレスの次のセットは
ページテーブルにマップされる。残りの物理アドレスは
データロケーションメモリーにマップされる。レジスタ
と全ページテーブルをＳＶＭアドレス空間にマップする
ことの利点は、ネットワークのノードがレジスタやペー
ジテーブルにアクセスしたり書き込んだりすることにつ
いて統一的な方法を持つだろうということである。デー
タ更新のために、各ノードのレジスタやページテーブル
のすべてを一セットのＳＶＭアドレスにマップすること
は最大の利点である。このことがネットワークに対して
ダイナミックな再構成の能力をもたらすことを可能なも
のとし、それによってハードウエアやプログラムの全面
的な変更なしに、ルート決定やプロトコルをその動作中
に変更することができる。

【００３８】図３、４中の３２の番号を付したデータロ
ケーションメモリー、（以下これを「メモリー」と呼
ぶ）はこのような分散メモリーの収納と取り出しの両機
能を実行する。メモリー３２は、それのノードのホスト
プロセッサー４０から、あるいは、ネットワークから、
のいずれからの更新の要求をも受け付けることができ
る。典型的には、共有メモリーに対するボード上でのア
ービター（アービトレーション）は十分速いので、ネッ
トワークアダプタはホストプロセッサーの標準メモリー
サイクルの遅延の範囲内でメモリー要求に応答すること
ができるが、アービター（ａｒｂｉｔｅｒ）の速度は他
の実施例では変わることがある。ホストプロセッサー４
０はメモリー３２の内容を直接読むことができなければ
ならない。メモリー３２に接続されたネットワーク上の
ノードは、コマンド要求を介して間接的にメモリーにア
クセスしさえすればよい。

【００３９】以上に検討してきたレジスタロケーション
を用いて、メモリーページのアドレスは、相互接続され
たノードで、それに附属するアダプタのページテーブル
中にインデクスされる。各ノード内のメモリー中のデー
タの仮想あるいは物理アドレスのいずれをも指定するこ
とができる。インデクスの動作は、プロセッサーがそれ
のロケーションにおけるメモリー値を変更するか、それ
のメモリーの階層におけるデータのロケーションを変更
する時に生成されるページテーブルに対して更新を行い
ながらできるようにダイナミックなものでなければなら
ない。このような更新は、メモリーかページテーブルレ
ジスタへの書き込みによって行われ、その後に関連する
各ノードに対して広範囲に送出されるようになってい
る。

【００４０】図３、４中で３３と番号を付したページテ
ーブルは、仮想メモリーアドレスモードで、ＳＶＭアド
レスと物理メモリーアドレスとの間での翻訳をおこな
う。ネットワークアダプタは、物理ならびに仮想の２つ
のアドレスモードを持っている。物理アドレスモードに
おいて、ネットワークパケットアドレスと言うのは目標
のメモリーロケーションの物理アドレスであり、たとえ
ば、メモリー３２のロケーション５２と言うように使
う。したがって、アドレスを翻訳する必要はない。それ
に対して仮想アドレスモードでは、送出されるネットワ
ークパケットの仮想アドレスは物理アドレスをインデク
スとして使ってページテーブルから導出しなければなら
ない。もし、ページテーブルのルックアップが不成功に
終わったならば、パケットは発生もされず、ネットワー
クに送出されることもない。入ってくる仮想メモリーは
また、受信ノードのページテーブル中でのそれに付随す
るルックアップによって、物理メモリーアドレスに翻訳
される。

【００４１】図５はページテーブルにしまわれている情
報のフォーマットを示している。そこには、「ｐ」個の
エントリーが示されており、各内容は、「保護」、「有
効」、「変更」、「メモリー」、「ソフトウエア使用可
能」、および、「アドレス」の各ビットからなってい
る。保護ビット６０はホストプロセッサーに対して物理
メモリーのページならびにＳＶＭのページに対してメモ
リー保護の方式を拡張することを許可するものである。
有効ビット６２はページテーブルのエントリーが現在、
物理アドレスと仮想アドレスとの間の有効なマッピング
であるかどうかを示すものである。変更ビット６４はホ
ストあるいはネットワークのいずれかからマップされた
ページに対して書き込みが起こったかどうかを示すもの
である。

【００４２】メモリービット６６はマップされたページ
がメモリーにおけるページであるかマッピングレジスタ
あるいはページテーブルの格納に使われたページである
かを区別して示すビットである。ソフトウエア使用可能
ビット６８はノードにとって利用可能なページテーブル
メモリーであり、特定の動作を実行するためのシステム
符号である。エントリーのアドレスビット６９は物理メ
モリーの各ページに対応する仮想メモリーのアドレスを
しまっているビットである。ここでは説明の簡明性のた
め、上に述べてきたフォーマットを好ましい実施例に対
して使用可能なフォーマットとして与えた。しかしなが
ら、別途の必要性がある場合、このレベルでの何等かの
変更を上のフォーマットに組み合せることが容易である
ことは当該分野に精通している人にとって容易に認め得
ることである。

【００４３】関連するプロセッサーへのメモリーバスを
介してのアダプタへの接続、ネットワークバスからリン
クされているハードウエアへの接続などは、システムの
構成要素に必要な結合と光電変換の能力を提供できるも
のでさえあれば、どのような現状技術の接続法であって
もかまわない。以上に述べてきたネットワークアダプタ
はごく一般的なネットワークに接続することができる。
しかし、ここでいう共有メモリープログラミングモデル
は、データパケットが送り出されたのと同じ順序で目標
のメモリーに配達されることを要求している。ある種の
光スイッチングネットワークはこの要求を満たすことが
できるが、一般用ネットワークは、パケットシーケンス
保持などの付加的ハードウエアの追加がなければ、この
ような性質を保証しているものではない。

【００４４】上に述べてきた、本発明のアダプタを接続
するのに適した好ましいスイッチングネットワークが図
６に示されている。このスイッチングハードウエアの新
しい特徴には、アドレス翻訳にもとづくダイナミックな
テーブルでドライブされるデータパケットのルート決
定、分布するスパニングツリーの計算とその維持、メモ
リーマップされたスイッチポート制御とダイナミック制
御、ならびにステータスレジスタの遂行などがある。ア
ダプタカード３０はスイッチポート７０を介して本発明
のスイッチ７２に接続されている。したがって、スイッ
チポート７０の入力ポート７４はアダプタカード３０の
出力ポート３５にファイバーで接続されている。同様
に、スイッチポート７０の出力ポート７５はアダプタカ
ード３０の入力ポート３４に接続されている。

【００４５】この好ましい実施例では、ネットワークア
ダプタは点から点への（ポイント・ツー・ポイントの）
ファイバー光リンクを通してスイッチングネットワーク
に接続される。原理的には、アダプタの接続として、他
に無線、ツイストペア線、赤外線、あるいは、同軸ケー
ブルなどのリンクを採用することができる。図６のスイ
ッチングネットワーク７２は多数のポート、例えば、７
０、７９、８０などからなっており、それらはすべては
バスを共有し、各ポートデータ伝送の要求に対してサー
ビスするために時分割多重を用いている。スイッチ７２
は、必要に応じてカスケード接続のネットワークを形成
するため、他のスイッチシステムや多数のスイッチに接
続されてもよい。スイッチポート７９、８０はアダプタ
やスイッチハードウエアに任意に接続してもよい。スイ
ッチポートは、それらが接続されているハードウエアと
は独立に、いずれも同じように動作する。

【００４６】スイッチ７２は、共通バス７７を通して接
続されている一連のスイッチポートたとえば７０、７
９、８０などからなっている。各スイッチポートは、こ
こでは説明のために７０についていうと、ページテーブ
ル７３、ステータスならびに制御レジスタのセット７
１、内部バス７７へのインターフェース７８、入力およ
び出力ＦＩＦＯ７４、７５などからなっている。ネット
ワークへのアダプタの接続と同様に、入出力ＦＩＦＯ
は、リンクハードウエア（ＬＨ）と表わされている回路
７６を介してネットワークファイバーに接続されてい
る。

【００４７】図６のスイッチポート７０の制御・ステー
タス・レジスタ７１はスイッチポートの制御のためのネ
ットワークへのインターフェースである。レジスタに
は、スイッチポートのＵＩＤのごときスイッチ構成、バ
ス７７上の多数のスイッチポート、それぞれのポートの
アダプタハードウエアのＵＩＤ、ならびに、スイッチポ
ートの最大データ伝送速度、などの情報がしまわれてい
る。

【００４８】ポート７０の中で符号７３で示されている
スイッチページテーブルは、ネットワークを通じてのル
ート・トラフィックの物理ならびに仮想アドレスモード
の両方に使われる。図７はスイッチポートページテーブ
ルの構成を示している。保護、有効、変更、メモリー、
ソフトウエア使用可能、ならびに、アドレスの各ビット
がアダプタに付随しているページテーブルにおけると同
様の目的に用いられる。スイッチングポートのページテ
ーブルにしまわれているアドレスは、物理的、仮想的、
あるいは、物理的と仮想的の両方の混合のいずれであっ
てもよい。はいってくるデータパケットのアドレスは、
付随するページテーブルのルックアップで「ｎ」ビット
のベクトル６７を得るのに用いられる。「ｎ」ビットベ
クトルは、バス７７を共有している多くのポートのいず
れがデータパケットを受け取る目標とされているかを見
分けるのに使われる。

【００４９】もしあるページのｎビットベクトルがある
ローカルのスイッチポート７０を目標としていることが
見分けられたら、そのポートの制御ならびにステータス
レジスタ７１とページテーブル７３にそのページがマッ
プされるということが書き込まれる。もし、スイッチポ
ート７０が（ポート７９に付随するｎビットベクトル空
間の「１」によって）ポート７９を示すｎビットベクト
ルを持ったページを見つけると、そのページへのすべて
の書き込みはポート７９のレジスタとページテーブルを
更新するだろう。

【００５０】スイッチポートの入力ならびに出力のそれ
ぞれのＦＩＦＯ、７４、７５は、アダプタカード中のそ
れらの対応部分と同様にポートを通る情報の流れを制御
する。入力ＦＩＦＯ７４に接続されたリンクハードウエ
アによって受信されるネットワークパケットは入力ＦＩ
ＦＯ中に待ち行列をつくり、シーケンシャルに進んで、
最後にプロセス用のスイッチポートの働きで行列から跳
び出てゆく。ポート７０から送り出されるネットワーク
パケットは出力ＦＩＦＯ７５中で待ち行列をつくり、シ
ーケンシャルに進んで、最後にバス７７全体への伝送の
ために、送り出しリンクハードウエアへ渡される。

【００５１】スイッチ内部バス７７はスイッチポート、
たとえば、７０、７９、８０などの間の多方向送出パケ
ットを運ぶ役目をもっている。スイッチバスのトランザ
クションは基本的には円形署名状形式（ｒｏｕｎｄｒ
ｏｂｉｎ）のバスアービター方式で実行される。ポート
がバスを取得するとき、それはまず目標ポートのｎビッ
トベクトルをバスへと渡す。すべてのポートがバスをモ
ニターしているので、目標ポートはバス上にトランザク
ション中止の信号を送り出すことによってパケットの受
信を拒否することができる。送信ポートが何の信号も受
け取らなければ、データパケットがバス上に送り出さ
れ、各目標ポートによってラッチされ、それらの入力Ｆ
ＩＦＯ中に待ち行列をつくる。メモリービットは、普
通、目標のＵＩＤがそれらのページテーブル中のパケッ
トアドレスをルックアップするかしないかを知ることが
できるように、データパケットと共に送り出される。例
えば、スイッチポートレジスタならびにスイッチポート
ページテーブルへの書き込みは、附属のアダプタロケー
ションに向けられた書き込みとは違って、ルックアップ
を必要としないだろう。

【００５２】本発明をその動作について、更に以下に述
べてゆく。既に「背景」の節で述べたように、多方向送
出更新を行うことによってネットワーク遅延時間を大幅
に削減でき、使用プロセッサーの数を最小に抑えなが
ら、ネットワークの完全性を維持することができるだけ
でなく、仮想共有メモリーの最終目標も、本発明によっ
て実現可能となる。仮想共有メモリーについては既に述
べたように、一つのノードに付随する仮想メモリーは、
それの物理あるいは仮想共有メモリーアドレス空間から
分離されている。分布しているノード間のネットワーク
通信は、図２を参照して既に一般的に議論したように、
目標ノードに割当てられた仮想メモリー空間の中に「マ
ッピング」することによってなされる。すべての通信が
メモリー書き込みの形をとり、プロセッサー書き込みの
副作用として、あるいは、それ自身のローカルなアダプ
タの仮想メモリー空間へのプログラム書き込みとして、
発生する。コマンドパケットや制御レジスタ更新のよう
な、付随的なノード間情報転送もまた、制御ならびにス
テータスレジスタやページテーブルのネットワークアド
レスに割当てられたＳＶＭ空間へのマッッピングによっ
て達成される。

【００５３】メッセージには、アダプタカードによって
ネットワークへの送り出しと応答の両方ができる２つの
タイプのメッセージ、すなわち、コマンドメッセージと
データメッセージとがある。コマンドパケットは、制御
レジスタを更新したり、遠隔地のアダプタカードからの
応答を引出したりするために、２つあるいはそれ以上の
ネットワークアダプタ間のデータの伝送を支援するもの
である。コマンドパケットは点から点へのフローの制御
（ショート・コマンド・パケットで）を行い、ネットワ
ークシステムのエラー検出・修復を行い、通信チャンネ
ルを確立し、ネットワークアダプタハードウエアからの
ステータスレポートを獲得し、且つ、ネットワークをダ
イナミックに再構成（長いコマンドパケットで）するの
に使われる。

【００５４】更に以下に議論するように、短いコマンド
の実行は長いコマンドの実行と異なる。短いコマンドは
決してリンクハードウエア３６から入力ＦＩＦＯ３４に
入ることはない。かわりに、リンクハードウエア３６は
短いコマンドを実行するか、または入力ＦＩＦＯ３４を
パスさせるかする。データメッセージあるいはパケット
はアダプタメモリーに対する更新を行わせる。ある状況
下では、制御ならびにデータメッセージは、メモリーバ
ス上のＤＭＡ（ダイレクトメモリーアクセス）素子の働
き、自動ネットワークフロー制御、ＦＩＦＯ管理、ある
いは、遠隔ネットワークアクセス動作、などによって間
接的に発生させられる。コマンドパケットのための一つ
のオペレーションフォーマットの例を下の表１に示す。

【００５５】

【式１】

【００５６】上表の中で、括弧の中の数字は各フィール
ドのバイト長を表わしている。可変長のフィールドは括
弧内に数字を付けずに示した。各パケットの先頭バイト
は、そのパケットのその他の部分のタイプ（コマンドで
あるかデータであるか）、サイズおよびフォーマットを
決めるヘッダーである。もしパケット中にアドレスフィ
ールドがあるならば、ヘッダーの中のビット１はアドレ
スが直接、物理メモリーアドレスを指すのか、あるい
は、間接的に仮想メモリーを指すのかを指示する。仮想
アドレスへの翻訳は、アダプタハードウエアに対してロ
ーカルのページテーブルにアクセスするように要求す
る。長いコマンドパケットのＵＩＤは、上に議論したよ
うに、６４ビットから成っており、それによってハード
ウエアの各単一要素を一義的に指定するものである。

【００５７】実行可能なオペレーションは二つのポー
ト、すなわち、図３、４のメモリーバスインターフェー
ス３８あるいはリンクハードウエア３６のうちのいずれ
か一つを通ってネットワークに到着する。以下に述べる
オペレーションはすべてそれらの実行中、アダプタに対
して独占的なアクセスを要求する。したがって、アダプ
タメモリーバスオペレーションの実行により、ＦＩＦＯ
はパケットの受け付けや待ち行列づくりの受け付けを続
けるけれども、入力ＦＩＦＯ３４からのそのオペレーシ
ョンのフローは一時的にシャットダウンされる。逆に、
入力ＦＩＦＯからのネットワークパケットの実行によ
り、入ってくるホストメモリーのトラフィックが一時的
にブロックされる。ホストプロセッサーは、その動作の
すべてについて中断されるのではないが、ネットワーク
から発生したオペレーションの期間はそれのアダプタに
アクセスすることができない。アダプタカードの関与す
るオペレーションには次の５つの基本的なものがある。

【００５８】１）プロセッサーのアダプタメモリーの読
み込みあるいは書き込み、２）ホスト素子ブロックのアダプタメモリーの読み込み
あるいは書き込み、３）プロセッサーのページテーブルあるいはレジスタの
読み込みあるいは書き込み、４）ネットワーク素子の書き込みあるいはブロック書き
込みの実行、５）ネットワーク素子のページテーブルあるいはレジス
タへの書き込み。

【００５９】最初の三つの基本的なオペレーションにこ
いて、ホストプロセッサー４０、あるいはＤＭＡ素子は
メモリー３２、ページテーブル３３、あるいは、制御な
らびにステータスレジスタ３１に、メモリーバス３７に
沿った読み込み、書き込みを通じてアクセスする。ホス
トプロセッサーあるいはＤＭＡは物理アドレスを供給
し、書き込みの場合は、単数あるいは複数の値を更新す
る。最後の２つのオペレーションは、ネットワークパケ
ットが例えばリンクハードウエア３６を介して入力ポー
トに到着したとき実行される。ネットワークパケットの
実行は、それがデータであるかコマンドであるかにかか
わらず、メモリー３２、ページテーブル３３、あるいは
レジスタ３１に対する更新をすることになってもかまわ
ない。

【００６０】最初のオペレーションにおいて、プロセッ
サー４０はアダプタメモリー３２に対して読み込み書き
込みの指示を行う。コマンド「読み込み」（５２）はプ
ロセッサー４０がロケーション５２をメモリー３２から
読み込むとき実行される。コマンド「書き込み」（５
２，ａ）で、プロセッサー４０は同時に値ａをメモリー
３２中のロケーション５２に書き込み、ネットワークを
通じての最終的な送信のために出力ＦＩＦＯにメッセー
ジ「書き込み」（５２，ａ）の待ち行列をつくる。物理
アドレスモードにおいては、アドレスに対して用いられ
る値がメモリー３２中のメモリーロケーション５２の物
理オフセットに対応し、メッセージ「書き込み」（５
２，ａ）が送り出される。

【００６１】仮想アドレシングモードにおいては、コマ
ンド中のアドレス値がメモリー３２中の物理アドレス５
２に対応しているページテーブルエントリーＰＴ（５
２）であり、メッセージ「書き込み」（ＰＴ（５２），
ａ）が送り出される。仮想メモリーアドレシングオペレ
ーションに対する実際のオペレーションのシーケンスを
以下に詳しく述べる。まず、書き込みコマンドがメモリ
ーバス接続３８上のプロセッサー４０から書き込みコマ
ンドを持って到着する。アダプタカードはこの書き込み
コマンドをデコードし、メモリー３２中の指定したロケ
ーション５２に新しい値、例えばａを入れることによっ
てメモリー３２を更新する。アダプタカードはここで、
物理メモリーページに対応するＳＶＭのページアドレス
をルックアップする。

【００６２】アダプタカードは、パケットに付随してい
るヘッダーフィールドによって指示されている仮想アド
レシングモードであるか物理アドレシングモードである
かを反映する物理レジスタ６１を参照し、それによっ
て、それが仮想アドレシングモードにあることを決定す
る。つぎに、アダプタカードは、ページテーブル３３か
らのＳＶＭページアドレスによって決定されるアドレス
を持ったネットワーク書き込みパケットをつくり、ルッ
クアップし、出力ＦＩＦＯ３５中にこのパケットのペー
ジオフセットと待ち行列をつくる。この時点で、アダプ
タ上での書き込みコマンドの実行はホストプロセッサー
の立場から完了したものと見做され、したがって制御は
ホストに返される。最後に、ネットワーク書き込みパケ
ットがＦＩＦＯ３５を通過した後、パケットはリンクハ
ードウエア３６を通して送り出される。もし書き込みが
物理アドレスモードで実行されるならば、物理アドレス
をページテーブルによって翻訳する必要はない。物理ア
ドレスはネットワークデータパケット「書き込み」（５
２，ａ）でネットワークに送り出される。

【００６３】詳しく述べなければならない次のオペレー
ションはホストデバイスブロックのアダプタメモリーに
対する読み込みと書き込みである。まず、図示されてい
ないＤＭＡデバイスが、メモリーバス３７上にコマンド
を送り出すことである。ブロック書き込みでは、コマン
ドは一つのアドレスからなり、その後に任意のバイト数
のデータがつづく。アダプタでこれを受け取ると、メモ
リーバス接続３８を通り、ＤＭＡデータは目的ロケーシ
ョンのメモリーを更新するのに使われる。この時点で、
ＤＭＡはアダプタに対して優先的制御権を持っている。
メモリーロケーションが更新されている間に、アドレス
と更新値をしまっているネットワークパケットがつくら
れる。

【００６４】もしレジスタ６１が、アダプタは物理アド
レシングモードであると示している場合には、ページテ
ーブルのルックアップは行われない。そして、パケット
は出力ＦＩＦＯ３５に待ち行列を作る。ネットワークパ
ケットが出力ＦＩＦＯ３５にしまわれた後、アダプタハ
ードウエアはホストメモリーバス３７上に、ＤＭＡ書き
込みが完了し、制御がホストプロセッサーに返された旨
の信号を出す。最後に、ネットワークパケットは出力Ｆ
ＩＦＯ３５を通って流れ、ネットワークに送り出され
る。仮想アドレシングモードにおけるブロック書き込み
の場合には、物理アドレスはページテーブルを経て翻訳
されることになる。ネットワークパケットとして送り出
された仮想アドレスはＰＴ（５２）である。

【００６５】制御ならびにステータスレジスタ３１、ペ
ージテーブル３３において、それらの内容はホストプロ
セッサー４０によって単にメモリーとして読み込まれ且
つ書き込まれる。このようにして、特定のレジスタとペ
ージテーブルの内容が、アダプタハードウエアによって
認識された物理アドレスを使って、ホストプロセッサー
によってアクセスされる。制御ならびにステータスレジ
スタに対する書き込みは潜在的に重要な副作用を持って
いる。しかし、ページテーブルに対する更新は、ネット
ワーク全体に対して更新の再送出が起こり得るというこ
と以外には特別な副作用を持たない。

【００６６】各プロセッサー４０はネットワークアダプ
タに対して読み込み書き込み制御レジスタ／ページテー
ブル命令を次のように実行する。まず、ホストプロセッ
サー４０がレジスタ、たとえば３１、に対して、メモリ
ーに対して使われたのと同じコマンド、たとえば、「書
き込み」（５１，ＵＩＤ）を使って書き込みを行う。制
御ならびにステータスレジスタとページテーブルはメモ
リー３２とははっきりと異なる物理メモリーアドレスに
メモリーマップされるだけである。次に、書き込み値Ｕ
ＩＤは適当なロケーション、この例では５１、にしまわ
れる。レジスタの更新は、場合によっては、たとえばこ
の例のように、ネットワークに対して長いコマンドパケ
ットの送出といったような副作用をひきおこす。長いコ
マンドパケットが生成されＦＩＦＯ中に待ち行列をつく
ると、次に、バス更新オペレーションが完了しているの
で、ネットワークアダプタ３０がメモリーバス３７を通
してホストプロセッサーに信号を送る。制御はここでプ
ロセッサーに返される。

【００６７】最後に、コマンドパケットが出力ＦＩＦＯ
３５を通してネットワーク全体に送り出される。仮想ア
ドレスモードにおいては、レジスタあるいはページテー
ブルメモリーはページテーブルの内容によってネットワ
ーク上にマップされる。この場合、ホストプロセッサー
によって一つの値がレジスタまたはページテーブルに書
き込まれたときに、仮想アドレスＰＴ（５１）と更新値
を用いてネットワークデータパケットが生成される。こ
のデータパケットは、どんな長いコマンドまたはデータ
パケットが副作用として発生されるとしてもその発生以
前に、出力ＦＩＦＯ３５の中に入れられる。更新によっ
て発生された最後の副作用のパケットがＦＩＦＯ３５中
に待ち行列をつくってはじめて制御がホストプロセッサ
ーに返される。副作用として発生されたパケットが短い
コマンドパケットであるならば、プロセスはかなり短い
ものである。コマンドレジスタが更新され、短いコマン
ドパケットが生成されたのち、コマンドパケットはＦＩ
ＦＯ３５をスキップし、リンクハードウエア３６に直接
出てゆく。

【００６８】リンクハードウエア３６を通ってアダプタ
に到着したネットワークオペレーションは、上述の短い
パケットの場合以外、ＦＩＦＯ３４中に待ち行列をつく
る。データメッセージは、それらの各アダプタカード上
のプロセッサーによる遠隔地点のノードでの書き込みに
応じて、物理メモリーロケーション３２を更新するのに
使われる。仮想アドレシングモードでは、データメッセ
ージは制御ならびにステータスレジスタやページテーブ
ルを、ページテーブルが適正にセットされているものと
して、更新する。すべてのデータメッセージのルート選
択はページテーブルルート選択を用いてスイッチングネ
ットワークを通しておこなわれる。

【００６９】ブロック書き込みと非ブロック書き込みと
の差は小さいので、詳細はブロック書き込みの例につい
てのみ述べておく。ブロック書き込みネットワークパケ
ットは信号到来側のネットワーク伝送線に到着すると、
物理アドレシングモードか仮想アドレシングモードかを
表わすヘッダーのバイトが必要になる。この例として、
仮想アドレシング状態が「表示」され、その結果、到着
ＳＶＭパケットに対して付随するページテーブルのルッ
クアップが要求される。まず、到着パケットはリンクハ
ードウエア３６によって受信される。次に、データパケ
ットは入力ＦＩＦＯ３４中に待ち行列をつくる。パケッ
トは入力ＦＩＦＯ３４を通過した後、デコードされ仮想
アドレスはページテーブルを通して付随するルックアッ
プを行うことによって翻訳される。

【００７０】アドレスの解読において、物理メモリーペ
ージ数を得るのにＳＶＭページのインデックスが参照さ
れる。最後に、ルックアップによって得られた物理アド
レスを用いて、アダプタカードがメモリー３２に対して
データのブロックを書き込む。仮想アドレシングモード
においては、到着するパケットのアドレスは、ページテ
ーブルの内容に応じて、レジスタ３１、ページテーブル
３３、あるいはメモリー３２に対する更新を指示する。
このようにして制御レジスタに対してなされた更新は、
コマンドパケットの発生を引き起こし、それは出力ＦＩ
ＦＯ３５中に待ち行列をつくるだろう。その例は、シス
テムのダイナミックな再構成中に見られる。そうして、
それによって、一つのコマンドパケットの実行はネット
ワーク全体に送り出されるコマンドとデータの両方のパ
ケットの生成を必要とするだろう。メモリー３２に対す
るネットワークの更新は、一般に、ネットワークパケッ
トの生成を引き起こさない。

【００７１】ネットワークブロック書き込みオペレーシ
ョンを実行するとき、ホストメモリーバス３７は、ブロ
ックオペレーションが実行されている間、延長されたピ
リオドの間ブロック化される。ブロック書き込みネット
ワーク上での実行中のプロセッサーにローカルアダプタ
メモリーの参照を許す一つの方法は、ネットワークブロ
ック書き込みでローカル読み込みと書き込みをインター
リーブすることである。ホストメモリーバスからのネッ
トワークアダプタメモリー書き込みを一時バッファに待
避することも有効だろう。

【００７２】最後に、ページテーブルあるいはレジスタ
へのネットワーク書き込みの詳細を述べる。選択された
セットのコマンドレジスタへのプロセッサー書き込みに
応じて、コマンドメッセージが生成され、ネットワーク
に送り出される。ホストプロセッサーは、目標ＵＩＤを
指定することによって、コマンドに対する目標を選択す
る。ＵＩＤ値は、コマンドパケット中の最初のアーギュ
メントとして送り出される。コマンドパケットは、スタ
ートアップで計算されたスパニング・ツリーにしたがっ
てアダプタネットワークを通って、そのルート選択がな
される。コマンドメッセージが入力ＦＩＦＯ３４から出
ていくときに、それはレジスタコピーあるいはレジスタ
書き込み機能の実行を引き起こす。この例では、コマン
ドは、ｒｅｇｉｓｔｅｒｗｒｉｔｅ（）である。

【００７３】もし受信されたコマンドがこれとは違っ
て、ｒｅｇｃｐｙ（）であるならば、プロセシングに
おける唯一の違いは、ｒｅｇｉｓｔｅｒｗｒｉｔｅ
（）のプロセシングとはその副作用が違う、というこ
とである。ｒｅｇｉｓｔｅｒｗｒｉｔｅ（）では、
第一に、コマンドパケットがリンクハードウエアによっ
て受け取られる。第二に、コマンドパケットは入力ＦＩ
ＦＯ３４中に待ち行列をつくる。そうして、ＦＩＦＯを
通過した後、コマンドパケットはＦＩＦＯから出てゆ
き、そのフィールドが分析される。そこで、もしコマン
ドパケットＵＩＤがレジスタ５１中の値に一致すれば、
そのコマンドが実行される。コマンドの実行は、コマン
ドのアドレスのアーギュメントリスト中で指定されたレ
ジスタが指定値に更新される間、ローカルメモリーバス
の中断を強制する。レジスタへの書き込みは、そこで、
書き込まれた値、更新されたレジスタ、およびその他の
レジスタの内容に依存した副作用を引き起こす。ある場
合には、制御レジスタ更新の副作用は、出力ＦＩＦＯ３
５中にネットワークパケットを生成し待ち行列をつくる
ことである。

【００７４】データパケットのルート選択は、データパ
ケットのＳＶＭアドレスを、たとえば、図６中のスイッ
チングネットワークポート７０に含まれているプレロー
ドされたページテーブル７３などによって、ルート選択
情報に翻訳することによってなされる。アドレス翻訳か
ら得られたルート選択情報は図７の６７にｎビットのベ
クトルとして示されているものであり、それは内部バス
７７上の目標スイッチポートを指定するものである。ス
イッチングネットワーク、たとえばバス７７上を流れる
データパケットは、目標ポートを見つけるのに、各ポー
トたとえば、７０、７９、あるいは８０において、各１
ページ分のページテーブルのルックアップを必要とす
る。各スイッチポートのページテーブルの内容は読み込
み可能でかつ書き込み可能となっており、それによっ
て、種々のデータ伝送要求が受け付けられ、ネットワー
ク全体にわたるデータパケットの伝送が制御される。

【００７５】スイッチは２つのタイプのネットワークパ
ケット、すなわち、データパケットとコマンドパケット
の両方（いずれも、短いのと長いのとがある）を受け付
け、それらのパケットを、メモリーマッッピング情報や
ＵＩＤデバイスアドレスによって指令されるように、そ
のスイッチによってルート選択しなければならない。ネ
ットワークのトポロジーを決定しページテーブルをイニ
シャライズして、それからデータパケットルート選択を
行うためには、コマンドを持つことが必要であるという
ことから、コマンドパケットのルート選択のメカニズム
は、データパケットのルート選択のメカニズムとは違っ
ていなければならない。データパケットは、それらのパ
ケットアドレスならびにページテーブルにしまわれてい
る情報を用いて優先的にルートづけされる。

【００７６】短いコマンドパケットは、あらかじめ計算
されていた入力ならびに出力ＦＩＦＯの両方をバイパス
するところの、ネットワークスパニングツリーによるコ
マンドパケットのフラッディング（充満）を専ら用いて
ルートづけされる。スパニングツリーの各サイトにはツ
リー中のそれらの位置を示すために、それぞれ１つのス
テータスレジスタビットをしまっている。短いコマンド
は、それが巡って行くネットワークの至る所のサイトで
コマンドを実行する。しかし、長いコマンドはネットワ
ークスパニングツリーに従って動き、ステータスならび
に制御レジスタにしまわれているＵＩＤがパケットのＵ
ＩＤフィールドにしまわれているデータとマッチするサ
イトでだけコマンドを実行する。上に述べたように、各
アダプタカードとスイッチポートは、それらのステータ
スレジスタ中にユニークアイデンティファイアーをしま
っている。どの長いコマンドも、ネットワークサイトの
ＵＩＤと比較するためのＵＩＤアーギュメントを含んで
いる。すべての長いコマンドパケットは、アダプタの入
力ならびに出力ＦＩＦＯとスイッチポートを通して処理
される。

【００７７】スパニングツリーネットワークは、好まし
いコマンドのルート選択方法であって、それは、ネット
ワークを初期化したときと再構成したとき（たとえば、
新しいノードをネットワークに付け加えるなど）に計算
される。ネットワークスパニングツリーはアダプタカー
ドとスイッチポートに対応するサイトとネットワークポ
ート間のオペレーショナルリンクに対応するエッジとか
らなる。スパニングツリーの目的は、ハードウエアに対
して、ネットワークがコマンドパケットで充満されるこ
とは許すけれども、コマンドパケットがネットワーク中
のサイクルによって、いつまでも再送出され続けること
がないようにすることである。

【００７８】スパニングツリーが計算された後、各スイ
ッチポートは、それぞれの中の一つのレジスタで、それ
がツリーのインテリアーサイトであるかあるいはリーフ
サイトであるか、を記録する。もしポートがリーフサイ
トであるならば、コマンドパケットはそのポートのリン
クハードウエアから再送出されることはない。もしスイ
ッチポートがインテリアーサイトであるならば、コマン
ドパケットはそのポートのリンクハードウエアから再送
出される。ネットワークスパニングツリーを自動的に計
算しそれを維持することの利点は、以下の通りである。
すなわち、ネットワークのトポロジーに依存せず、ハー
ドウエアの障害から自動復帰できる、スイッチ間の多重
パスルート選択が可能であること、ならびに、ダイナミ
ックなネットワーク管理ができること、などである。

【００７９】本発明の目的は、利用可能なメモリー管理
資源を用いて、ルーチンなプロセッサー間通信を簡単化
できる一般的なネットワークの枠組みを提供することで
ある。共有メモリーをユーザーノードの仮想メモリー空
間へマッピングすることにより、ネットワークハードウ
エアデバイスへの標準的なインターフェースが提供さ
れ、且つネットワークに依存しないアプリケーションの
開発が促進される。カーネルに要求されることは、ロー
レベルのネットワークイニシャリゼーション、トラップ
と既定値のハンドリング、ならびにプロセスの動作時の
コンテクストのローレベル操作などを含むネットワーク
通信の機器に依存する面を取扱うことである。ホストノ
ードによって提供されるメモリープロテクションの機能
は、ネットワークカーネルによって提供されるサービス
を通してＳＶＭネットワークメモリーにまで拡張され
る。しかし、プロテクションの実行は、ホストのオペレ
ーティングシステムがメモリープロテクションを実行し
ない場合に限られる。

【００８０】標準的な仮想メモリーの管理サービスは、
もし必要とあれば、ネットワークの接続制御が自動的に
達成されるよう、以下に詳細を述べるように強化するこ
とができる。ページ障害ハンドラーならびにページテー
ブルは、ＳＶＭネットワーク仮想アドレスにマップされ
た仮想メモリーページを確立し確認するように修正され
る。これらの修正の効果は、ネットワークノード上で走
っているプロセスが随意にそれらの仮想メモリー空間の
大きな部分を共有できることである。したがって、プロ
グラマーに対して要求される唯一のつとめは、ノードの
仮想メモリーアドレス空間中に共有メモリーを割当て、
ネットワークパケットルート選択のために目標のＳＶＭ
仮想アドレスを提供する、と言うことである。新しいオ
ペレーティングシステムのコールやライブラリーの機能
がこのコンテクストにおいて用いられるために開発され
てきた。

【００８１】ユーザーレベルのネットワークコマンドは
すべて４つの新しいシステムコール、すなわち、ｖｓｍ
ｇｅｔ（），ｖｓｍａｔ（），ｖｓｍｄｔ（）、
ならびにｖｓｍｃｔｌ（）にマップされる。これらの
新しいシステムコールは、機能的には、標準的なプロセ
ッサー間通信共有メモリーシステムコール、ｓｈｍｇｅ
ｔ（），ｓｈｍａｔ（），ｓｈｍｄｔ（）、なら
びにｓｈｍｃｔｌ（）に対応する。ｉｎｔｖｓｍｇｅ
ｔ（ｖｓｍａｄｄｒ，ｓｉｚｅ，ｆｌａｇｓ）；ｉ
ｎｔｓｉｚｅ，ｆｌａｇ；ｓｔｒｕｃｔｖｓｍ
ｖｓｍａｄｄｒ；などのコールは、ネットワークを通し
てマップされたＳＶＭアドレスの一つの領域のアイデン
ティファイアーを、ユーザープロセスに返す。もし要求
されたＳＶＭ領域が現在マップされているものでない場
合には、システムコールはそのマッピングを確立しよう
とする。

【００８２】ｉｎｔｖｓｍａｔ（ｉｄ，ａｄｄｒ，
ｆｌａｇｓ）；ｉｎｔｉｄ，ｆｌａｇｓ；ｃｈａ
ｒ＊ａｄｄｒ；などのコールは、ＳＶＭアドレスの一
つの領域をユーザープロセスの仮想メモリーアドレス空
間にロジカルに付加する。ｖｏｉｄｖｓｍｄｔ（ａｄ
ｄｒ）；ｃｈａｒ＊ａｄｄｒ；などのコールは、ユー
ザープロセスの仮想メモリーアドレス空間からＳＶＭア
ドレスの１つの領域を取除く。

【００８３】最後に、ｖｏｉｄｖｓｍｃｔｌ（ｉｄ，
ｃｍｄ，ｖｓｍｂｕｆ）；ｉｎｔｉｄ，ｃｍ
ｄ；ｓｔｒｕｃｔｖｓｍｔｓｂｖｓｍｂｕｆ；など
はＳＶＭマッピングパラメータを操作する。その他のす
べてのネットワークオペレーションは、フロー制御、エ
ラー制御、接続の設定、セキュリテイの維持、などを含
み、データ転送はプログラムメモリーの参照実行の副作
用として自動的に生じる。

【００８４】ＳＶＭネットワークの機能は、ネットワー
クカーネルとして機能するプロセスのセットによって管
理され、そのカーネルはユーザープロセスから保護する
ことのできるアドレス空間内で走っている。ネットワー
ク中の各サイトはそれのために働く１つのローカルＳＶ
Ｍカーネルを持っている。ＳＶＭネットワークカーネル
は次の基本的な機能を提供する。すなわち、ネットワー
クのイニシャリゼーションと管理、接続の生成、セキュ
リティー、ならびにネットワークプロセスに対するルー
ト選択と同期などである。これらのサービスに対するア
クセスは一組のリモートプロシジャーコールあるいはシ
ステムコールを通して供給される。ＳＶＭシステムコー
ルは、ネットワークされたノードあるいはそれらのノー
ド上を走っているプロセスが、これらのサービスをしな
ければならないインターフェースに対してだけ行われ
る。

【００８５】ＳＶＭのネットワークのイニシャリゼーシ
ョンプロセスは、ＳＶＭカーネルの１つをネットワーク
に対するスーパーバイザーノードとして指定することで
ある。スーパーバイザーはネットワーク上のプロセス間
の共有メモリープロテクションを強化することを可能と
するＳＶＭアドレス空間のマップを維持する。そのスー
パーバイザーはまた新しいネットワーク接続に対して利
用可能なＳＶＭアドレスの「空きリスト」を持ってい
る。そのスーパーバイザーは、ネットワークスイッチ間
のトラフィックをフィルターしたりノードからの同期要
求を受け付けたりするところの、スイッチングネットワ
ークルート付けテーブルをモニターし維持する。

【００８６】ＳＶＭ仮想メモリー管理システムのイニシ
ャリゼーションとオペレーションの一例は次のようなも
のである。すなわち、今、ＳＶＭＮｅｔアダプタに指定
された物理メモリーロケーションがキャッシュ機能を持
たず、また、ページテーブルの内容が仮想メモリーの１
ページがＳＶＭＮｅｔの物理メモリーか標準的なＤＲＡ
Ｍにマップされたかどうかを記録するものと仮定する
と、ページ障害ハンドラーはこの付加的なページテーブ
ル情報を使ってＳＶＭネットワークからのページを再利
用することになる。基本的なＳＶＭメモリー管理オペレ
ーションには、割当て、フリー、付加、削除がある。仮
想メモリーページをネットワークにマップすることは、
アダプタページテーブルを更新することとマップされた
ＳＶＭページの更新コピーを得ることである。

【００８７】プロセッサーＰが仮想メモリーページｖｍ
ｋを共有仮想メモリーページｓｖｍｉに割当てると、以
下のステップが起こる。 − カーネルがフリーのアダプタ物理メモリーページｐ
ｍｌを得る。 − カーネルがノードＰＴの内容（ｖｍｋ−ｔｏ−ｐｍ
ｌ，ｓｖｍｋマッピングインジケーター）を生成する。 − スーパーバイザーが、プロテクションをチェックし
た後、ｓｖｍｉを空きリストから割当てる。 − カーネルがアダプタＰＴの内容ｐｍｌ−ｔｏ−ｓｖ
ｍｉを生成する。 − スーパーバイザーがネットワークルート選択テーブ
ルを更新する。 − スーパーバイザーがｖｍｋについてのｓｖｍｉペー
ジ内容を得る。 − カーネルが新しいノードＰＴをマークし、アダプタ
ＰＴの内容を有効にする。

【００８８】プロセッサーＰｊが仮想メモリーページｖ
ｍｋを共有仮想メモリーページｓｖｍｉからフリーにす
ると、以下のステップが起こる。 − スーパーバイザーがネットワークルート選択テーブ
ルを更新する。 − スーパーバイザーがＳＶＭの空きリストを更新す
る。 − カーネルがアダプタＰＴの内容ｐｍｌ−ｔｏ−ｓｖ
ｍｉを無効にし削除する。 − カーネルがノードＰＴの内容ｖｍｋ−ｔｏ−ｐｍｌ
を無効にし削除する。 − カーネルがｐｍｌをアダプタの空きメモリーリスト
に返す。

【００８９】プロセッサーＰｊが仮想メモリーページｖ
ｍｋを共有仮想メモリーページｓｖｍｉに付加すると、
以下のステップが起こる。 − ノードＰＴの内容がｖｍｋ−ｔｏ−ｓｖｍｉをマッ
プすることを、カーネルが確認する。 − スーパーバイザーが、ｓｖｍｉに対するプロテクシ
ョンをチェックする。 − フリーなアダプタ物理ページｐｍｌがあれば選択す
る。 − スーパーバイザーがネットワークルート選択テーブ
ルを更新する。 − カーネルがｖｍｋに対する古いアダプタＰＴの内容
を見つけ、ｖｍｋ−ｔｏ−ｐｍｌに対する更新をする。 − スーパーバイザーがｖｍｋに対するページの内容を
得る。 − カーネルがノードのページテーブルをマークし、ア
ダプタページテーブルの内容を有効にする。

【００９０】プロセッサーＰｊが仮想メモリーページｖ
ｍｋを共有仮想メモリーページｓｖｍｉから削除する
と、以下のステップが起こる。 − カーネルがノードＰＴ中の内容ｖｍｋ−ｔｏ−ｓｖ
ｍｉを無効であるとマークする。 − カーネルがアダプタＰＴ中の内容ｐｍｌ−ｔｏ−ｓ
ｖｍｉを無効であるとマークする。 − スーパーバイザーがネットワークルート選択テーブ
ルを更新する。 − カーネルがローカルアダプタ空きメモリーリストに
ｐｍｌを付加する。

【００９１】当該技術分野に精通したプログラマーなら
ば、本発明のアダプタを含む現存のノードに対して容易
に必要な修正を行うことができるだろう。上に述べてき
たように、最も好ましくは、本発明によるネットワーク
は、アダプタを常駐で持つ各種のノードを含むのみなら
ず、少なくとも、各ネットワークノードに付随する少な
くとも１つのスイッチポートを持ち、さらに、上に説明
してきたように、スイッチバスに接続されたスイッチ配
列をも含むべきである。本発明は好ましい実施例につい
て示され、述べられてきたが、当該技術分野に精通した
人にとって明白な種々の変更や修正は特許請求の範囲で
述べられる本発明の精神と目的の範囲の中にあるものと
見なされる。

【図面の簡単な説明】

【図１】多数のプロセッサーあるいはノードを相互に接
続するネットワークを模式的に示す図。

【図２】地理的に広く分布しているネットワーク中の多
数のノードにメモリーマップされる仮想共有メモリー空
間を表わす模式図。

【図３】本発明によるプロセッサーに接続されたアダプ
タカードの説明図。

【図４】本発明のアダプタカードならびにその中におけ
る物理的ロケーションをより詳細に説明する図。

【図５】本発明のページテーブルにたくわえられた情報
のフォーマットを示す図。

【図６】アダプタカードの相互接続に対するスイッチと
バス配列を説明する図。

【図７】本発明によるスイッチポートについてのページ
テーブルの組織を示す図。

【符号の説明】

１０、１１ノード１２、１３プロセッサー１４、１５メモリー１６、１７ネットワークアダプタ３０アダプタカード３１制御とステータスレジスタ３２データロケーションメモリー３３ページ翻訳テーブルメモリー３４入力ＦＩＦＯ３５出力ＦＩＦＯ３６リンクハードウエア３７メモリーバス４０プロセッサー７０、７９、８０スイッチポート７１ステータスならびに制御レジスタのセット７２スイッチ７３ページテーブル７４入力ポート７５出力ポート７６リンクハードウエア７７内部バス７８インターフェース

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 12/08 ５５１Ｇ０６Ｆ 12/08 ５５１Ｃ 15/167 15/167 Ｂ

Claims

【特許請求の範囲】

【請求項１】第１のノードが第１のメモリーロケーシ
ョンを更新する方法であって、それぞれの前記第１のノードは少なくとも１つの第１の
プロセッサーと、第１のオペレーティングシステムと、
第１の仮想メモリーロケーションアドレスを有する前記
第１のメモリーロケーションとを持ち、前記第１のノードは、ネットワークを通じて複数の第２
のノードに接続され、それぞれの前記第２のノードは少なくとも１つの第２の
プロセッサーと、第２のオペレーティングシステムと、
第２の仮想メモリーロケーションアドレスを有する第２
のメモリーロケーションとを持ち、前記第１のメモリーロケーション及び前記複数の第２の
メモリーロケーションは共有メモリー値を有し、それぞれの前記第１のノードは、前記第１のノードにお
ける前記第１のメモリーロケーションの仮想アドレス及
び物理アドレスと前記複数の第２のノードにおける前記
第２のメモリーロケーションの仮想アドレス及び物理ア
ドレスとを有する少なくとも１つのページテーブルを持
つ、下記のステップを有する方法：（ａ）前記第１のノードにおいて、更新値と前記第１の
仮想メモリーロケーションアドレスとを含む前記ネット
ワークからのパケットを受け取るステップ、（ｂ）前記少なくとも１つのページテーブルにアクセス
して、前記第１の仮想メモリーロケーションアドレスを
前記第１のメモリーロケーションに対応する物理メモリ
ーアドレスに翻訳するステップ、（ｃ）前記物理メモリーアドレスで、前記第１のメモリ
ーロケーションを前記更新値で更新するステップ、ここで、前記受け取り及び前記更新は、前記第１のオペ
レーティングシステムの動作から独立して自動的に生じ
る。
【請求項２】第１のメモリーロケーションを更新す
る、第１のノードにおける装置であって、それぞれの前記第１のノードは少なくとも１つの第１の
プロセッサーと、第１のオペレーティングシステムと、
第１の仮想メモリーロケーションアドレスを有する第１
のメモリーロケーションとを持ち、前記第１のノードは、ネットワークを通じて複数の第２
のノードに接続され、それぞれの前記第２のノードは少なくとも１つの第２の
プロセッサーと、第２のオペレーティングシステムと、
第２の仮想メモリーロケーションアドレスを有する第２
のメモリーロケーションとを持ち、前記第１のメモリーロケーション及び前記複数の第２の
メモリーロケーションは共有メモリー値を有し、それぞれの前記第１のノードは、前記第１のノードにお
ける前記第１のメモリーロケーションの仮想アドレス及
び物理アドレスと前記複数の第２のノードにおける前記
第２のメモリーロケーションの仮想アドレス及び物理ア
ドレスとを有する少なくとも１つのページテーブルを持
つ、下記を有する装置：（ａ）更新値と前記第１の仮想メモリーロケーションア
ドレスとを含む前記ネットワークからのパケットを受け
取る、前記第１のノードにおけるリンクハードウエア手
段、（ｂ）前記少なくとも１つのページテーブルにアクセス
して、前記第１の仮想メモリーロケーションアドレスを
前記第１のメモリーロケーションに対応する物理メモリ
ーアドレスに翻訳する手段、（ｃ）前記物理メモリーアドレスで、前記第１のメモリ
ーロケーションを前記更新値で更新する手段、ここで、前記受け取り手段及び前記更新手段は、前記第
１のオペレーティングシステムの動作から独立して自動
的に動作する。