JPH11203192A

JPH11203192A - 並列プロセッサおよび演算処理方法

Info

Publication number: JPH11203192A
Application number: JP10007000A
Authority: JP
Inventors: Yoshihiko Imamura; 義彦今村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-01-16
Filing date: 1998-01-16
Publication date: 1999-07-30
Also published as: US6381686B1; KR19990067880A; EP0930574A2

Abstract

(57)【要約】【課題】高い演算性能を発揮できる並列プロセッサを
提供する。【解決手段】共有メモリ２４は、サブバンク４１〜４
４に対してのページフォルトを発生するアクセス要求
を、コモンバス２２に接続された複数のプロセッサエレ
メントから入力し、当該入力したアクセス要求に応じて
外部アクセスバス２６を介してサブバンク４１〜４４と
外部メモリとの間でデータを転送中に他のアクセス要求
を入力したときに、前記他のアクセス要求をリクエスト
キュー１２５に記憶し、当該記憶しているアクセス要求
がページフォルトを発生しない場合に、当該記憶してい
るアクセス要求を制御回路３３に実行させる。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、複数のプロセッサ
エレメントおよび共有メモリがコモンバスを介して接続
された並列プロセッサおよび演算処理方法に関する。

【０００２】

【従来の技術】近年、プログラム中の同時に実行可能な
複数の命令を１チップ内に組み込まれた複数のプロセッ
サエレメント（ＰＥ）で並列に実行し、プログラム全体
の実行時間の短縮を図る並列プロセッサの開発が行われ
ている。このような並列プロセッサのアーキテクチャと
して種々のものが提案されているが、それらの一つとし
て、１組のコモンバス（共有バス）に、複数のプロセッ
サエレメントおよび共有メモリを接続したものがある。

【０００３】図９は、従来の一般的な並列プロセッサ１
のシステム構成図である。図９に示すように、並列プロ
セッサ１は、１チップ内にコモンバス２、ｎ個のプロセ
ッサエレメント３₁〜３_n、共有メモリ４およびバスユ
ニット５が組み込まれており、コモンバス２にプロセッ
サエレメント３₁〜３_n、共有メモリ４およびバスユニ
ット５が接続されている。また、バスユニット５は、外
部のチップインタフェース６を介してメインメモリ７に
接続されている。また、共有メモリ４のメモリセル領域
４ａには、１個のデータポートＩ／Ｏが備えられてい
る。並列プロセッサ１では、プロセッサエレメント３₁
〜３_nが、共有メモリ４に記憶されているデータにアク
セスするときに、コモンバス２およびデータポートＩ／
Ｏを介してデータが伝送される。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た並列プロセッサ１では、プロセッサエレメント３₁〜
３_nと共有メモリ４との間のデータ転送および共有メモ
リ４とメインメモリ７との間のデータ転送が共にコモン
バス２を介して行われ、しかも、共有メモリ４のメモリ
セル領域４ａが１個のデータポートＩ／Ｏしか備えてい
ないため、以下に示すような理由から、プロセッサエレ
メント３₁〜３_nの待ち時間が長くなる可能性が高いと
いう問題がある。すなわち、共有メモリ４にページフォ
ルトが発生し、共有メモリ４とメインメモリ７との間で
ページの入れ替えを行っている間は、コモンバス２が使
用中であるため、プロセッサエレメント３₁〜３_nは共
有メモリ４にアクセスできない。従って、プロセッサエ
レメント３₁〜３_nから共有メモリ４に対してのアクセ
ス要求（リクエスト）は、ページ入れ替え処理が終了す
るまで待たされてしまい、並列プロセッサ１の演算性能
が低下する。

【０００５】本発明は上述した従来技術の問題点に鑑み
てなされ、高い演算性能を発揮できる並列プロセッサお
よび演算処理方法を提供することを目的とする。

【０００６】

【課題を解決するための手段】上述した従来技術の問題
点を解決し、上述した目的を達成するために、本発明の
並列プロセッサは、それぞれ単数または複数のサブペー
ジを記憶する内部メモリを備え、当該内部メモリに記憶
されたデータを用いて演算処理を行う複数のプロセッサ
エレメントと、前記複数のプロセッサエレメントと接続
された第１のバスと、外部メモリと接続された第２のバ
スと、前記第１のバスおよび前記第２のバスの双方に接
続された共有メモリとを有し、前記共有メモリは、それ
ぞれサブページを記憶する複数のサブバンクからなる記
憶手段と、前記プロセッサエレメントからのアクセス要
求に応じて、前記プロセッサエレメントの内部メモリと
前記記憶手段との間の前記第１のバスを介したデータ転
送、および、前記記憶手段と前記外部メモリとの間の前
記第２のバスを介したデータ転送を制御する制御手段
と、前記記憶手段に対してのページフォルトを発生する
アクセス要求を前記複数のプロセッサエレメントから入
力し、当該入力したアクセス要求に応じて前記第２のバ
スを介して前記共有メモリと外部メモリとの間でデータ
を転送中に他のアクセス要求を入力したときに、前記他
のアクセス要求を記憶し、当該記憶しているアクセス要
求がページフォルトを発生しない場合に、当該記憶して
いるアクセス要求を前記制御手段に実行させるアクセス
要求管理手段とを有する。

【０００７】また、本発明の並列プロセッサは、好まし
くは、前記アクセス要求管理手段は、複数のアクセス要
求を記憶可能であり、複数のアクセス要求が記憶されて
いるときに、当該記憶されている複数のアクセス要求の
うちページフォルトを発生しないものを、先に記憶され
たページフォルトを発生するアクセス要求に先立て前記
制御手段に実行させる。

【０００８】また、本発明の演算処理方法は、それぞれ
単数のデータポートを持つ複数のサブバンクからなる記
憶領域を持ち複数のプロセッサエレメントからアクセス
される共有メモリに単数または複数のサブページを記憶
し、前記プロセッサエレメントからのアクセス要求に応
じて、前記プロセッサエレメントの内部メモリと前記共
有メモリとの間の第１のバスを介したデータ転送、およ
び、前記共有メモリと前記外部メモリとの間の第２のバ
スを介したデータ転送を制御し、前記プロセッサエレメ
ントが前記共有メモリ対してのページフォルトを伴うア
クセス要求を発生し、当該アクセス要求に応じて前記共
有メモリと外部メモリとの間で前記第２のバスを介して
データを転送中に、他のプロセッサエレメントがアクセ
ス要求を発生した場合に、前記他のプロセッサエレメン
トが発生したアクセス要求を記憶し、当該記憶している
アクセス要求がページフォルトを発生するか否かを判断
し、ページフォルトを発生しないと判断した場合に、前
記記憶しているアクセス要求を実行する。

【０００９】

【発明の実施の形態】以下、本発明の実施形態に係わる
並列プロセッサについて詳細に説明する。図１は、本実
施形態の並列プロセッサ２１のシステム構成図である。
図１に示すように、並列プロセッサ２１は、例えば、第
１のバスとしてのコモンバス２２、プロセッサエレメン
ト２３₁〜２３_n、共有メモリ２４、バスユニット２５
および第２のバスとしての外部アクセスバス２６を有す
る。

【００１０】並列プロセッサ２１では、コモンバス２２
に、プロセッサエレメント２３₁〜２３_nおよび共有メ
モリ２４が接続されている。また、外部アクセスバス２
６に、共有メモリ２４およびバスユニット２５が接続さ
れている。

【００１１】コモンバス２２は１２８ビットのバス幅を
有し、外部アクセスバス２６は３２ビットのバス幅を有
している。コモンバス２２は、外部アクセスバス２６に
比べて４倍以上のデータ転送速度を持つ。なお、コモン
バス２２と外部アクセスバス２６とのバス幅を同じにす
ることも可能である。プロセッサエレメント２３₁〜２
３_nは、例えば、並列プロセッサ１がＭＩＭＤ(Multipl
e Instruction Multiple Data)型の並列プロセッサの場
合には、個々にプログラムカウンタを持ち、当該プログ
ラムカウンタによって指し示される図示しないインスト
ラクションメモリのアドレスに記憶された命令に応じた
処理を相互に独立して行う。プロセッサエレメント２３
₁〜２３_nとしては、例えば、ＲＩＳＣ(Reduced Instr
uction Set Computer)型の汎用プロセッサが用いられ
る。

【００１２】プロセッサエレメント２３₁〜２３_nは、
それぞれ複数のサブページ、例えば、３個のサブページ
を記憶可能な内部メモリとしてのサブバンク２７₁，２
７₂，２７₃を備えている。ここで、サブページは、メ
インメモリ７上の連続したアドレスの記憶領域に記憶さ
れた５１２バイトのデータであり、４個の連続したアド
レスのサブページによって１ページが構成される。な
お、プロセッサエレメント２３₁〜２３_nが備えている
サブバンクの数を、相互に異なるようにすることも可能
である。プロセッサエレメント２３₁〜２３_nは、後述
するように、共有メモリ２４からサブページを読み込ん
でサブバンク２７₁〜２７₃に記憶するが、プロセッサ
エレメント２３₁〜２３_nの相互間およびサブバンク２
７₁〜２７₃の相互間で異なるページのサブページを記
憶できる。バスユニット２５は、並列プロセッサ２１の
外部に設けられたチップインタフェース６を介してメイ
ンメモリ７に接続されている。メインメモリ７は、４Ｇ
バイトの連続したアドレスを持つメモリ空間を有する。

【００１３】図２は、図１に示す共有メモリ２４の構成
図である。図２に示すように、共有メモリ２４は、例え
ば、コモンバス用制御回路３１、外部バス用制御回路３
２、制御回路３３、メモリ内部バス５１，５２、マルチ
プレクサ（ＭＵＸ）５３，５４，５５，５６、第１の記
憶手段としてのメモリセル領域９０、アドレスデコーダ
５７，５８，５９，６０、第２の記憶手段としてのタグ
データ領域１２０およびリクエストキュー１２５を有す
る。

【００１４】なお、本実施形態では、コモンバス用制御
回路３１、外部バス用制御回路３２および制御回路３３
が制御手段として機能する。制御回路３３は、コモンバ
ス用制御回路３１、外部バス用制御回路３２、マルチプ
レクサ５３〜５６、アドレスデコーダ５７〜６０を制御
する。また、制御回路３３は、プロセッサエレメント２
３₁〜２３_nからサブページ入れ替え要求信号（アクセ
ス要求）を入力した場合に、要求があったサブページが
メモリセル領域９０に記憶されているか否か（ページヒ
ットの有無）をタグデータ領域１２０に記憶された特性
データとしてタグデータを参照して判断し、ページフォ
ルトが発生したと判断した場合には、図４を用いて後述
する方法で、メモリセル領域９０に記憶されている複数
のページの中から、メインメモリ７からページインする
ページと入れ替えを行う対象とするページを決定する。
また、制御回路３３は、プロセッサエレメント２３₁〜
２３_nから要求があったサブページを最初にメインメモ
リ７から共有メモリ２４に転送するように、共有メモリ
２４とメインメモリ７との間のページ転送を制御する。

【００１５】コモンバス用制御回路３１は、メモリ内部
バス５１およびコモンバス２２を介したプロセッサエレ
メント２３₁〜２３_nとメモリサブバンク４１〜４４と
の間のサブページの転送を制御する。具体的には、コモ
ンバス用制御回路３１は、制御回路３３から制御信号に
基づいて、制御信号Ｓ３１を出力してアドレスデコーダ
５７〜６０を制御すると共に、マルチプレクサ５３〜５
４の切り換え制御を行う。

【００１６】外部バス用制御回路３２は、メモリ内部バ
ス５２および外部アクセスバス２６を介したメモリサブ
バンク４１〜４４とメインメモリ７との間のページの転
送を制御する。具体的には、外部バス用制御回路３２
は、制御回路３３からの制御信号に基づいて、制御信号
Ｓ３２を出力してアドレスデコーダ５７〜６０を制御す
ると共に、マルチプレクサ５３〜５４の切り換え制御を
行う。

【００１７】マルチプレクサ５３〜５６は、制御信号Ｓ
３１，Ｓ３２および制御回路３３からの制御信号に基づ
いて、それぞれメモリサブバンク４１〜４４を、メモリ
内部バス５１および５２の何れか一方と接続する。

【００１８】アドレスデコーダ５７〜６０は、制御信号
Ｓ３１，Ｓ３２をデコードして、それぞれメモリサブバ
ンク４１〜４４に対してのアクセスを制御する。

【００１９】メモリセル領域９０は、４個のメモリサブ
バンク４１〜４４に物理的に等分に分割されている。メ
モリサブバンク４１〜４４は、それぞれシングルデータ
ポートを備えている。また、メモリセル領域９０は、そ
れぞれメモリサブバンク４１〜４４に対して等分に跨が
るように、ｍ個のバンク８０₀〜８０_m-1によって区切
られている。メモリサブバンク４１〜４４は、例えば、
それぞれｍ個のサブページを記憶可能な記憶容量を有す
る。なお、サブページは、画像データを含んでいる。メ
モリサブバンク４１〜４４は、それぞれマルチプレクサ
５３〜５６、メモリ内部バス５１およびコモンバス２２
を介して、プロセッサエレメント２３₁〜２３_nとの間
で、データの入れ替えをサブページ単位で行う。ここ
で、データを入れ換えるとは、プロセッサエレメント２
３₁〜２３_nからメモリサブバンク４１〜４４にデータ
を書き込む動作、メモリサブバンク４１〜４４からプロ
セッサエレメント２３₁〜２３_nにデータを読み出す動
作、および、その両方の動作を含む。

【００２０】コモンバス２２は１２８ビットのバス幅を
有することから、サブページが１回当たりのデータ転送
の単位となるコモンバス２２を介したバスオペレーショ
ンでは、５１２バイトのサブページを転送するには、３
２（＝５１２×８／１２８）回分のバストランザクショ
ンが最低限必要である。

【００２１】また、メモリサブバンク４１〜４４は、マ
ルチプレクサ５３〜５６、メモリ内部バス５２および外
部アクセスバス２６を介して、各バンク８０₀〜８０
_m-1に記憶されるページ単位で、メインメモリ７との間
でデータを入れ替える。ここで、１ページは２Ｋバイト
であり、４個のサブページからなる。従って、プロセッ
サエレメント２３₁〜２３_nがアクセスしようとするサ
ブページの先頭アドレスが、図３に示すＡ番地、（Ａ＋
５１２）番地、（Ａ＋１０２４）番地あるいは（Ａ＋１
５３６）番地である場合には、メインメモリ７からＡ番
地から２Ｋバイトの連続したアドレスに記憶された１ペ
ージ分のデータを共有メモリ４に転送し、この１ページ
分のデータを４個のサブページに分割して、各バンク８
０₀〜８０_mに記憶する。本実施形態では、メインメモ
リ７の４Ｇバイトのメモリ空間をを、３２ビットのアド
レスで指し示している。ここで、この３２ビットのアド
レスのうち、３１〜１１ビット目がページの先頭アドレ
スを示し、１０〜０ビット目がページ内のアドレスを示
している。また、１０ビット目および９ビット目がサブ
バンクを示している。

【００２２】メモリサブバンク４１〜４４に記憶されて
いるサブページは、全てのプロセッサエレメント２３₁
〜２３_nで共有できるように、システム全体で、サブペ
ージのデータ量を統一することが望ましい。本実施形態
では、プロセッサエレメント２３₁〜２３_nのサブバン
ク２７₁のメモリ容量を５１２バイトとし、サブページ
のデータ量も５１２バイトとしている。ここで、外部ア
クセスバス２６は３２ビットのバス幅を有するため、ペ
ージがデータ転送の単位となる外部アクセスバス２６を
介した１回当たりのバスオペレーションでは、２Ｋバイ
トのページを転送するために、５１２（＝２０４８×８
／３２）回分のバストランザクションが最低限必要であ
る。

【００２３】タグデータ領域１２０は、図２に示すよう
に、メモリサブバンク４１〜４４からなるメモリセル領
域９０に記憶されたサブページの特性データとしてのタ
グデータを記憶する。タグデータ領域１２０は、バンク
８０₀〜８０_m-1に対応したタグバンク１３０₀〜１３
０_m-1を有し、タグバンク１３０₀〜１３０_m-1には、
それぞれバンク８０₀〜８０_mに記憶されているサブペ
ージの特性を示すデータが記憶されている。タグデータ
は、バリッド識別領域１２１、ダーディ識別領域１２２
およびページセレクタ領域１２３から構成される。

【００２４】バリッド識別領域１２１は、各サブページ
のデータの有効性を示す１ビットのバリッドビットを、
サブページの数だけ備えている。例えば、バリッド識別
領域１２１には、有効なサブページに対応するバリッド
ビットにバリッドを示す「１」がセットされ、有効でな
い（無効な）サブページに対応するバリッドビットにイ
ンバリッドを示す「０」がセットされている。

【００２５】ダーディ識別領域１２２は、各サブページ
のデータがダーティであるか否かを示す１ビットのダー
ティビットを、サブページの数だけ備えている。ここ
で、ダーティであるとは、当該サブページに、プロセッ
サエレメント２３₁〜２３_nから書き込みがあったこと
を意味し、当該サブページが記憶されている記憶領域を
開放するときに、当該サブページをメインメモリ７に書
き戻す必要がある。すなわち、ライトバックを行う必要
がある。例えば、ダーディ識別領域１２２には、ダーテ
ィなサブページに対応するダーティビットにバリッドを
示す「１」がセットされ、ダーティでないサブページに
対応するダーティビットにインバリッドを示す「０」が
セットされている。

【００２６】ページセレクタ領域１２３は、バンク８０
₀〜８０_mに記憶されているページの識別番号（例え
ば、ページの先頭アドレス）を示すページセレクタを有
する。

【００２７】また、リクエストキュー１２５は、コモン
バス２２およびメモリ内部バス５１を介して入力した共
有メモリ４に対してのプロセッサエレメント２３₁〜２
３_nから複数のアクセス要求が競合した場合に、これら
のアクセス要求をキューに蓄え、以下に示す手順で制御
回路３３に出力して実行させる。

【００２８】図４は、リクエストキュー１２５の構成図
である。図４に示すように、リクエストキュー１２５
は、キューエントリブロック３００、制御回路３１０お
よびマルチプレクサ３１２を有する。キューエントリブ
ロック３００は、６個のキューエントリバンク３０１〜
３０６を順に接続した構成をしている。キューエントリ
バンク３０１は、メモリ内部バス５１と接続され、コモ
ンバス２２およびメモリ内部バス５１を介して、プロセ
ッサエレメント２３₁〜２３_nから、サブページ入れ替
え要求信号などのメモリセル領域９０に対してのアクセ
ス要求を入力して記憶する。キューエントリバンク３０
１は、制御回路３１０からの制御に応じて、記憶してい
るアクセス要求を後段のキューエントリバンク３０１あ
るいはマルチプレクサ３１２に出力する。

【００２９】キューエントリバンク３０２〜３０５は、
制御回路３１０からの制御に応じて、それぞれ前段のキ
ューエントリバンク３０１〜３０４からアクセス要求を
入力して記憶し、当該記憶したアクセス要求をそれぞれ
後段のキューエントリバンク３０３〜３０６あるいはマ
ルチプレクサ３１２に出力する。また、キューエントリ
バンク３０６は、制御回路３１０からの制御に応じて、
キューエントリバンク３０５からアクセス要求を入力し
て記憶し、当該記憶したアクセス要求をマルチプレクサ
３１２に出力する。

【００３０】マルチプレクサ３１２は、制御回路３１０
からの制御に応じて、キューエントリバンク３０１〜３
０６のうち何れか１つを制御回路３３と接続し、当該接
続されたキューエントリバンクに記憶されているアクセ
ス要求を制御回路３３に出力する。

【００３１】以下、リクエストキュー１２５の動作につ
いて説明する。アクセス要求の先読みを行わない場合図５は、アクセス要求の先読みを行わない場合のリクエ
ストキュー１２５の動作を説明するための図である。例
えば、プロセッサエレメント２３₁からコモンバス２２
を介して共有メモリ２４にアクセス要求Ｒ_j-1が出力さ
れ、このアクセス要求Ｒ_j-1によるコモンバス２２を用
いたメモリセル領域９０に対してのアクセス処理が行わ
れているときに、プロセッサエレメント２３₂〜２３_n
から、アクセス要求Ｒ_j+0，Ｒ_j+1，Ｒ_j+2，Ｒ_j+3，
Ｒ_j+4，Ｒ_j+5が発生した場合を考える。ここで、アク
セス要求Ｒ_j+0〜Ｒ_j+5は、例えば、全てページフォル
トを伴わないアクセスであるとする。

【００３２】この場合には、図５（Ａ）に示すように、
キューエントリバンク３０６，３０５，３０４，３０
３，３０２，３０１に、それぞれアクセス要求Ｒ_j+0，
Ｒ_j+1，Ｒ_j+2，Ｒ_j+3，Ｒ_j+4，Ｒ_j+5が記憶され
る。そして、アクセス要求Ｒ_j-1によるコモンバス２２
を用いたアクセス処理が終了すると、図４に示す制御回
路３１０からの制御によって、マルチプレクサ３１２を
介してキューエントリバンク３０６と制御回路３３とが
接続され、キューエントリバンク３０６に記憶されてい
るアクセス要求Ｒ_j+0が制御回路３３に出力される。こ
れにより、アクセス要求Ｒ_j+0に応じたメモリセル領域
９０に対してのアクセス処理が開始される。また、制御
回路３１０からの制御によって、アクセス要求Ｒ_j+1，
Ｒ_j+2，Ｒ_j+3，Ｒ_j+4，Ｒ_j+5が、それぞれキューエ
ントリバンク３０６，３０５，３０４，３０３，３０２
にシフト（転送）および記憶される。また、プロセッサ
エレメント２３₁〜２３_nからアクセス要求Ｒ_j+6が、
コモンバス２２およびメモリ内部バス５１を介してキュ
ーエントリバンク３０１に記憶される。これにより、キ
ューエントリブロック３００の記憶状態は、図５（Ｂ）
に示すようになる。

【００３３】アクセス要求の先読みを行う場合図６は、アクセス要求の先読みを行う場合のリクエスト
キュー１２５の動作を説明するための図である。例え
ば、図５を用いて前述したアクセス要求の先読みを行わ
ない場合と同様に、図６（Ａ）に示すように、キューエ
ントリバンク３０６，３０５，３０４，３０３，３０
２，３０１に、それぞれアクセス要求Ｒ_j+0，Ｒ_j+1，
Ｒ_j+2，Ｒ_j+3，Ｒ_j+4，Ｒ_j+5が記憶される。また、
アクセス要求Ｒ_j-1によってサブページ３５１にページ
フォルトを伴うアクセスが発生し、図１に示すメインメ
モリ７から外部アクセスバス２６を介して図７に示すメ
モリセル領域９０のバンク８０₆に、サブページ３５０
〜３５３によって構成されるページが転送されている。

【００３４】このとき、図４に示す制御回路３１０によ
って、キューエントリバンク３０１から３０６に向かっ
て順に、それぞれに記憶されているアクセス要求が即座
に実行可能であるか否かが判断される。これにより、制
御回路３１０によって、例えば、アクセス要求Ｒ_j+0お
よびＲ_j+1がページフォルトを伴うものであり、即座に
は実行できないと判断され、次に、アクセス要求Ｒ_j+2
がページフォルトを伴わないアクセスであり、しかも、
バンク８０₆とは異なるバンク８０₉に記憶されている
サブページ３６２に対してのアクセスであることから、
即座に実行可能であると判断される。

【００３５】そして、図４に示す制御回路３１０からの
制御によって、マルチプレクサ３１２を介してキューエ
ントリバンク３０４と制御回路３３とが接続され、キュ
ーエントリバンク３０４に記憶されているアクセス要求
Ｒ_j+2が制御回路３３に出力される。これにより、アク
セス要求Ｒ_j+2が実行され、サブページ３６２がコモン
バス２２を介して、アクセス要求Ｒ_j+2を発生したプロ
セッサエレメント２３₁〜２３_nに出力される。すなわ
ち、アクセス要求Ｒ_j+0，Ｒ_j+1に先立って、アクセス
要求Ｒ_j+2が実行される。このとき、例えば、アクセス
要求Ｒ_j-1による外部アクセスバス２６を介したメイン
メモリ７と共有メモリ２４との間でのページ転送処理
と、アクセス要求Ｒ_j+2によるコモンバス２２を介した
共有メモリ２４とプロセッサエレメント２３₁〜２３_n
との間のサブページの転送処理とは並行して行われる。

【００３６】アクセス要求Ｒ_j+2が制御回路３３に出力
されると、制御回路３１０からの制御によって、アクセ
ス要求Ｒ_j+3，Ｒ_j+4，Ｒ_j+5が、それぞれキューエン
トリバンク３０４，３０３，３０２にシフト（転送）お
よび記憶される。また、プロセッサエレメント２３₁〜
２３_nからアクセス要求Ｒ_j+6が、コモンバス２２およ
びメモリ内部バス５１を介してキューエントリバンク３
０１に記憶される。なお、アクセス要求Ｒ_j+0，Ｒ_j+1
は、それぞれキューエントリバンク３０６，３０５に継
続して記憶される。これにより、キューエントリブロッ
ク３００の記憶状態は、図６（Ｂ）に示すようになる。

【００３７】なお、図６に示した例では、アクセス要求
Ｒ_j+0，Ｒ_j+1がページフォルトを伴う要求であり、ア
クセス要求Ｒ_j+2が即座に実行可能な要求である場合を
例示したが、例えば、アクセス要求Ｒ_j+0，Ｒ_J+1，Ｒ
_j+2，Ｒ_j+3，Ｒ_j+4がページフォルトを伴う要求であ
り、アクセス要求Ｒ_j+5が即座に実行可能な要求である
場合には、アクセス要求Ｒ_j+0，Ｒ_J+1，Ｒ_j+2，Ｒ
_j+3，Ｒ_j+4に先立って、アクセス要求Ｒ_j+5が制御回
路３３に出力されて実行される。

【００３８】多重アクセス次に、図８に示すように、プロセッサエレメント２３₃
からの読み出し要求に応じて、共有メモリ２４のバンク
８０₁に記憶されたサブページ９１〜９４とメインメモ
リ７に記憶されたサブページ１０１〜１０４とがメモリ
内部バス５２および外部アクセスバス２６を介して入れ
替えられている最中に、プロセッサエレメント２３₃以
外のプロセッサエレメント２３₄から共有メモリ２４の
バンク８０₆に記憶されたサブページ１１２に対しての
読み出し要求が発生した場合の並列プロセッサ２１の処
理について説明する。

【００３９】この場合には、サブページ１１２に対して
の読み出し要求が、プロセッサエレメント２３₄からコ
モンバス２２を介して共有メモリ２４に出力され、この
読み出し要求が制御信号Ｓ７０としてコモンバス用制御
回路３１に出力される。このとき、サブページ１１２は
メモリサブバンク４２に記憶されているため、コモンバ
ス用制御回路３１からアドレスデコーダ５８に制御信号
Ｓ３１が出力され、マルチプレクサ５４がメモリ内部バ
ス５１に接続される。これによって、サブページ１１２
が、メモリ内部バス５１およびコモンバス２２を介し
て、プロセッサエレメント２３₄に出力される。

【００４０】並列プロセッサ２１では、上述したサブペ
ージ１１２の転送処理と並行して、共有メモリ２４のバ
ンク８０₁に記憶されたサブページ９１〜９４とメイン
メモリ７に記憶されたサブページ１０１〜１０４との入
れ替え処理が行われる。すなわち、並列プロセッサ２１
では、プロセッサエレメント２３₁〜２３_nと共有メモ
リ２４との間でのサブページの入れ替え処理と、共有メ
モリ２４とメインメモリ７との間でのページ入れ替え処
理とを多重化できる。

【００４１】以上説明したように、並列プロセッサ２１
によれば、プロセッサエレメント２３₁〜２３_nから共
有メモリ２４に出力されたアクセス要求の出力順序では
なく、即座に実行可能なアクセス要求を、先に出力され
たアクセス要求に先立って実行できる。そのため、アク
セス要求に応じた処理を効率的に行うことができ、演算
性能を向上できる。

【００４２】また、画像処理などの分野では、同一のペ
ージ内のデータが、プロセッサエレメント２３₁〜２３
_nから連続してアクセスされる場合が多いが、並列プロ
セッサ２１では、ページフォルトが発生した場合に、要
求が生じたサブページの他に当該サブページと連続した
アドレスを持つ他の３個のサブページもメインメモリ７
から共有メモリ２４に読み込むため、次にページフォル
トが発生する可能性を低減できる。すなわち、画像処理
の特性から、要求があったサブページと連続したアドレ
スのサブページについても近い将来、プロセッサエレメ
ント２３₁〜２３_nからアクセスが発生する可能性が高
いため、これらのサブページを要求があったサブページ
と共にメインメモリ７から共有メモリ２４に読み込むこ
とは、将来のページフォルトの発生率を低下させるのに
有効である。

【００４３】また、並列プロセッサ２１では、共有メモ
リ２４のメモリセルとして１ポート構造のものを用い
て、プロセッサエレメント２３₁〜２３_nと共有メモリ
２４との間でのサブページ入れ替え処理と、共有メモリ
２４とメインメモリ７との間でのページ入れ替え処理と
を並行して行うことができるため、小さな回路規模で、
高速処理を実現できる。すなわち、共有メモリ２４は、
シングルポートであるにも係わらずに、機能的に、２ポ
ートと略同じ性能を実現できる。

【００４４】本発明は上述した実施形態には限定されな
い。例えば、上述した実施形態では、アクセス要求管理
手段として、キュー方式でアクセス要求を記憶するリク
エストキュー１２５を例示したが、アクセス要求管理手
段は、キュー方式ではなく、例えば、アクセス要求を入
力して所定のパターンで固定したアドレスに記憶し、制
御回路３３に出力するまでシフトしない構成にしてもよ
い。

【００４５】また、上述した実施形態では、リクエスト
キュー１２５を、直列に接続された６段のキューエント
リバンクによって構成した場合を例示したが、直列に接
続するキューエントリバンクの数は任意である。但し、
この数が多い程、ページヒットを伴わないアクセス要求
がリクエストキュー１２５に記憶される確率が高くなる
ため、並列プロセッサ２１の性能は向上する。

【００４６】また、上述した実施形態では、図１に示す
プロセッサエレメント２３₁〜２３_nがサブページから
データを読み出す場合を例示したが、サブページにデー
タを書き込む場合でも、コモンバス２２を介したサブペ
ージの転送処理および外部アクセスバス２６を介したペ
ージの転送処理は同じである。

【００４７】また、上述した実施形態では、共有メモリ
２４のメモリセル領域を４個のメモリサブバンク４１〜
４４に分割した場合を例示したが、メモリサブバンクの
数は任意である。従って、例えば、共有メモリ２４のメ
モリセル領域を８個のメモリサブバンクに分割してもよ
い。この場合には、１ページは８個のサブページで構成
される。また、上述した実施形態では、単数のサブペー
ジのデータ量を５１２バイトとしたが、このデータ量は
特に限定されず、２５６バイトあるいは１０２４バイト
などであってもよい。

【００４８】また、図８を用いて説明した共有メモリ２
４とメインメモリ７との間のページ入れ替え処理は、最
初にサブバンク４２に記憶されたサブページ９２につい
ての入れ替え処理を行えば、その後、サブバンク４１，
４３，４４に記憶されたサブページ９１，９３，９４を
メインメモリ７との間でどの順序で入れ替えてもよい。
例えば、上述した実施形態では、要求があったサブペー
ジ９２の次にアドレスをインクリメントする方向に、サ
ブページ９３，９４，９１の順で入れ替えを行ったが、
アドレスをデクリメントする方向に、サブページ９２の
次にサブページ９１，９４，９３の順で入れ替えてもよ
い。

【００４９】また、図８を用いて説明した共有メモリ２
４とメインメモリ７との間のページ入れ替え処理では、
サブページ９１〜９４を入れ替える順序のパターンは、
２４（＝４×３×２×１）通りある。従って、並列プロ
セッサ２１では、共有メモリ２４とメインメモリ７との
間で、この２４通りのうちいずれの順序でサブページを
入れ替えてもよい。例えば、プロセッサエレメント２３
₁〜２３_nからのアクセス要求を考慮せず、例えば、常
に、サブページ９１，９２，９３，９４の順でサブペー
ジを入れ替えてもよい。

【００５０】また、本発明は、例えば、プロセッサエレ
メント２３₁〜２３_nの動作モードを判断したり、各プ
ロセッサエレメント２３₁〜２３_nのデータアクセスパ
ターンがメモリアドレスを増加および減少する方向の何
れであるかを判断する判断回路を設けることも可能であ
る。この場合には、当該判断回路の判断結果に基づい
て、共有メモリ２４とメインメモリ７との間でのサブペ
ージの入れ替え順序を、プロセッサエレメント２３₁〜
２３_nのアクセス待ち時間が短くなるように、柔軟に設
定するように構成することができる。ここで、共有メモ
リ２４におけるサブページの入れ替え順序を制御する手
段として、固定された論理回路の他に、条件に応じて入
れ替え順序を柔軟に変更できるシーケンサなどのプログ
ラム可能な回路を設けることが望ましい。

【００５１】また、上述した並列プロセッサ２１では、
図２に示すように、１組のメモリ内部バス５１およびコ
モンバス２２を用いた場合を例示したが、メモリサブバ
ンクの数以下の複数組のメモリ内部バス５１およびコモ
ンバス２２を設けてもよい。この場合には、当該組の数
に応じて、プロセッサエレメント２３₁〜２３_nから共
有メモリ２４の異なるサブバンクに同時にアクセスが可
能となり、さらなる高速処理を実現できる。

【００５２】

【発明の効果】以上説明したように、本発明の並列プロ
セッサによれば、プロセッサエレメントが共有メモリに
アクセスするときの待ち時間を短縮でき、高い演算性能
を実現できる。また、本発明の演算処理方法によれば、
プロセッサエレメントが共有メモリにアクセスするとき
の待ち時間を短縮でき、プロセッサエレメントに高い演
算性能を実現させることが可能になる。

【図面の簡単な説明】

【図１】図１は、本発明の実施形態の並列プロセッサの
システム構成図である。

【図２】図２は、図１に示す共有メモリの構成図であ
る。

【図３】図３は、図２に示すメモリサブバンクに記憶さ
れるサブページを説明するための図である。

【図４】図４は、図２に示すリクエストキューの構成図
である。

【図５】図５は、図２に示すリクエストキューのアクセ
ス要求の先読みを行わない場合の動作を説明するための
図である。

【図６】図５は、図２に示すリクエストキューのアクセ
ス要求の先読みを行う場合の動作を説明するための図で
ある。

【図７】図７は、図６に示すリクエストキューの動作を
説明するためのサブバンクの記憶状態を示す図である。

【図８】図８は、図１に示す並列プロセッサの多重アク
セス動作を説明するための図である。

【図９】図９は、従来の一般的な並列プロセッサのシス
テム構成図である。

【符号の説明】６…チップインタフェース、７…メインメモリ、２２…
コモンバス、２３₁〜２３_n…プロセッサエレメント、
２４…共有メモリ、２５…バスユニット、２６…外部ア
クセスバス、２７₁〜２７₃，４１〜４４…サブバン
ク、３１…コモンバス用制御回路、３２…外部バス用制
御回路、３３…制御回路、５３〜５６…マルチプレク
サ、５７〜６０…アドレスデコーダ、８０₀〜８０_m…
バンク、１２０…タグデータ領域、１２１…バリッド識
別領域、１２２…ダーディ識別領域、１２３…ページセ
レクタ領域、１２５…リクエストキュー、１３０₀〜１
３０_m-1…タグバンク

Claims

【特許請求の範囲】

【請求項１】それぞれ単数または複数のサブページを記
憶する内部メモリを備え、当該内部メモリに記憶された
データを用いて演算処理を行う複数のプロセッサエレメ
ントと、前記複数のプロセッサエレメントと接続された第１のバ
スと、外部メモリと接続された第２のバスと、前記第１のバスおよび前記第２のバスの双方に接続され
た共有メモリとを有し、前記共有メモリは、それぞれサブページを記憶する複数のサブバンクからな
る記憶手段と、前記プロセッサエレメントからのアクセス要求に応じ
て、前記プロセッサエレメントの内部メモリと前記記憶
手段との間の前記第１のバスを介したデータ転送、およ
び、前記記憶手段と前記外部メモリとの間の前記第２の
バスを介したデータ転送を制御する制御手段と、前記記憶手段に対してのページフォルトを発生するアク
セス要求を前記複数のプロセッサエレメントから入力
し、当該入力したアクセス要求に応じて前記第２のバス
を介して前記共有メモリと外部メモリとの間でデータを
転送中に他のアクセス要求を入力したときに、前記他の
アクセス要求を記憶し、当該記憶しているアクセス要求
がページフォルトを発生しない場合に、当該記憶してい
るアクセス要求を前記制御手段に実行させるアクセス要
求管理手段とを有する並列プロセッサ。
【請求項２】前記アクセス要求管理手段は、複数のアク
セス要求を記憶可能であり、複数のアクセス要求が記憶されているときに、当該記憶
されている複数のアクセス要求のうちページフォルトを
発生しないものを、先に記憶されたページフォルトを発
生するアクセス要求に先立て前記制御手段に実行させる
請求項１に記載の並列プロセッサ。
【請求項３】前記アクセス管理手段は、ページフォルト
を発生しない複数のアクセス要求が記憶されているとき
に、当該記憶されているページフォルトを発生しない複
数のアクセス要求のうち、先に記憶されたものから順に
前記制御手段に実行させる請求項１に記載の並列プロセ
ッサ。
【請求項４】前記アクセス管理手段は、キュー方式で、
前記複数のアクセス要求を記憶する請求項１に記載の並
列プロセッサ。
【請求項５】前記記憶手段は、複数の異なるサブバンク
の記憶領域内の単数のサブページを記憶する記憶領域か
らそれぞれ構成され、それぞれ単数のページを記憶する
複数のバンクを有し、前記制御手段は、前記ページの入れ替えを前記バンクを
単位として行う請求項１に記載の並列プロセッサ。
【請求項６】前記複数のサブバンクと、前記第１のバス
および第２のバスのうち選択した一方とを接続する選択
手段をさらに有する請求項１に記載の並列プロセッサ。
【請求項７】前記制御手段は、前記共有メモリの前記記
憶手段と前記プロセッサエレメントとの間で転送される
サブページと、前記記憶手段と前記外部メモリとの間で
転送されるサブページとが異なる場合に、前記記憶手段
と前記プロセッサエレメントとの間でのサブページの転
送処理と、前記記憶手段と前記外部メモリとの間でのサ
ブページの転送処理とを並行して行うように制御する請
求項１に記載の並列プロセッサ。
【請求項８】前記第１のバスのデータ転送速度は、前記
第２のバスのデータ転送速度と同一、または、前記第２
のバスのデータ転送速度より速い請求項１に記載の並列
プロセッサ。
【請求項９】前記記憶手段の記憶領域の各サブバンク
に、それぞれ単数のデータポートが設けられている請求
項１に記載の並列プロセッサ。
【請求項１０】前記制御手段は、同一のページを構成す
る複数のサブページを、それぞれ異なる前記サブバンク
に記憶する請求項１に記載の並列プロセッサ。
【請求項１１】前記記憶手段の複数のサブバンクは、同
じ記憶容量を有する請求項１に記載の並列プロセッサ。
【請求項１２】前記記憶手段のサブバンクの数と、前記
ページを構成するサブページの数とは同じである請求項
１に記載の並列プロセッサ。
【請求項１３】前記プロセッサエレメントは、それぞれ
単数のサブページを記憶する複数のサブバンクを有する
請求項１に記載の並列プロセッサ。
【請求項１４】前記ページを構成する複数のサブページ
は、前記外部メモリのアドレス空間で連続したアドレス
を持つ請求項１に記載の並列プロセッサ。
【請求項１５】前記サブページのデータは、画像データ
であり、前記複数のプロセッサエレメントは、前記画像データを
用いて画像処理を行う請求項１に記載の並列プロセッ
サ。
【請求項１６】それぞれ単数のデータポートを持つ複数
のサブバンクからなる記憶領域を持ち複数のプロセッサ
エレメントからアクセスされる共有メモリに単数または
複数のサブページを記憶し、前記プロセッサエレメントからのアクセス要求に応じ
て、前記プロセッサエレメントの内部メモリと前記共有
メモリとの間の第１のバスを介したデータ転送、およ
び、前記共有メモリと前記外部メモリとの間の第２のバ
スを介したデータ転送を制御し、前記プロセッサエレメントが前記共有メモリ対してのペ
ージフォルトを伴うアクセス要求を発生し、当該アクセ
ス要求に応じて前記共有メモリと外部メモリとの間で前
記第２のバスを介してデータを転送中に、他のプロセッ
サエレメントがアクセス要求を発生した場合に、前記他
のプロセッサエレメントが発生したアクセス要求を記憶
し、当該記憶しているアクセス要求がページフォルトを
発生するか否かを判断し、ページフォルトを発生しない
と判断した場合に、前記記憶しているアクセス要求を実
行する演算処理方法。
【請求項１７】複数のアクセス要求が記憶されていると
きに、当該記憶されている複数のアクセス要求のうちペ
ージフォルトを発生しないものを、先に記憶されたペー
ジフォルトを伴うアクセス要求に先立て実行する請求項
１６に記載の演算処理方法。
【請求項１８】ページフォルトを発生しない複数のアク
セス要求が記憶されているときに、当該記憶されている
ページフォルトを発生しない複数のアクセス要求のう
ち、先に記憶されたものから順実行する請求項１６に記
載の演算処理方法。
【請求項１９】キュー方式で、前記複数のアクセス要求
を記憶する請求項１６に記載の演算処理方法。
【請求項２０】前記共有メモリと前記プロセッサエレメ
ントとの間で転送されるサブページと、前記共有メモリ
と前記外部メモリとの間で転送されるサブページとが異
なる場合に、前記共有メモリと前記プロセッサエレメン
トとの間でのサブページの転送処理と、前記共有メモリ
と前記外部メモリとの間でのサブページの転送処理とを
並行して行う請求項１６に記載の演算処理方法。
【請求項２１】前記第１のバスのデータ転送速度は、前
記第２のバスのデータ転送速度と同一、または、前記第
２のバスのデータ転送速度より速い請求項１６に記載の
演算処理方法。