<journal article>
Datarol-II:Fine-grain Multithread Processor Architecture

Creator
Language
Publisher
Date
Source Title
Vol
Issue
First Page
Last Page
Publication Type
Access Rights
Rights
Related DOI
Related DOI
Related URI
Related URI
Related HDL
Relation
Abstract 超並列計算機の設計において,もっとも大きな問題の1つにプロセッサ間通信やメモリアクセスに伴うレイテンシ問題がある.マルチスレッド処理によるレイテンシ隠蔽は本問題に対する有効な解決手段である.効果的なマルチスレッド処理を行うためにはプロセッサに高速なコンテクストスイッチ能力が必要とされる.しかしながら従来のRISC型のプロセッサでは,スレッドの切り替えに伴うレジスタの退避と回復のためのメモリアクセス...がオーバヘッドとなり,細粒度マルチスレッド処理を効率的に実行することは困難である.本論文では細粒度マルチスレッド処理向きプロセッサDatarol- IIを提案する.本プロセッサはデータ駆動方式を最適化したDatarolにスレッド実行を導入し一般的なRISCプロセッサと同様のパイプライン処理および高速レジスタの利用を可能とした.また,自動レジスタロードストア機構によりコンテクストスイッチに伴うメモリアクセスを明示的なロードストア命令を用いずかつ通常の処理と並行して行うことにより細粒度処理におけるオーバヘッドを隠蔽する.さらに階層的なメモリシステムと負荷制御機構を導入し価格性能比に優れたメモリシステムを実現する.シュミレーションによる評価により,自動レジスタロードストア機構によるメモリアクセスオーバヘッドの隠蔽効果,優れた耐レイテンシ性能,負荷制御による効果的な階層メモリシステムの実現,が確認され,本プロセッサは超並列計算機用要素プロセッサとして有望であることが分かった.
Latency, which is csused by remote memory accesses and remote procedure calls, is one of the most serious problems in massively parallel computers.In order to eliminate the idle time of processors caused by the long latencies, processors must perform fast context switching among fine-grain concurrent processes. However, since conventional RISC processers are designed for long thread executions,they are inefficient in a fine-grain multithread execution. In this paper, we propose a processor architecture, called Datarol-II, which realizes efficient fine-grain multithread execution by performing fast context swiching among fine-grain concurrent processes. In the Datarol-II processor, an implicit register load/store mechanism is embedded in the execution pipeline in order to reduce the memory access overhead caused by context switching. A two-level hierarchical meomry system and a load control mechanism are also introduced in order to reduse local memory access latency. Simulation results show the followings : the implicit register load/store mechanism reduces context swiching costs ; the Datarol-II processor is tolerable for the long latencies ; the load control mechanism reduces the memory access traffic enabling hierarchical memory system to work efficiently. By these results, it is shown that the datarol-II processor is suitable for a processor element of massively parallel computers.
show more

Hide fulltext details.

pdf KawanoIPSJ95 pdf 893 KB 236  

Details

Record ID
Peer-Reviewed
Related URI
Subject Terms
ISSN
Type
Created Date 2009.06.13
Modified Date 2020.11.17

People who viewed this item also viewed