# パイプライン段数とボディバイアス電圧制御によるパイプライン型 CGRAの電力削減手法の検討

## 小島 拓也<sup>†</sup> 安藤 尚輝<sup>†</sup> 松下 悠亮<sup>†</sup> 奥原 颯<sup>†</sup> 天野 英晴<sup>†</sup>

あらまし IoT 時代においてウェアラブルデバイスなどのバッテリー駆動の高機能で小型なデバイスが求められてい る。こうしたデバイスは一定以上の性能を低消費電力で実現することが要求される。そのためエネルギー効率の高い 粗粒度再構成可能アーキテクチャ (CGRA: Coarse-Grained Reconfigurable Architecture) が注目されている。この中 でも CGRA の1種である VPCMA(Variable Pipelined Cool Mega Array) は可変パイプラインを最適化することに よって高い性能向上とエネルギー効率が得られている。しかし、この VPCMA は極薄 BOX 層を持つ完全空乏型の Silicon On Insulator (SOI)を用いてボディバイアス制御を行うことでさらなる電力効率を向上させることができる。 そこで本研究では VPCMA に対してパイプライン段数とボディバイアス制御を同時に行うことでさらなる電力効率を 改善する。シミュレーションの結果、PE アレイに対して行毎のボディバイアス制御を行うと、ゼロバイアス時と比べ て平均約 19%の電力削減率を得た。また、PE アレイ全体で一律のボディバイアス制御をする場合と比べると電力削 減率は平均約 10%であった。

キーワード 電力削減,SOTB, 粗粒度再構成可能アクセラレータ, ボディバイアス制御, 可変パイプライン

# Power Reduction for Pipelined CGRA with the Controlling Variable Pipeline and the Body Bias Voltage

Takuya KOJIMA<sup>†</sup>, Naoki ANDO<sup>†</sup>, Yusuke MATSUSHITA<sup>†</sup>, Hayate OKUHARA<sup>†</sup>, and Hideharu

# AMANO<sup>†</sup>

† Graduate School of Science and Technology, Keio University Hiyoshi 3–14–1, Kohoku-ku, Yokohama, Kanagawa, 223–8522 Japan

1. はじめに

高度な処理を要求するウェアラブルデバイスでは高い演算性 能が要求される一方で、長いバッテリー寿命で動作すること が望ましい。そこでエネルギー効率の高さから粗粒度再構成 可能アーキテクチャ (CGRA: Coarse-Grained Reconfigurable Architecture) が注目されている。CGRA は PE(Processing Element) と呼ばれる小さな演算処理部をアレイ状に多数持っ ており、PE 間の相互接続や演算の種類などの構成を適応的に 変化させることで高いエネルギー効率を得ることができる。

我々は CGRA の 1 種として CMA(Cool Mega-Array) アー キテクチャを開発した [1]。CMA は PE アレイからクロックツ リーを取り除き、動的な再構成を行わないことで消費電力の削 減を図っている。さらに CMA の低電力化を図るために FD-SOI<sup>(注1)</sup>の 1 種である Silicon On Thin Buried oxide(SOTB) を使用した CMA-SOTB [2]、CMA-SOTB2 [3]、CMA-CUBE-SOTB(CC-SOTB) [4] を開発し、評価を行ってきた。SOTB プ ロセスではボディバイアス電圧を印加することで遅延とリーク 電力のトレードオフを制御でき、CMA の性能と電力の最適化 を行うことが可能である。

さらなるスループット向上を目指し PE アレイのパイプライン 化を検討し、VPCMA(Variable Pipelined CMA) と呼ぶ新たな CMA アーキテクチャを提案し、評価を行った [5]。CC-SOTB

<sup>(</sup>注1): Fully Depleted Sicilon On Insulator



図 1 SOTB トランジスタの構造

と比べ平均 77%の性能向上と最大で 1461MOPS<sup>(注2)</sup>/mW という非常に高いエネルギー効率を達成できることがわかったが一方で、これらの評価には SOTB プロセス特有の利点であるボディバイアス制御による電力削減を検討していなかった。

そこで本研究では VPCMA に対してパイプライン段数とボ ディバイアス電圧の制御を同時に行うことでさらなる電力効率 の改善を目指す。要求性能に応じて VPCMA のようなパイプ ライン型 CGRA のパイプライン段数とボディバイアス電圧を 決定する手法を確立し、その電力削減効果を明らかにする。

以降では 2. 節で SOTB 技術の概要を説明する。3. 節では本研究で提案する手法を適用するアーキテクチャである VPCMAの概要を説明する。4. 節では本研究の電力最小化の手法に関して説明する。5. 節では本研究の予備評価と電力最小化の評価を行う。6. 節では本論文の結論を述べる。

## 2. SOTB 技術

SOTB(Silicon on Thin Buried Oxide) は超低電力デバイス 技術研究組合(LEAP)によって開発された SOI<sup>(注3)</sup>の一種であ る。10nm 程度の極薄の SOI 層と BOX 層<sup>(注4)</sup>がウェル基板の 上に積層されている。標準的なバルク CMOS テクノロジでは 微細化に伴いスレッショルド電圧のばらつきなどの特性のばら つきが問題であった。SOTB は特性ばらつきが小さくバルクと 比べて半分程度のばらつきに抑制されている。[6] これによりス レッショルド電圧を下げることが可能となり、低電力で動作さ せることが可能となる。さらに、BOX 層の下のウェル基板に ボディバイアス電圧を印加することによりリーク電流を制御す ることが可能である。この印加する電圧をボディバイアス電圧 と呼び、ボディバイアス電圧を制御することによりリーク電力 を最適化することができる。

図1にSOTB トランジスタの構造を示す[7]。ボディバイアス 電圧のうち nMOS 側の電圧を VBN、pMOS 側の電圧を VBP とする。以下のようにある電圧 VBB を用いて VBP,VBN を 設定すると nMOS、pMOS の性能のバランスをとることがで きる。以降ボディバイアス電圧は VBB のことを指す。

| VBN = VBB | (1) | ) | ĺ |
|-----------|-----|---|---|
|-----------|-----|---|---|

| VBP = VDD - VBB | (2 | ) |  |
|-----------------|----|---|--|
|-----------------|----|---|--|

*VBB*の値が負のときをリバースボディバイアス、0のとき をゼロバイアス、正のときをフォワードボディバイアスと呼び 電力と性能の間にトレードオフがある。リバースバイアスでは

- リーク電流が減少
- 遅延時間が増加

フォワードバイアスでは

- リーク電流が増加
- 遅延時間の減少

という特徴を持つ。ボディバイアスの制御によってこのような 性能と電力のバランスを制御することができる。

### 3. VPCMAの概要

VPCMA は主にバッテリー駆動の組み込みシステムにおける マルチメディア処理を行うアクセラレータとして提案された[1] 。VPCMA アーキテクチャでは主に以下のコンセプトによっ て消費電力の削減を図っている。

- PE 内のレジスタファイルを除去
- PE へのクロック分配しない
- 各 PE の演算やデータパスの再構成を静的に行う

一般的な CGRA では、動的な再構成のために各 PE 内にお いてレジスタを持ち、クロックが供給される。したがってク ロックツリーと動的な再構成のために大きな電力を消費する。 一方で VPCMA では PE 内にはレジスタファイルやクロック ツリーは存在せず組み合わせ回路のみで構成している。

#### 3.1 VPCMA の構成

VPCMA を構成する要素とそれらの動作を説明する。 VPCMA は主に以下の要素で構成されている。

- PE アレイ
- μ コントローラ
- コンフィギュレーションレジスタ
- 定数値レジスタ
- 3.1.1 PE アレイ

図2にPEアレイとPE内部の構成を示す。12列×8行×12 列のPEとそれらの相互接続、パイプライン分割のためのレジ スタから構成されている。パイプラインレジスタはPEの行と 行の間に置かれている。すでに述べているようにPEに対して はクロックの分配をしない、一方でパイプラインレジスタへは クロックが分配されている。ただし、パイプラインレジスタへは クロックが分配されている。ただし、パイプライン段数は可変 的であり、使用しないパイプラインレジスタに対してはクロッ クゲーティングを行うことで不要な消費電力が発生しないよう にしている。PEアレイの入出力は南方向のみであり、入力に はfetchレジスタが、出力にはgatherレジスタが接続されてい る。fetchレジスタにデータを書き込むことでPEアレイでの 演算が開始し、適切なタイミングで演算結果をgatherレジス タからデータメモリへ取り込む。

各 PE は以下の要素から構成されている。

- ALU(Arithmetic Logic Unit)
- ALU への入力のセレクタ
- SE(Switch Element)

ALU はデータ幅 25bit の 2 入力 1 出力で演算を行う部分で ある。ALU では加算、減算、積算、シフトなどの演算を行い、 その処理結果はダイレクトリンクまたは SE を経由して他の PE

<sup>(</sup>注2): Million Operations Per Second

<sup>(</sup>注3): SOI: Sillicon on Insulator

<sup>(</sup>注4): BOX:Buried Oxide



図 2 PE アレイの構成と PE の内部構造

へ送られる。ダイレクトリンクは北、北西、北東方向の PE へ 接続されている。ALU への入力のセレクタは東、西、南方向か らの入力、南、南東、南西方向からのダイレクトリンク、および 定数値レジスタの中から演算に使用するデータを選択する。図 2 において PE 間の相互接続を見ると行をまたぐ接続—3 つの ダイレクトリンク、北方向への出力および南方向からの入力— はパイプラインレジスタを経由することがわかる。ただし、南 方向への出力、北方向からの入力はパイプラインレジスタを経 由していない。

**3.1.2** μ コントローラ

μ コントローラは固定長 16bit の命令を実行する小さなプロ セッサであり、PE アレイとデータメモリの間のデータ転送な どを行う。データマニピュレータと呼ぶ機構を持っていて PE アレイとの複雑なデータ転送を行うことができる。

3.1.3 コンフィギュレーションデータ

コンフィギュレーションデータとは PE アレイ内にある各 PE とパイプラインレジスタの構成情報を指定するものである。 PE アレイの外部にコンフィギュレーションレジスタが配置さ れており、そこから PE アレイへ送信される。使用するパイプ ラインレジスタの情報をコンフィギュレーションデータに含め ることでアプリケーションごとに可変なパイプライン段数を使 用することが可能となる。すでに述べているようにアプリケー ション実行中、動的にコンフィギュレーションデータは変化し ない。

3.2 パイプライン型 CGRA

VPCMA は以下のうような特徴を持つパイプライン型 CGRA に分類することができる。また、パイプライン型 CGRA のアーキテクチャの概念図を図 3 に示す。

- 単純なデータフローのみを扱う
- パイプライン的な動作が可能である
- 再構成の頻度が低い

PE 間の相互接続のパターンを制限することにより、データ フローが特定の方向に流れるように単純化されている。このた め PE アレイの入出力は PE アレイの端に配置され柔軟性が低 下してしまう。こうした柔軟性低下に対処するために、データ



図 3 パイプライン型 CGRA の概念図

メモリと PE アレイとの間にクロスバのような機構を備えてい ることが多い。

VPCMA 以外のアーキテクチャでパイプライン型 CGRA に分類されるアーキテクチャは PipeRench [8], S5 Engine [9]、 XPP [10]、DT-CGRA [11] が提案されている。

マッピングされる演算によって各パイプラインステージには 遅延のばらつきが発生する。パイプラインステージ単位でボ ディバイアス制御を行うことでこのばらつきを調整することが できる。さらに、要求される性能が低い場合はパイプラインス テージの遅延が増加するような構成も許される。ゆえに、演算 のマッピングや相互接続などの構成情報を変化させてパイプラ インステージにおける遅延を調節することと、同時にボディバ イアス電圧を調節することが可能である。本研究で対象とした VPCMAではパイプラインステージの遅延を調節する手法とし てパイプライン段数を変化させている。

#### 4. 電力効率改善手法

VPCMA においてはボディバイアス電圧、パイプライン段 数を変化させることで表1に示すトレードオフが存在する。ボ ディバイアス電圧のトレードオフは2.節で述べた通りである。 VPCMA ではパイプライン段数を増やすとパイプラインレジス タの電力が増加する一方で、グリッチによる電力は低下する。 これは PE の行で発生したグリッチによるスイッチングが次の 行へ伝搬されなくなるためである。

| 衣 1 トレートオノのまとめ |                    |                    |
|----------------|--------------------|--------------------|
| ボディバイアス電圧      |                    |                    |
|                | $\mathrm{VBB} > 0$ | $\mathrm{VBB} < 0$ |
| 動作周波数          | 向上                 | 低下                 |
| リーク電力          | 増加                 | 減少                 |
| パイプライン段数       |                    |                    |
|                | 大                  | 小                  |
| 動作周波数          | 向上                 | 低下                 |
| スループット         | 向上                 | 低下                 |
| グリッチの影響        | 低下                 | 向上                 |
| パイプラインレジスタの電力  | 増加                 | 減少                 |

ま 1 トレードオフのまとめ

こうした複雑なトレードオフが存在するため、本研究では以 下のような制約で電力最小化を行う。

- ブルートフォース探索
- ボディバイアス制御のドメインは最小粒度の パイプラインステージ (PE アレイの行単位)



図 4 PE アレイのレイアウト図

| 表 2 予備評価の環境 |                          |  |
|-------------|--------------------------|--|
| 設計          | verilogHDL               |  |
| プロセス        | LEAP65nm/LPT-8           |  |
| ☆珊会ポ        | Synopsys Design Compiler |  |
| 神性口风        | 2016.03-SP4              |  |
| 而罢司伯        | Synopsys IC Compiler     |  |
| 心里比泳        | 2016.03-SP4              |  |
| 電源電圧        | $0.55\mathrm{V}$         |  |
| 温度          | $25^{\circ}\mathrm{C}$   |  |
| 遅延、リーク電力    | Synopsys HSIM            |  |
| シミュレーション    | 2012.06-SP2              |  |
| ダイナミック電力    | Synopsys Prime Time      |  |
|             | 2012.12-SP3              |  |
| 動作シュートシュン   | Cadence NC-Verilog       |  |
| 町IFンミュレーショノ | 10.20-s131               |  |

パイプライン段数は1段,2段,4段,全段の4パターンボディバイアス制御のドメインとは同一のボディバイアス電圧を印加する領域のことである。つまり、PEアレイにおいて同一行のPEは同じボディバイアス電圧になるが、行単位で異なるボディバイアス電圧を与えることができる。パイプラインレジスタは7本あるため分割のパターンは2<sup>7</sup> = 128 通りある。しかしながら、計算量の関係から上記の4つのパターンのみを検討することにした。全段とは最小粒度にパイプライン分割したときのことであり、使用している行全てを1行ずつに分割したときのことである。アプリケーションによって使用している行数が違うため8段とは限らない。例えばアプリケーションにsepiaを選んだ場合、6行しか使用していないため全段とは6段を意味する。

4.1 予備評価

各パイプライン分割、ボディバイアス電圧のパターンで達成 可能な性能と消費電力の2つをシミュレーションする必要があ る。したがって、PEアレイのレイアウトを行い予備評価とし て以下のシミュレーションを行った。予備評価のための評価環 境を表2に示す。

- (1) PE アレイの行単位でのリーク電力
- (2) PE での遅延時間
- (3) PE アレイでのダイナミック電力

1、2 はボディバイアス電圧を-2.0~0.4V の範囲で 0.2V 毎に シミュレーションを行った。3 は実行するアプリケーション、 パイプライン分割のパターン毎にシミュレーションを行った。



(a) マッピング例
(b) 非パイプライン
(c)8 段分割
図 5 演算のマッピングと遅延の例

#### 実行したアプリケーションを表3に示す。

| 主っ | シミュレーション! たアプリケーション |  |
|----|---------------------|--|
| 表る | ンミュレーンヨンしにアフリケーンヨン  |  |

| アプリケーション | 内容                  | PE アレイ使用行数 |
|----------|---------------------|------------|
| af       | 24bit(RGB) アルファプレンダ | 7 行        |
| sf       | 8bit セピアフィルタ        | 8 行        |
| sepia    | 24bit(RGB) セピアフィルタ  | 6 行        |
| gray     | 24bit(RGB) グレースケール  | 8 行        |

#### 4.2 シミュレーション方法

予備評価の結果をもとに動作周波数 f を決定するには PE ア レイ内の全データフローの中で最も大きい遅延時間  $D_{max}$  を計 算し、 $f = 1/D_{max}$  とする。最大遅延時間  $D_{max}$  の求め方の手 順を以下に示す。

(1) PE アレイ中のデータパスを抽出

(2) 各データパス、各ステージの遅延時間を求める

(3) 求めた遅延時間のなかで最大のものを決定する

例えば、図 5(a) のような演算のマッピングを考える。この マッピングにおいては複数のデータパスが考えれるが一例とし て図 5(b)(c) のようなデータパスを用いる。図 5(b)(c) の数値 はは各 PE における遅延時間を表している。PE 内に遅延時間 が 2 つ示されているが、右下にある遅延時間はALUを使用し て演算を行う場合のもので、左上にある遅延時間は出力データ がスイッチエレメントのみを経由するときのものである。図中 の矢印はデータの流れを示している。

パイプライン分割しない場合の遅延時間を  $D_1$  とし、8 段パ イプラインの n 番目のステージでの遅延を  $D_8(n)$  とする。最 大遅延は以下のように計算される。

$$D_1 = 78$$
  
 $D_8(4) = 12 + 12 = 24$ 

このようにパイプライン分割しない1段の場合遅延が78で あり、8段の場合最大遅延が24であると計算できる。





図 6 sepia: 電力最小化の結果

#### 凶 / gray. 电力取小100.

#### 5. 評 価

5.1 パイプライン分割の段数と電力最小化の関係

4 つのパイプライン分割パターン (1 段, 2 段, 4 段, 全段) で ボディバイアスを制御し電力を最小化した結果を図 6、7 に示 す。横軸の要求性能は PE アレイで 1 秒間に実行できる演算の 回数であり、動作周波数 f と演算がマッピングされている PE の数との積で計算される。縦軸は PE アレイにおける消費電力 である。

図 6 に示す sepia では 6 段にパイプライン分割する場合が常 に電力最小となっている。図 7 に示す gray では要求性能に応 じて電力が最小となるパイプライン段数が複雑に変化している。 差は小さいものの要求性能が 1.17×10<sup>9</sup> 回/sec 以下の場合は 2 段に分割した時が電力最小となっている。一方でそれ以上の性 能が要求させる場合は 4 段が電力最小となっている。4.29×10<sup>9</sup> 回/sec 以降は 4 段では達成できない性能であり、8 段のみが達 成可能である。

このようにアプリケーションによっては電力を最小化する段数が変化するものとそうでないものが存在することが明らかとなった。

表3のPEの使用率を見るとgrayとsfはともに高いPE使用率で、使用している行数も最大である。しかし、sfとgrayではすでに述べたようにパイプライン段数と電力の関係が異なる。

5.1.1 ボディバイアス制御の違いによる効果

次にボディバイアス制御の効果について議論する。以下の 3 パターンで比較を行った。

(1) ボディバイアス制御をしない(ゼロバイアス)

(2) 全ての行に一律のボディバイアス電圧を与える

(3) 行単位でボディバイアスを制御する

gray 実行時において上記の3パターンでの消費電力を図8に 示す。また、各アプリケーション実行時の行単位ボディバイア ス制御による電力削減率を図9に示す。

図8を見ると行単位でボディバイアス制御を行うと、ボディ バイアス制御をせずにゼロバイアスを与えた場合と比較すると 電力を削減しているのに加えて、達成可能な性能を向上させて いることがわかる。これはフォワードバイアスを与えることで さらに高い要求性能を満たすことができるからである。電力削 減率は図9に示すようにgrayが最も高く25%を超える。ゼロ バイアス時と比較すると電力削減効果は要求性能が低いほど高 い。なぜならば、ゼロバイアスを与える場合は遅延時間に余裕 がある低い要求性能時でもリーク電力を削減することができな いが、ボディバイアス制御を行えばリーク電力を削減できるか らである。また、gray実行時にゼロバイアスの場合に3.12×10<sup>9</sup> 回/secにおいて電力が急に増加しているのは要求性能を満たす ために8段のパイプライン分割に変更する必要があり、その分 パイプラインレジスタでの電力が増加しているからである。

ー律制御の場合と比較するとゼロバイアスと比較した場合の ように達成可能な性能を向上する効果はない。一方で要求性能 が達成可能な性能に近づくほど電力の差が大きくなっている。 この理由は低い要求性能の場合は、どのステージにも遅延時間 に余裕があるため行単位の制御をしたとしても行毎でボディバ イアス電圧の違いが少なく、どの行も近い値のボディバイアス 電圧を与えていた。そのため一律制御と差がほとんどなかった。 一方で要求性能が高くなると行単位の制御ではボトルネックと なる行にのみフォワードバイアスを与え、遅延時間に余裕のあ る行にはリバースバイアスを与えリーク電力の増加を最小限 に抑えることができるが、一律制御の場合は PE アレイ全体に フォワードバイアスを与えなくてはならなくないため差が大き くなっている。一律制御に対する電力削減率は平均して 10%前 後であるが gray において特定の要求性能の時に最大 28.87%の 削減率を示している。

図9を見ると、ゼロバイアス時と比較した場合高い削減率を 示した gray 以外のアプリケーションでも15%を超える削減率 が得られており、全アプリケーションで平均して19.64%の削 減率が得られた。一律制御の場合と比較すると af では10%を 下回る削減率となっているが全アプリケーションで平均して 10.71%の削減率を示している。これらの削減率の違いはアプリ ケーションによって行毎の遅延時間のばらつきが異なるからで ある。このように削減率は要求性能とアプリケーションに依存 するため、本手法を用いて要求性能に応じてパイプライン段数 とボディバイアス電圧を決定するのは有効である。



図 8 gray における電力最小化結果の比較



6. 結 論

VPCMAにおいて、実行するアプリケーションと要求性能に 応じて電力を最小化するパイプライン段数とボディバイアス電 圧を決定する手法を検討した。トレードオフの複雑さから単純 に計算することが困難であったため探索はブルートフォースで 行った。

電力を最小化するパイプライン段数とボディバイアス電圧に は要求性能とアプリケーションに依存して複雑に変化するが本 手法を用いることでそれを決定することができた。ボディバイ アス制御の粒度を行単位とするとした場合ボディバイアス制御 をしない場合と比べて平均 19.64%の削減率が得られ、達成可 能な性能が向上した。また、一律制御と比べると電力削減率は 平均 10.71%であった。しかし、要求性能が高くなるにつれて 行単位の制御では一律制御に対して高い電力削減率を示し、最 大で約 28%を超える削減率が得られた。

今後の展望としては本研究ではパイプライン分割パターンに 制限を設けていたがパイプライン分割パターンをさらに細粒度 に変化させて探索を行う必要がある。それに伴い探索方法にも 工夫が必要である。また、本研究では演算のマッピングは固定 していたがパイプライン分割パターンによって最適なマッピン グは異なると考えられ、マッピングも同時に検討することも必 要である。

謝 辞

本研究は、JSPS 科研費 (S) ビルディングブロック型計算シス

テムに関する研究の助成を受けたものである。また、東京大学 大規模集積システム設計教育研究センターを通し、シノプシス 株式会社の協力で行われたものです。関係者の皆様に感謝致し ます。

文 献

- N. Ozaki, Y. Yasuda, M. Izawa, Y. Saito, D. Ikebuchi, H. Amano, H. Nakamura, K. Usami, M. Namiki and M. Kondo: "Cool mega-arrays: Ultralow-power reconfigurable accelerator chips", IEEE Micro, **31**, 6, pp. 6–18 (2011).
- [2] H. Su, Y. Fujita and H. Amano: "Body bias control for a coarse grained reconfigurable accelerator implemented with silicon on thin box technology", 2014 24th International Conference on Field Programmable Logic and Applications (FPL), pp. 1–6 (2014).
- [3] K. Masuyama, Y. Fujita, H. Okuhara and H. Amano: "A 297mops/0.4mw ultra low power coarse-grained reconfigurable accelerator cma-sotb-2", 2015 International Conference on ReConFigurable Computing and FPGAs (ReCon-Fig), pp. 1–6 (2015).
- [4] Y. Matsushita, H. Okuhara, K. Masuyama, Y. Fujita, R. Kawano and H. Amano: "Body bias grain size exploration for a coarse grained reconfigurable accelerator", 2016 26th International Conference on Field Programmable Logic and Applications (FPL), pp. 1–4 (2016).
- [5] V. P. S. for Coarse Grained Reconfigurable Array CMA: "Naoki ando, koichiro masuyama, hayate okuhara, hideharu amano", 2016 INTERNATIONAL CONFERENCE ON FIELD-PROGRAMMABLE TECHNOLOGY, pp. 231–238 (2016).
- [6] Y. Morita, R. Tsuchiya, T. Ishigaki, N. Sugii, T. Iwamatsu, T. Ipposhi, H. Oda, Y. Inoue, K. Torii and S. Kimura: "Smallest vth variability achieved by intrinsic silicon on thin box (sotb) cmos with single metal gate", 2008 Symposium on VLSI Technology, pp. 166–167 (2008).
- [7] T. Ishigaki, N. Sugii, R. Tsuchiya, S. Kimura and Y. Morita: "Ultralow-power LSI Technology with Silicon on Thin Buried Oxide (SOTB) CMOSFET.", chapter 7, pp. 145– 156, INTECH Open Access Publisher (2010).
- [8] H. Schmit, D. Whelihan, A. Tsai, M. Moe, B. Levine and R. R. Taylor: "Piperench: A virtualized programmable datapath in 0.18 micron technology", Custom Integrated Circuits Conference, 2002. Proceedings of the IEEE 2002IEEE, pp. 63–66 (2002).
- [9] J. M. Arnold: "S5: the architecture and development flow of a software configurable processor", Proceedings. 2005 IEEE International Conference on Field-Programmable Technology, 2005.IEEE, pp. 121–128 (2005).
- [10] M. Petrov, T. Murgan, F. May, M. Vorbach, P. Zipf and M. Glesner: "The xpp architecture and its co-simulation within the simulink environment", International Conference on Field Programmable Logic and ApplicationsSpringer, pp. 761–770 (2004).
- [11] X. Fan, H. Li, W. Cao and L. Wang: "Dt-cgra: Dualtrack coarse-grained reconfigurable architecture for stream applications", Field Programmable Logic and Applications (FPL), 2016 26th International Conference onIEEE, pp. 1–9 (2016).
- [12] N. Weste and D. Harris: "CMOS VLSI Design: A Circuits and Systems Perspective", Addison-Wesley Publishing Company, 4th edition (2010).