# 動的再構成可能データベース処理エンジンと クエリコンパイラの検討

#### 三好健文<sup>1)</sup> 寺田裕太<sup>2)</sup> 川島英之<sup>3)</sup> 吉永努<sup>1)</sup> 1)電気通信大学大学院情報ネットワークシステム学研究科 2)電気通信大学電気通信学部 3)筑波大学大学院システム情報工学研究科



# ストリーム 動的再構成可能<del>データベース</del>処理エンジンと クエリコンパイラの検討

#### 三好健文<sup>1)</sup> 寺田裕太<sup>2)</sup> 川島英之<sup>3)</sup> 吉永努<sup>1)</sup> 1)電気通信大学大学院情報ネットワークシステム学研究科 2)電気通信大学電気通信学部 3)筑波大学大学院システム情報工学研究科







## ▶ 専用ハードウェアによる高速なストリーム処理 と動的クエリ最適化可能な柔軟性を有する 動的再構成可能ストリーム処理エンジンの プロセッサアーキテクチャを設計

▶ HWリソース量/動作周波数および再構成に必要 な時間を評価

4





- ▶ 背景 ストリームとストリーム処理エンジン
- ▶ 既存手法と課題 Streams on Wires -
- ▶ 動的再構成可能ストリーム処理エンジン
- ▶ プロセッサアーキテクチャの設計と評価
- ▶ まとめと今後の課題





### ▶ 背景 - ストリームとストリーム処理エンジン

- ▶ 既存手法と課題 Streams on Wires -
- ▶ 動的再構成可能ストリーム処理エンジン
- ▶ プロセッサアーキテクチャの設計と評価
- ▶ まとめと今後の課題



(データ)ストリーム

- ▶ 時事刻々と変化するデータ
  - ▶ 東京証券取引所 2ms
  - ▶ ルータ 300Tbps
  - ▶ 産業用ロボット(モータ制御) 1ms
  - ▶ 監視カメラ 30fps \* 台数



ストリーム処理

データストリーム: 進展する高速化(322 Tbps, Ring of Steel) アプリケーション: 高度な解析\*を要求(異常検知,行動解析)



\*解析のみならず、信憑性なども要求される可能性有

第52回プログラミングシンポジウム



8

## ストリーム処理エンジン



- 連続的問合せは演算木に変換
- ▶ データ到着毎に問合せ結果が出力
- ▶ RDBと類似した演算子
  - -w(Window): 窓演算(1分間だけ)
  - $-\sigma$  (Selection): 選択演算(一部タプルを抜粋)
  - α (Aggregation): 集約演算(数え上げ)





## ストリーム処理エンジン



10

- ▶ 連続的問合せは演算木に変換
- ▶ データ到着毎に問合せ結果が出力
- ▶ RDBと類似した演算子
  - w(Window): 窓演算(1分間だけ)
  - $-\sigma$  (Selection): 選択演算(一部タプルを抜粋)
  - α (Aggregation): 集約演算(数え上げ)







## ▶ 背景 - ストリームとストリーム処理エンジン

- ▶ 既存手法と課題 Streams on Wires -
- ▶ 動的再構成可能ストリーム処理エンジン
- ▶ プロセッサアーキテクチャの設計と評価

11

▶ まとめと今後の課題



## **Streams on Wires**<sup>[1][2]</sup>

### <u>FPGAを用いたストリーム処理エンジンの実現</u>



- 連続的問合せは演算木に変換
- データ到着毎に問合せ結果が出力
- RDBと類似した演算子
  - 窓演算(1分間だけ) - w(Window) :
  - $-\sigma$  (Selection): 選択演算(一部タプルを抜粋)

12

- α (Aggregation): 集約演算



Users/Apps.

FPGA: 自由に処理内容を設計可能な デバイス

1) Rene Mueller, Jens Teubner, and Gustavo Alonso. Streams on wires: a query compiler for fpgas. Proc. VLDB Endow., Vol.2, No.1, pp. 229-240, 2009.

Result

2) Rene Mueller, Jens Teubner, and Gustavo Alonso. Glacier: a query-to-hardware compiler. In SIGMOD '10: Proceedings of the 2010 international conference on Management of data, pp. 1159–1162, New York, NY, USA, 2010. ACM.



### ▶ 論理回路・データパスを自由に作り込める

▶ クロックレベルの同期と細粒度並列性の活用



(Br





## **Streams on Wires**



#### Trades Streamseon4Wiresの問題点uery Q5

### 動的クエリ最適化の適用が困難



#### Trades Streamseon4Wiresの問題点の解決 粗粒度の"動的再構成"で解決!!





- ▶ 背景 ストリームとストリーム処理エンジン
- ▶ 既存手法と課題 Streams on Wires -
- ▶ 動的再構成可能ストリーム処理エンジン
- ▶ プロセッサアーキテクチャの設計と評価
- ▶ まとめと今後の課題



# 動的再構成可能ストリーム処理エンジン (DR-SPE)



## **DR-SPEの要求仕様**

#### ▶ ストリームデータ処理を実行可能

- = Streams on Wires同等の機能を実現可能
- ▶ 高い演算性能の実現
  - ▶ サイクルレベルでの処理
  - ▶ (パイプライン)並列性の活用
- ▶ 動作を実行時に追加/変更できること



## DR-SPEの設計課題

- ▶ ハードウェアリソース量増加の抑制
  - ▶ リソース使用率の向上
- ▶ 最大動作周波数低下の抑制
  - ▶ 接続関係の柔軟性とスイッチによる信号遅延 増加のトレードオフ
- ▶ 再構成時間の最小化
  - ▶ 柔軟性と構成情報量のトレードオフ





- ▶ 背景 ストリームとストリーム処理エンジン
- ▶ 既存手法と課題 Streams on Wires -
- ▶ 動的再構成可能ストリーム処理エンジン
- ▶ プロセッサアーキテクチャの設計と評価
- ▶ まとめと今後の課題



## DR-SPEで実現すべき演算

## <u>= Streams on Wires同等の演算機能</u>



# 他の動的再構成可能プロセッサとの違い ADRES, FE-GA, DRP, DAP-DNAなどとの違い

- ▶ 窓演算に対応する入出力制御
- ▶ データの集合に対する操作が必要
  - ▶ 複数データの流れの切り替え操作
  - ▶ データの演算だけではない(v.s. フィルタ)

スイッチボックスおよび ストリーム入出力制御器でサポート



## DR-SPE プロセッサアーキテクチャ



25





スイッチボックス





## ストリーム入出力制御器



28

## クエリコンパイラ

## <u>所望のクエリをDR-SPE上に構成する</u>

- ▶ 与えられたクエリをAlgebra集合に分解
- ▶ Algebraのデータ授受関係をグラフ化
- ▶ AlgebraをのDR-SPE中の各要素に割当
  - ▶ Grouping, Windowingは同一の単位演算 ユニットグループへ

第52回プログラミングシンポジウム

▶ 各要素の設定値を決定する



## 設計したDR-SPEの評価

#### ▶ HWリソースの増加量

## ▶ 最大動作周波数の低下量(→ 処理性能)

### ▶ 再構成時間







# 合成結果(HWリソース量と信号遅延)

#### 対象とするDR-SPEの構成

単位演算ユニット



# FPGAへのクエリの直接構成時との比較



#### FPGA上に直接構成した場合

| DR-SPE上に構成した場合 |
|----------------|
|----------------|

| Query | レジスタ数/LUT数 |      |
|-------|------------|------|
| Q1    | 202/8      |      |
| Q2    | 270/10     | V.S. |
| Q3    | 585/272    |      |
| Q4    | 698/283    |      |

最大動作周波数:約200MHz = 19200Mbps

| ユニット数 | レジスタ数/LUT数                  |
|-------|-----------------------------|
| 2     | 362/966                     |
| 4     | 724/1932                    |
| 11    | 1991/5313                   |
| 15    | 2715/7254                   |
|       | ユニット数<br>2<br>4<br>11<br>15 |

最大動作周波数: 172.1MHz

33

= 16521Mbps



## 動的再構成にかかる時間

#### <u>構成要素を設定するために必要なデータサイズ</u>



対象とするDR-SPEの構成

| Tuple bit width        | 96 bit |
|------------------------|--------|
| Operator bit width     | 32 bit |
| #. of units in a block | 8      |
| #. of max union ways   | 8      |



34



- ▶ 背景 ストリームとストリーム処理エンジン
- ▶ 既存手法と課題 Streams on Wires -
- ▶ 動的再構成可能ストリーム処理エンジン
- ▶ プロセッサアーキテクチャの設計と評価
- ▶ まとめと今後の課題





- ▶ 動的再構成可能ストリーム処理エンジンを設計
  - ▶ Streams on Wires同等の演算機能
  - ▶ クロックレベルでの高い処理性能
- ▶ HWリソース量/信号遅延/再構成時間を評価
  - ▶ HWリソース増加率 = ~4倍程度 / ~25倍程度
  - ▶ 最大動作周波数低下率 = 86%程度
  - ▶ 再構成時間 = 数十µ秒オーダ





#### ▶ クエリコンパイラの整備

▶ 配置最適化,コンパイル時間の短縮

#### ▶ アーキテクチャの最適化

- ▶ もっとさぼれるところはさぼる
- ▶ 接続関係の見直し
- ▶ I/F, I/Oまわりの実装 → 実アプリでの評価

