NVIDIAが語るVoltaとTuring、最新GPUはこう使おう：GTC Japan 2018（2/4 ページ）

» 2018年09月20日 10時30分公開

[松本貴志，EE Times Japan]

Voltaから小ぶりになったTuring

　そして、TuringではVoltaで進化した点を踏襲しつつもさらに新機能として、リアルタイムレイトレーシングの実現、INT8もサポートしたTensorコア、プログラマブルシェーダーの拡張を行った。Turingの詳報は既出記事（＝“通常とは違う過程で登場”したGPU「Turing」は何が新しいのか）を参照されたい。本稿では、チップの規模とVoltaから変更が加えられた点に注目したい。

　Quadro RTX6000が搭載するGPUチップとなるTU102は、72個のSMで構成されている。チップ全体では、4608個のCUDAコア、576個のTensorコア、72個のRTコアを集積した。SMの演算ユニット構成は、INT32が64個、FP32が64個、Tensorコアが8個、RTコアが1個。その他、GV100と異なる点として、L1キャッシュとシェアードメモリが合計96Kバイト、最大スレッド数が1024といずれも減少している。また、FP64演算ユニットが1SMあたり4個にまで削減されているが、「性能を出すためでなく、64ビットコードを開発するためのもの」（成瀬氏）としている。

左：TU102の構成　右：TU102のSM1個あたりの演算ユニット構成（クリックで拡大）出典：NVIDIA

　Turingでは、RTコアの実装で1個あたりにおけるSMの規模が大きくなった。これにより、TU102ではGV100と比較してSMの搭載数が10％削減されている。総トランジスタ数はGV100比で88％となる186億個。製造プロセスはVoltaと同じく12FFNで、公称ダイサイズはGV100比93％となる754mm²と少々小ぶりとなった。しかし、Pascal世代のGP102では総トランジスタ数が118億個、ダイサイズが471mm²であることから、TU102はグラフィック用途のGPUとして最大規模であることに間違いない。