メディア
ニュース
» 2018年09月18日 11時30分 公開

RTコア1個で性能はCPUの100倍:“通常とは違う過程で登場”したGPU「Turing」は何が新しいのか (1/3)

NVIDIAが2018年8月に発表した新世代GPUは、それまでのPascalや最新のVoltaにはない「Ray Tracing」専用ハードウェアを実装した。その意味と効果とは。

[長浜和也,EE Times Japan]

「コア2割増しで性能3割増し」の理由とは

 NVIDIAは、2018年8月に新世代のアーキテクチャ「Turing」を発表し、9月末にもこの世代のGPUを載せたグラフィックスカードが登場する。既に8月に開催したSIGGRAPHやGameconで海外では発表会を行っているが、9月13日から14日にかけて東京で開催した「GTC Japan 2018」において日本の関係者に向けてその概要を紹介した。この記事では、GTC Japanの14日に実施したテクニカルセッションに登壇したエヌビディアでQuadro プロダクトマネージャー シニアソリューションアーキテクトを務める柿澤修氏の講演内容から、Turingアーキテクチャの特長を解説する。

Turingアーキテクチャの特徴を日本の関係者に説明する柿澤 修氏(クリックで拡大)

 柿澤氏が講演冒頭で発した「通常とは違う経過で登場した」という言葉は、NVIDIAがこれまで開発してきた従来のGPUとTuringアーキテクチャの違いをとても端的に表現している。同様に、Turingアーキクチャを採用したGPUの名称に「Quadro RTX」のように、これまでの“G”TXではなく、“R”TXをつけるようになったのも、NVIDAがTuringアーキテクチャで重視する方向性を示している。

 柿澤氏は、この「R」を「リアルタイムレイトレーシング(Real time Ray tracing)を意識した、これまでとは全く違うアーキテクチャ」を示すものと語る。Turingアーキテクチャでは、レイトレーシング処理に特化した「RTコア」、ディープラーニングに特化した「Tensorコア」が追加された他、ディスプレイ出力では8K DisplayPortをサポートし、ビデオエンコードではHEVC 8Kのリアルタイムエンコードに対応するようになった。また、マルチGPU環境(NVIDIAでいうところのSLI構成)を構築するNVLinkは2リンク接続に対応し、グラフィックスメモリではGDDR6をサポートした。テクニカルセッションで示したTuringアーキテクチャ採用GPUの演算処理能力は次のようになる。

Turing SMユニット 16TFLOPS+16TIPS(1秒あたりの整数演算実行能力)
RTコア 10 Giga Rays/秒
Tensorコア 125TFLOPS(FP16)、250TOPS(INT8)、500TOPS(INT4)
NVLink 100Gバイト/秒(GPU-GPU Memory Access)
Graphics Memory メモリバス幅384ビット、転送レート14Gビット/秒、メモリ帯域624Gバイト/秒
Turingアーキテクチャを採用したGPUダイと実装した仕様に処理能力。なお、NVIDIAではGPUコンピューティングに特化した「Volta」アーキテクチャで既にTensorコアを実装している(クリックで拡大)

 前世代のPascalを採用した「Quadro P6000」とTuring採用の「Quadro RTX6000」のCUDAコアの数を比較するとQuadro P6000の3840個に対してQuadro RTX6000は4608個と約2割増しとなる。しかし、柿澤氏は「CUDAコアは2割増しなのに処理能力は3割増し。この理由がTuringの説明でメインになる」と述べるように、CUDAコアをまとめて構成する演算ユニット「SM」(Streaming Multiprocessor)の機能と構成が大きく変化している。なお、Quadro RTX6000では72個のSMを実装する。

Turingアーキテクチャで実装する各種演算ユニットの数とPascal世代同クラスGPUとの比較。なお、FP16はTuring世代で初めて実装している。下にある「Plus 16 TIPS」がTuringで可能となったFPとINTの同時実行による処理能力向上分をカウントしている(クリックで拡大)
Quadro RTX6000におけるStreaming Multiprocessor(SM)の構成。1つのSMにつき、INT32とFP32がそれぞれ64個、Tensorコアが8個、そして1個のRTコアを組み込んでいる(クリックで拡大)
SMの実装状況。16個のINT32、16個のFP32、2個のTensorコアを1ブロックとして、そのブロックを4つ実装し、それらとは独立した形で1つのRTコアを設けている(クリックで拡大)
       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.