メディア

ベールを脱いだ「ポスト京」CPU、アーキと性能を見る倍精度ピーク性能は2.7TFLOPS以上(2/2 ページ)

» 2018年08月23日 13時30分 公開
[松本貴志EE Times Japan]
前のページへ 1|2       

コアとL2キャッシュ、メモリコントローラーをまとめるCMG

 A64FXは、13個のコアと8MバイトのL2キャッシュ、メモリコントローラーを1つのグループとした「Core Memory Group(CMG)」という要素が4個集まることで構成される。HBM2は、1個のCMGに8Gバイトがぶら下がるように接続され、各CMGはチップ内ネットワークのリングバスによるccNUMA(cache-coherent NUMA)でキャッシュコヒーレンシが保たれている。

CMGの構成とチップコンフィギュレーション(クリックで拡大) 出典:富士通

 CMG内にある13個のコアの内、1個がOSやI/O処理用のアシスタントコアとして割り当てられ、計算に用いられるコア数は48個となる。それぞれのコアはクロスバー接続されており、L2キャッシュへのスループット高効率化を果たした。また、CMG内でプロセスのバインディングを行うことで、48個の計算コアを用いた場合でも線形的なスケーラビリティを得ることができるとしている。

 既報(ポスト京は高密度がカギ、富士通が試作チップを公開)では、「CPUパッケージは2種類の仕様があり、1つ目の仕様『計算ノード』は、48個の計算コアとOSやI/Oを処理する用途で2個のアシスタントコアで構成。もう1つの仕様『IO&計算ノード』では、48個の計算コアと4アシスタントコアを装備する」とお伝えしていた。

 しかし、「計算ノード」と「IO&計算ノード」で2種類のチップを用意するわけではなく両方ともA64FXを用いるようで、アシスタントコアの個数は、「ソフトウェアによる制御で有効、無効化を行う」(同社広報)とした。

 また、メモリからコアまでのピークバンド幅も公開。アウトオブオーダー機構をコア、キャッシュ、メモリコントローラーに組み込んだことによる広帯域性能をアピールする。

メモリからコアまでのピークバンド幅(クリックで拡大) 出典:富士通

前世代CPUから約3倍以上の実行性能向上を達成、AIでは9倍以上も

 これらの強化により、アプリケーション実行性能において前世代CPUから大きな性能向上を果たしたとする。富士通はSPARC64 XIfxを基準とした各アプリケーションの性能速報値を発表しており、HPC(High Performance Computing)用途例として、流体解析では3倍、大気モデルでは2.8倍、地震波伝搬では3.4倍の性能を発揮するとしている。

 また、AI用途での性能向上例も示しており、FP32による畳み込み層計算では2.5倍、低精度(INT8)を用いた畳み込み層計算では9.4倍(予測値)の改善があった。

A64FXとSPARC64 XIfx、SPARC64 VIIIfxの概要比較(クリックで拡大) 出典:富士通

 その他、講演ではA64FXのパワーマネジメントやRAS(Reliability, Availability, Serviceability)機能、ポスト京のソフトウェア開発体制を紹介した。講演資料のサマリーでは、富士通がArmアーキテクチャのプロセッサ開発を継続する方針であることを明記しており、同社の意気込みを感じさせた。

講演資料のサマリーページ(クリックで拡大) 出典:富士通
前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.