概要
Nscale 社は、GEMM チューニング フレームワークを用いて AMD の主力 AI アクセラレータである Instinct MI300X をテストし、最大 7 倍のスループット向上を実現しました。このブログ記事では、Nscale の最新のベンチマーク結果と、GEMM チューニングが AI モデルのパフォーマンスと効率に与える影響について詳しく説明します。
GEMM チューニングとは?
GEMM チューニングは、行列乗算演算のパフォーマンスを向上させる手法です。このプロセスには、メモリ、キャッシュ、計算能力などの要素に基づいて最適なアルゴリズムを選択することが含まれます。
ベンチマーク結果
Nscale のベンチマークでは、以下のモデルで GEMM チューニングによるスループット向上が確認されました。
- LLaMA-2-70B: 最大 7.2 倍
- LLaMA-3-70B: 最大 5.9 倍
- Mistral-6B: 最大 5.4 倍
- Mistral-34B: 最大 4.8 倍
- Falcon 7B: 最大 4.5 倍
レイテンシの削減
GEMM チューニングは、すべてのモデルでレイテンシを大幅に削減しました。例えば、LLaMA-2-70B モデルのレイテンシは 1.00 秒から 0.35 秒に短縮されました。
結論
Nscale のベンチマーク結果により、GEMM チューニングは AMD Instinct MI300X AI アクセラレータのパフォーマンスと効率を大幅に向上させることが示されました。特に、大規模言語モデルにおいて顕著な改善が見られました。
詳細情報
- Nscale のプレスリリース: https://www.nscale.com/
- Nscale のブログ記事: https://www.nscale.com/
- AMD Instinct MI300X: https://www.amd.com/en/newsroom/press-releases/2023-6-13-amd-expands-leadership-data-center-portfolio-with-.html
リンク