次世代の高度なAIシステム電源

役立つ情報を毎月お届けします

購読する

プライバシーを尊重します


はじめに

人工知能 (AI) は、数学、計算統計、機械学習、予測分析など、問題解決へのいくつかのアプローチを組み合わせています。AIシステムは、問題を学習して解決する人間の脳の能力を模倣しています。AIは、複雑な学習を実行し、ソフトウェアアルゴリズムを実行する並列プロセッサで構成されるコンピューターベースの「ニューラル」ネットワークを使用して、これを実現します。今日のAIは、人間の脳をエミュレートするニューラルネットワークを複製しようとしてコンピューティングアーキテクチャに革命をもたらしています。一般的なモデルは、従来の中央処理装置 (CPU) を備えたサーバーでトレーニングまたは開発できますが、ほとんどのニューラルネットワークでは、トレーニング用にカスタムの組み込みハードウェアが必要です。

グラフィックス プロセッシング ユニット (GPU) とテンソル プロセッシング ユニット (TPU) は、ニューラルネットワークのトレーニングを高速化する一般的なアクセラレータです。GPUとTPUは、反復的で集中的なコンピューティングを処理できますが、非常に電力を消費します。たとえば、初期のAI市場の支配者であるNVIDIA DGX-1 GPUスーパーコンピューターには、8個のTesla P100 GPUが含まれており、各GPUは 21.2 TeraFLOPに対応しています。これには、合計3200Wのシステム電力が必要です。現世代のDGX-2スーパーコンピューターには、16の Tesla V100 GPUが含まれており、各GPUは 2ペタフロップスに対応でき、合計システム電力は10kW必要です。これらの電力需要の高まりに対応するために、AI市場が急速に成長することは驚くことではありません。

電源設計の課題

AI電源システムの設計者が直面している課題は多面的です。キロワットの電力を供給することが最初の課題であり、効率は絶対に重要です。学習のために、これらのコンピューティング システムは、フルパワーで実行される複雑な負荷です。アクティビティが低下すると、電力要求も低下します。システムは、電力需要がある間、可能な限り効率を維持する必要があります。無駄になったエネルギーはすべて熱として散逸し、データセンターの空調要件の増加につながります。これにより、運用コストとデータセンターの二酸化炭素排出量が増加します。

不動産も値上がりしています。現代のデータセンターには数百または数千の処理ユニットが含まれており、サイズが重要です。何度も繰り返される単一ユニットのサイズ縮小により、より大きなソリューションと同じスペースでより多くのデバイスとより高い処理能力の集中が可能になります。ただし、この小さなサイズ要件により、電力密度が急速に増加し、熱放散に利用できる表面積が減少します。これにより、次世代の高度なCPU、GPU、およびTPUの電源を設計する上で、熱管理が重要な課題の1つになります。

さらに、システムの複雑さを増し、設計サイクルを短縮することにより、設計リソースは薄くなって来ており、それより主にシステムの主要な知的財産の開発にリソースが割り当てられています。これは、多くの場合、電源スキーム関連の回路が開発サイクルの後半まで無視されることを意味します。上記の課題に対処するための時間がほとんどなく、おそらく電力設計のリソースが限られるので、理想的な全体的な電力ソリューションは、スペースを意識しながら効率的かつスケーラブルで柔軟性があり、最小限の設計労力で済むものとなるでしょう。

デジタル制御 対 アナログベースのソリューション

アナログベースのソリューションは、もはやAI市場で急速に拡大する電力需要に対応するための実行可能なアプローチではなくなりました。電源システムがよりインテリジェントになり、ソリューション全体に統合されるようになると、電源ソリューションとメインCPU / GPU / TPU間の通信が設計要件になります。AI市場向けのハイエンド電源ソリューションを設計する場合、デジタル制御ソリューションは非常に有益です。

理想的な制御ソリューションは、複数の製品 (Intel、AMD、PMBus など) と互換性があり、スケーラブルで柔軟な構成により使いやすいというものです。MPSを含む企業は、これらの理想的な高度なコントローラを提供しています (表1を参照)。これらは、詳細で正確な監視を提供しながら、広範で正確なシステム制御を提供します。広範囲にわたって電圧、電流、周波数、および障害は構成可能です。これらの値にはリアルタイムでアクセスできるため、ソリューションのパフォーマンスに対する包括的な可視性が促進されます。権限を与えられたエンジニアは、予測分析によって実行時間を最適化し、修理が必要になったときにより多くのデータを利用できるようにすることでダウンタイムを最小限に抑えることができます。

MPSの高度なコントローラソリューション その他のアナログコントローラソリューション その他のデジタルコントローラソリューション
通信プロトコル
  • PMBUS with or without AVS
  • SVID
  • SVI2
  • I2C
  • PWM-VID
  • SVID
  • SVI2
  • I2C
  • PWM-VID
  • PMBUS with or without AVS
  • SVID
  • SVI2
  • I2C
最大フェーズ構成
  • 柔軟なフェーズ割り当てを備えたデュアルまたはシングルレール
  • 10相以下
  • デュアルまたはシングルレール
  • 7相以下
  • 柔軟なフェーズ割り当てを備えたデュアルまたはシングルレール
  • 8相以下
パッケージ QFN 5mm x 5mm以下 QFN 7mm x 7mm以下 QFN 7mm x 7mm以下


表1 : 高度なコントローラとアナログベースおよびデジタル制御ソリューション

電力段は集積が鍵

明らかに、電源ソリューションは電力段なしでは機能せず、電力段は従来、ディスクリートソリューションを選択していました。ディスクリートソリューションのビルディングブロックは、ドライバICと1対の外付けMOSFETで構成され、3チップソリューションを作成します。もう1つのアプローチは、1つのICソリューションにパッケージ化されたマルチチップドライバMOSFET (DrMOS) です。前述のように、システムボードの面積が縮小し続けているため、3チップソリューションは理想的とは言えません。これは、限られたボード面積で部品の数が増えるためです。共同パッケージ化されたマルチチップソリューションはより小型で、必要な部品が少なくて済みます。ただし、パッケージ内の寄生インダクタンスは依然として高く、効率損失の原因となるため、AIなどの高出力アプリケーションには理想的ではありません。

図1 : 電力段を実装するための従来のアプローチ方法

従来のディスクリートおよびマルチチップソリューションとは異なり、MPSはモノリシックな電力段ソリューションを実装します。この電力段には、低静止電流、同期整流降圧ゲートドライバ、および1つのダイ上に1対のハイサイドおよびローサイドMOSFETがあります。すべての主要な要素が1つのパッケージに統合されているため、ドライバ / MOSFETは簡単に制御でき、スイッチノードでのリンギングを最小限に抑えることができます。さらに、パッケージとボードレベルの間の寄生インダクタンスが大幅に減少します。この設計により、最先端のCPU / GPU / TPU設計で必要とされる、より低い出力電圧でより高い効率を実現できます。

モノリシックな電力段では、最小限の数の外部部品が必要になるため、回路図とPCBレイアウトが簡素化されます。基本設計は次の2つのステップで完了できます。

  1. 電圧および電流リップル要件を満たすために、適切な量の入力および出力コンデンサを選択します。
  2. 合計負荷電流の需要を満たすインダクタを選択してください。

図2:従来のソリューションと高度なソリューションの比較

このデバイスの標準的な電力段は、さまざまな温度の負荷範囲全体にわたって優れた電流検出精度 (±2%) を達成でき、3MHzもの高いスイッチング周波数で動作します (図2を参照)。過電流保護 (OCP)、位相障害検出、スペースを意識したシステムでのIC温度レポートなどの構成可能な故障保護により、設計者は効率や過渡応答を犠牲にすることなく、小型で強力なソリューションを提供できます。

結論

今日のAIシステムは、さまざまな面で電力設計者を悩ませているいくつかの高性能コンピューターシステムによって実現されています。従来のデータセンター設計は、汎用CPUのみのソリューションから、CPU、GPU、およびTPUの組み合わせへと急速に移行しており、電力設計ソリューションに対するより厳しい要求が新たにもたらされています。デジタルコントローラとその電力段ソリューションは、正確な制御、遠隔測定、保護機能に加えて、柔軟性と適応性をもたらします。これにより、電力設計者は、急速に拡大するAI市場の現在および将来の高電力のニーズを満たすために、高効率と電力密度を備えた最先端の電力ソリューションを作成できます。

_________________________

興味のある内容でしたか? お役に立つ情報をメールでお届けします。今すぐ登録を!