メインコンテンツまでスキップ
バージョン: v2602

AIBoosterとは?

AIBoosterは、AIワークロードの性能を継続的に観測改善するためのパフォーマンスエンジニアリングプラットフォームです。

  • PO: Performance Observability
    • 🔍 可視化: 各種ハードウェアの使用率、効率などを一覧
    • 📊 分析: ソフトウェアボトルネックを特定し、改善点を発見
  • PI: Performance Intelligence
    • 性能向上: 自動チューニングで性能継続的に向上
    • 💰 コスト削減: 非効率なリソース利用を削減しROIを改善

ユーザーは、可視化ダッシュボードを通じてCPU、GPU、インターコネクト、ストレージといった各種ハードウェアリソースの利用効率やソフトウェアのボトルネックを可視化し、AIワークロードの性能特性を分析することができます。 さらに、AIワークロード用にデザインされた最適化フレームワークを適用することで、効率的な性能改善が可能になります。

AIBoosterを活用して、高速かつ低コストなAIの学習や推論を始めましょう!

機能ハイライト

Cluster Overview ダッシュボードの追加

AIBoosterの性能観測機能は、クラスタ上で実行されるAIワークロードを定点観測することで、以下のような複数の体験をユーザーに提供します。

  • クラスタ全体、中長期といったマクロな性能トレンドの把握
  • ノードやデバイスごとのハードウェア利用効率の監視
  • ワークロードごとの性能特性の違いを分析

大規模なクラスタを運用する際、クラスタ全体の状態を俯瞰し、問題のある箇所や改善点をタイムリーに特定することが重要です。しかしながら、個々のノードやジョブの情報を1つずつ確認するのは手間がかかり、クラスタ全体の状況を一目で把握することが困難でした。

本リリースでは、クラスタ全体の稼働状況を一目で把握できる Cluster Overview ダッシュボード を新たに追加しました。このダッシュボードを定期的に確認することで、クラスタ内の異常や非効率なジョブをいち早く検知できます。

クラスタ全体のJob稼働状況

cluster_overview_row_job

GPU Allocation Rate(観測期間中にJobがGPUを確保していた時間の割合)や、Issued/Started/Finished Jobの統計情報によって、クラスタのリソースが効率的に活用されているかを確認できます。

  • GPU Allocation Rate が低い場合: クラスタにリソースの余裕があることを示します。新しいJobの受け入れや、ユーザーへのより積極的なGPU活用の促進を検討できます。
  • GPU Allocation Rate が高い場合: リソースが逼迫していることを示します。各Jobの性能改善を優先的に検討するシグナルとなります。

クラスタ全体のハードウェアメトリクス

cluster_overview_row_averaged_metrics

クラスタ内の全GPUの平均稼働率(SM Activity・GPU Utilization・メモリ使用率)やCPU・メモリ使用率を時系列で監視できます。クラスタ全体として効率的にGPU処理が行われているかをマクロな視点で把握できます。

特に GPU SM Activity(GPUコアが実際に計算を行っていた時間の割合)に着目することで、GPU処理が効率的に実行されているか定量的に評価できます。

ノード単位のGPU使用率ヒートマップ

cluster_overview_row_gpu_heatmap

ノードごと・時間帯ごとのGPU使用率をヒートマップで直感的に把握できます。特定のノードや時間帯でGPUの使用率が際立っている箇所を素早く特定し、原因調査や性能改善の方針立案に役立てることができます。

詳細については クラスタを分析する を参照してください。

ダッシュボードのカスタマイズとパネルライブラリ

AIBooster の性能観測機能は OpenTelemetry や Grafana などの OSS をベースに構築されており、テレメトリデータの収集からダッシュボードの表示まで柔軟にカスタマイズできます。本リリースでは、カスタマイズの方法を公式ドキュメントとして整備しました。

パネルライブラリ

標準で提供されているダッシュボードは代表的なメトリクスのみを表示しますが、パネルライブラリを使用することで詳細なメトリクスパネルを数クリックで追加できます。

grafana-panel-1 grafana-panel-4

以下のようなパネルが用意されています。

  • GPU関連メトリクス(DCGM): GPU使用率、温度、電力消費、メモリ使用量、プロファイリング情報など
  • システムメトリクス(Node Exporter): CPU負荷、メモリ、ファイルシステム、ネットワークなど

独自のテレメトリデータの追加

AIBooster が標準で収集しないテレメトリデータも、OpenTelemetry 経由または Prometheus 準拠の exporter 経由で追加できます。独自のアプリケーションから計測したい指標を収集し、ダッシュボード上に表示することで、標準のハードウェアメトリクス等と組み合わせたより深い分析が可能になります。

詳細については 可視化方法とテレメトリデータをカスタムする を参照してください。

NVIDIA DCGM v4系への対応

性能観測機能においてNVIDIA DCGM v4系をサポートしました。これにより、NVIDIA GPUの最新世代においても、GPU使用率やSM Activityなどの詳細なメトリクスを収集・可視化できるようになりました。

各種ガイド

クイックスタートガイド

AIBoosterの概要、セットアップ方法と簡単な使い方について学びましょう。


性能観測ガイド

AIワークロードの性能を観測するための可視化ダッシュボードの使い方について学びましょう。


性能改善ガイド

AIワークロードの性能を改善するためのフレームワークの使い方について学びましょう。