メインコンテンツまでスキップ
バージョン: Next

トラブルシューティング

AIBoosterのセットアップや運用時によくある問題とその解決方法を説明します。

データが表示されない

GPU互換性の確認

本機能はNVIDIA DCGMを利用しており、お使いのGPUによってサポートされるメトリクスの範囲が異なります。

  • フルサポート(推奨): A100, H100, H200
    • すべてのメトリクスが利用可能です。
  • 一部サポート: GeForce GPU (RTX/GTXシリーズ)
    • 基本的なメトリクスのみに対応しています。SM Activityなど一部のメトリクスは取得できません。

GPUメトリクスが表示されない、または一部のメトリクス(SM Activityなど)が取得できない場合は、ご使用のGPUがDCGMに対応しているかご確認ください。 詳細はNVIDIA DCGM公式ドキュメントをご参照ください。 または、担当者に問い合わせてください。

ファイアウォールの制限解除

Serverノードでの制限解除

Serverコンポーネントは、TCPポート3000, 9000番へのトラフィックを受け付ける必要があります。 それぞれ、以下の用途で使用されます。

  • 3000: GrafanaダッシュボードへのHTTPアクセス
  • 9000: ClickHouseデータベースへの性能観測データの受信

ポート3000は、AIBoosterの性能観測ダッシュボードにアクセスするユーザーからのトラフィックを受け付ける必要があります。 これに対して、ポート9000は観測対象の計算ノードからのトラフィックを受け付ける必要があります。 お使いの環境にあわせて、これらの通信が許可されるように設定を行ってください。

代表的な設定方法として以下のようなものがあります。

  • SSH ポートフォワードを設定する
  • ファイアウォール(ufw)を設定する
  • セキュリティグループで許可を行う

一例として、ufwを使用している場合は以下のように設定を行います。

sudo ufw limit 3000
sudo ufw limit 9000

特定のIPアドレスからのアクセスのみを許可することもできます。

sudo ufw limit from 198.51.100.0 to any port 3000 proto tcp
sudo ufw limit from 198.51.100.0 to any port 9000 proto tcp

この例では 198.51.100.0 からのアクセスのみを許可しています。 実際のIPアドレスに置き換えてください。

ローカルエリア内でのみ接続可能なPCをServerとして使用し、外部ネットワークからアクセスされない構成であれば、IP制限の設定は不要です。 ただし、不特定の機器が同じネットワークに存在する場合や、セキュリティポリシーが厳しい環境では、ローカル内であってもIP制限を行うことを推奨します。

Agentノードおよびシングルノードでの制限解除

AgentコンポーネントはTCPポート9100番を通信に使用します。 ファイアウォール等の制限がある場合は通信を許可してください。

一例として、ufwで設定を行う場合は以下の通りです。

sudo ufw allow 9100

サービスの再起動

AIBoosterのサービスを再起動する場合は、以下の手順で実行してください。

シングルノード構成の場合

シングルノード構成では、以下のディレクトリで再起動を行ってください:

cd /opt/aibooster/local
docker compose down
docker compose up -d

マルチノード構成の場合

マルチノード構成では、該当するディレクトリで再起動を行ってください:

cd /opt/aibooster/server
docker compose down
docker compose up -d

cd /opt/aibooster/agent
docker compose down
docker compose up -d

cd /opt/aibooster/local
docker compose down
docker compose up -d