メインコンテンツまでスキップ
バージョン: v2603

トラブルシューティング

AIBoosterのセットアップや運用時によくある問題とその解決方法を説明します。

データが表示されない

GPU互換性の確認

本機能はNVIDIA DCGMを利用しており、お使いのGPUによってサポートされるメトリクスの範囲が異なります。

  • フルサポート(推奨): A100, H100, H200, B200
    • すべてのメトリクスが利用可能です。
  • 一部サポート: GeForce GPU (RTX/GTXシリーズ)
    • 基本的なメトリクスのみに対応しています。SM Activityなど一部のメトリクスは取得できません。

GPUメトリクスが表示されない、または一部のメトリクス(SM Activityなど)が取得できない場合は、ご使用のGPUがDCGMに対応しているかご確認ください。 詳細はNVIDIA DCGM公式ドキュメントをご参照ください。 または、担当者に問い合わせてください。

ファイアウォールの制限解除

Serverノードでの制限解除

Serverコンポーネントは、TCPポート3000, 8123, 16697番へのトラフィックを受け付ける必要があります。 それぞれ、以下の用途で使用されます。

  • 3000: GrafanaダッシュボードへのHTTPアクセス
  • 8123: ClickHouseデータベースへの性能観測データの受信
  • 16697: Server-Agent間の通信等のアプリケーションサーバ

ポート3000は、AIBoosterの性能観測ダッシュボードにアクセスするユーザーからのトラフィックを受け付ける必要があります。 これに対して、ポート8123, 16697は観測対象の計算ノードからのトラフィックを受け付ける必要があります。 お使いの環境にあわせて、これらの通信が許可されるように設定を行ってください。

Agentノードでの制限解除

AgentコンポーネントはTCPポート26690から26699までを内部通信に使用します。 これらのポートは同一ノード内でのみ使用され、外部ノードからアクセスされることはありません。

サービスの再起動

AIBoosterのサービスを再起動する場合は、以下の手順で実行してください。

Serverサービスの再起動

以下のディレクトリで再起動を行ってください:

cd /opt/aibooster/server
docker compose down
docker compose up -d

Agentサービスの再起動

Agentサービスはsystemdのaibooster-agent.targetとして動作しています。このターゲットを再起動してください:

sudo systemctl restart aibooster-agent.target

メトリクス収集間隔を変更する

メトリクス収集間隔を変更することで、エージェントの負荷やサーバーのデータ容量を抑えることができます。

下記のコマンドで収集間隔を変更できます。 サーバーアドレスは環境に合わせて設定してください。

curl -X POST -H "Content-Type: application/json" -d '{"scrape_interval": <収集間隔(秒、数値)>}' http://<サーバーアドレス>:16697/api/v1/agents/config

curl -X POST -H "Content-Type: application/json" -d '{"scrape_interval": 30}' http://192.168.100.100:16697/api/v1/agents/config

デフォルトに戻す場合は、nullを指定します。

curl -X POST -H "Content-Type: application/json" -d '{"scrape_interval": null}' http://<サーバーアドレス>:16697/api/v1/agents/config

Grafana サービスアカウントが存在しない (AIBooster POのライブラリパネルが存在していない等)

AIBooster POの起動時、自動で aibooster-po-loader サービスアカウントが作成されます。 このサービスアカウントではAIBooster POの動作に必要なGrafanaリソースを読み込みます。 アカウントが存在していない場合、AIBooster POは正常に動作しない可能性があります。

作成されていない、または誤って削除してしまった場合は以下の手順で再作成することができます。

Grafanaの画面から Administration -> Users and access -> Service accounts -> Add service account で作成画面を開きます。

以下の設定でサービスアカウントを作成します。

  • Display name: aibooster-po-loader
  • Role: Admin

create-service-account

Add service account token からGrafanaインスタンスへアクセスするためのトークンを発行します。

create-service-account-token

表示されたトークンをaibooster-po-loader-token.txtとして保存してください。

以下のコマンドで取得したトークンをgrafanaコンテナ内の /var/lib/grafana/aibooster-po-loader-token.txt に配置してください。

docker compose -p faib-server \
cp ./aibooster-po-loader-token.txt grafana:/var/lib/grafana/aibooster-po-loader-token.txt

配置後、Serverサービスの再起動を行ってください。

再起動後、以下のコマンドでサービスアカウントが正常に作成されているか確認できます。

docker compose -p faib-server logs grafana | grep "Found Service Account"

以下の表示があれば正常です。

grafana-1  | ✅ Found Service Account aibooster-po-loader, this is valid