詳細な構成方法
ここでは、AIBoosterをさまざまな環境にインストールする際に必要となる、コンポーネントの詳細、システム要件、詳細なセットアップ手順等について説明します。
コンポーネントの詳細
Agent
Agentコンテナ群は、観測対象となるすべてのノードで常時起動していることを前提とします。これらのコンテナは、ノードのハードウェアやシステムの状態を定点観測し、そこで実行中のプログラムの性能に関するメトリクスを収集します。
以下の機能を備えており、一部のコンテナは特権モードでの動作(管理者権限でのコンテナ起動)が必要です:
- Node Exporter: CPUやI/O関連のメトリクス収集
- DCGM Exporter: GPUのメトリクス収集
- PCM Exporter: Intel CPU/Memory Subsystem特有のメトリクス収集
- eBPF Profiler: プログラムの実行状況の収集
Server
Server コンテナ群は、Agent が稼働する計算ノードと同一ネットワークに接続された1台のLinuxノード上で動かすことを前提としています。専用の管理ノードに配置しても、Agentを導入した計算ノードのいずれかに同居させてもかまいません。
Serverに含まれるコンテナは以下のとおりです:
- ClickHouse: データを格納
- Grafana: 可視化機能
- Nginx: リバースプロキシ
また、Server コンテナ群が動作するノードでは、次のポートが開放されている必要があります:
ポート | 想定アクセス元 | 用途 |
---|---|---|
3000 | ユーザーのPC | 性能観測ダッシュボードへのアクセス |
9000 | Agentが動作するノード群 | メトリクス収集 |
構成パターンの選択
構成 | 特徴 | 推奨用途 |
---|---|---|
シングルノード | 1台で完結 | 検証・学習・小規模PoC |
マルチノード | 複数台分散 | 本格運用・大規模クラスタ |
シングルノード構成
1台のマシンでAIBooster ServerとAgentの両方を動作させる構成です。
パターン1: 検証向け最小構成
AIBooster ServerとAIBooster Agent の両方を、GPUが搭載された1台のワークステーション・サーバーにインストールします。モニターを接続し、その場でダッシュボードを開いてパフォーマンス情報を確認します。オフライン検証機やベンチマーク用マシンで「まず動かしてみたい」ときの最短ルートです。ネットワーク設定は不要です。
パターン2: 複数ユーザー向け構成
AIBooster ServerとAIBooster Agent の両方を、GPUが搭載された1台のワークステーション・サーバーにインストールします。ユーザーは個人のPCからブラウザを通じて、サーバーが提供するダッシュボードをTCP通信の3000番ポート経由で閲覧します。複数人でダッシュボードを見たい小規模PoCに最適です。
マルチノード構成
複数台のマシンでAIBooster ServerとAgentを分散動作させる本番運用向けの構成です。
パターン1: 管理ノード分離型(推奨)
管理ノードにAIBooster Serverをインストールし、各GPU計算ノードにはAIBooster Agentをインストールします。ユーザーは個人のPCからブラウザを通じて、管理ノードが提供するダッシュボードをTCP通信の3000番ポート経由で閲覧します。多くのGPUクラスタサーバーシステムで推奨される構成です。
パターン2: 計算ノード同居型
特定の管理ノードが存在しない場合、GPU搭載ノードを一台選び、そちらにAIBooster Serverとそのノード専用のAIBooster Agentをインストールします。残りのGPU搭載ノードにはAgentだけをインストールします。ユーザーは個人のPCからブラウザを通じて、AIBooster ServerがインストールされたGPU搭載ノードが提供するダッシュボードをTCP通信の3000番ポート経由で閲覧します。
システム要件
セットアップする全ノードで以下の要件を満たすことを確認してください:
OS・ソフトウェア要件
- Ubuntu (>=22.04)
- Linux Kernel (>=5.15)
また、以下のソフトウェアがインストールされていない場合、自動的にセットアップが行われます。s
- Docker (>=28.0)
- NVIDIA Container Toolkit (>=1.17)
ネットワーク・SSH・権限要件
SSH接続要件
- SSH経由でネットワークアクセスが可能なこと
- 各ノードのSSHポートが開放されていること
ユーザー・権限要件
- すべてのノードで同じユーザー名でログインできること
- ログインユーザーが管理者へ昇格するための権限(sudo権限)をもっていること
- sudoパスワードがすべてのノードで同一なものに設定されていること
インストーラーは現在のユーザー名ですべてのノードにSSH接続するため、全ノードで同じユーザー名とsudoパスワードが必要です。
セットアップ手順
1. インストーラの実行
以下のコマンドをコピーして、ターミナル上で実行してください:
curl -sLO assets.aibooster.fixstars.com/faibup.sh && sh faibup.sh
ターミナル上で構成に関する質問に答えることでセットアップが完了します。
2-a. シングルノード設定
インストーラーが以下の質問をするので回答してください:
- Target node address: ターゲットノードのIPアドレスまたは名前解決できるホスト名を入力
- Target node SSH port: ターゲットノードのSSHポートを入力
2-b. マルチノード設定
インストーラーが以下の質問を順番に行うので回答してください:
3-4の手順は繰り返されることに注意してください。
-
Server node address: AIBooster Serverを動かすノードのIPアドレスまたは名前解決できるホスト名を入力
-
Server node SSH port: AIBooster Serverを動かすノードのSSHポートを入力
-
Agent node address: AIBooster Agentをインストールしたい計算ノードのアドレスを入力
-
Agent node SSH port: AgentノードのSSHポートを入力
-
すべて入力したら空行のままEnterを押して確定
3. 認証情報の入力
インストール中にSSH接続とsudo権限の取得のため、以下の情報を入力する必要があります:
- SSHパスワード(公開鍵認証を設定している場合でも、sudo権限昇格のため必要)
- sudoパスワード(全ノードで同一のものを設定しておく必要があります)
4. インストール完了
「AIBooster setup completed successfully!」と表示されたらセットアップは正常終了です。
末尾に示されたURLをブラウザで開き、ダッシュボードが表示されることを確認してください。また、AIBoosterのドキュメントにアクセスするためのURLも同時に表示されています。
ダッシュボード初期設定
Grafana初回ログイン
AIBoosterは性能データの可視化にGrafanaを使用しています。ブラウザからダッシュボードにアクセスすると、初回は以下のような画面が表示されます:
パスワード設定
- ユーザー名と初期パスワードとして
admin
を入力 - 管理者パスワードの変更を求められるので、任意のパスワードを入力
設定完了確認
以下のような画面が表示されたら、ダッシュボードの初期設定は完了です: