コンポーネントの詳細
AIBoosterはServerとAgentの二つのコンポーネントから構成されています。 本節では、それぞれのコンポーネントを構成する要素を紹介し、これらのコンポーネントが動作することによるシステム影響の理解を助けることを目的とします。
Agent
Agentコンテナ群は、観測対象となるすべてのノードで常時起動していることを前提とします。これらのコンテナは、ノードのハードウェアやシステムの状態を定点観測し、そこで実行中のプログラムの性能に関するメトリクスを収集します。
以下の機能を備えており、一部のコンテナは特権モードでの動作(管理者権限でのコンテナ起動)が必要です:
- Node Exporter: CPUやI/O関連のメトリクス収集
- DCGM Exporter: GPUのメトリクス収集
- PCM Exporter: Intel CPU/Memory Subsystem特有のメトリクス収集
- eBPF Profiler: プログラムの実行状況の収集
Server
Server コンテナ群は、Agent が稼働する計算ノードと同一ネットワークに接続された1台のLinuxノード上で動かすことを前提としています。専用の管理ノードに配置しても、Agentを導入した計算ノードのいずれかに同居させてもかまいません。
Serverに含まれるコンテナは以下のとおりです:
- ClickHouse: データを格納
- Grafana: 可視化機能
- Nginx: リバースプロキシ
また、Server コンテナ群が動作するノードでは、次のポートが開放されている必要があります:
ポート | 想定アクセス元 | 用途 |
---|---|---|
3000 | ユーザーのPC | 性能観測ダッシュボードへのアクセス |
8123 | Agentが動作するノード群 | メトリクス収集 |
16697 | Agentが動作するノード群 | Serverノードとの通信用 |