メインコンテンツまでスキップ
バージョン: v2510

コンポーネントの詳細

AIBoosterはServerとAgentの二つのコンポーネントから構成されています。

  • AIBooster Server
    • サーバ上に展開され、テレメトリデータの分析データベースおよび可視化ダッシュボードを提供
  • AIBooster Agent
    • 計算ノード上に展開され、テレメトリデータの収集や自律最適化を実行

本節では、それぞれのコンポーネントを構成する要素を紹介し、これらのコンポーネントが動作することによるシステム影響の理解を助けることを目的とします。

Server

Server コンテナ群は、Agent が稼働する計算ノードと同一ネットワークに接続された1台のLinuxノード上で動かすことを前提としています。専用の管理ノードに配置しても、Agentを導入した計算ノードのいずれかに同居させてもかまいません。

Serverに含まれるコンテナは以下のとおりです:

  • ClickHouse: データを格納
  • Grafana: 可視化機能
  • Nginx: リバースプロキシ

また、Server コンテナ群が動作するノードでは、次のポートが開放されている必要があります:

ポート想定アクセス元用途
3000ユーザーのPC性能観測ダッシュボードへのアクセス
8123Agentが動作するノード群メトリクス収集
16697Agentが動作するノード群Serverノードとの通信用

Agent

Agentコンテナ群は、観測対象となるすべてのノードで常時起動していることを前提とします。これらのコンテナは、ノードのハードウェアやシステムの状態を定点観測し、そこで実行中のプログラムの性能に関するメトリクスを収集します。

以下の機能を備えており、一部のコンテナは特権モードでの動作(管理者権限でのコンテナ起動)が必要です:

  • Node Exporter: CPUやI/O関連のメトリクス収集
  • DCGM Exporter: GPUのメトリクス収集
  • PCM Exporter: Intel CPU/Memory Subsystem特有のメトリクス収集
  • eBPF Profiler: プログラムの実行状況の収集