メインコンテンツまでスキップ
バージョン: v2512

変更履歴

v2511

新機能の追加

  • 観測(PO)
    • ジョブ情報の新しいフォーマットに対応し、slurm-job-tracer、pytorchjob-tracer、process-tracerを刷新
    • データベースバージョン管理と自動マイグレーション機能
    • Kubernetes上でのGrafanaライブラリパネル対応
  • 改善(PI)
    • 自律的チューニングのジョブルーティング機能
    • AcuiRTのend-to-endワークフロー(変換・精度評価・推論速度評価・プロファイル取得・レポート出力)

既存機能の改善

  • pytorchjob-tracerのpreemption対応とnamespace自動設定機能
  • Pythonパッケージの月次リリースワークフロー
  • helm版faib-agentのKubernetes環境でのホスト名解決方法を改善
  • Portal frontendに10秒ごとのポーリング機能を追加
  • AcuiRT変換可否判定の厳格化
  • GKE環境構築ガイドの追加
  • ドキュメントのツリー構成変更とビルドプロセスの改善
  • dynolog-agentの脱コンテナ化
  • その他細かな不具合の修正と性能改善

v2510

新機能の追加

本リリースには新機能は含まれていません。

既存機能の改善

  • GPUの一部のメトリクスが取れない場合の自動復旧
  • PyTorchJob Tracerのログ情報拡充
  • ECRレートリミット対策
  • SaaS機能のUI/UX改善
  • インストーラのエラーメッセージを改善
  • その他細かな不具合の修正

v2509

新機能の追加

  • SaaS版の提供を開始
  • 観測(PO)
    • GPU詳細プロファイリング機能のUIを再デザイン
    • メトリクスAPI機能を追加し、プログラマティックなメトリクス取得に対応
  • 改善(PI)
    • PyPIでのパッケージ配布を開始
    • AcuiRTによるPyTorchモデルの推論最適化機能(TensoRT向け自動モデル変換)
    • ZenithTuneによる自律最適化機能(フリーパラメータ定義のあるジョブの自動チューニング)

既存機能の改善

  • ClickHouseのセキュリティ機能を強化し、TLS検証とHTTP専用モードに対応
  • Agent-Server間通信の認証機能を強化
  • systemdユニットファイル生成機能を追加し、サービス管理を改善
  • パネル表示の問題を修正
  • その他細かな不具合の修正と性能改善

v2508

新機能の追加

  • Kubernetes環境における汎用ジョブチューニング機能(PyTorchJobTuner)を追加
  • Slurm Array Jobのサポートを追加

既存機能の改善

  • SlurmジョブのREQUEUED状態など追加ジョブ状態の処理を改善
  • Agent起動時のHOSTNAME自動設定機能を追加
  • Intel PCM非サポート環境でのpcm-exporterの安定化
  • Agentノードの不要なポート公開を削除しセキュリティを向上
  • slurm-job-tracerのログ送信失敗問題を修正
  • その他細かな不具合の修正と性能改善

v2507

新機能の追加

本リリースには新機能は含まれていません。

既存機能の改善

  • GrafanaダッシュボードとAIBooster Profile Analyzer Pluginを改善(新しい詳細トレース表示、プロセス監視の改善等)
  • ClickHouseの接続ユーザーをdefaultから環境変数ベースに変更
  • PyTorchJobが削除された際にスパンが終了するよう改善
  • Dynologのデータベース接続処理を改善し、リトライ機能を追加
  • ClickHouse関連のエラーを修正
  • その他細かな不具合の修正と性能改善

v2506

新機能の追加

  • 観測(PO)
    • 特定条件のプロセス群をジョブとして追跡する機能
    • KubernetesのPyTorchJobをリアルタイムに追跡する機能
    • Slurm環境で動作するジョブ監視とGPUリソース追跡機能
    • PyTorchトレーシングによるGPUの詳細プロファイル機能
    • Lustreファイルシステムのメトリクスを取得するエージェント機能
  • 改善(PI)
    • ハイパーパラメータチューニング結果をトレースするエージェント機能
    • MMEngineやDeepSpeed向けの自動チューニング機能とCPU Affinity最適化機能

既存機能の改善

  • NCCLベンチマークのH200 GPU対応
  • インフラセットアップのH200環境対応
  • node-exporterの自動再起動設定追加
  • Slurmデプロイメントに関する複数の不具合を修正
  • その他細かな不具合の修正と性能改善