メインコンテンツまでスキップ
バージョン: v2510

変更履歴

v2510

新機能の追加

本リリースには新機能は含まれていません。

既存機能の改善

  • GPUの一部のメトリクスが取れない場合の自動復旧
  • PyTorchJob Tracerのログ情報拡充
  • ECRレートリミット対策
  • SaaS機能のUI/UX改善
  • インストーラのエラーメッセージを改善
  • その他細かな不具合の修正

v2509

新機能の追加

  • SaaS版の提供を開始
  • 観測(PO)
    • GPU詳細プロファイリング機能のUIを再デザイン
    • メトリクスAPI機能を追加し、プログラマティックなメトリクス取得に対応
  • 改善(PI)
    • PyPIでのパッケージ配布を開始
    • AcuiRTによるPyTorchモデルの推論最適化機能(TensoRT向け自動モデル変換)
    • ZenithTuneによる自律最適化機能(フリーパラメータ定義のあるジョブの自動チューニング)

既存機能の改善

  • ClickHouseのセキュリティ機能を強化し、TLS検証とHTTP専用モードに対応
  • Agent-Server間通信の認証機能を強化
  • systemdユニットファイル生成機能を追加し、サービス管理を改善
  • パネル表示の問題を修正
  • その他細かな不具合の修正と性能改善

v2508

新機能の追加

  • Kubernetes環境における汎用ジョブチューニング機能(PyTorchJobTuner)を追加
  • Slurm Array Jobのサポートを追加

既存機能の改善

  • SlurmジョブのREQUEUED状態など追加ジョブ状態の処理を改善
  • Agent起動時のHOSTNAME自動設定機能を追加
  • Intel PCM非サポート環境でのpcm-exporterの安定化
  • Agentノードの不要なポート公開を削除しセキュリティを向上
  • slurm-job-tracerのログ送信失敗問題を修正
  • その他細かな不具合の修正と性能改善

v2507

新機能の追加

本リリースには新機能は含まれていません。

既存機能の改善

  • GrafanaダッシュボードとAIBooster Profile Analyzer Pluginを改善(新しい詳細トレース表示、プロセス監視の改善等)
  • ClickHouseの接続ユーザーをdefaultから環境変数ベースに変更
  • PyTorchJobが削除された際にスパンが終了するよう改善
  • Dynologのデータベース接続処理を改善し、リトライ機能を追加
  • ClickHouse関連のエラーを修正
  • その他細かな不具合の修正と性能改善

v2506

新機能の追加

  • 観測(PO)
    • 特定条件のプロセス群をジョブとして追跡する機能
    • KubernetesのPyTorchJobをリアルタイムに追跡する機能
    • Slurm環境で動作するジョブ監視とGPUリソース追跡機能
    • PyTorchトレーシングによるGPUの詳細プロファイル機能
    • Lustreファイルシステムのメトリクスを取得するエージェント機能
  • 改善(PI)
    • ハイパーパラメータチューニング結果をトレースするエージェント機能
    • MMEngineやDeepSpeed向けの自動チューニング機能とCPU Affinity最適化機能

既存機能の改善

  • NCCLベンチマークのH200 GPU対応
  • インフラセットアップのH200環境対応
  • node-exporterの自動再起動設定追加
  • Slurmデプロイメントに関する複数の不具合を修正
  • その他細かな不具合の修正と性能改善