メインコンテンツへスキップ
SambaStack のアーティファクトは、大規模言語モデルをパッケージ化、デプロイ、実行するために使用される基本的なコンポーネントです。これには、以下の主要な要素が含まれます。
  • バンドルテンプレート (Bundle template): バンドルテンプレートは、単一ノード上で同時にデプロイできる内容を定義します。これには 1 つ以上のモデルテンプレートが含まれ、それぞれにサポートされるシーケンス長やバッチサイズなどの構成が記載されています。
    • 例 - モデルテンプレート:
      1. DeepSeek-R1-0528-Template — DeepSeek-R1-0528 用に、シーケンス長 8k および 4k、バッチサイズ 1、2、4、8 をサポート。
      2. DeepSeek-V3-0324-Template — DeepSeek-V3-0324 用に、シーケンス長 8k および 4k、バッチサイズ 1、2、4、8 をサポート。
    • 例 - バンドルテンプレート:
      1. deepseek-r1-v3-fp8-32k-Template — このバンドルテンプレートには、DeepSeek-R1-0528-Template と DeepSeek-V3-0324-Template の両方が含まれる。
  • バンドル (Bundle): バンドルは、バンドルテンプレートで定義されたモデルテンプレートに実際のチェックポイントをバインドすることで作成されます。
    • 例 - バンドル:
    1. deepseek-r1-v3-fp8-32k — R1-0528 チェックポイントと V3-0324 チェックポイントをそれぞれのモデルテンプレートにバインドしたバンドル。
  • チェックポイント (Checkpoint): 学習過程の特定の時点で保存された機械学習モデルの状態。
  • PEF: 特定のシーケンス長、バッチサイズ、モデル構成に最適化された推論用のコンパイラランタイムファイル。
アーティファクトは整理されたフォルダに保存され、ホステッド環境では通常 Google Cloud Storage (GCS) が使用されます。メタデータは最新バージョンを指し示し、トレーサビリティを確保するとともに更新を簡素化します。

バージョン管理とプライベートアセット

具体的なアップデート手順を確認する前に、SambaStack がアーティファクトのバージョンをどのように整理・管理しているかを理解しておくことが重要です。これにより、新しいモデルやソフトウェアリビジョンが導入されても、デプロイの安定性と互換性が保たれます。

モデルとソフトウェアの更新

このセクションでは、SambaStack がモデルやソフトウェアのアップデートをどのように処理するかを説明します。これにより、デプロイを最新かつ互換性のある状態に、最小限の中断で維持できます。
  • モデルの更新は、GCS 内のフォルダを更新することで提供されます。既存のデプロイは、顧客が更新を実施するまで変更されません。
  • SambaStack のソフトウェアリリースには、関連するすべてのバンドルおよびモデル更新が含まれます。各リリースの詳細は SambaStack のリリースノートで提供されます。
  • 更新手順は以下の通りです:
    1. Google Artifact Registry (GAR) から SambaStack の tarball を再インストールする。
    2. 各リリースに含まれる values.yaml を使用して、正しい Docker アーティファクトのパスとデプロイメント YAML を指定する (これらの詳細は各リリースで提供されます)。
    3. 次のコマンドで変更を適用する:
      kubectl apply -f values.yaml
      
  • 新しいモデルやアーティファクトのバージョンは、互換性を維持し、既存のデプロイや API が壊れないよう設計されています。例外がある場合は、リリースノートで通知されます。

プライベートアーティファクト

プライベートアーティファクトは、機密または独自のデータを保護するために個別に管理されるカスタムモデルやチェックポイントです。このセクションでは、それらのアセットへのアクセスがどのように保護・制御されるかを説明します。
  • カスタムモデルやチェックポイントは、別々のストレージバケットで管理されます。
  • プライベートアーティファクトへのアクセスは、定義されたルールに基づいて制限され、セキュリティとコンプライアンスが確保されます。
  • プライベートアーティファクトへのアクセスは、分離およびアクセス制御ポリシーによって制限され、セキュリティとコンプライアンスが確保されます。