デプロイのオプション
SambaStack でモデルをデプロイする際、管理者はコンテキスト長とバッチサイズのさまざまな組み合わせから選択できます。- バッチサイズを小さくすると、トークンスループット (token/second) が向上します。
- バッチサイズを大きくすると、複数ユーザーによる同時実行性が向上します。
対応モデル
以下の表は、対応しているモデル、コンテキスト長、バッチサイズ、特徴を示しています。| 開発元/モデルID | モデル種別 | コンテキスト長 (バッチサイズ) | 特徴・最適化手法 | Hugging Faceへのリンク |
|---|---|---|---|---|
| Meta | ||||
Meta-Llama-3.3-70B-Instruct | Text | View
| View
| Model card |
Meta-Llama-3.1-8B-Instruct | Text | View
| View
| Model card |
Meta-Llama-3.1-405B-Instruct | Text | View
| View
| Model card |
Llama-4-Maverick-17B-128E-Instruct | Image, Text | View
| View
| Model card |
| DeepSeek | ||||
DeepSeek-R1-0528 | Reasoning, Text | View
| View
| Model card |
DeepSeek-R1-Distill-Llama-70B | Reasoning, Text | View
| View
| Model card |
DeepSeek-V3-0324 | Text | View
| View
| Model card |
DeepSeek-V3.1 | Reasoning, Text | View
| View
| Model card |
| OpenAI | ||||
gpt-oss-120b | Text | View
| View
| Model card |
Whisper-Large-v3 | Audio | View
| View
| Model card |
| Qwen | ||||
Qwen3-32B | Reasoning, Text | View
| View
| Model card |
| Tokyotech-llm | ||||
Llama-3.3-Swallow-70B-Instruct-v0.4 | Text | View
| View
| Model card |
| Other | ||||
E5-Mistral-7B-Instruct | Embedding | View
| View
| Model card |
バンドルのサンプル
SambaStack では、個々のモデルを単体でデプロイするのではなく、「バンドル」 (bundle) としてデプロイします。 バンドルは、1つ以上のモデルとその構成 (バッチサイズ、シーケンス長、演算精度など) をまとめてパッケージ化したデプロイメント単位です。 たとえば、Meta-Llama-3.3-70B モデルをバッチサイズ4・シーケンス長16kでデプロイする場合、それはある1つの構成となります。
一方、バンドルは同一または異なるモデル間で複数の構成を含むことができます。
SambaNova の RDU 技術は、1つのデプロイメント内で複数のモデルや構成を同時にロードすることを可能にします。これにより、必要に応じてモデルやバッチ/シーケンスプロファイルを即時に切り替えることができます。
従来の GPU システムが単一モデルかつ静的なデプロイが主流であるのに対し、SambaStack はマルチモデル・マルチ構成バンドルをサポートします。このアプローチにより、高効率・高柔軟性・高スループットを実現しつつ、低レイテンシを維持します。
| バンドルテンプレート | バンドルの説明 | バンドルの構成 |
|---|---|---|
| 70b-3dot3-ss-16k-32k-64k-128k |
| ViewTarget Models:
Draft Models:
|
| 70b-3dot3-ss-8-16-32k-batching |
| ViewTarget Models:
Draft Models:
|
| 70b-ss-8-16-32k |
| ViewTarget Models:
Draft Models:
|
| llama-405b-s-m |
| ViewTarget Models:
Draft Models:
|
| deepseek-r1-v3-fp8-32k |
| ViewModels:
|
| deepseek-r1-v3-fp8-16k |
| ViewModels:
|
| deepseek-r1-v3-fp8-4-8k |
| ViewModels:
|
| deepseek-r1-v31-fp8-16k |
| ViewModels:
|
| deepseek-r1-v31-fp8-32k |
| ViewModels:
|
| deepseek-r1-v31-fp8-4k |
| ViewModels:
|
| deepseek-r1-v31-fp8-8k |
| ViewModels:
|
| llama-4-medium-8-16-32-64-128k |
| View
|
| qwen3-32b-whisper-e5-mistral |
| View
|
| gpt-oss-120b-8k |
| View
|
| gpt-oss-120b-32k |
| View
|
| gpt-oss-120b-64-128k |
| View
|
推奨バンドル
以下の表は、SambaStack で利用可能なモデルごとの推奨バンドルテンプレートを示しています。 各エントリは、特定のモデルと最適なデプロイ構成をペアリングしており、効率的な環境構築と運用を可能します。| モデル名 | バンドルテンプレート |
|---|---|
Meta-Llama-3.3-70B-Instruct | 70b-3dot3-ss-8-16-32k-batching |
Llama-4-Maverick-17B-128E-Instruct | llama-4-medium-8-16-32-64-128k |
DeepSeek-R1-0528 | deepseek-r1-v31-fp8-16k |
DeepSeek-R1-Distill-Llama-70B | 70b-ss-8-16-32k |
DeepSeek-V3-0324 | deepseek-r1-v3-fp8-16k |
DeepSeek-V3.1 | deepseek-r1-v31-fp8-16k |
Whisper-Large-v3 | qwen3-32b-whisper-e5-mistral |
Qwen3-32B | qwen3-32b-whisper-e5-mistral |
E5-Mistral-7B-Instruct | qwen3-32b-whisper-e5-mistral |
