メインコンテンツへスキップ
PipeCat は、AI サービスの高度なオーケストレーション、ネットワーク伝送、音声処理、マルチモーダル対話を管理するためのオープンソースの Python フレームワークです。 ここでは、SambaNova の LLM および Speech-to-Text (STT) 連携の使い方を説明し、リアルタイム音声アプリケーションを構築するためのサンプルユースケースを紹介します。

前提条件

  • SambaCloud アカウントとAPIキー
  • Python 3.11 または 3.12 がインストールされたローカル環境
  • PipeCat対応のSTTプロバイダーキー (例: Cartesia)
  • 作業ディレクトリに、すべての API キーを記載した .env ファイルが存在すること

依存関係のインストール

pip install python-dotenv fastapi uvicorn
pip install pipecat-ai-small-webrtc-prebuilt
pip install pipecat-ai[sambanova, webrtc, silero, daily]

利用方法

以下のように、Pipecat のパイプライン内で SambaNova の STT および LLM サービスを利用できます。
from pipecat.services.sambanova.llm import SambaNovaLLMService
from pipecat.services.sambanova.stt import SambaNovaSTTService
from pipecat.transcriptions.language import Language
from pipecat.pipeline.pipeline import Pipeline

# Instantiate SambaNova services
sambanova_llm = SambaNovaLLMService(
    api_key='your-sambanova-api-key',
    model='Llama-4-Maverick-17B-128E-Instruct',
    params=SambaNovaLLMService.InputParams(
        temperature=0.7,
        max_tokens=1024
    )
)

sambanova_stt = SambaNovaSTTService(
    model="Whisper-Large-v3",
    api_key="your-sambanova-api-key",
    language=Language.EN,
    prompt="Transcribe the following conversation",
    temperature=0.0
)

# Add the SambaNova models to your pipeline
pipeline = Pipeline([
    transport.input(),
    sambanova_stt,
    ...
    sambanova_llm,
    tts,
    transport.output(),
    ...
])
リアルタイム音声対話エージェント (例: 天気案内エージェント) の構築・デプロイ方法については、こちらの実装例 をご覧ください。

参考情報