3,118 repos GH 3,003 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

voice-agents-from-scratch

★ 29 ⑂ 3 MIT 更新: 2026-05-03 GitHubで見る →

概要

「Voice agents from scratch」は、Pythonでリアルタイム音声エージェントをゼロから構築するための実践的なチュートリアルです。

マイクからの音声入力(STT)、大規模言語モデル(LLM)による処理、そして音声合成(TTS)を経てスピーカー出力まで、エンドツーエンドの音声パイプラインの構築を学べます。

ローカルモデルを使用し、応答の生成が完了する前に再生を開始できるストリーミング機能が特徴です。

Python 3.11+と`uv`パッケージマネージャーを利用し、実行可能なスクリプトと共有ライブラリを通じて、音声エージェント開発に関心のある開発者が実践的に学べるよう設計されています。

互換性・特徴

  • Python
  • CLI
  • ローカルモデル
  • ストリーミング
  • 音声処理

基本情報

ライセンスMIT
Stars29
Forks3
カテゴリ音声生成 / TTS
アクティビティlow

GitHub: https://github.com/pguso/voice-agents-from-scratch