概要
Audio-Oscarは、複雑な音声シーン記述から長尺で制御可能な音声を生成するためのマルチエージェントフレームワークです。
テキスト入力に基づき、複数のエージェントが連携してスピーチ、効果音、音楽、歌を組み合わせた音声シーンを生成し、意図したコンテンツとの整合性を高めます。
音声コンテンツ制作者や研究者が、詳細なコントロールのもとで高品質なオーディオコンテンツを生成するのに役立ちます。
また、音声シーン生成ベンチマーク「ASG-Bench」も提供しています。
互換性・特徴
- Python
- CLI
- GPU必須
- FFmpeg
- マルチエージェント
- LLM連携
基本情報
| ライセンス | Apache-2.0 |
| Stars | 32 |
| Forks | 3 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
最新のissue
- Hugging Face上でのASG-Bench公開について (更新: 2026-06-09 / Release ASG-Bench on Hugging Face)
