概要
Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。
音声とテキストを同時に受け取り、音声理解、対話型音声エージェント、音声翻訳、話者の発話内容分析などに使えます。
Transformersのpipelineから利用でき、既存のPython環境に組み込みやすい点が特徴です。
音声AIや音声対話アプリを開発したい研究者・開発者向けのモデルです。
互換性・特徴
- Transformers対応
- Python
- 音声入力
- マルチモーダル
- GPU推奨
- 音声対話
基本情報
| ライセンス | mit |
| Likes | 37 |
| Downloads | 23,057 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/fixie-ai/ultravox-v0_5-llama-3_1-8b