概要
Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。
音声とテキストを同時に入力でき、音声理解、対話型ボイスエージェント、音声翻訳、話し言葉の分析などに使えます。
Transformersのpipeline経由でPythonから利用でき、既存LLMに“聞く力”を追加したい開発者や、軽量寄りの音声AIを試したい研究・実装ユーザー向けのモデルです。
互換性・特徴
- Transformers
- Python
- 音声入力対応
- マルチモーダル
- MITライセンス
基本情報
| ライセンス | mit |
| Likes | 77 |
| Downloads | 848,261 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/fixie-ai/ultravox-v0_5-llama-3_2-1b