概要
Diaは、Nari Labsが開発した1.6Bパラメータのテキスト読み上げ(TTS)モデルです。
このツールは、スクリプトから直接、非常にリアルな対話を生成できることを特徴とし、オーディオ入力に基づいて感情やトーンを制御することも可能です。
また、笑いや咳などの非言語的コミュニケーションも生成できます。
現在は英語のみに対応しており、Hugging Face Transformersを通じて利用できます。
リアルな対話型TTSモデルの研究開発を進めたい研究者や開発者が想定ユーザーで、高品質な音声合成による対話システム構築を目指す方に最適です。
互換性・特徴
- TTSモデル
- Hugging Face Transformers対応
- Python
- 英語のみ
- Web UI
基本情報
| ライセンス | Apache-2.0 |
| Stars | 19,299 |
| Forks | 1,683 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | mid |
最新のissue
- MLXサポートの追加 (更新: 2026-04-11 / MLX Support)
- [機能要望] 発話速度の制御と非言語要素へのポーズ追加 (更新: 2026-03-19 / [Feature request] Permit control of speech rate and add (pause) to nonverbals)
- Apple silicon対応の追加 (更新: 2026-02-05 / Adding support for this to run on Apple silicon.)
- Macでapp.py実行・生成時にエラーが発生 (更新: 2026-02-05 / When running app.py and generating on Mac, an error occurs)
GitHub: https://github.com/nari-labs/dia
