3,607 repos GH 3,492 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

dia

★ 19.3k ⑂ 1,686 Apache-2.0 更新: 2025-11-19 GitHubで見る →

#Hugging Face Transformers対応 #Python #TTSモデル #Web UI #英語のみ

概要

Diaは、Nari Labsが開発した1.6Bパラメータのテキスト読み上げ（TTS）モデルです。

このツールは、スクリプトから直接、非常にリアルな対話を生成できることを特徴とし、オーディオ入力に基づいて感情やトーンを制御することも可能です。

また、笑いや咳などの非言語的コミュニケーションも生成できます。

現在は英語のみに対応しており、Hugging Face Transformersを通じて利用できます。

リアルな対話型TTSモデルの研究開発を進めたい研究者や開発者が想定ユーザーで、高品質な音声合成による対話システム構築を目指す方に最適です。

互換性・特徴

TTSモデル
Hugging Face Transformers対応
Python
英語のみ
Web UI

基本情報

ライセンス	Apache-2.0
Stars	19,341
Forks	1,686
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

機能：トレーニングデータのアノテーションにSenseVoice/FunASRを使用する (更新: 2026-05-31 / Feature: Use SenseVoice/FunASR for training data annotation)
MLXサポートの追加 (更新: 2026-04-11 / MLX Support)
[機能要望] 発話速度の制御と非言語要素へのポーズ追加 (更新: 2026-03-19 / [Feature request] Permit control of speech rate and add (pause) to nonverbals)
Apple silicon対応の追加 (更新: 2026-02-05 / Adding support for this to run on Apple silicon.)
When running app.py and generating on Mac, an error occurs (更新: 2026-02-05)

GitHub: https://github.com/nari-labs/dia

← 全リポジトリ一覧へ