概要
NVIDIA NeMo Speechは、大規模言語モデル、マルチモーダル、音声AI(自動音声認識、Text-to-Speech)向けにNVIDIAが開発した、スケーラブルな生成AIフレームワークです。
研究者や開発者を対象とし、高品質なオフラインおよびストリーミング推論、低遅延会話、そして日本語を含む多言語対応の音声認識・合成モデルを提供します。
特に、ParakeetやMagpieTTSといった多様なモデルファミリーを有し、音声分野における最先端のAIアプリケーション開発を支援します。
互換性・特徴
- Python
- GPU必須
- 日本語対応
- AI/MLフレームワーク
- HuggingFace対応
- 低遅延
基本情報
| ライセンス | Apache-2.0 |
| Stars | 17,299 |
| Forks | 3,423 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | high |
最新リリース: NVIDIA Neural Modules 2.7.3 (2026-04-23)
