NeMo | AIAI Hub

概要

NVIDIA NeMo Speechは、大規模言語モデル、マルチモーダル、音声AI（自動音声認識、Text-to-Speech）向けにNVIDIAが開発した、スケーラブルな生成AIフレームワークです。

研究者や開発者を対象とし、高品質なオフラインおよびストリーミング推論、低遅延会話、そして日本語を含む多言語対応の音声認識・合成モデルを提供します。

特に、ParakeetやMagpieTTSといった多様なモデルファミリーを有し、音声分野における最先端のAIアプリケーション開発を支援します。

最新リリース: NVIDIA Neural Modules 2.7.3 (2026-04-23)

GitHub: https://github.com/NVIDIA-NeMo/NeMo