SenseVoice

概要

SenseVoiceは、自動音声認識（ASR）、話者言語識別、音声感情認識、音声イベント検出、そして最新のアップデートでは話者分離までをカバーする多機能な音声基盤モデルです。

50以上の言語に対応し、40万時間以上のデータで訓練されており、Whisperモデルを凌駕する高精度を誇ります。

非自己回帰型のエンドツーエンドフレームワークにより、Whisper-Largeの15倍高速な推論速度を実現し、わずか70msで10秒の音声を処理可能です。

BGM、拍手、笑い、泣き、咳、くしゃみなどの音声イベント検出や優れた感情認識能力も持ち合わせています。

開発者向けにファインチューニングスクリプトやサービス展開パイプラインも提供されており、Python、C++、HTML、Java、C#といった多様なクライアント言語に対応。

多言語の音声を高速かつ高精度に分析したい研究者や開発者に最適なツールです。