speechbrain

概要

SpeechBrainは、PyTorchを基盤としたオープンソースのツールキットで、会話型AI（音声アシスタント、チャットボット、大規模言語モデルなど）の開発を加速します。

音声認識、話者認識、音声強調、言語モデリングといったスピーチ処理やテキスト処理の高度な技術を迅速かつ簡単に構築できるのが特徴です。

200以上のトレーニングレシピや、Whisper、Wav2Vec2などの事前学習済みモデルのファインチューニングをサポートし、HuggingFace上で100以上の事前学習済みモデルを提供しています。

主にConversational AIの開発者や研究者、特にPyTorchを利用して幅広い音声・テキスト処理タスクに取り組むユーザーを想定しています。