SoulX-Transcriber

概要

SoulX-Transcriberは、複数の話者が登場する対話シナリオにおいて、話者特定（ダイアライゼーション）、タイムスタンプ付きのセグメンテーション、そして文字起こしを単一のフレームワークで実現するエンドツーエンドのラージオーディオ言語モデルです。

従来の段階的なパイプラインとは異なり、オーバーラップする会話や早口な対話でも、話者と一貫性のある正確なトランスクリプトを直接生成できる点が特徴です。

最先端のパフォーマンスを発揮し、話者認識のためのマルチステージトレーニングや、自然な対話生成のためのオーディオマッチングパイプラインを備えています。

会議の議事録作成、ポッドキャスト分析、顧客対応の自動化など、複雑なマルチスピーカー音声からの高精度な情報抽出を求める研究者や開発者、企業などが想定ユーザーです。

GitHub: https://github.com/Soul-AILab/SoulX-Transcriber