概要
Resilient STTは、OpenAI互換のASR(自動音声認識)エンドポイントと連携し、音声ファイルを高精度にテキスト変換するパイプラインツールです。
音声の前処理、無音区間のスキップ、賢い音声チャンク分割、Pyannoteによる話者分離、そしてLLMを活用した文字起こし修正など、豊富な機能を統合しています。
タイムスタンプと話者ラベル付きの詳細な文字起こしをJSON、SRT、VTT形式で出力可能。
ASRモデルが対応するあらゆる言語に対応し、特に柔軟なASRソリューションや高度な音声処理機能を求める開発者や研究者に適しています。
CLIとPython APIを通じて利用でき、非常に軽量です。
互換性・特徴
- Python
- CLI
- OpenAI互換ASR
- 話者分離
- LLM連携
- 多言語対応
基本情報
| ライセンス | GPL-3.0 |
| Stars | 1 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
最新のissue
- noisy audio 入力時における output の品質および精度を向上させる (更新: 2026-05-25 / improve output for noisy audio)
- PythonライブラリをPyPIに公開し、利用者が簡単にインストールできるようにする (更新: 2026-05-24 / publish to pypi)
- デプロイ作業の効率化と標準化を目的としたDocker containerの追加 (更新: 2026-05-24 / add docker container for deployment)
- OpenAI Whisper APIへの対応:音声認識による文字起こし機能の実装 (更新: 2026-05-24 / support openai whisper api)
最新リリース: resilient-stt: v0.4.3 (2026-05-25)
