概要
CWX-Transcribeは、OpenAIの`gpt-4o-transcribe-diarize`モデルを基盤とした、長時間の2話者インタビュー向け高精度文字起こしパイプラインです。
既存モデルの課題を解決し、25MB/1400秒の長さ制限を克服し、チャンクを跨いだ話者の一貫した識別を可能にします。
また、話者分離の誤認識を大幅に減らし、ドメイン固有の専門用語の誤転写を防ぐGPT補正機能と、補正時の「幻覚的な返答」を回避する防御メカニズムを備えています。
このツールは、2話者のインタビューや会話を高精度で文字起こしし、話者分離の正確性や専門用語の認識を重視する研究者、ジャーナリスト、ポッドキャスト制作者、企業ユーザーなどに最適です。
ベンチマークでは、従来のOpenAI APIと比較して顕著な性能向上を示しています。
互換性・特徴
- CLI
- Python
- AI/ML
- オーディオ処理
- 文字起こし
- OpenAI/GPT
基本情報
| ライセンス | Apache-2.0 |
| Stars | 2 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
