1,644 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

CWX-Transcribe

★ 2 Apache-2.0 更新: 2026-05-06 GitHubで見る →

概要

CWX-Transcribeは、OpenAIの`gpt-4o-transcribe-diarize`モデルを基盤とした、長時間の2話者インタビュー向け高精度文字起こしパイプラインです。

既存モデルの課題を解決し、25MB/1400秒の長さ制限を克服し、チャンクを跨いだ話者の一貫した識別を可能にします。

また、話者分離の誤認識を大幅に減らし、ドメイン固有の専門用語の誤転写を防ぐGPT補正機能と、補正時の「幻覚的な返答」を回避する防御メカニズムを備えています。

このツールは、2話者のインタビューや会話を高精度で文字起こしし、話者分離の正確性や専門用語の認識を重視する研究者、ジャーナリスト、ポッドキャスト制作者、企業ユーザーなどに最適です。

ベンチマークでは、従来のOpenAI APIと比較して顕著な性能向上を示しています。

互換性・特徴

  • CLI
  • Python
  • AI/ML
  • オーディオ処理
  • 文字起こし
  • OpenAI/GPT

基本情報

ライセンスApache-2.0
Stars2
カテゴリASR / 音声認識
アクティビティlow

GitHub: https://github.com/Vincent-WenZX/CWX-Transcribe