1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

The-Earful-Tower

★ 1 MIT 更新: 2026-05-19 GitHubで見る →

概要

「The Earful Tower」は、ローカル環境で動作する高性能な音声文字起こし・話者分離ツールです。

Whisper large-v3モデルを用いてカナダフランス語および英語の音声を高精度にテキスト化し、pyannote.audioにより話者を自動的に識別・分離します。

GPU加速に対応しており、高速な処理を実現します。

出力形式はテキスト、Markdown、SRTに加え、字幕埋め込みの動画にも対応。

データは全てローカルで処理されるため、プライバシーを重視するWindows 10/11ユーザーや、研究者、大量の音声コンテンツを扱う個人に最適です。

初回セットアップは時間を要しますが、一度モデルをダウンロードすれば以降は完全にオフラインで利用可能です。

互換性・特徴

  • GPU必須
  • Windowsのみ
  • ローカル実行
  • 音声文字起こし
  • 話者分離
  • Python

基本情報

ライセンスMIT
Stars1
カテゴリASR / 音声認識
アクティビティlow

最新リリース: v1.0.1 — Startup crash fix + Task Manager identity (2026-04-28)

GitHub: https://github.com/MedEvent-DevGroup/The-Earful-Tower