The-Earful-Tower

概要

「The Earful Tower」は、ローカル環境で動作する高性能な音声文字起こし・話者分離ツールです。

Whisper large-v3モデルを用いてカナダフランス語および英語の音声を高精度にテキスト化し、pyannote.audioにより話者を自動的に識別・分離します。

GPU加速に対応しており、高速な処理を実現します。

出力形式はテキスト、Markdown、SRTに加え、字幕埋め込みの動画にも対応。

データは全てローカルで処理されるため、プライバシーを重視するWindows 10/11ユーザーや、研究者、大量の音声コンテンツを扱う個人に最適です。

初回セットアップは時間を要しますが、一度モデルをダウンロードすれば以降は完全にオフラインで利用可能です。

最新リリース: v1.0.1 — Startup crash fix + Task Manager identity (2026-04-28)

GitHub: https://github.com/MedEvent-DevGroup/The-Earful-Tower