概要
本ツールは、MediaTekのBreeze-ASR-26モデルを基盤とした台湾語(台語)に特化した音声文字起こしツールです。
NVIDIA RTX 3050 Laptop 4GB VRAMのような低VRAM環境でも動作するよう最適化されており、int8_float16量化によりVRAM使用量を約2.9GBに抑えています。
VRAM検出に基づいてFaster-WhisperまたはHuggingFace Pipelineを自動選択し、句レベルおよび逐語レベルのタイムスタンプをサポート。
SRT、VTT、TXT、JSON形式で出力可能です。
GradioによるWeb UI、CLI、Docker、WSL2にも対応しており、幅広いオーディオ・ビデオフォーマット(m4a, mp3, wav, mp4など)を処理できます。
台湾語の音声データを効率的かつ低リソースで文字起こししたいユーザー、特に低スペックGPU環境のユーザーに最適です。
互換性・特徴
- GPU必須
- 台湾語対応
- CLI
- Web UI
- Docker
- Python
基本情報
| ライセンス | NOASSERTION |
| Stars | 11 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |