概要
IndiVoice-DeepASRは、OpenAIのWhisperモデルをLoRA(Low-Rank Adaptation)技術でファインチューニングすることにより、インド英語アクセントの音声認識精度を大幅に向上させる研究プロジェクトです。
既存のASRシステムがインド英語アクセントで抱える性能低下(20-30%)を解消し、ヒンディー語、タミル語など多様な地域アクセントに対応します。
総パラメータの2%未満で効率的な学習が可能で、フォールトトレラントなトレーニング機能も備えているため、研究者や開発者がクラウド環境(Colab/Kaggle)で高品質なインド英語ASRモデルを開発するのに最適です。
互換性・特徴
- Whisper (OpenAI)
- LoRA / PEFT
- PyTorch
- GPU必須
- Python
- クラウドベース
- Gradio
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
最新のissue
- Hugging Face Hubへの継続的な自動チェックポイント同期を実装 (更新: 2026-05-17 / Implement Continuous Automated Checkpoint Synchronization to Hugging Face Hub)
- Seq2SeqTrainerに動的WER/CER評価フックを統合 (更新: 2026-05-17 / Integrate Dynamic WER/CER Evaluation Hooks in Seq2SeqTrainer)
- KaggleランタイムでのTriton.opsインポート不足を解決 (更新: 2026-05-17 / Resolve Triton.ops Missing Imports on Kaggle Runtimes)
- 堅牢な多層AudioDecoderプリプロセッサフォールバックパイプラインを構築 (更新: 2026-05-17 / Build Resilient Multi-Layered AudioDecoder Preprocessor Fallback Pipeline)
- 事前データセットマニフェストおよびパス検証レイヤーを確立 (更新: 2026-05-17 / Establish Upfront Dataset Manifest and Path Verification Layer)
