概要
このリポジトリは、中国語の古詩詞吟誦に特化したCosyVoice 1/2/3 LoRA微調整実験フレームワークです。
CosyVoiceの三世代アーキテクチャ(CosyVoice 1, 2, 3)における微調整の有効性、エラーパターン、評価方法の違いを体系的に比較します。
長時間の引き伸ばし、スライド、ゆっくりとした立ち上がりなどの複雑な吟誦スタイルを正確に合成するため、Hugging Faceの公式CosyVoiceモデルを基盤にLoRA微調整を行います。
論文に記載された各世代のアーキテクチャ差異を、実行可能なトレーニング、推論、診断コードとして実装しており、特にCosyVoice 3のDiT-CFMが吟誦スタイルLoRAに優れているかを検証します。
また、CosyVoice 2のトークン配置がプロンプトリーケージに与える影響も分析。
音声合成、特に中国語の古詩詞吟誦のような複雑なスタイル伝達に興味のある研究者や開発者が、CosyVoiceモデルの微調整技術と各世代の特性を深く理解し、実践的な実験を行うことを想定しています。
互換性・特徴
- Hugging Face対応
- Python
- CLI
- 中国語対応
- LoRA対応
基本情報
| Stars | 6 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
GitHub: https://github.com/leeoisaboy/lora-cosyvoice123-chanting
