概要
このリポジトリは、Jonatas Grosman氏が開発したロシア語音声認識用のWav2Vec2-large-xlsr-53モデルを提供します。
Hugging Faceの事前学習済みモデルをCommon Voice 6.1およびCSS10のロシア語データでファインチューニングしており、16kHzでサンプリングされた音声入力に対応しています。
HuggingSoundまたはHugging Face Transformersライブラリを使ってPythonで簡単に利用でき、ロシア語の音声データを高精度でテキストに変換することが可能です。
ロシア語の音声認識機能をアプリケーションに組み込みたい開発者や研究者に適しています。
互換性・特徴
- ロシア語対応
- Python
- CLI
- Hugging Face Transformers
- HuggingSound
- GPU推奨
基本情報
| ライセンス | apache-2.0 |
| Likes | 74 |
| Downloads | 4,451,562 |
| Pipeline | automatic-speech-recognition |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
HuggingFace: https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-russian