概要
Whisper large-v3は、OpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルです。
500万時間以上の学習データで訓練されており、ゼロショット学習で多様なデータセットやドメインに対応できる強力な汎化能力を持ちます。
Whisper large-v2と比較してエラー率が10〜20%削減され、多言語対応の性能が大幅に向上しています。
Hugging Face Transformersライブラリを通じて容易に利用でき、Python環境でGPU(CUDA)を活用することで高性能な音声処理が可能です。
主に、高精度な音声認識や多言語翻訳機能をアプリケーションに統合したい開発者や研究者を対象としています。
互換性・特徴
- Hugging Face Transformers対応
- Python
- GPU必須
- 多言語対応
- CLI
基本情報
| ライセンス | apache-2.0 |
| Likes | 5,656 |
| Downloads | 5,062,450 |
| Pipeline | automatic-speech-recognition |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/openai/whisper-large-v3