概要
Whisper large-v3-turboは、OpenAIが提案する最先端の自動音声認識(ASR)および音声翻訳モデルであるWhisper large-v3を高速化したバージョンです。
大規模なデータで学習されており、多数のデータセットやドメインにおいてゼロショットで優れた汎化能力を発揮します。
デコーディング層を削減することで、わずかな品質低下と引き換えに大幅な高速化を実現しています。
Hugging Face Transformersライブラリを通じて提供され、Pythonを用いてオーディオファイルの文字起こしや翻訳、タイムスタンプ予測などを容易に行うことができます。
日本語を含む多言語に対応しており、高速で高精度な音声処理を求める開発者や研究者に適しています。
互換性・特徴
- GPU推奨
- 日本語対応
- Python
- Hugging Face Transformers
- ASR
- 音声翻訳
基本情報
| ライセンス | mit |
| Likes | 2,997 |
| Downloads | 7,637,418 |
| Pipeline | automatic-speech-recognition |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/openai/whisper-large-v3-turbo