whisper-large-v3

概要

Whisper large-v3は、OpenAIが開発した最先端の自動音声認識（ASR）および音声翻訳モデルです。

500万時間以上の学習データで訓練されており、ゼロショット学習で多様なデータセットやドメインに対応できる強力な汎化能力を持ちます。

Whisper large-v2と比較してエラー率が10〜20%削減され、多言語対応の性能が大幅に向上しています。

Hugging Face Transformersライブラリを通じて容易に利用でき、Python環境でGPU（CUDA）を活用することで高性能な音声処理が可能です。

主に、高精度な音声認識や多言語翻訳機能をアプリケーションに統合したい開発者や研究者を対象としています。

ライセンス	apache-2.0
Likes	5,842
Downloads	5,977,766
Pipeline	automatic-speech-recognition
カテゴリ	ASR / 音声認識
アクティビティ	mid

HuggingFace: https://huggingface.co/openai/whisper-large-v3