252 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

whisper-large-v3

★ 5.7k apache-2.0 更新: 2024-08-12 GitHubで見る →

概要

Whisper large-v3は、OpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルです。

500万時間以上の学習データで訓練されており、ゼロショット学習で多様なデータセットやドメインに対応できる強力な汎化能力を持ちます。

Whisper large-v2と比較してエラー率が10〜20%削減され、多言語対応の性能が大幅に向上しています。

Hugging Face Transformersライブラリを通じて容易に利用でき、Python環境でGPU(CUDA)を活用することで高性能な音声処理が可能です。

主に、高精度な音声認識や多言語翻訳機能をアプリケーションに統合したい開発者や研究者を対象としています。

互換性・特徴

  • Hugging Face Transformers対応
  • Python
  • GPU必須
  • 多言語対応
  • CLI

基本情報

ライセンスapache-2.0
Likes5,656
Downloads5,062,450
Pipelineautomatic-speech-recognition
カテゴリASR / 音声認識
アクティビティmid

HuggingFace: https://huggingface.co/openai/whisper-large-v3