概要
Parleyは、音声指示型Vision-Language-Action(VLA)パイプライン向けのベンチマークツールキットです。
このツールは、ノイズ、コーデック、アクセント、言い淀みといった現実的な音声および言語の摂動が、音声フロントエンドからVLAポリシーにどのように影響し、ロボットタスクの成功率を低下させるかを測定します。
音声認識(ASR)、VLAポリシー、環境、タスク成功までのエンドツーエンドの評価を可能にし、タスク成功の劣化を音声側の摂動に帰属させることができます。
GPUやモデルダウンロードなしでCIで実行可能な自己完結型環境と参照ポリシーを提供し、Whisper等の実際のフロントエンドやOpenVLA等のポリシーにも対応。
音声認識技術者、ロボット研究者、VLAシステム開発者が、音声摂動に対するシステムのロバスト性を評価するのに不可欠なツールです。
互換性・特徴
- Python
- CLI
- ベンチマークツール
- ロボティクス
- 音声認識
- Vision-Language-Action (VLA)
基本情報
| ライセンス | MIT |
| Stars | 2 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
