1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Viz2Speech

★ 2 ⑂ 1 MIT 更新: 2026-05-16 GitHubで見る →

概要

Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エンジンです。

Qwen3-VLと強化学習で最適化されたVLMが画像を詳細なインドネシア語のテキストに変換し、Chatterbox-TTS-Indonesianがそれを自然な音声に合成します。

Gradioによるウェブインターフェースを通じて利用でき、ユーザーは画像をアップロードするだけで、その内容を音声で聞くことができます。

情報格差の解消を目的としています。

互換性・特徴

  • Web UI
  • AI/ML
  • インドネシア語対応
  • Python

基本情報

ライセンスMIT
Stars2
Forks1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/abidalfrz/Viz2Speech