1,127 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

shizi

★ 1 AGPL-3.0 更新: 2026-05-17 GitHubで見る →

概要

「拾字 · Voicetype Studio」は、動画をテキストに変換し、ローカルでダウンロード・処理を行うmacOS向けのツールです。

yt-dlpとmlx-whisper(Apple Silicon向け)を基盤とし、動画のURLから文字起こし(txt/srt/vtt/json形式)や動画ダウンロードが可能です。

YouTube、Bilibiliなど1,800以上のプラットフォームに対応し、一括処理、リアルタイム字幕スクロール、全文検索機能を備えています。

また、OpenAI互換サービスなどのAIキーを接続することで、文字起こし結果の要約、学習ノート作成、Q&Aカード化といったAI整理機能も利用できます。

主にmacOSユーザー、特にApple Silicon搭載者で、動画コンテンツの文字起こしやダウンロード、その後のAIによる情報整理をローカル環境で行いたいユーザーを想定しています。

互換性・特徴

  • macOS
  • Python
  • Web UI
  • ローカル実行
  • GPU対応
  • CLI

基本情報

ライセンスAGPL-3.0
Stars1
カテゴリASR / 音声認識
アクティビティlow

最新リリース: v0.1.0 · 拾字 Voicetype Studio 首次发布 (2026-05-17)

GitHub: https://github.com/gejiangren/shizi