3,513 repos GH 3,398 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

-deepseek-skills

★ 1 更新: 2026-06-04 GitHubで見る →

概要

このツールは、Claude CodeやDeepSeekのようなテキストベースのAIモデルに、画像認識(OCR機能を含む)と音声認識(音声からテキストへの変換、会議録音)の機能を追加するものです。

Ollamaのビジョンモデルとfaster-whisperの音声認識モデルをローカルで利用するため、クラウドサービスは一切不要で、完全にオフラインで動作します。

プライバシーを重視し、ローカル環境でマルチモーダルなAI機能を実現したい開発者や研究者に最適です。

画像解析、OCR、音声の文字起こし、会議の要約など、幅広い用途に対応します。

互換性・特徴

  • Python
  • CLI
  • GPU必須
  • ローカル実行
  • 日本語対応
  • AI Skills 套装

基本情報

Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/jk241282/-deepseek-skills