3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#Python (2218 repos)

「Python」タグが付いたリポジトリ

← 全リポジトリ

音声生成 / TTS

GitHub

PocketClaude

Pocket Claudeは、AnthropicのClaudeを自己ホストできるチャットフロントエンドです。ユーザー自身のPro/Maxサブスク…

#Android #Python #Web UI

★ 3 ⑂ 1 MIT 2026-06-22

LLM

GitHub

provenance-energy-rag-chatbot

本ツールは、太陽光発電やエネルギー機器のマニュアルに対応した、信頼性の高いドキュメント指向型RAGチャットボット…

#Docker #FastAPI #Python

★ 3 MIT 2026-06-08

音声生成 / TTS

GitHub

supertonic3-book-reader

「EPUB TTS Reader API」は、EPUBファイルをテキストに変換し、Supertonic-3モデルを使用してテキスト読み上げ（TTS…

#CLI #Docker #FastAPI

★ 3 MIT 2026-05-15

マルチモーダル

GitHub

AI-Book-Discovery-App

Perspicuaは、図書館や書店での「選択のパラドックス」を解決するために設計された、高性能なAI駆動型セマンティック…

#CLI #Docker #GPU必須

★ 3 GPL-3.0 2026-05-10

LLM

GitHub

Lestro-Dataset-Generator

Lestro Dataset Generatorは、GoogleのGemini APIを利用し、DevOpsやシステムエンジニアリング分野のLLMファインチュ…

#CLI #Gemini API #LLM

★ 3 2026-05-25

ASR / 音声認識

GitHub

scenelens

Scenelensは、Claudeにスマートな動画入力機能を提供するツールです。動画からシーン変化に基づいて最適なフレームを…

#Claude Code対応 #CLI #OCR

★ 3 MIT 2026-05-04

音声生成 / TTS

GitHub

SpeechifyPDF

SpeechifyPDFは、PDFドキュメントを自然で高品質な音声に変換し、読み上げてくれるアプリケーションです。通勤中やマ…

#CPU対応 #macOS #Python

★ 3 MIT 2026-06-05

マルチモーダル

GitHub

blink-skill

Blink Skillは、PC上でのユーザーのアクティビティ（会議、ドキュメント作業、動画視聴、コーディングなど）をAIが能…

#Claude Vision #Node.js #Python

★ 3 MIT 2026-05-02

ComfyUI

GitHub

comfyui-mcp-panel

「ComfyUI MCP Panel」は、ComfyUIのサイドバーにClaude Codeセッションを統合し、AIエージェントがComfyUIのグラフ…

#AIエージェント #Claude対応 #ComfyUI対応

★ 3 ⑂ 2 MIT 2026-06-27

音声生成 / TTS

GitHub

seshat-tts

Seshat TTSは、Windows向けのGUIユーティリティで、ゲームやアプリケーション向けにリアルタイムの音声ストリーミン…

#GUI #OCR #Python

★ 3 ⑂ 1 NOASSERTION 2026-06-19

マルチモーダル

GitHub

SmolVLM2-Edge-Vision-Agent

SmolVLM2-2.2Bを搭載したエッジ展開可能なビジョンエージェントで、CPUのみのハードウェア（16GB RAM）で動作します…

#CLI #CPU動作 #Python

★ 3 2026-04-27

動画生成

GitHub

video-distillation

video-distillationは、動画、キーフレーム、スクリーンショット、ナレーションスクリプト、プロット概要などを、動…

#AI/機械学習 #CLI #Doubao対応

★ 3 ⑂ 1 MIT 2026-06-24

動画生成

GitHub

volcengine-hermes-plugin

このプラグインは、Hermes Agentに火山引擎（Volcengine）のDoubao LLM（大規模言語モデル）、Doubao Seedream（画像…

#API連携 #Hermes Agent対応 #LLM

★ 3 2026-05-25

LLM

GitHub

openmodels

OpenModels Registryは、大規模言語モデル（LLM）とその推論プロバイダー、および両者のマッピングに関する情報を集…

#CLI #LLM #Python

★ 3 ⑂ 1 2026-06-19

画像生成

GitHub

gpt-image-cookbook

gpt-image-cookbookは、OpenAI gpt-image-2、Google Imagen、Fluxといった複数のAI画像生成プロバイダーを統合したオ…

#Agent Skill #CLI #Google Imagen対応

★ 3 MIT 2026-05-08

音声生成 / TTS

GitHub

crashout-buddy

Crashout Buddyは、Vision AgentsとStream Video上に構築された、リアルタイムで感情認識を行う音声AIエージェントの…

#CLI #Gemini対応 #Python

★ 3 MIT 2026-05-15

マルチモーダル

GitHub

opencode-vision

opencode-visionは、マルチモーダルに対応していないOpenCodeモデルに画像認識機能を追加するツールです。ユーザーが…

#CLI #MiniMax VLM #Node.js

★ 3 MIT 2026-06-24

LLM

GitHub

llm-observability-platform

この「LLM Observability Platform: Core Python Infrastructure」は、LLMアプリケーション向けに設計された高性能な…

#CLI #Docker #LLM

★ 3 ⑂ 1 Apache-2.0 2026-06-23

画像生成

GitHub

cover-xiaohongshu

「cover-xiaohongshu」は、小紅書（Xiaohongshu）のカバー画像を生成およびレイアウトを分析するためのCodex/Claude …

#CLI #Python #Skill

★ 3 MIT 2026-05-28

動画生成

GitHub

imagine-mcp

「imagine-mcp」は、Google Gemini、OpenAI、Grokといった主要なAIモデルを横断し、画像や動画の理解および生成を可…

#Docker #Gemini対応 #Grok対応

★ 3 MIT 2026-06-24

音声生成 / TTS

GitHub

ComfyUI_RH_VoxCPM

ComfyUI_RH_VoxCPMは、ComfyUIのノードベースワークフロー内でVoxCPMの機能を統合するプラグインです。これにより、…

#3D/Voxel処理 #ComfyUI対応 #GPU必須

★ 3 Apache-2.0 2026-06-28

ASR / 音声認識

GitHub

hexy

HexySARは、洞窟での捜索救助活動のために開発されたAI搭載の六足歩行ロボットシステムです。危険な洞窟環境にロボッ…

#AI搭載 #GPU必須 #Python

★ 3 ⑂ 1 2026-05-10

ASR / 音声認識

GitHub

astrbot_plugin_volcengine_asr

本ツールは、AstrBot向けの火山引擎豆包语音ASRプラグインです。QQおよびNapCatからの音声メッセージをテキストに変…

#ASR #AstrBot #Linux対応

★ 3 2026-05-13

マルチモーダル

GitHub

tri-ai

Tri-AIは、Claude、Codex、Kimiなどの複数のAIモデルを連携させるためのポータブルなディスパッチプロトコルです。Cl…

#API連携 #CLI #macOS対応

★ 3 2026-04-14