音声生成 / TTS GitHub erm
このツールは、英語音声の録音から「um」「uh」といった言い淀みを自動で除去するローカルCLIツールです。`faster-wh…
★ 108 ⑂ 2 MIT 2026-06-14
画像生成 GitHub ComfyUI-PuLID-Flux2
このツールは、ComfyUIユーザー向けにFLUX.2モデルでの顔の一貫性を実現するPuLIDの初めての実装です。特に、生成さ…
★ 108 ⑂ 9 MIT 2026-05-21
AIエージェント GitHub crucible
Crucibleは、AIネイティブのマルチエージェント研究エンジンで、並行証拠収集、7方向からの議論、リスク評価を通じて…
★ 107 ⑂ 12 NOASSERTION 2026-06-23
ASR / 音声認識 GitHub claude-telegram-supercharged
このツールは、Anthropicの公式Claude Telegramプラグインを大幅に強化するドロップインアップグレードです。音声メ…
★ 106 ⑂ 14 Apache-2.0 2026-04-28
LLM GitHub WorkMesh
WorkMesh(Future Work Platform)は、AI時代における未来の雇用と人材協力を探るオープンソースプロトタイプです。…
★ 105 ⑂ 6 MIT 2026-06-02
マルチモーダル HF music-flamingo-2601-hf
Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…
❤ 105 ↓ 188.9k other 2026-04-09
AIエージェント GitHub resale-agent-skill-hub
SkillHubは、AIを活用したマルチプラットフォームC2C再販ツールキットです。AnthropicのClaude CodeスキルとMCPサー…
★ 104 ⑂ 8 MIT 2026-05-16
動画生成 GitHub avatar-mix
このツールは、HeyGenアバターとカスタムアニメーション背景(HyperFrames)、音楽、状況に応じた効果音、Hormoziス…
★ 104 ⑂ 14 MIT 2026-06-16
音声生成 / TTS GitHub sea-g2p
SEA-G2Pは、東南アジア言語向けの高速多言語テキスト・ツー・フォネーム変換ツールです。特にベトナム語に特化してお…
★ 104 ⑂ 21 Apache-2.0 2026-06-26
音声生成 / TTS GitHub agentcall
このツールは、AIエージェントがGoogle Meet、Zoom、Microsoft Teamsなどのビデオ会議に音声、ビデオ、画面共有を通…
★ 103 ⑂ 10 MIT 2026-07-01
マルチモーダル GitHub cc-VisionRouter
cc-VisionRouterは、Claude Code環境で画像非対応のLLMを利用する際に、画像を含むリクエストを自動的にマルチモーダ…
★ 102 MIT 2026-06-07
AIエージェント GitHub cybersentry
CyberSentryは、NVIDIA NIMとLlama 3.1 70Bを搭載した自律型AIセキュリティ監査エージェントです。倫理的なウェブサ…
★ 102 ⑂ 16 MIT 2026-05-03
ComfyUI GitHub XB_ToolBox
XB_ToolBoxは、ComfyUIのAI初心者が効率的にワークフローを構築し、ローカルでAIモデルを実行できるように設計された…
★ 102 ⑂ 5 Apache-2.0 2026-06-26
音声生成 / TTS GitHub Qwen3-TTS-EasyFinetuning
「Qwen3-TTS Easy Finetuning」は、Qwen3-TTSモデルのファインチューニングを簡素化し、高速かつ高品質な音声クロー…
★ 102 ⑂ 19 Apache-2.0 2026-05-29
画像生成 GitHub HiFi-Inpaint
HiFi-Inpaintは、CVPR 2026で発表された、人間と商品を組み合わせた高品質な画像を生成するための参照ベースのインペ…
★ 101 ⑂ 5 Apache-2.0 2026-06-07
LLM GitHub kyros-ai
Kyrosは、AIエージェントに永続的で自己修正能力を持つ記憶を提供するオープンソースのメモリOSです。エピソード、意…
★ 100 ⑂ 2 Apache-2.0 2026-06-30
ASR / 音声認識 GitHub AirControl
AirControlは、Windows 10/11向けに設計された革新的な空中コントローラーです。MediaPipeを用いたジェスチャー認識…
★ 100 ⑂ 2 Apache-2.0 2026-06-15
ASR / 音声認識 GitHub subarr
subarrは、BazarrやSubgenなどの*arrサブタイトルスタックを連携・管理する品質レイヤーです。メディアライブラリ全…
★ 100 MIT 2026-06-25
音声生成 / TTS GitHub feros
Feros Voice Agent OSは、オープンソースでエンタープライズ級の音声AIエージェント開発・運用インフラを提供するプ…
★ 99 ⑂ 17 Apache-2.0 2026-05-25
マルチモーダル HF music-flamingo-hf
Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…
❤ 99 ↓ 16.8k other 2026-04-04
ASR / 音声認識 GitHub claude-code-auto-video-edit
「claude-code-auto-video-edit」は、Claude Codeのコマンドとして機能し、口播やチュートリアル動画のAロール粗編集…
★ 98 ⑂ 11 MIT 2026-04-06
3D / NeRF GitHub superfit
SuperFitは、CVPR 2026で発表された、3D形状にSuperFrusta、直方体、超二次曲面といったコンパクトなプリミティブア…
★ 97 ⑂ 6 NOASSERTION 2026-05-23
AIエージェント GitHub anansi
Anansiは、敵対的で不安定なウェブ環境に対応するために設計された自己修復型ウェブスクレイパーです。サイトのレイ…
★ 97 ⑂ 17 Apache-2.0 2026-06-21
画像生成 GitHub FlowInOne
FlowInOneは、画像を入力として画像を出力する、ビジョン中心のマルチモーダル画像生成モデルです。Image-in, Image-…
★ 96 ⑂ 5 MIT 2026-06-18