LLM GitHub Thinking-with-Visual-Primitives-pytorch
このツールは、DeepSeekの「Thinking with Visual Primitives」を非公式にPyTorchで再現したものです。マルチモーダ…
★ 140 ⑂ 18 MIT 2026-06-25
ComfyUI GitHub ComfyUI-Molmo
ComfyUI-Molmoは、Molmoモデルを使用して画像の詳細な説明と内容分析を可能にするComfyUI用のカスタムノードです。画…
★ 139 ⑂ 8 Apache-2.0 2024-10-14
動画生成 HF Wan2.2-T2V-A14B-Diffusers
Wan2.2は、テキストや画像から高品質なビデオを生成する先進的な大規模ビデオ生成モデルです。MoEアーキテクチャを採…
❤ 139 ↓ 107.4k apache-2.0 2025-08-09
音声生成 / TTS GitHub controlfoley
ControlFoleyは、ビデオ、テキスト、参照オーディオを組み合わせることで、高精度かつ制御可能なビデオ-オーディオ生…
★ 138 ⑂ 3 Apache-2.0 2026-06-11
マルチモーダル GitHub GEMS
GEMSは、エージェントネイティブなマルチモーダル生成のための先進的なフレームワークです。記憶とスキルを活用し、K…
★ 137 ⑂ 10 2026-04-01
マルチモーダル GitHub Graph-CAD
Graph-CADは、自然言語の指示から実行可能なBlender用CADコードを自動生成するための、グラフ媒介型Text-to-CADフレ…
★ 134 ⑂ 12 2026-03-30
ComfyUI GitHub ComfyUI-Depth-Anything-Tensorrt
「ComfyUI Depth Anything TensorRT」は、人気のある画像生成UIであるComfyUI向けのカスタムノードで、Depth Anythin…
★ 133 ⑂ 14 NOASSERTION 2026-06-04
音声生成 / TTS GitHub VTS
VTS(Voice To Sound)は、ユーザーの音声スケッチとテキストプロンプトを組み合わせて効果音を生成するツールです。…
★ 131 ⑂ 4 MIT 2026-06-18
3D / NeRF GitHub nexels
「Nexels」は、疎なジオメトリを用いてリアルタイムで新しい視点画像を合成するニューラルテクスチャ付きサーフェル…
★ 129 ⑂ 6 NOASSERTION 2025-12-18
動画生成 GitHub EffectErase
「EffectErase」は、ビデオからのオブジェクト除去と挿入を同時に、かつ高品質に行うためのツールです。CVPR 2026で…
★ 128 ⑂ 7 NOASSERTION 2026-04-10
マルチモーダル HF LLaVA-Video-7B-Qwen2
LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…
❤ 127 ↓ 19.0k apache-2.0 2024-10-25
マルチモーダル GitHub count-anything
Count Anythingは、テキストクエリに基づいて画像内のあらゆるオブジェクトを数えることができる汎用モデルです。自…
★ 127 ⑂ 6 Apache-2.0 2026-06-04
動画生成 HF Wan2.1-T2V-1.3B-Diffusers
Wan2.1は、最先端のビデオ生成技術を提供するオープンな大規模ビデオ基盤モデルスイートです。テキストからビデオ、…
❤ 127 ↓ 162.2k apache-2.0 2025-04-04
LLM GitHub VidCom2
VidCom2は、Video Large Language Models (VideoLLMs) の推論を高速化するためのプラグアンドプレイなフレームワーク…
★ 126 ⑂ 14 Apache-2.0 2026-05-14
マルチモーダル HF LLaVA-NeXT-Video-7B-hf
LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…
❤ 125 ↓ 160.0k llama2 2025-11-11
画像生成 GitHub Spectrum
「Spectrum」は、学習不要なスペクトル拡散特徴予測を用いて、拡散モデルのサンプリング速度を大幅に向上させるツー…
★ 125 ⑂ 7 MIT 2026-04-30
動画生成 GitHub PSIVG
このリポジトリは、CVPR 2026で発表される研究プロジェクト「Physical Simulator In-the-Loop Video Generation」の…
★ 125 ⑂ 14 Apache-2.0 2026-06-01
動画生成 HF Matrix-Game-3.0
Matrix-Game 3.0は、画像とテキストを入力に、長時間の一貫性を保った720pインタラクティブ動画をリアルタイム生成で…
❤ 123 ↓ 255 apache-2.0 2026-04-28
マルチモーダル GitHub ScreenMind
ScreenMindは、PCの画面活動をAIでキャプチャ、分析し、検索可能なプライベートAIメモリを構築するツールです。Gemma…
★ 123 ⑂ 6 MIT 2026-06-23
動画生成 GitHub Echo-Memory
Echo-Memoryは、Joy Future AcademyのEcho Teamが開発した、ビデオワールドモデルにおけるメモリの役割を研究するた…
★ 119 ⑂ 6 2026-06-25
3D / NeRF GitHub gaussian-point-splatting
本ツールは、独自の確率的なアプローチ「Gaussian Point Splatting」により、数億個に及ぶ大規模な3D Gaussian Splat…
★ 116 ⑂ 10 BSD-3-Clause 2026-06-05
画像生成 GitHub UNITE-tokenization-generation
UNITEは、画像や分子などのモダリティに対応した、トークン化と潜在拡散モデルの生成を単一ステージでend-to-endに学…
★ 116 ⑂ 1 2026-03-24
画像生成 GitHub guaardvark
Guaardvarkは、自己ホスト型AIワークステーションであり、自律型スクリーンエージェント、3層ニューラルルーティング…
★ 115 ⑂ 27 MIT 2026-06-28
3D / NeRF GitHub NAS3R
NAS3Rは、新規ビュー合成を介して自己教師あり3D再構築を行うためのフィードフォワードフレームワークです。このツー…
★ 114 ⑂ 8 MIT 2026-05-12