マルチモーダル GitHub Graph-CAD
Graph-CADは、自然言語の指示から実行可能なBlender用CADコードを自動生成するための、グラフ媒介型Text-to-CADフレ…
★ 189 ⑂ 16 2026-03-30
マルチモーダル HF audio-flamingo-3-hf
Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…
❤ 186 ↓ 188.0k other 2026-04-13
マルチモーダル GitHub Awesome-VLM-Streaming-Video
このリポジトリは、Vision-Language Models (VLM) をストリーミングビデオに応用する研究と開発のための、厳選された…
★ 165 ⑂ 4 2026-05-28
マルチモーダル GitHub cerul
Cerulは、AIエージェント向けの動画検索レイヤーであり、音声だけでなく、スライド、グラフ、デモ、画面上のテキスト…
★ 139 ⑂ 6 Apache-2.0 2026-05-18
マルチモーダル GitHub GEMS
GEMSは、エージェントネイティブなマルチモーダル生成のための先進的なフレームワークです。記憶とスキルを活用し、K…
★ 129 ⑂ 10 2026-04-01
ComfyUI GitHub ComfyUI-Ollama-Describer
ComfyUI-Ollama-Describerは、ComfyUIの拡張機能で、Ollamaの多様なLLMモデル(Gemma、Llava、Llama2/3、Mistralなど…
★ 118 ⑂ 23 MIT 2026-03-19
マルチモーダル GitHub ICLR2026-Guide-CN
本ツールは、ICLR 2026の全5,352論文を大規模言語モデル(LLM)が分析し、その内容を「研究動機」「解決問題」「主要…
★ 117 ⑂ 7 2026-04-29
マルチモーダル GitHub llm-intern-skill
「LLMInternSkill」は、大規模言語モデル(LLM)関連のインターンシップやAI分野での就職活動を目指す学生・求職者向…
★ 113 ⑂ 4 MIT 2026-06-04
マルチモーダル HF Falcon-OCR
Falcon OCRは、画像から文書テキストを抽出する300Mパラメータ級の軽量OCR向けビジョン言語モデルです。通常の文字起…
❤ 109 ↓ 5.9k apache-2.0 2026-05-13
マルチモーダル HF tipsv2-b14
TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…
❤ 106 ↓ 18.5k apache-2.0 2026-04-14
マルチモーダル GitHub Multimodal-Recommendation-Library
MRLibは、マルチモーダル推薦システムの研究開発に特化したオープンソースライブラリです。画像、テキスト、音声など…
★ 103 ⑂ 8 MIT 2026-05-08
マルチモーダル HF music-flamingo-2601-hf
Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…
❤ 101 ↓ 150.0k other 2026-04-09
マルチモーダル HF music-flamingo-hf
Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…
❤ 97 ↓ 23.6k other 2026-04-04
マルチモーダル GitHub Awesome-Embodied-AI-Safety
このリポジトリは、Embodied AI(身体を持つAI)の安全性に関する包括的な調査と、その分野で初の統一的な安全フレー…
★ 95 ⑂ 2 NOASSERTION 2026-05-31
マルチモーダル HF MOSS-VL-Instruct-0408
MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…
❤ 95 ↓ 1.0k apache-2.0 2026-04-22
マルチモーダル GitHub Auto-Use
Auto Useは、AIがmacOSおよびWindowsオペレーティングシステム全体を自然言語で制御できる、エンドツーエンドのコン…
★ 95 ⑂ 11 Apache-2.0 2026-05-28
マルチモーダル GitHub guardian-sdk
Ethicore Engine™ — Guardian SDKは、Python製のLLMおよびエージェントアプリケーション向けの、リアルタイム脅威検…
★ 83 ⑂ 11 NOASSERTION 2026-06-01
マルチモーダル GitHub WebDroid-Agent
WebDroid Agentは、ブラウザベースのAndroidスマートフォンエージェント実験プロジェクトです。WebUSB/WebADBを介し…
★ 78 ⑂ 13 MIT 2026-05-28
マルチモーダル GitHub openmelon
OpenMelonは、ターミナル上で動作するAIコンテンツ作成エージェントです。ユーザーは単一のターミナルセッション内で…
★ 76 ⑂ 10 Apache-2.0 2026-05-11
マルチモーダル GitHub facio
Facioは、長期間のワークフローにおいて人間が介入できる、セキュアで追跡可能なプロアクティブAIエージェントです。…
★ 76 ⑂ 1 AGPL-3.0 2026-05-28
マルチモーダル GitHub count-anything
Count Anythingは、テキストクエリに基づいて画像内のあらゆるオブジェクトを数えることができる汎用モデルです。自…
★ 73 ⑂ 3 Apache-2.0 2026-06-04
マルチモーダル GitHub Awesome-AVI
JavisVerse/Awesome-AVIは、「大規模基盤モデルにおけるオーディオ・ビジュアル・インテリジェンス(AVI)」に関する…
★ 72 ⑂ 1 2026-05-08
マルチモーダル GitHub CourtSI
CourtSIは、スポーツ分野における空間知能を評価するための大規模データセットとベンチマークです。100万以上の質問…
★ 69 Apache-2.0 2026-03-15
マルチモーダル HF MOSS-Audio-4B-Instruct
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…
❤ 69 ↓ 30.8k apache-2.0 2026-04-14