2,027 repos GH 1,912 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (176 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル
GitHub kmetbench-release
K-MetBenchは、気象学分野におけるAIモデルの専門家推論、局所性、およびマルチモダリティを詳細に評価するための多…
★ 2 MIT 2026-05-24
マルチモーダル
GitHub OpenEMMA-UI
OpenEMMA-UIは、Windowsデスクトップ向けに設計された、リアルタイムCARLA環境での自律走行テスト用アプリケーション…
★ 2 Apache-2.0 2026-05-25
マルチモーダル
GitHub swift-lm
Swift LMは、AppleのMLX Swiftを基盤とした大規模言語モデル(LLM)とビジョン言語モデル(VLM)の推論エンジンであ…
★ 2 MIT 2026-05-16
マルチモーダル GitHub MagikaDocumentFromPixel
このツールは、Magikaに触発された軽量な画像品質ゲートで、画像を「シャープ」、「ぼやけ」、「不確実」のいずれか…
★ 2 MIT 2026-04-27
マルチモーダル GitHub ORION
ORIONは、低軌道衛星向けの自律型トリアージシステムです。Raspberry Pi 5に最適化されたVision-Language Model (VLM…
★ 2 ⑂ 1 2026-05-19
マルチモーダル GitHub multimodal-music-genre-classifier
このツールは、GTZANデータセットを用いた音楽ジャンル分類のためのマルチモーダルCNNモデルを提供します。メルスペ…
★ 2 MIT 2026-05-13
マルチモーダル
GitHub Crucible
Crucibleは、ロボットのデモンストレーションデータを評価・キュレーションするための多軸VLM(Vision-Language Mode…
★ 2 MIT 2026-05-10
マルチモーダル GitHub Viz2Speech
Viz2Speechは、インドネシアの視覚障害者のアクセシビリティを向上させるために開発された、画像から音声への変換エ…
★ 2 ⑂ 1 MIT 2026-05-16
マルチモーダル
GitHub zero-shot-video-classifier
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。タスク固有…
★ 1 2026-05-07
マルチモーダル
GitHub local-asset-gen-mcp
このプロジェクトは、テキストから画像、音楽/音声、音声、さらに画像やテキストから3Dモデルを生成できるローカルAI…
★ 1 GPL-3.0 2026-03-28
マルチモーダル GitHub clip-from-scratch
このプロジェクトは、PyTorchでContrastive Language-Image Pre-training (CLIP) をゼロから実装したものです。「同…
★ 1 MIT 2026-05-12
マルチモーダル
GitHub XAISDK
xAI Swift SDKは、xAIのGrokやImagineなどのAPIとSwift言語で直接対話するためのgRPCベースの高性能ライブラリです。…
★ 1 Apache-2.0 2026-04-14
マルチモーダル
GitHub mcp-wechat-server
mcp-wechat-serverは、AIアプリケーションがWindows PC上でWeChatメッセージを送受信できるようにするMCPサーバーで…
★ 1 ⑂ 1 2026-05-25
マルチモーダル
GitHub gemma-chat-windows
「gemma-chat-windows」は、Electronアプリを通じてGemma 4モデルを利用し、ローカル環境で動作するプライベートなAI…
★ 1 MIT 2026-05-24
マルチモーダル
GitHub browserground
browsergroundは、ハイブリッドAIエージェント向けのローカルUIグラウンディングツールです。スクリーンショットとテ…
★ 1 2026-05-21
マルチモーダル
GitHub Qwen3.6-27B-AEON-Ultimate-Uncensored-DFlash
このソフトウェアは、高性能なQwen3.6-27B AIモデルをWindows上でローカル実行するためのツールです。最適化されたハ…
★ 1 Apache-2.0 2026-05-24
マルチモーダル
GitHub uitars-mcp
UI-TARS MCPは、AIエージェントがデスクトップとウェブブラウザを操作するための「目と手」を提供するサーバーツール…
★ 1 Apache-2.0 2026-05-20
マルチモーダル
GitHub claude-badpunpc
このツールは、Steamゲーム「これは諧音梗(BadPunPC)」をAnthropicのClaude Sonnet 4.6を使って全自動で攻略するAIソ…
★ 1 MIT 2026-05-03
マルチモーダル
GitHub k1-vlm-navigation
NaVILA → K1は、視覚言語モデル(VLM)であるNaVILAを活用し、Booster K1ヒューマノイドロボットを自然言語のナビゲ…
★ 1 2026-05-15
マルチモーダル GitHub control-sci
ControlMindは、MinerUを活用した科学文書インテリジェンスシステムです。生PDFから直接情報を抽出し、科学論文の理…
★ 1 NOASSERTION 2026-05-22
マルチモーダル GitHub vlm-from-scratch
このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…
★ 1 MIT 2026-05-14
マルチモーダル
GitHub Aibys2
Aibys2は、インドネシアに根ざしたAIエコシステム向けの、スクラッチから大規模言語モデル(LLM)を構築・学習するた…
★ 1 NOASSERTION 2026-05-24
マルチモーダル
GitHub ENOSES
「SEOSIRI ENOSES CORE ARCHITECT」は、物理的な音響波と光学データをリアルタイムのロボットコマンドに変換するマル…
★ 1 MIT 2026-05-17
マルチモーダル GitHub ControlFoley_test
ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…
★ 1 Apache-2.0 2026-04-17