3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
マルチモーダル (280 repos)
カテゴリ「マルチモーダル」のリポジトリ一覧
← 全カテゴリ
マルチモーダル GitHub wgram-lm
W-GRAM-LMは、世界誘導型再帰的アトラクタ言語モデルの研究用コードベースです。潜在世界予測、多軌道推論、解答アト…
★ 6 AGPL-3.0 2026-05-31
マルチモーダル GitHub thesis-iot-monitoring
このツールは、自然言語の指示に基づいてIoTデバイスが自律的に視覚監視を行うシステムです。AIエージェントがユーザ…
★ 5 ⑂ 1 NOASSERTION 2026-06-05
マルチモーダル GitHub egobabyvlm
本リポジトリは、EgoBabyVLMチャレンジのインフラを提供します。これは、乳幼児の一人称視点ビデオデータ(BabyView …
★ 5 NOASSERTION 2026-05-29
マルチモーダル GitHub Auto_Translator
Auto-Translatorは、複数のエージェントを活用したPDFコンテンツの自動翻訳ツールです。原文のフォーマットを完璧に…
★ 5 ⑂ 1 2026-04-16
マルチモーダル GitHub Multimodal-Edge-Node
Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。ユーザーはカスタ…
★ 5 Apache-2.0 2026-05-01
マルチモーダル GitHub SkinAid
SkinAidは、皮膚疾患の分析を支援する高度なクロスモーダルAIフレームワークです。ユーザーは皮膚の画像と年齢、性別…
★ 5 ⑂ 1 MIT 2026-05-30
マルチモーダル GitHub JoyCapture-UR5
JoyCapture-UR5は、Xboxコントローラーを使用してUR5ロボットを遠隔操作し、多モーダルなデモンストレーションデータ…
★ 5 MIT 2026-05-24
マルチモーダル GitHub vidground
VidGroundは、動画理解ベンチマークや機械学習の後学習データセットに内在する「動画を見なくても回答できる」テキス…
★ 4 MIT 2026-05-09
マルチモーダル GitHub AlignedNorm
AlignedNormは、Vision-Language Models (VLMs) のプロンプト学習において、既存手法の局所最適化と汎化性能の限界を…
★ 4 MIT 2026-06-12
マルチモーダル GitHub CodeBind
CodeBindは、大規模言語モデルやロボット工学におけるマルチモーダル表現アライメントの課題を解決するために開発さ…
★ 4 ⑂ 1 MIT 2026-05-19
マルチモーダル GitHub inst2vec
molchalih/inst2vecは、Instagramのユーザーデータを詳細に分析し、美的クラスタリングと可視化を行うツールです。CS…
★ 4 Apache-2.0 2026-06-05
マルチモーダル GitHub multimodal-docs-public
M-LongDocは、EMNLP 2025で採択されたマルチモーダル超長文ドキュメント理解のための挑戦的なベンチマークと、検索対…
★ 4 2026-06-09
マルチモーダル GitHub glm-ocr-rs
saravananravi08/glm-ocrは、GLM-OCRビジョン言語モデルを搭載した純粋なRust製OCR推論エンジンです。PythonやPyTorc…
★ 4 2026-03-04
マルチモーダル GitHub LiteRTLM-Swift-SDK
LiteRTLM Swift SDKは、GoogleのLiteRT-LM(オンデバイス推論エンジン)の非公式Swift SDKです。このツールはGemma 4…
★ 4 ⑂ 2 MIT 2026-05-02
マルチモーダル GitHub roboclaws
Roboclawsは、VLMポリシー、OpenClaw、AIコーディングエージェントによって駆動されるAIロボティクスデモのためのリ…
★ 4 MIT 2026-06-02
マルチモーダル GitHub llm-router
LLM Routerは、OpenAI互換のAI Gatewayとして機能し、クライアントと既存のAI中継サービス間に配置されます。ユーザ…
★ 4 MIT 2026-06-10
マルチモーダル GitHub reachy-mini-agent
reachy-mini-agentは、Reachy Miniロボット向けのリアルタイム音声・視覚AIエージェントです。このツールは、ローカ…
★ 3 Apache-2.0 2026-06-01
マルチモーダル GitHub SmolVLM2-Edge-Vision-Agent
SmolVLM2-2.2Bを搭載したエッジ展開可能なビジョンエージェントで、CPUのみのハードウェア(16GB RAM)で動作します…
★ 3 2026-04-27
マルチモーダル GitHub opencode-vision
opencode-visionは、マルチモーダルに対応していないOpenCodeモデルに画像認識機能を追加するツールです。ユーザーが…
★ 3 MIT 2026-06-01
マルチモーダル GitHub mio
Mioは、MiMoモデルファミリーに特化した、WindowsおよびmacOS向けの無料オープンソースのネイティブデスクトップコー…
★ 3 MIT 2026-06-13
マルチモーダル GitHub LangSlice
LangSliceは、Vision-Language Model (VLM) を活用し、組織学的脳切片をBrainGlobeアトラスに自動で高精度に位置合わ…
★ 3 BSD-3-Clause 2026-06-03
マルチモーダル GitHub qw-register-helper
「qw-register-helper」は、Qwenアカウントのバッチ登録とアクティベーションを自動化するためのシンプルなツールで…
★ 3 ⑂ 2 MIT 2026-06-09
マルチモーダル GitHub goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 3 MIT 2026-05-31
マルチモーダル GitHub meeting-agent
このツールは、会議の録画(動画・音声)、文書(PDF、PPTX、DOCX、XLSX、CSV、TXT)、画像を取り込み、書き起こし、…
★ 3 MIT 2026-05-13