3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (280 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル
GitHub
wgram-lm
W-GRAM-LMは、世界誘導型再帰的アトラクタ言語モデルの研究用コードベースです。潜在世界予測、多軌道推論、解答アト…
★ 6 AGPL-3.0 2026-05-31
マルチモーダル
GitHub
thesis-iot-monitoring
このツールは、自然言語の指示に基づいてIoTデバイスが自律的に視覚監視を行うシステムです。AIエージェントがユーザ…
★ 5 ⑂ 1 NOASSERTION 2026-06-05
マルチモーダル
GitHub
egobabyvlm
本リポジトリは、EgoBabyVLMチャレンジのインフラを提供します。これは、乳幼児の一人称視点ビデオデータ(BabyView …
★ 5 NOASSERTION 2026-05-29
マルチモーダル
GitHub
Auto_Translator
Auto-Translatorは、複数のエージェントを活用したPDFコンテンツの自動翻訳ツールです。原文のフォーマットを完璧に…
★ 5 ⑂ 1 2026-04-16
マルチモーダル
GitHub
Multimodal-Edge-Node
Multimodal-Edge-Nodeは、実験的なノードベースの視覚的推論とマルチモーダル推論キャンバスです。ユーザーはカスタ…
★ 5 Apache-2.0 2026-05-01
マルチモーダル
GitHub
SkinAid
SkinAidは、皮膚疾患の分析を支援する高度なクロスモーダルAIフレームワークです。ユーザーは皮膚の画像と年齢、性別…
★ 5 ⑂ 1 MIT 2026-05-30
マルチモーダル
GitHub
JoyCapture-UR5
JoyCapture-UR5は、Xboxコントローラーを使用してUR5ロボットを遠隔操作し、多モーダルなデモンストレーションデータ…
★ 5 MIT 2026-05-24
マルチモーダル
GitHub
vidground
VidGroundは、動画理解ベンチマークや機械学習の後学習データセットに内在する「動画を見なくても回答できる」テキス…
★ 4 MIT 2026-05-09
マルチモーダル
GitHub
AlignedNorm
AlignedNormは、Vision-Language Models (VLMs) のプロンプト学習において、既存手法の局所最適化と汎化性能の限界を…
★ 4 MIT 2026-06-12
マルチモーダル
GitHub
CodeBind
CodeBindは、大規模言語モデルやロボット工学におけるマルチモーダル表現アライメントの課題を解決するために開発さ…
★ 4 ⑂ 1 MIT 2026-05-19
マルチモーダル
GitHub
inst2vec
molchalih/inst2vecは、Instagramのユーザーデータを詳細に分析し、美的クラスタリングと可視化を行うツールです。CS…
★ 4 Apache-2.0 2026-06-05
マルチモーダル
GitHub
multimodal-docs-public
M-LongDocは、EMNLP 2025で採択されたマルチモーダル超長文ドキュメント理解のための挑戦的なベンチマークと、検索対…
★ 4 2026-06-09
マルチモーダル
GitHub
glm-ocr-rs
saravananravi08/glm-ocrは、GLM-OCRビジョン言語モデルを搭載した純粋なRust製OCR推論エンジンです。PythonやPyTorc…
★ 4 2026-03-04
マルチモーダル
GitHub
LiteRTLM-Swift-SDK
LiteRTLM Swift SDKは、GoogleのLiteRT-LM(オンデバイス推論エンジン)の非公式Swift SDKです。このツールはGemma 4…
★ 4 ⑂ 2 MIT 2026-05-02
マルチモーダル
GitHub
roboclaws
Roboclawsは、VLMポリシー、OpenClaw、AIコーディングエージェントによって駆動されるAIロボティクスデモのためのリ…
★ 4 MIT 2026-06-02
マルチモーダル
GitHub
llm-router
LLM Routerは、OpenAI互換のAI Gatewayとして機能し、クライアントと既存のAI中継サービス間に配置されます。ユーザ…
★ 4 MIT 2026-06-10
マルチモーダル
GitHub
reachy-mini-agent
reachy-mini-agentは、Reachy Miniロボット向けのリアルタイム音声・視覚AIエージェントです。このツールは、ローカ…
★ 3 Apache-2.0 2026-06-01
マルチモーダル
GitHub
SmolVLM2-Edge-Vision-Agent
SmolVLM2-2.2Bを搭載したエッジ展開可能なビジョンエージェントで、CPUのみのハードウェア(16GB RAM)で動作します…
★ 3 2026-04-27
マルチモーダル
GitHub
opencode-vision
opencode-visionは、マルチモーダルに対応していないOpenCodeモデルに画像認識機能を追加するツールです。ユーザーが…
★ 3 MIT 2026-06-01
マルチモーダル
GitHub
mio
Mioは、MiMoモデルファミリーに特化した、WindowsおよびmacOS向けの無料オープンソースのネイティブデスクトップコー…
★ 3 MIT 2026-06-13
マルチモーダル
GitHub
LangSlice
LangSliceは、Vision-Language Model (VLM) を活用し、組織学的脳切片をBrainGlobeアトラスに自動で高精度に位置合わ…
★ 3 BSD-3-Clause 2026-06-03
マルチモーダル
GitHub
qw-register-helper
「qw-register-helper」は、Qwenアカウントのバッチ登録とアクティベーションを自動化するためのシンプルなツールで…
★ 3 ⑂ 2 MIT 2026-06-09
マルチモーダル
GitHub
goodq4all
GoodQ4Allは、ローカルファーストのマルチモーダル記憶システムで、長期間のビデオ、オーディオ、テキストからの情報…
★ 3 MIT 2026-05-31
マルチモーダル
GitHub
meeting-agent
このツールは、会議の録画(動画・音声)、文書(PDF、PPTX、DOCX、XLSX、CSV、TXT)、画像を取り込み、書き起こし、…
★ 3 MIT 2026-05-13