3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル (280 repos)

カテゴリ「マルチモーダル」のリポジトリ一覧

← 全カテゴリ

マルチモーダル

GitHub

lfm2.5-vl-ane

LFM2.5-VL on the Apple Neural Engineは、LiquidAIのLFM2.5-VL-450MモデルをApple Neural Engine上で完全に動作させ…

#Apple Silicon #CLI #macOS

★ 1 NOASSERTION 2026-06-02

マルチモーダル

GitHub

Tri-Sentinel-XAI

Tri-Sentinel XAIは、フィッシングURL、スパムテキスト、AI生成ディープフェイク画像を検出するマルチモーダルな説明…

#CPU対応 #Python #Streamlit

★ 1 MIT 2026-06-04

マルチモーダル

GitHub

claude-badpunpc

このツールは、Steamゲーム「これは諧音梗(BadPunPC)」をAnthropicのClaude Sonnet 4.6を使って全自動で攻略するAIソ…

#AI / LLM #CLI #Python

★ 1 MIT 2026-05-03

マルチモーダル

GitHub

molmoweb

molmowebは、自然言語で指示することでウェブブラウザを操作し、様々なタスクを自動で実行するデスクトップアプリケ…

#GUI #Web自動化 #Windows

★ 1 Apache-2.0 2026-06-02

マルチモーダル

GitHub

mempalace-extended

mempalace-extendedは、Windowsユーザー向けに設計されたローカルデータ管理ツールです。ドキュメント、画像、その他…

#AI連携 #Windows #ドキュメントインジェスト

★ 1 MIT 2026-06-10

マルチモーダル

GitHub

ai-chef-multimodal-assistant

AI Chefは、自宅にある食材からレシピを生成するAI搭載のマルチモーダル料理アシスタントです。テキスト入力または食…

#CLI #OpenAI API #Python

★ 1 2026-06-09

マルチモーダル

GitHub

k1-vlm-navigation

NaVILA → K1は、視覚言語モデル（VLM）であるNaVILAを活用し、Booster K1ヒューマノイドロボットを自然言語のナビゲ…

#CLI #MuJoCo #Python

★ 1 2026-05-15

マルチモーダル

GitHub

ai-learning-guides

このプロジェクトは、「AI Learning Guides」と題され、PyTorch、LLM、画像生成、強化学習、ロボティクス、マルチモ…

#CLI #GPU推奨 #Python

★ 1 MIT 2026-06-10

マルチモーダル

GitHub

airline-support-agent

このツールは、架空の航空会社FlightAIのためのマルチモーダルAIカスタマーサポートチャットボット「Airline Support…

#OpenAI API #Python #SQLite

★ 1 ⑂ 1 2026-06-12

マルチモーダル

GitHub

ENOSES

「SEOSIRI ENOSES CORE ARCHITECT」は、物理的な音響波と光学データをリアルタイムのロボットコマンドに変換するマル…

#IoT #Multimodal AI #Python

★ 1 MIT 2026-05-17

マルチモーダル

GitHub

esp32-cam-with-gemma

ESP32-CAMオフラインAIビジョンアシスタントは、IoT、コンピュータビジョン、ローカル大規模言語モデルを組み合わせ…

#ESP32-CAM #Flask #IoT

★ 1 MIT 2026-05-31

マルチモーダル

GitHub

xhs-note-reader

このツールは、中国のソーシャルメディア「小紅書」の図文ノート（画像とテキスト投稿）を、タイトル、本文、全画像…

#Claude Code対応 #CLI #Linux対応

★ 1 MIT 2026-05-19

マルチモーダル

GitHub

PrismRAG

PrismRAGは、PDFドキュメント内のテキストだけでなく、図、チャート、テーブルといった視覚情報からも質問に答えるマ…

#CLI #GPU必須 #Multimodal

★ 1 MIT 2026-06-10

マルチモーダル

GitHub

vlm-from-scratch

このプロジェクトは、CLIP-ViTとQwen2.5をゼロから組み立てて開発されたミニLLaVAモデルの構築過程を記録したポート…

#GPU必須 #Hugging Face #Python

★ 1 MIT 2026-05-14

マルチモーダル

GitHub

agents-connector

agents-connectorは、Claude Code、Codex、Gemini CLIといったAIエージェント間の連携を可能にするローカルメッセー…

#Claude対応 #CLI #Codex対応

★ 1 MIT 2026-06-09

マルチモーダル

GitHub

mm-docqa

Jmiao11/mm-docqaは、図とテキストが混在するPDF（特に論文の図表を含む）の内容に対して質問し、引用元付きの回答を…

#CLI #GPU推奨 #Python

★ 1 2026-06-12

マルチモーダル

GitHub

Qwen-Image-Edit-Object-Manipulator

Qwen-Image-Edit-Object-Manipulatorは、画像内のオブジェクトを簡単かつ高精度に操作できるツールです。ロゴ、アク…

#CLI #Linux #macOS

★ 1 ⑂ 1 Apache-2.0 2026-06-10

マルチモーダル

GitHub

invoice-extractor

この「Invoice Extraction System」は、VLM（Vision Language Models）を活用して、請求書や領収書から構造化された…

#PostgreSQL #Python #REST API

★ 1 2026-06-07

マルチモーダル

GitHub

multimodal-clinical-ai

このマルチモーダル臨床AIプロジェクトは、胸部X線画像と臨床ノートを統合し、ViT、BioBERT、時系列エンコーダ、クロ…

#CLI #Docker #GPU必須

★ 1 NOASSERTION 2026-05-20

マルチモーダル

GitHub

gemma-gem

Gemma Gemは、Gemma 4 AIモデルをWindows PCのWebブラウザ（Google Chrome）で直接実行できる拡張機能です。このツー…

#Gemma 4 #GPU必須 #Webブラウザ (Chrome)

★ 1 2026-06-10

マルチモーダル

GitHub

mlx-mtp

mlx-mtpは、Apple Silicon上で大規模なVision-Language Models (VLM) を高速かつローカルで実行するために設計された…

#Apple Silicon対応 #CLI #Python

★ 1 Apache-2.0 2026-06-11

マルチモーダル

GitHub

PROSOPO

「Face AI」は、バイアス軽減に重点を置いた最先端の公平な顔認識システムです。顔検出、アライメント、埋め込み抽出…

#CLI #Docker #GPU対応

★ 1 2026-05-22

マルチモーダル

GitHub

ControlFoley_test

ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。動画、テキスト、参照音声を…

#CLI #GPU必須 #Hugging Face

★ 1 Apache-2.0 2026-04-17

マルチモーダル

GitHub

vlm-from-scratch-v4

Mini-LLaVA v4は、8GBのノートPC GPUで動作するように最適化された、CLIP-ViTとQwen2.5-1.5Bを組み合わせたマルチモ…

#CLI #GPU必須 #マルチモーダル

★ 1 MIT 2026-05-19