3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

全AIリポジトリ

登録されているAI関連OSSの一覧

画像生成

Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Qwen3.5-9Bをベースに、Claude 4.6 Opus由来の推論データを蒸留してSFT+LoRAで強化した推論特化モデルです。`<think>…

#CLI #LLM #LoRA

❤ 329 ↓ 187.1k apache-2.0 2026-04-06

マルチモーダル

Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Qwen3.5-9Bをベースに、DeepSeek-V4由来の高品質な推論データで蒸留した軽量推論モデルのREADMEです。多段階の論理展…

#GGUF #エージェント向け #ローカル推論

❤ 241 ↓ 320.6k apache-2.0 2026-05-02

マルチモーダル

nemotron-ocr-v2

Nemotron OCR v2は、複雑な実写画像や文書画像から文字を高精度かつ高速に抽出する、NVIDIAの商用利用可能な多言語OC…

#GPU必須 #Linux #NVIDIA GPU対応

❤ 212 ↓ 14.2k other 2026-05-22

マルチモーダル

Qwopus3.6-35B-A3B-v1-GGUF

Qwopus3.6-35B-A3B-v1-GGUFは、Qwen3.6-35B-A3BをベースにLoRAで推論能力を強化した実験的なGGUF形式モデルです。35B…

#GGUF #GPU必須 #ツール呼び出し対応

❤ 210 ↓ 215.4k apache-2.0 2026-05-28

ASR / 音声認識

whisperkit-coreml

WhisperKitは、Apple Siliconデバイス向けに設計されたオンデバイス音声AI SDK「Argmax OSS」の一部として提供される…

#Apple Silicon #ASR (音声認識) #CoreML

❤ 193 ↓ 8.4M 2026-04-24

マルチモーダル

audio-flamingo-3-hf

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…

#CLI #GPU推奨 #研究用途限定

❤ 187 ↓ 263.1k other 2026-04-13

画像生成

Flux2-Klein-9B-True-V2

Flux2-Klein-9B-True-V2は、FLUX.2-Klein-9Bをベースにしたテキスト画像生成向けの追加学習モデルです。V1からさらに…

#ComfyUI対応 #GPU必須 #テキスト画像生成

❤ 159 ↓ 110.8k other 2026-04-16

動画生成

Matrix-Game-3.0

Matrix-Game 3.0は、画像とテキストを入力に、長時間の一貫性を保った720pインタラクティブ動画をリアルタイム生成で…

#CLI #GPU必須 #Hugging Faceモデル

❤ 123 ↓ 255 apache-2.0 2026-04-28

マルチモーダル

Falcon-OCR

Falcon OCRは、3億パラメータを持つ早期結合型ビジョン・言語モデルで、文書のOCR（光学文字認識）に特化しています…

#CLI #GPU推奨 #文書解析

❤ 119 ↓ 5.6k apache-2.0 2026-05-13

マルチモーダル

tipsv2-b14

TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…

#CLI #GPU推論対応

❤ 112 ↓ 12.1k apache-2.0 2026-06-27

動画生成

Motif-Video-2B

Motif-Video 2BはMotif Technologiesが開発した、テキストや画像から動画を生成する低予算の拡散トランスフォーマー…

#ComfyUI対応 #Diffusers #GGUF

❤ 112 ↓ 251 apache-2.0 2026-05-15

マルチモーダル

music-flamingo-2601-hf

Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…

#CLI #GPU推奨 #Python

❤ 105 ↓ 188.9k other 2026-04-09

マルチモーダル

music-flamingo-hf

Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…

#CLI #GPU推奨 #Python

❤ 99 ↓ 16.8k other 2026-04-04

マルチモーダル

MOSS-VL-Instruct-0408

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…

#CLI #GPU必須 #動画対応

❤ 97 ↓ 331 apache-2.0 2026-04-22

画像生成

PixelSmile

PixelSmileは、既存の顔画像に対して笑顔・喜びなどの表情を細かく編集するための画像生成・編集モデルです。Qwen-Im…

#CLI #ComfyUI対応 #GPU必須

❤ 90 ↓ 747 apache-2.0 2026-05-08

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 76 ↓ 5.2k apache-2.0 2026-06-11

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 73 ↓ 17.1k apache-2.0 2026-04-14

マルチモーダル

MOSS-VL-Base-0408

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…

#CLI #GPU必須

❤ 61 ↓ 1.3k apache-2.0 2026-04-23

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 8.0k other 2026-05-13

マルチモーダル

MOSS-Audio-8B-Instruct

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…

#CLI #Gradio #SGLang

❤ 44 ↓ 5.0k apache-2.0 2026-06-11

マルチモーダル

music-flamingo-think-2601-hf

Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…

#CLI #GPU必須 #Python

❤ 41 ↓ 533 other 2026-04-07

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 33 ↓ 4.0k apache-2.0 2026-04-14

マルチモーダル

sam3-litetext-s0

SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…

#GPU推奨 #mask-generation #Vision-Language

❤ 19 ↓ 6.0k apache-2.0 2026-05-08

画像生成

SpatialEdit-16B

SpatialEdit-16Bは、入力画像に対して文章指示で位置や向き、視点を細かく調整できる研究用の画像空間編集モデルです…

#CLI #GPU必須

❤ 17 ↓ 23 apache-2.0 2026-04-08