3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

全AIリポジトリ

登録されているAI関連OSSの一覧

マルチモーダル

audio-flamingo-3-hf

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープ…

#CLI #GPU推奨 #研究用途限定

❤ 187 ↓ 263.1k other 2026-04-13

マルチモーダル

Anzhcs_YOLOs

Anzhcs_YOLOsは、作者自身や協力者が注釈したデータセットを中心に学習したYOLO系モデル集で、顔・目・頭髪・胸部・…

#Adetailer対応 #Ultralytics #YOLO11

❤ 176 ↓ 79.0k agpl-3.0 2026-02-25

マルチモーダル

Qwen2-Audio-7B

Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。…

#CLI #GPU推奨 #Hugging Face Transformers

❤ 172 ↓ 5.0k apache-2.0 2024-11-20

マルチモーダル

Qwen2-Audio-7B-GGUF

Qwen2-Audio-7B-GGUFは、Nexa-SDK上でローカル実行できる音声・テキスト対応のマルチモーダルAIモデルです。ASRを別…

#CLI #GGUF #Web UI

❤ 171 ↓ 2.7k apache-2.0 2024-11-25

画像生成

Flux2-Klein-9B-True-V2

Flux2-Klein-9B-True-V2は、FLUX.2-Klein-9Bをベースにしたテキスト画像生成向けの追加学習モデルです。V1からさらに…

#ComfyUI対応 #GPU必須 #テキスト画像生成

❤ 159 ↓ 110.8k other 2026-04-16

マルチモーダル

VibeVoice-ASR-HF

VibeVoice-ASR-HFは、Microsoftの長時間音声向け音声認識モデルをTransformers互換で使えるようにしたツールです。最…

#ASR #CLI #話者分離

❤ 155 ↓ 671.7k mit 2026-03-09

画像生成

FLUX.2-klein-base-4B

FLUX.2 [klein] 4B Baseは、Black Forest Labsが開発した最速の画像モデルファミリーの一つです。生成と編集を統合し…

#ComfyUI対応 #GPU必須 #Python

❤ 146 ↓ 139.9k apache-2.0 2026-02-24

動画生成

Wan2.2-TI2V-5B-Diffusers

Wan2.2は、テキストや画像から高品質な動画を生成する先進的な大規模動画生成モデルです。MoEアーキテクチャにより効…

#CLI #ComfyUI対応 #Diffusers

❤ 144 ↓ 107.3k apache-2.0 2025-08-09

動画生成

Wan2.2-T2V-A14B-Diffusers

Wan2.2は、テキストや画像から高品質なビデオを生成する先進的な大規模ビデオ生成モデルです。MoEアーキテクチャを採…

#ComfyUI対応 #GPU必須 #Image-to-Video

❤ 139 ↓ 107.4k apache-2.0 2025-08-09

マルチモーダル

LLaVA-Video-7B-Qwen2

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。画像・複数画像・動画を扱えますが…

#CLI #GPU必須

❤ 127 ↓ 19.0k apache-2.0 2024-10-25

動画生成

Wan2.1-T2V-1.3B-Diffusers

Wan2.1は、最先端のビデオ生成技術を提供するオープンな大規模ビデオ基盤モデルスイートです。テキストからビデオ、…

#CLI #GPU必須 #Image-to-Video

❤ 127 ↓ 162.2k apache-2.0 2025-04-04

マルチモーダル

LLaVA-NeXT-Video-7B-hf

LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。T…

#CLI #GPU必須 #動画理解

❤ 125 ↓ 160.0k llama2 2025-11-11

動画生成

Matrix-Game-3.0

Matrix-Game 3.0は、画像とテキストを入力に、長時間の一貫性を保った720pインタラクティブ動画をリアルタイム生成で…

#CLI #GPU必須 #Hugging Faceモデル

❤ 123 ↓ 255 apache-2.0 2026-04-28

マルチモーダル

Falcon-OCR

Falcon OCRは、3億パラメータを持つ早期結合型ビジョン・言語モデルで、文書のOCR（光学文字認識）に特化しています…

#CLI #GPU推奨 #文書解析

❤ 119 ↓ 5.6k apache-2.0 2026-05-13

動画生成

Motif-Video-2B

Motif-Video 2BはMotif Technologiesが開発した、テキストや画像から動画を生成する低予算の拡散トランスフォーマー…

#ComfyUI対応 #Diffusers #GGUF

❤ 112 ↓ 251 apache-2.0 2026-05-15

マルチモーダル

tipsv2-b14

TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。画像全体の特徴量だけでな…

#CLI #GPU推論対応

❤ 112 ↓ 12.1k apache-2.0 2026-06-27

マルチモーダル

music-flamingo-2601-hf

Music Flamingoは、音楽や楽曲の理解に特化したNVIDIAの大規模音声言語モデルです。曲調、テンポ、キー、楽器構成、…

#CLI #GPU推奨 #Python

❤ 105 ↓ 188.9k other 2026-04-09

マルチモーダル

music-flamingo-hf

Music Flamingoは、楽曲やインストゥルメンタル音源を対象に、ジャンル・テンポ・キー・楽器構成・雰囲気・歌詞や文…

#CLI #GPU推奨 #Python

❤ 99 ↓ 16.8k other 2026-04-04

マルチモーダル

MOSS-VL-Instruct-0408

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントで…

#CLI #GPU必須 #動画対応

❤ 97 ↓ 331 apache-2.0 2026-04-22

マルチモーダル

yolos-small

YOLOS (small-sized)は、Vision Transformerを基盤とした物体検出モデルです。このモデルはDETRロスを用いてCOCO 201…

#GPU推奨 #物体検出

❤ 95 ↓ 728.1k apache-2.0 2024-05-08

画像生成

PixelSmile

PixelSmileは、既存の顔画像に対して笑顔・喜びなどの表情を細かく編集するための画像生成・編集モデルです。Qwen-Im…

#CLI #ComfyUI対応 #GPU必須

❤ 90 ↓ 747 apache-2.0 2026-05-08

マルチモーダル

ultravox-v0_5-llama-3_2-1b

Ultravoxは、Llama 3.2 1B InstructとWhisper large v3 turboを組み合わせた音声対応マルチモーダルLLMです。音声と…

#MITライセンス #Python #マルチモーダル

❤ 88 ↓ 1.1M mit 2026-03-11

画像生成

ddpm-cifar10-32

google/ddpm-cifar10-32は、CIFAR-10向けに学習済みのDDPM画像生成モデルです。Hugging Face Diffusersの`DDPMPipeli…

#CLI #Diffusers #GPU推奨

❤ 85 ↓ 23.0k apache-2.0 2023-08-03

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 76 ↓ 5.2k apache-2.0 2026-06-11