3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

全AIリポジトリ

登録されているAI関連OSSの一覧

ASR / 音声認識

wav2vec2-large-xlsr-53-russian

このリポジトリは、Jonatas Grosman氏が開発したロシア語音声認識用のWav2Vec2-large-xlsr-53モデルを提供します。Hu…

#CLI #GPU推奨 #Hugging Face Transformers

❤ 75 ↓ 3.2M apache-2.0 2022-12-14

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 73 ↓ 17.1k apache-2.0 2026-04-14

動画生成

LTX-2.3-22b-AV-LoRA-talking-head

LTX-Video 2.3 22B向けの音声付きLoRAで、参照画像からキャラクター固有の話者性を保ったトーキングヘッド動画を生成…

#ComfyUI対応 #GPU必須 #画像から動画生成

❤ 68 ↓ 4.8k openrail 2026-03-24

マルチモーダル

MOSS-VL-Base-0408

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。4段階の事前学習のみで構築さ…

#CLI #GPU必須

❤ 61 ↓ 1.3k apache-2.0 2026-04-23

マルチモーダル

acestep-transcriber

ACE-Step Transcriberは、ACE-Step v1.5の学習データ注釈に使われる多言語音声転写モデルです。話し声だけでなく歌声…

#CLI #Python #transformers

❤ 59 ↓ 9.7k mit 2026-02-03

画像生成

Qwen-Image-Layered-GGUF

unsloth/Qwen-Image-Layered-GGUFは、Qwen-Image-LayeredをGGUF形式で量子化した画像分解モデルです。入力画像を複数…

#Apache 2.0 #GGUF #GPU必須

❤ 57 ↓ 4.9k apache-2.0 2026-01-09

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 8.0k other 2026-05-13

マルチモーダル

MOSS-Audio-8B-Instruct

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。音声認識…

#CLI #Gradio #SGLang

❤ 44 ↓ 5.0k apache-2.0 2026-06-11

マルチモーダル

music-flamingo-think-2601-hf

Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。ジ…

#CLI #GPU必須 #Python

❤ 41 ↓ 533 other 2026-04-07

マルチモーダル

ultravox-v0_5-llama-3_1-8b

Ultravoxは、Llama 3.1 8B InstructとWhisper large v3 turboを組み合わせた音声入力対応のマルチモーダルLLMです。…

#GPU推奨 #Python #Transformers対応

❤ 37 ↓ 903 mit 2025-05-06

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 33 ↓ 4.0k apache-2.0 2026-04-14

マルチモーダル

sam3-litetext-s0

SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…

#GPU推奨 #mask-generation #Vision-Language

❤ 19 ↓ 6.0k apache-2.0 2026-05-08

画像生成

SpatialEdit-16B

SpatialEdit-16Bは、入力画像に対して文章指示で位置や向き、視点を細かく調整できる研究用の画像空間編集モデルです…

#CLI #GPU必須

❤ 17 ↓ 23 apache-2.0 2026-04-08

3D / NeRF

VoxTell

VoxTellは、自然文のテキスト指示からCT・MRI・PETなどの3D医用画像に対するセグメンテーションマスクを生成できる医…

#3Dセグメンテーション #CLI #GPU推奨

❤ 16 ↓ 264 cc-by-nc-sa-4.0 2026-06-26

マルチモーダル

moss-video-preview-base

MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです…

#GPU推奨

❤ 13 ↓ 23 apache-2.0 2026-06-09

マルチモーダル

AURA

AURAは、映像ストリームを継続的に理解し、音声対話を通じてリアルタイム支援を行うマルチモーダル動画理解システム…

#リアルタイム #音声対話

❤ 12 ↓ 930 apache-2.0 2026-04-07

画像生成

Qwen_Image_Edit-Remix-v2_0_GGUF

Qwen Image Edit Remix v2.0 を GGUF 量子化形式で配布するための軽量モデルリポジトリです。README上では元モデルへ…

#GGUF #image-text-to-image #量子化モデル

❤ 10 ↓ 767 2026-04-05

音声生成 / TTS

mel-roformer-kim-vocal-2-mlx

Apple Silicon向けのMLX形式に変換されたMel-Band-RoFormer系のボーカル分離モデルです。44.1kHzステレオ音源からボ…

#Apple Silicon #CLI #MLX

❤ 6 ↓ 131 mit 2026-05-01

画像生成

sdxl-turbo

このREADMEは非常に簡潔で、`library_name: diffusers`と`license: apache-20`のみが記載されています。「crynux-net…

#GPU必須 #Python

❤ 3 ↓ 12.8k apache-2.0 2025-07-23