3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#GPU推奨 (101 repos)

「GPU推奨」タグが付いたリポジトリ

← 全リポジトリ

マルチモーダル

MOSS-Audio-8B-Thinking

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…

#CLI #GPU推奨 #Hugging Face対応

❤ 76 ↓ 5.2k apache-2.0 2026-06-11

マルチモーダル

MOSS-Audio-4B-Instruct

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…

#CLI #GPU推奨 #Gradio

❤ 73 ↓ 17.1k apache-2.0 2026-04-14

動画生成

GitHub

open-director

OpenDirectorは、一行のアイデアから音声、BGM、絵コンテ付きの完成されたビデオを生成するオープンソースのAIビデオ…

#AI活用 #Docker対応 #GPU推奨

★ 61 ⑂ 12 LGPL-3.0 2026-05-29

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 8.0k other 2026-05-13

音声生成 / TTS

GitHub

Higgs_v3-TTS-ComfyUI

このツールは、ComfyUI用のノード集であり、bosonai/higgs-audio-v3-tts-4bモデルを活用して、多言語（100言語対応）…

#ComfyUI対応 #GPU推奨 #Hugging Face

★ 43 ⑂ 8 MIT 2026-06-20

ComfyUI

GitHub

ComfyUI-Grounding

ComfyUI-Groundingは、ComfyUI上でテキスト指定による物体検出・領域マスク生成・SAM2セグメンテーションをまとめて…

#ComfyUI対応 #GPU推奨 #Python

★ 41 ⑂ 3 MIT 2026-06-22

マルチモーダル

MOSS-Audio-4B-Thinking

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…

#CLI #GPU推奨 #Gradio

❤ 33 ↓ 4.0k apache-2.0 2026-04-14

ComfyUI

GitHub

ComfyUI-TranslateGemma

このツールは、Googleのオープンソース翻訳モデル「TranslateGemma」をComfyUIに統合するノードです。Gemma 3をベー…

#ComfyUI対応 #GPU推奨 #Hugging Face

★ 29 ⑂ 3 MIT 2026-06-13

3D / NeRF

GitHub

gaussian-splatting-studio

「3DGS Studio」は、ブラウザ上で動作する軽量な3D Gaussian Splatting（3DGS）作業環境です。ローカルの3DGSモデル…

#GPU推奨 #MP4出力 #Python

★ 21 ⑂ 1 MIT 2026-04-26

マルチモーダル

sam3-litetext-s0

SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…

#GPU推奨 #mask-generation #Vision-Language

❤ 19 ↓ 6.0k apache-2.0 2026-05-08

3D / NeRF

VoxTell

VoxTellは、自然文のテキスト指示からCT・MRI・PETなどの3D医用画像に対するセグメンテーションマスクを生成できる医…

#3Dセグメンテーション #CLI #GPU推奨

❤ 16 ↓ 264 cc-by-nc-sa-4.0 2026-06-26

ASR / 音声認識

GitHub

AI-Medical-Scribe

AI Medical Scribeは、ブラウザ内で完結するローカルファーストのAI医療記録ツールです。バックエンドやAPIキーが不…

#AI機能 #Chrome依存 #GPU推奨

★ 13 ⑂ 1 MIT 2026-05-22

マルチモーダル

moss-video-preview-base

MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです…

#GPU推奨

❤ 13 ↓ 23 apache-2.0 2026-06-09

LLM

GitHub

tokdrift

TokDriftは、LLMがサブワードでコードを生成する一方、実際のコードは文法を持つというギャップを研究するためのフレ…

#CLI #Conda/uv #GPU推奨

★ 9 ⑂ 1 2026-04-20

音声生成 / TTS

GitHub

ScriptSmith-Engine

ScriptSmith-Engineは、プレーンテキストのスクリプトを、ナレーション付きの完全に編集されたYouTube動画に自動的に…

#AI活用 #CLI #FFmpeg

★ 6 ⑂ 1 MIT 2026-06-23

音声生成 / TTS

GitHub

ghost-narrator

Ghost Narratorは、ブログや静的サイト向けに自己ホスト型のAI音声ナレーションを提供するツールです。ElevenLabsの…

#AIナレーション #Docker #Ghost CMS対応

★ 6 ⑂ 1 MIT 2026-06-15

画像生成

GitHub

nanoDLM

「nanoDLM」は、最もシンプルで、実際に学習・デバッグ・学習が可能なマスク拡散言語モデル（MDM）の実装です。約110…

#CLI #GPU推奨 #Python

★ 6 ⑂ 1 2026-05-16

ASR / 音声認識

GitHub

video-podcast-clipper

「Video Podcast Clipper」は、長尺動画からTikTokやYouTube Shorts向けのバイラルな縦型ショートクリップを自動生成…

#AIエージェント連携 #CLI #GPU推奨

★ 5 MIT 2026-05-28

ASR / 音声認識

GitHub

doublage

「Doublage（ドゥブラージュ）」は、任意の動画の好きなシーンをオンラインで友達と一緒に吹き替えできる革新的なツ…

#CLI #GPU推奨 #Python

★ 3 MIT 2026-06-12

ASR / 音声認識

GitHub

LiveDialogue-Translator

LiveDialogue-Translatorは、Windowsデスクトップ向けのローカルファーストなキャプションアプリです。システムおよ…

#GPU推奨 #Python #Windows

★ 3 ⑂ 1 Apache-2.0 2026-05-15

LLM

GitHub

Zephyr

Zephyrは、ローカル環境で動作するAIアシスタントです。主要なインターフェースはReact製のブラウザUI（コントロール…

#AIアシスタント #CLI #GPU推奨

★ 2 MIT 2026-05-20

ASR / 音声認識

GitHub

LiveAudio

LiveAudioは、ストリーマーやコンテンツクリエイター向けのリアルタイム自動音声認識（ASR）字幕生成ツールです。Ope…

#GPU推奨 #OBS対応 #Whisper

★ 2 MIT 2026-06-20

ASR / 音声認識

GitHub

AiSRT

AISRTは、Windowsデスクトップおよびコマンドラインで動作するAI字幕生成ツールです。動画や音声ファイルからタイム…

#CLI #GPU推奨 #Python

★ 2 MIT 2026-06-19

ComfyUI

GitHub

comfyui-model-diff-to-lora

このツールは、ComfyUI上で異なる設定の2つのMODELオブジェクト間の差分からLoRAを抽出します。複数のLoRAの積み重ね…

#ComfyUI対応 #GPU推奨 #LoRA

★ 2 ⑂ 2 2026-06-07