3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
#GPU推奨 (101 repos)
「GPU推奨」タグが付いたリポジトリ
← 全リポジトリ
マルチモーダル HF MOSS-Audio-8B-Thinking
MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。文字起こ…
❤ 76 ↓ 5.2k apache-2.0 2026-06-11
マルチモーダル HF MOSS-Audio-4B-Instruct
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデ…
❤ 73 ↓ 17.1k apache-2.0 2026-04-14
動画生成 GitHub open-director
OpenDirectorは、一行のアイデアから音声、BGM、絵コンテ付きの完成されたビデオを生成するオープンソースのAIビデオ…
★ 61 ⑂ 12 LGPL-3.0 2026-05-29
マルチモーダル HF audio-flamingo-next-hf
Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…
❤ 56 ↓ 8.0k other 2026-05-13
音声生成 / TTS GitHub Higgs_v3-TTS-ComfyUI
このツールは、ComfyUI用のノード集であり、bosonai/higgs-audio-v3-tts-4bモデルを活用して、多言語(100言語対応)…
★ 43 ⑂ 8 MIT 2026-06-20
ComfyUI GitHub ComfyUI-Grounding
ComfyUI-Groundingは、ComfyUI上でテキスト指定による物体検出・領域マスク生成・SAM2セグメンテーションをまとめて…
★ 41 ⑂ 3 MIT 2026-06-22
マルチモーダル HF MOSS-Audio-4B-Thinking
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要…
❤ 33 ↓ 4.0k apache-2.0 2026-04-14
ComfyUI GitHub ComfyUI-TranslateGemma
このツールは、Googleのオープンソース翻訳モデル「TranslateGemma」をComfyUIに統合するノードです。Gemma 3をベー…
★ 29 ⑂ 3 MIT 2026-06-13
3D / NeRF GitHub gaussian-splatting-studio
「3DGS Studio」は、ブラウザ上で動作する軽量な3D Gaussian Splatting(3DGS)作業環境です。ローカルの3DGSモデル…
★ 21 ⑂ 1 MIT 2026-04-26
マルチモーダル HF sam3-litetext-s0
SAM3-LiteTextは、最先端の画像セグメンテーションモデルSAM3の軽量版です。重いSAM3のテキストエンコーダーをMobile…
❤ 19 ↓ 6.0k apache-2.0 2026-05-08
3D / NeRF HF VoxTell
VoxTellは、自然文のテキスト指示からCT・MRI・PETなどの3D医用画像に対するセグメンテーションマスクを生成できる医…
❤ 16 ↓ 264 cc-by-nc-sa-4.0 2026-06-26
ASR / 音声認識 GitHub AI-Medical-Scribe
AI Medical Scribeは、ブラウザ内で完結するローカルファーストのAI医療記録ツールです。バックエンドやAPIキーが不…
★ 13 ⑂ 1 MIT 2026-05-22
マルチモーダル HF moss-video-preview-base
MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです…
❤ 13 ↓ 23 apache-2.0 2026-06-09
LLM GitHub tokdrift
TokDriftは、LLMがサブワードでコードを生成する一方、実際のコードは文法を持つというギャップを研究するためのフレ…
★ 9 ⑂ 1 2026-04-20
音声生成 / TTS GitHub ScriptSmith-Engine
ScriptSmith-Engineは、プレーンテキストのスクリプトを、ナレーション付きの完全に編集されたYouTube動画に自動的に…
★ 6 ⑂ 1 MIT 2026-06-23
音声生成 / TTS GitHub ghost-narrator
Ghost Narratorは、ブログや静的サイト向けに自己ホスト型のAI音声ナレーションを提供するツールです。ElevenLabsの…
★ 6 ⑂ 1 MIT 2026-06-15
画像生成 GitHub nanoDLM
「nanoDLM」は、最もシンプルで、実際に学習・デバッグ・学習が可能なマスク拡散言語モデル(MDM)の実装です。約110…
★ 6 ⑂ 1 2026-05-16
ASR / 音声認識 GitHub video-podcast-clipper
「Video Podcast Clipper」は、長尺動画からTikTokやYouTube Shorts向けのバイラルな縦型ショートクリップを自動生成…
★ 5 MIT 2026-05-28
ASR / 音声認識 GitHub doublage
「Doublage(ドゥブラージュ)」は、任意の動画の好きなシーンをオンラインで友達と一緒に吹き替えできる革新的なツ…
★ 3 MIT 2026-06-12
ASR / 音声認識 GitHub LiveDialogue-Translator
LiveDialogue-Translatorは、Windowsデスクトップ向けのローカルファーストなキャプションアプリです。システムおよ…
★ 3 ⑂ 1 Apache-2.0 2026-05-15
LLM GitHub Zephyr
Zephyrは、ローカル環境で動作するAIアシスタントです。主要なインターフェースはReact製のブラウザUI(コントロール…
★ 2 MIT 2026-05-20
ASR / 音声認識 GitHub LiveAudio
LiveAudioは、ストリーマーやコンテンツクリエイター向けのリアルタイム自動音声認識(ASR)字幕生成ツールです。Ope…
★ 2 MIT 2026-06-20
ASR / 音声認識 GitHub AiSRT
AISRTは、Windowsデスクトップおよびコマンドラインで動作するAI字幕生成ツールです。動画や音声ファイルからタイム…
★ 2 MIT 2026-06-19
ComfyUI GitHub comfyui-model-diff-to-lora
このツールは、ComfyUI上で異なる設定の2つのMODELオブジェクト間の差分からLoRAを抽出します。複数のLoRAの積み重ね…
★ 2 ⑂ 2 2026-06-07