3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#GPU対応 (91 repos)

「GPU対応」タグが付いたリポジトリ

← 全リポジトリ

マルチモーダル

vit-gpt2-image-captioning

`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モ…

#CLI #GPU対応 #画像キャプション生成

❤ 931 ↓ 65.0k apache-2.0 2023-02-27

マルチモーダル

blip-image-captioning-base

SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モ…

#CLI #CPU対応 #GPU対応

❤ 861 ↓ 2.0M bsd-3-clause 2025-02-03

動画生成

GitHub

forge-film

Forgeは、AIによる映画生成プロセス全体を自動化するツールです。ユーザーが作成した物語を依存関係グラフ（DAG）に…

#CLI #GPU対応 #Python

★ 643 ⑂ 10 MIT 2026-03-26

マルチモーダル

YOLOv8

Ultralytics YOLOv8は、物体検出を中心に、追跡、インスタンスセグメンテーション、画像分類、姿勢推定、OBBまで幅広…

#CLI #Docker対応 #GPU対応

❤ 370 ↓ 9.3k agpl-3.0 2026-06-26

音声生成 / TTS

GitHub

kokoclone

KokoCloneは、Kokoro-ONNXを基盤とする高速な多言語音声クローンシステムです。短い音声サンプルからリアルタイムで…

#CLI #GPU対応 #Python

★ 151 ⑂ 23 Apache-2.0 2026-04-19

ComfyUI

GitHub

ComfyUI-FFmpeg

ComfyUI-FFmpegは、FFmpegの一般的な機能をComfyUIのカスタムノードとして提供し、ユーザーがComfyUI上で様々な動画…

#ComfyUI対応 #FFmpeg要インストール #GPU対応

★ 146 ⑂ 21 Apache-2.0 2026-05-02

音楽生成

GitHub

VODER

VODERは、ローカルで動作し、無料で利用できるプロフェッショナルグレードの音声処理ツールです。音声認識、テキスト…

#CLI #Colab対応 #GPU対応

★ 119 ⑂ 11 AGPL-3.0 2026-06-20

ASR / 音声認識

GitHub

subforge

SubForgeは、動画字幕制作を再現性のあるAIパイプラインに変えるために設計されたRust製のコマンドラインインターフ…

#CLI #GPU対応 #Python

★ 93 ⑂ 10 MIT 2026-06-01

AIエージェント

GitHub

aithy

Aithyは、ユーザーのローカルマシン上で安全に動作し、有用なコンテキストを記憶し、データをユーザーの管理下に置く…

#CLI #GPU対応 #Linux

★ 91 ⑂ 4 Apache-2.0 2026-05-26

LLM

GitHub

FeatureBench

FeatureBenchは、複雑な機能開発におけるエージェント型コーディングのベンチマーキングを目的とした、テスト駆動型…

#CLI #Docker #GPU対応

★ 76 ⑂ 8 MIT 2026-06-13

ASR / 音声認識

GitHub

Aria

AriaはWindows向けのAI音声入力ツールで、Qwen3-ASRを基盤とし、全ての音声処理をローカルで完結します。特徴として…

#AI #GPU対応 #Python 3.12

★ 71 ⑂ 12 Apache-2.0 2026-06-10

音声生成 / TTS

GitHub

BlueTTS

Blueは、ONNX Runtimeを活用した高速なオープンソースのテキスト読み上げ（TTS）推論ツールです。Python 3.12以降を…

#CLI #GPU対応 #ONNX Runtime

★ 71 ⑂ 10 MIT 2026-04-30

音声生成 / TTS

GitHub

omnivoice-server

omnivoice-serverは、OmniVoiceテキスト読み上げモデルのOpenAI互換HTTPサーバーです。OpenAIのTTSエンドポイントの…

#CLI #GPU対応 #OpenAI互換

★ 68 ⑂ 22 MIT 2026-06-26

ASR / 音声認識

GitHub

echocut

echocutは、生の映像素材をコマンド一つでブランドに合わせたプラットフォーム最適化済み動画に変換するローカルファ…

#Apple Silicon対応 #CLI #FFmpeg

★ 63 ⑂ 16 Apache-2.0 2026-06-23

ASR / 音声認識

GitHub

docker-whisper

hwdsl2/docker-whisperは、Docker上で動作する自己ホスト型Whisper音声認識サーバーを提供します。高速なfaster-whis…

#AI/ML #Docker #GPU対応

★ 62 ⑂ 10 NOASSERTION 2026-06-29

ASR / 音声認識

GitHub

mila

Milaは、macOSネイティブのローカル文字起こしアプリケーションです。マイク録音、システムオーディオ録音、会議録音…

#GPU対応 #macOS専用 #ディクテーション

★ 50 ⑂ 3 Apache-2.0 2026-06-25

音声生成 / TTS

GitHub

Emoji-TTS

このプロジェクトは、Irodori-TTSをフォークし、echo-TTSのWeb UIとして機能する、Flow Matchingベースの高性能なテ…

#CLI #GPU対応 #LLM連携

★ 47 ⑂ 5 MIT 2026-05-29

音声生成 / TTS

GitHub

HiggsAudio-Studio

Higgs Audio Studioは、Higgs Audio v3 TTSを基盤としたポータブルなローカルテキスト読み上げ（TTS）ツールです。10…

#GPU対応 #GUI #Pinokio対応

★ 46 ⑂ 5 2026-06-17

画像生成

GitHub

NeveAI

Neve AIは、プライバシーを最優先し、完全にデータ主権を保つローカルAIオーケストレーションエコシステムです。Fast…

#GPU対応 #Python #Web UI

★ 35 ⑂ 2 NOASSERTION 2026-06-18

音声生成 / TTS

GitHub

ElBruno.QwenTTS

このツールは、Qwen3-TTSモデルをONNX形式で利用し、C# .NETアプリケーションからローカルでテキスト音声合成（TTS）…

#C# #CLI #GPU対応

★ 35 ⑂ 5 MIT 2026-06-16

LLM

GitHub

croqtile

Croqtileは、C++向けの低レベル組み込みドメイン固有言語（EDSL）であり、特にDMA（Direct-Memory-Access）のような…

#C++ #DSL #GPU対応

★ 34 ⑂ 5 NOASSERTION 2026-06-23

音声生成 / TTS

GitHub

utmos-pytorch

UTMOS-PyTorchは、音声品質評価モデルUTMOSの非公式なPyTorch実装です。オリジナルのUTMOSが依存するfairseqのインス…

#CLI #GPU対応 #Hugging Face Hub

★ 34 ⑂ 1 MIT 2026-06-06

音声生成 / TTS

GitHub

cosyvoice.cpp

CosyVoice.cppは、CosyVoice3のPython推論パイプラインをC/C++およびGGMLに非公式に移植したプロジェクトです。これ…

#API #CLI #CPU対応

★ 34 ⑂ 9 MIT 2026-06-21

LLM

GitHub

LongParser

LongParserは、プライバシーを重視したドキュメントインテリジェンスエンジンです。PDF、DOCX、PPTX、XLSX、CSVとい…

#Gemini対応 #GPU対応 #LangChain

★ 29 ⑂ 2 NOASSERTION 2026-05-05