3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#GPU対応 (91 repos)

「GPU対応」タグが付いたリポジトリ

← 全リポジトリ

マルチモーダル
HF
vit-gpt2-image-captioning
`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モ…
❤ 931 ↓ 65.0k apache-2.0 2023-02-27
マルチモーダル
HF
blip-image-captioning-base
SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モ…
❤ 861 ↓ 2.0M bsd-3-clause 2025-02-03
動画生成
GitHub
forge-film
Forgeは、AIによる映画生成プロセス全体を自動化するツールです。ユーザーが作成した物語を依存関係グラフ(DAG)に…
★ 643 ⑂ 10 MIT 2026-03-26
マルチモーダル
HF
YOLOv8
Ultralytics YOLOv8は、物体検出を中心に、追跡、インスタンスセグメンテーション、画像分類、姿勢推定、OBBまで幅広…
❤ 370 ↓ 9.3k agpl-3.0 2026-06-26
音声生成 / TTS
GitHub
kokoclone
KokoCloneは、Kokoro-ONNXを基盤とする高速な多言語音声クローンシステムです。短い音声サンプルからリアルタイムで…
★ 151 ⑂ 23 Apache-2.0 2026-04-19
ComfyUI
GitHub
ComfyUI-FFmpeg
ComfyUI-FFmpegは、FFmpegの一般的な機能をComfyUIのカスタムノードとして提供し、ユーザーがComfyUI上で様々な動画…
★ 146 ⑂ 21 Apache-2.0 2026-05-02
音楽生成
GitHub
VODER
VODERは、ローカルで動作し、無料で利用できるプロフェッショナルグレードの音声処理ツールです。音声認識、テキスト…
★ 119 ⑂ 11 AGPL-3.0 2026-06-20
ASR / 音声認識
GitHub
subforge
SubForgeは、動画字幕制作を再現性のあるAIパイプラインに変えるために設計されたRust製のコマンドラインインターフ…
★ 93 ⑂ 10 MIT 2026-06-01
AIエージェント
GitHub
aithy
Aithyは、ユーザーのローカルマシン上で安全に動作し、有用なコンテキストを記憶し、データをユーザーの管理下に置く…
★ 91 ⑂ 4 Apache-2.0 2026-05-26
LLM
GitHub
FeatureBench
FeatureBenchは、複雑な機能開発におけるエージェント型コーディングのベンチマーキングを目的とした、テスト駆動型…
★ 76 ⑂ 8 MIT 2026-06-13
ASR / 音声認識
GitHub
Aria
AriaはWindows向けのAI音声入力ツールで、Qwen3-ASRを基盤とし、全ての音声処理をローカルで完結します。特徴として…
★ 71 ⑂ 12 Apache-2.0 2026-06-10
音声生成 / TTS
GitHub
BlueTTS
Blueは、ONNX Runtimeを活用した高速なオープンソースのテキスト読み上げ(TTS)推論ツールです。Python 3.12以降を…
★ 71 ⑂ 10 MIT 2026-04-30
音声生成 / TTS
GitHub
omnivoice-server
omnivoice-serverは、OmniVoiceテキスト読み上げモデルのOpenAI互換HTTPサーバーです。OpenAIのTTSエンドポイントの…
★ 68 ⑂ 22 MIT 2026-06-26
ASR / 音声認識
GitHub
echocut
echocutは、生の映像素材をコマンド一つでブランドに合わせたプラットフォーム最適化済み動画に変換するローカルファ…
★ 63 ⑂ 16 Apache-2.0 2026-06-23
ASR / 音声認識
GitHub
docker-whisper
hwdsl2/docker-whisperは、Docker上で動作する自己ホスト型Whisper音声認識サーバーを提供します。高速なfaster-whis…
★ 62 ⑂ 10 NOASSERTION 2026-06-29
ASR / 音声認識
GitHub
mila
Milaは、macOSネイティブのローカル文字起こしアプリケーションです。マイク録音、システムオーディオ録音、会議録音…
★ 50 ⑂ 3 Apache-2.0 2026-06-25
音声生成 / TTS
GitHub
Emoji-TTS
このプロジェクトは、Irodori-TTSをフォークし、echo-TTSのWeb UIとして機能する、Flow Matchingベースの高性能なテ…
★ 47 ⑂ 5 MIT 2026-05-29
音声生成 / TTS
GitHub
HiggsAudio-Studio
Higgs Audio Studioは、Higgs Audio v3 TTSを基盤としたポータブルなローカルテキスト読み上げ(TTS)ツールです。10…
★ 46 ⑂ 5 2026-06-17
画像生成
GitHub
NeveAI
Neve AIは、プライバシーを最優先し、完全にデータ主権を保つローカルAIオーケストレーションエコシステムです。Fast…
★ 35 ⑂ 2 NOASSERTION 2026-06-18
音声生成 / TTS
GitHub
ElBruno.QwenTTS
このツールは、Qwen3-TTSモデルをONNX形式で利用し、C# .NETアプリケーションからローカルでテキスト音声合成(TTS)…
★ 35 ⑂ 5 MIT 2026-06-16
LLM
GitHub
croqtile
Croqtileは、C++向けの低レベル組み込みドメイン固有言語(EDSL)であり、特にDMA(Direct-Memory-Access)のような…
★ 34 ⑂ 5 NOASSERTION 2026-06-23
音声生成 / TTS
GitHub
utmos-pytorch
UTMOS-PyTorchは、音声品質評価モデルUTMOSの非公式なPyTorch実装です。オリジナルのUTMOSが依存するfairseqのインス…
★ 34 ⑂ 1 MIT 2026-06-06
音声生成 / TTS
GitHub
cosyvoice.cpp
CosyVoice.cppは、CosyVoice3のPython推論パイプラインをC/C++およびGGMLに非公式に移植したプロジェクトです。これ…
★ 34 ⑂ 9 MIT 2026-06-21
LLM
GitHub
LongParser
LongParserは、プライバシーを重視したドキュメントインテリジェンスエンジンです。PDF、DOCX、PPTX、XLSX、CSVとい…
★ 29 ⑂ 2 NOASSERTION 2026-05-05