AIエージェント GitHub Upsonic
Upsonicは、Pythonで自律型AIエージェントや従来のAIエージェントを構築するためのフレームワークです。大規模言語モ…
★ 7.9k ⑂ 737 MIT 2026-06-18
音声生成 / TTS GitHub vits
VITSは、エンドツーエンドのテキスト読み上げ(Text-to-Speech, TTS)システムであり、条件付き変分オートエンコーダ…
★ 7.9k ⑂ 1.4k MIT 2023-12-06
画像生成 GitHub Dreambooth-Stable-Diffusion
本リポジトリは、GoogleのDreamboothのアイデアをStable Diffusionに実装したものです。従来のTextual Inversionが単…
★ 7.7k ⑂ 799 MIT 2022-12-08
ASR / 音声認識 GitHub OmniVoice-Studio
OmniVoice Studioは、オープンソースのElevenLabs代替ツールです。リアルタイムディクテーション、3秒の音声クリップ…
★ 7.7k ⑂ 1.2k NOASSERTION 2026-06-28
LLM GitHub Horizon
Horizonは、AIを活用して個人のニュースレーダーを構築し、日報形式のブリーフィングを英語と中国語で提供するツール…
★ 7.6k ⑂ 1.1k MIT 2026-06-28
画像生成 GitHub lora
このツールは、拡散モデル(特にStable Diffusion)を効率的にファインチューニングするためのLow-rank adaptation (…
★ 7.5k ⑂ 493 Apache-2.0 2024-03-22
音声生成 / TTS GitHub MeloTTS
MeloTTSは、MITとMyShell.aiによって開発された、高品質な多言語テキスト読み上げライブラリです。英語(複数アクセ…
★ 7.5k ⑂ 1.1k MIT 2024-12-24
画像生成 GitHub mmagic
MMagic (OpenMMLab Multimodal Advanced, Generative, and Intelligent Creation Toolbox)は、テキストから画像生成…
★ 7.4k ⑂ 1.1k Apache-2.0 2024-08-06
AIエージェント GitHub ShortGPT
ShortGPTは、YouTubeショートやTikTokチャンネルの自動化に特化したAIビデオ自動化フレームワークです。LLM指向の編…
★ 7.4k ⑂ 1.0k MIT 2025-02-10
ASR / 音声認識 GitHub mlx-audio
MLX-Audioは、AppleのMLXフレームワークを基盤とし、Apple Silicon (Mシリーズチップ) に最適化された高速で効率的な…
★ 7.4k ⑂ 650 MIT 2026-06-19
LLM GitHub InternLM
InternLMは、汎用的な利用と高度な推論のために設計された大規模言語モデル(LLM)シリーズです。最新のInternLM3-8B…
★ 7.2k ⑂ 507 Apache-2.0 2025-10-30
LLM GitHub opencompass
OpenCompassは、大規模言語モデル(LLM)の評価を効率的かつ正確に行うための包括的なプラットフォームです。強力な…
★ 7.1k ⑂ 793 Apache-2.0 2026-06-24
AIエージェント GitHub text-to-cad
このツールは、コーディングエージェント(Codex、Claude Codeなど)を使用して3Dモデルを生成するためのオープンソ…
★ 7.0k ⑂ 833 MIT 2026-06-27
AIエージェント GitHub Bindu
Binduは、AIエージェントのためのアイデンティティ、通信、決済レイヤーを提供するプラットフォームです。エージェン…
★ 7.0k ⑂ 408 NOASSERTION 2026-06-22
ASR / 音声認識 GitHub wav2letter
wav2letter++は、Facebook AI Researchが開発した自動音声認識(ASR)ツールキットです。現在はFlashlightフレームワ…
★ 6.4k ⑂ 992 NOASSERTION 2026-01-12
画像生成 GitHub StyleTTS2
StyleTTS 2は、テキストから人間レベルの自然な音声を合成する最新のText-to-Speech(TTS)モデルです。スタイル拡散…
★ 6.3k ⑂ 690 MIT 2024-08-10
ASR / 音声認識 GitHub PaddleX
PaddleX 3.0は、飛桨(PaddlePaddle)フレームワークを基盤とした低コード開発ツールです。200以上の開箱即用な事前…
★ 6.2k ⑂ 1.2k Apache-2.0 2026-06-25
LLM GitHub atomic-agents
Atomic Agentsは、AIパイプラインとアプリケーションを構築するための軽量でモジュール式のフレームワークです。LEGO…
★ 6.0k ⑂ 514 MIT 2026-06-20
ASR / 音声認識 GitHub silero-models
Silero Modelsは、事前学習済みのテキスト読み上げ(TTS)モデルを開発者向けに提供するライブラリです。このツール…
★ 6.0k ⑂ 366 NOASSERTION 2026-06-04
ASR / 音声認識 GitHub FunClip
FunClipは、オープンソースで高精度かつ使いやすい動画クリッピングツールです。Alibaba TONGYIのFunASR Paraformer…
★ 5.9k ⑂ 705 MIT 2026-06-25
画像生成 GitHub LatentSync
LatentSyncは、音声入力に基づいて動画のリップシンクを生成する、エンドツーエンドの革新的な手法です。既存のピク…
★ 5.8k ⑂ 952 Apache-2.0 2025-06-20
動画生成 GitHub Awesome-Video-Diffusion
「Awesome Video Diffusion」は、動画生成、編集、復元、理解、NeRFなど、動画関連の多岐にわたるタスクに対応する最…
★ 5.7k ⑂ 365 2026-06-16
画像生成 GitHub DALLE-pytorch
このリポジトリは、OpenAIのDALL-E(テキストから画像を生成するTransformerモデル)をPyTorchで実装・再現したもの…
★ 5.6k ⑂ 643 MIT 2024-02-17
画像生成 GitHub SUPIR
SUPIR(Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild)…
★ 5.6k ⑂ 469 NOASSERTION 2025-05-12