マルチモーダル GitHub X-AnyLabeling
X-AnyLabelingは、Segment Anythingなどの強力なAIモデルを活用し、データラベリングを効率化するツールです。自動ラ…
★ 9.6k ⑂ 1.0k GPL-3.0 2026-06-28
ASR / 音声認識 GitHub inference
Xorbits Inference (Xinference) は、言語、音声認識、マルチモーダルモデルの提供を容易にする強力で多機能なライブ…
★ 9.4k ⑂ 837 Apache-2.0 2026-06-24
マルチモーダル GitHub deeplake
Deep LakeはAIワークロードに特化したデータベースで、深層学習アプリケーション向けのストレージ形式を採用していま…
★ 9.2k ⑂ 717 Apache-2.0 2026-05-21
ASR / 音声認識 GitHub speech_recognition
このPythonライブラリ「SpeechRecognition」は、多様なオンラインおよびオフラインの音声認識エンジンとAPIに対応し…
★ 9.0k ⑂ 2.4k BSD-3-Clause 2026-06-16
マルチモーダル GitHub all-in-rag
このプロジェクト「All-in-RAG」は、大規模言語モデル(LLM)アプリケーション開発者向けのRAG(検索拡張生成)技術…
★ 9.0k ⑂ 4.5k 2026-06-05
マルチモーダル GitHub MobileAgent
Mobile-Agentは、Alibaba GroupのTongyi Labが開発した強力なGUIエージェントファミリーです。デスクトップ、モバイ…
★ 8.9k ⑂ 891 MIT 2026-05-14
3D / NeRF GitHub stable-dreamfusion
Stable-Dreamfusionは、テキストや画像から3Dモデルを生成するDreamfusionのPyTorch実装です。Stable Diffusionを2D…
★ 8.8k ⑂ 770 Apache-2.0 2023-12-10
LLM GitHub KAG
KAGは、OpenSPGエンジンと大規模言語モデル(LLM)を基盤とする、専門ドメインの知識ベース向け論理推論・Q&Aフレー…
★ 8.8k ⑂ 691 Apache-2.0 2026-01-28
LLM GitHub garden-skills
Garden Skillsは、Claude Code、Cursor、CodexなどのAIコーディングエージェント向けに、Webデザイン、知識検索、画…
★ 8.8k ⑂ 1.2k MIT 2026-06-10
音声生成 / TTS GitHub Bert-VITS2
Bert-VITS2は、多言語BERTをVITS2バックボーンに統合したテキスト読み上げ(TTS)システムです。このツールは、高度…
★ 8.8k ⑂ 1.3k AGPL-3.0 2026-06-22
3D / NeRF GitHub awesome-3D-gaussian-splatting
「Awesome 3D Gaussian Splatting」は、3D Gaussian Splatting(3DGS)および関連技術に特化した厳選されたリソース…
★ 8.7k ⑂ 538 MIT 2026-06-26
音楽生成 GitHub introtodeeplearning
MIT 6.S191「Introduction to Deep Learning」の公式コードとソフトウェアラボ資料を提供するリポジトリです。本コー…
★ 8.7k ⑂ 4.5k MIT 2026-01-04
画像生成 GitHub VAR
VARは、拡散モデルの枠を超え、GPTスタイルのアプローチで視覚生成の新たな地平を切り開く最先端の画像生成手法です…
★ 8.7k ⑂ 570 MIT 2025-11-10
マルチモーダル GitHub BentoML
BentoMLは、AIアプリケーションとモデル推論のために最適化されたオンラインサービングシステムを構築するためのPyth…
★ 8.7k ⑂ 978 Apache-2.0 2026-06-22
ASR / 音声認識 GitHub SenseVoice
SenseVoiceは、自動音声認識(ASR)、話者言語識別、音声感情認識、音声イベント検出、そして最新のアップデートでは…
★ 8.7k ⑂ 787 NOASSERTION 2026-06-22
音声生成 / TTS GitHub moonshine
Moonshine Voiceは、開発者向けのオープンソースAIツールキットで、リアルタイムの音声エージェントやアプリケーショ…
★ 8.6k ⑂ 464 NOASSERTION 2026-06-26
画像生成 GitHub imagen-pytorch
lucidrains/imagen-pytorchは、Googleが開発した最先端のText-to-Imageニューラルネットワーク「Imagen」のPyTorch実…
★ 8.4k ⑂ 800 MIT 2024-10-07
動画生成 GitHub Sana
SANAは、NVIDIAが開発した高解像度画像および動画生成のための効率的なコードベースです。線形拡散トランスフォーマ…
★ 8.4k ⑂ 671 Apache-2.0 2026-06-25
ASR / 音声認識 GitHub ASRT_SpeechRecognition
ASRTは、TensorFlow.kerasを基盤とした深層学習ベースの中国語音声認識システムです。深度畳み込みニューラルネット…
★ 8.4k ⑂ 1.9k GPL-3.0 2026-04-10
マルチモーダル GitHub minimind-v
MiniMind-Vは、わずか3ドルと2時間で65MパラメータのビジョンマルチモーダルVLMをゼロから訓練できるプロジェクトで…
★ 8.2k ⑂ 897 Apache-2.0 2026-05-19
画像生成 GitHub nexa-sdk
NexaSDKは、AIモデルをデバイス上で最小限のエネルギーで高速かつスマートに実行するための高性能ローカル推論フレー…
★ 8.1k ⑂ 1.0k Apache-2.0 2026-06-25
画像生成 GitHub PaddleGAN
PaddleGANは、開発者向けに高性能な敵対的生成ネットワーク(GAN)の古典的および最先端の実装を提供するフレームワ…
★ 8.0k ⑂ 1.2k Apache-2.0 2024-07-03
3D / NeRF GitHub LiveTalking
LiveTalkingは、リアルタイムでインタラクティブなストリーミングデジタルヒューマンを作成・操作するためのツールで…
★ 8.0k ⑂ 1.3k Apache-2.0 2026-06-20
音声生成 / TTS GitHub Vision-Agents
StreamのOpen Vision Agentsは、リアルタイムビデオAIを構築するためのマルチモーダルAIエージェントフレームワーク…
★ 8.0k ⑂ 662 Apache-2.0 2026-06-24