LLM GitHub PocketFlow-Tutorial-Codebase-Knowledge
このプロジェクトは、AIエージェントがGitHubリポジトリを分析し、コードの仕組みを解説する初心者向けのチュートリ…
★ 12.4k ⑂ 1.4k MIT 2026-05-31
LLM GitHub turbovec
turbovecは、Google ResearchのTurboQuantアルゴリズムに基づきRustで開発された、Pythonバインディングを持つ高速か…
★ 12.4k ⑂ 1.1k MIT 2026-06-10
画像生成 GitHub Awesome-Diffusion-Models
「Awesome-Diffusion-Models」は、拡散モデルに関する最新の研究論文や多様なリソースを網羅的に収集したGitHubリポ…
★ 12.4k ⑂ 1.0k MIT 2024-08-01
画像生成 GitHub HunyuanVideo
HunyuanVideoは、Tencentが開発した大規模動画生成モデルのための体系的なフレームワークです。テキストからの動画生…
★ 12.3k ⑂ 1.3k NOASSERTION 2026-06-29
画像生成 GitHub awesome-ai-painting
このリポジトリは、AI画像生成愛好家である作者が、自身のAI画像生成の経験と知識を共有し、多くの人がAIで絵を描く…
★ 11.8k ⑂ 959 2024-08-14
3D / NeRF GitHub nerfstudio
nerfstudioは、NeRF(Neural Radiance Fields)の作成、学習、テストを簡素化するAPIを提供する、コラボレーションし…
★ 11.7k ⑂ 1.6k Apache-2.0 2025-07-29
ASR / 音声認識 GitHub speechbrain
SpeechBrainは、PyTorchを基盤としたオープンソースのツールキットで、会話型AI(音声アシスタント、チャットボット…
★ 11.6k ⑂ 1.7k Apache-2.0 2026-06-15
音声生成 / TTS GitHub edge-tts
edge-ttsは、Microsoft Edgeのオンラインテキスト読み上げサービスをPythonコードやコマンドラインから利用できるツ…
★ 11.3k ⑂ 1.1k NOASSERTION 2026-03-22
画像生成 GitHub DALLE2-pytorch
このツールは、OpenAIのテキストから画像への合成ニューラルネットワーク「DALL-E 2」をPyTorchで再現したものです。…
★ 11.3k ⑂ 1.1k MIT 2024-05-11
音声生成 / TTS GitHub voice-pro
Voice-Proは、YouTube動画の処理、音声認識、翻訳、テキスト読み上げ、音声クローン、多言語翻訳を統合したAIパワー…
★ 11.0k ⑂ 1.6k GPL-3.0 2025-12-05
マルチモーダル GitHub rerun
Rerunは、マルチモーダルなロボットデータ(画像、点群、変換、時系列、関節状態、ビデオなど)のロギング、クエリ、…
★ 11.0k ⑂ 774 Apache-2.0 2026-06-24
3D / NeRF GitHub nerf
NeRF (Neural Radiance Fields)は、単一シーンの入力ビューを再現し、新しい視点からのレンダリングを可能にするニュ…
★ 10.9k ⑂ 1.4k MIT 2025-04-12
LLM GitHub PocketFlow
Pocket Flowは、わずか100行で記述されたミニマリストなLLM(大規模言語モデル)フレームワークです。依存関係がなく…
★ 10.8k ⑂ 1.2k MIT 2026-03-27
動画生成 GitHub LTX-Video
LTX-Video(現在開発の中心はLTX-2)は、DiTベースの最先端オーディオ・ビデオ基盤モデルで、音声同期ビデオ生成、4K…
★ 10.6k ⑂ 1.1k Apache-2.0 2026-01-05
AIエージェント GitHub hive
Hiveは、プロダクションAI向けのマルチエージェントハーネスで、複雑なビジネスワークフローを効率的に実行するため…
★ 10.6k ⑂ 5.6k Apache-2.0 2026-05-29
動画生成 GitHub ViMax
ViMaxは、単一のコンセプト入力から脚本、絵コンテ、キャラクターデザイン、そして最終的な動画生成まで、動画制作プ…
★ 10.6k ⑂ 1.5k MIT 2026-06-13
画像生成 GitHub openvino
OpenVINO™は、ディープラーニングモデルの最適化とデプロイメントを目的としたオープンソースのソフトウェアツールキ…
★ 10.4k ⑂ 3.3k Apache-2.0 2026-06-23
音声生成 / TTS GitHub KrillinAI
KrillinAIは、AIを活用したビデオの翻訳・吹き替えを可能にする多機能ツールです。ビデオのダウンロード、音声認識、…
★ 10.4k ⑂ 973 GPL-3.0 2026-06-25
音声生成 / TTS GitHub TTS
TTSは、最先端の研究に基づいた高度なText-to-Speech生成ライブラリです。トレーニングの容易さ、速度、品質のバラン…
★ 10.2k ⑂ 1.3k MPL-2.0 2023-11-09
マルチモーダル GitHub InternVL
InternVL Familyは、GPT-4o/GPT-5に匹敵する性能を目指すオープンソースの多モーダル会話モデル群です。特にInternVL…
★ 10.1k ⑂ 788 MIT 2025-09-22
ASR / 音声認識 GitHub RealtimeSTT
RealtimeSTTは、音声アクティビティ検出、高速な文字起こし、リアルタイムテキスト更新、ウェイクワード機能を備えた…
★ 9.9k ⑂ 843 MIT 2026-06-12
音楽生成 GitHub Amphion
Amphionは、音声、音楽、スピーチ生成のためのオープンソースツールキットです。再現可能な研究を支援し、音声生成分…
★ 9.9k ⑂ 819 MIT 2026-03-25
マルチモーダル GitHub pyod
PyOD 3は、表形式、時系列、グラフ、テキスト、画像といった多様なデータ形式に対応した、包括的なPython異常検知ラ…
★ 9.9k ⑂ 1.5k BSD-2-Clause 2026-06-17
ASR / 音声認識 GitHub espnet
ESPnetは、音声認識、音声合成、音声翻訳など、様々なエンドツーエンドの音声処理タスクに対応する包括的なツールキ…
★ 9.9k ⑂ 2.4k Apache-2.0 2026-06-24