ASR / 音声認識 GitHub pyvideotrans
pyVideoTransは、動画を多言語に翻訳し、吹き替えと字幕を埋め込むための強力なオープンソースツールです。音声認識…
★ 18.1k ⑂ 2.2k GPL-3.0 2026-06-23
AIエージェント GitHub pentagi
PentAGIは、AI技術を活用して複雑なペネトレーションテストタスクを完全に自律的に実行できる革新的なシステムです。…
★ 17.9k ⑂ 2.4k MIT 2026-06-20
マルチモーダル GitHub Janus
Janus-Seriesは、DeepSeek AIによって開発された、統合されたマルチモーダル理解および生成モデルです。Janus-Proは…
★ 17.8k ⑂ 2.2k MIT 2025-02-01
AIエージェント GitHub SuperAGI
SuperAGIは、実用的な自律型AIエージェントを構築、管理、実行するためのオープンソースフレームワークです。このツ…
★ 17.6k ⑂ 2.2k MIT 2025-01-22
音声生成 / TTS GitHub VideoLingo
VideoLingoは、YouTube動画のダウンロードから翻訳、ローカライズ、吹き替えまでをオールインワンで行うツールです。…
★ 17.6k ⑂ 1.9k Apache-2.0 2026-06-13
3D / NeRF GitHub instant-ngp
「NVlabs/instant-ngp」は、ニューラル放射輝度フィールド(NeRF)や符号付き距離関数(SDF)などを雷のように高速に…
★ 17.5k ⑂ 2.1k NOASSERTION 2026-02-02
動画生成 GitHub Wan2.2
Wan2.2は、オープンで先進的な大規模ビデオ生成モデルWanの主要なアップグレード版です。専門家混合(MoE)アーキテ…
★ 16.4k ⑂ 2.0k Apache-2.0 2026-03-17
AIエージェント GitHub edict
Edictは、中国の古代帝国の統治機構「三省六部制」にインスパイアされた、AIマルチエージェントオーケストレーション…
★ 16.1k ⑂ 1.7k MIT 2026-06-22
画像生成 GitHub stable-diffusion-webui-colab
このリポジトリは、Stable Diffusion WebUIをGoogle Colabで利用するためのもので、DreamBoothやLoRAトレーナーの機…
★ 15.9k ⑂ 2.6k Unlicense 2025-12-16
LLM GitHub browser-harness
Browser Harnessは、大規模言語モデル(LLM)をChrome DevTools Protocolを介して実際のブラウザに直接接続し、ウェ…
★ 15.4k ⑂ 1.4k MIT 2026-06-21
ASR / 音声認識 GitHub vosk-api
Voskは、20以上の言語と方言(日本語含む)に対応したオフライン・オープンソースの音声認識ツールキットです。50MB…
★ 14.9k ⑂ 1.7k Apache-2.0 2026-06-04
LLM GitHub llmware
llmwareは、エンタープライズ向けのRAG(検索拡張生成)パイプライン構築に特化した統合フレームワークです。小規模…
★ 14.8k ⑂ 2.9k Apache-2.0 2026-05-17
マルチモーダル GitHub ms-swift
ms-swiftは、ModelScopeコミュニティが提供する、大規模言語モデル(LLM)およびマルチモーダル大規模言語モデル(ML…
★ 14.6k ⑂ 1.5k Apache-2.0 2026-06-24
画像生成 GitHub Hunyuan3D-2
Tencent-Hunyuan/Hunyuan3D-2は、大規模Hunyuan3D拡散モデルを活用した高解像度3Dアセット生成システムです。Hunyuan…
★ 14.1k ⑂ 1.4k NOASSERTION 2025-10-28
AIエージェント GitHub Vibe-Trading
Vibe-Tradingは、個人トレーダー向けのAI取引エージェントで、ワンコマンドで包括的な取引機能を提供します。永続メ…
★ 14.0k ⑂ 2.6k MIT 2026-06-28
ASR / 音声認識 GitHub sherpa-onnx
sherpa-onnxは、次世代Kaldiとonnxruntimeを基盤とし、インターネット接続なしで動作する多機能なオフライン音声処理…
★ 13.1k ⑂ 1.5k Apache-2.0 2026-06-23
動画生成 GitHub CogVideo
「zai-org/CogVideo」は、テキストや画像から動画を生成する最先端のツールです。CogVideoXシリーズは、テキストから…
★ 12.8k ⑂ 1.3k Apache-2.0 2025-11-04
ASR / 音声認識 GitHub deep-learning-drizzle
「Deep Learning Drizzle」は、ディープラーニング、強化学習、機械学習、コンピュータビジョン、自然言語処理といっ…
★ 12.8k ⑂ 3.0k 2024-10-19
3D / NeRF GitHub Meshroom
Meshroomは、複雑なデータ処理パイプラインを作成、管理、実行するためのオープンソースのノードベースのビジュアル…
★ 12.8k ⑂ 1.2k NOASSERTION 2026-06-27
LLM GitHub Auto-claude-code-research-in-sleep
ARIS (Auto-claude-code-research-in-sleep) は、機械学習研究の自律的な自動化を支援する軽量ツールです。フレーム…
★ 12.7k ⑂ 1.2k MIT 2026-06-28
LLM GitHub txtai
txtaiは、セマンティック検索、LLMオーケストレーション、言語モデルワークフローのためのオールインワンAIフレーム…
★ 12.7k ⑂ 835 Apache-2.0 2026-06-22
音声生成 / TTS GitHub supertonic
Supertonicは、ONNX Runtimeを介してデバイス上で動作する、超高速かつ高品質な多言語テキスト読み上げシステムです…
★ 12.7k ⑂ 1.3k MIT 2026-05-22
ASR / 音声認識 GitHub PaddleSpeech
PaddleSpeechは、PaddlePaddleプラットフォーム上で動作するオープンソースの音声処理ツールキットです。自己教師あ…
★ 12.6k ⑂ 2.0k Apache-2.0 2026-06-21
LLM GitHub LEANN
LEANNは、個人用デバイスで高速、高精度、かつ完全にプライベートなRAG(検索拡張生成)アプリケーションを実現する…
★ 12.6k ⑂ 1.1k MIT 2026-06-26