3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
#HuggingFace対応 (20 repos)
「HuggingFace対応」タグが付いたリポジトリ
← 全リポジトリ
音声生成 / TTS GitHub NeMo
NVIDIA NeMo Speechは、大規模言語モデル、マルチモーダル、音声AI(自動音声認識、Text-to-Speech)向けにNVIDIAが…
★ 17.5k ⑂ 3.5k Apache-2.0 2026-06-24
ASR / 音声認識 GitHub SenseVoice
SenseVoiceは、自動音声認識(ASR)、話者言語識別、音声感情認識、音声イベント検出、そして最新のアップデートでは…
★ 8.7k ⑂ 787 NOASSERTION 2026-06-22
画像生成 GitHub Lance
LanceはByteDanceが開発した30億パラメータのマルチモーダルAIモデルです。単一フレームワーク内で画像および動画の…
★ 1.2k ⑂ 87 Apache-2.0 2026-06-17
LLM GitHub orthrus
Orthrusは、大規模言語モデル(LLM)の推論を高速化するためのデュアルアーキテクチャフレームワークです。自己回帰…
★ 446 ⑂ 19 MIT 2026-05-18
マルチモーダル GitHub VEGA-3D
VEGA-3Dは、「Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding」の公式実装…
★ 418 ⑂ 23 Apache-2.0 2026-06-18
画像生成 GitHub Hallo-Live
Hallo-Liveは、テキスト入力からリアルタイムでアバターのビデオと音声を生成する先進的なフレームワークです。因果…
★ 310 ⑂ 50 MIT 2026-06-24
ASR / 音声認識 GitHub SoulX-Transcriber
SoulX-Transcriberは、複数の話者が登場する対話シナリオにおいて、話者特定(ダイアライゼーション)、タイムスタン…
★ 260 ⑂ 14 Apache-2.0 2026-06-22
画像生成 GitHub MultiWorld
MultiWorldは、マルチエージェント・マルチビュービデオ世界モデルのための統合フレームワークです。複数のエージェ…
★ 237 ⑂ 12 NOASSERTION 2026-05-12
動画生成 GitHub VEFX-Bench
VEFX-Benchは、テキスト駆動型ビデオ編集および視覚効果の総合的な評価ベンチマークです。5,049件のアノテーション付…
★ 214 ⑂ 16 Apache-2.0 2026-05-16
3D / NeRF GitHub WorldStereo
「WorldStereo」は、カメラ制御ビデオ生成と3Dシーン再構築を融合する革新的なフレームワークです。Global-Geometric…
★ 171 ⑂ 8 Apache-2.0 2026-04-24
動画生成 GitHub HiAR
HiARは、階層的な自己回帰型のビデオ生成ツールで、従来のブロックファースト型からステップファースト型へと処理を…
★ 150 ⑂ 6 Apache-2.0 2026-06-19
ASR / 音声認識 GitHub noisekit
noisekitは、自動音声認識(ASR)システムのロバスト性ベンチマークのために、ノイズ層別化された音声データセットを…
★ 45 MIT 2026-06-09
マルチモーダル GitHub GDB
GDB (GraphicDesignBench) は、グラフィックデザインタスクにおけるビジョン言語モデルの性能を評価するためのリアル…
★ 8 ⑂ 1 NOASSERTION 2026-05-05
画像生成 GitHub f1-physics-engine
F1物理エンジンは、F1レースにおける車の動きを言語指示に基づいてビデオ生成するAIツールです。開始フレームと「急…
★ 1 ⑂ 1 MIT 2026-06-06