3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#HuggingFace対応 (20 repos)

「HuggingFace対応」タグが付いたリポジトリ

← 全リポジトリ

音声生成 / TTS

GitHub

NeMo

NVIDIA NeMo Speechは、大規模言語モデル、マルチモーダル、音声AI（自動音声認識、Text-to-Speech）向けにNVIDIAが…

#GPU必須 #HuggingFace対応 #低遅延

★ 17.5k ⑂ 3.5k Apache-2.0 2026-06-24

ASR / 音声認識

GitHub

SenseVoice

SenseVoiceは、自動音声認識（ASR）、話者言語識別、音声感情認識、音声イベント検出、そして最新のアップデートでは…

#CLI #HuggingFace対応 #ONNX対応

★ 8.7k ⑂ 787 NOASSERTION 2026-06-22

画像生成

GitHub

Lance

LanceはByteDanceが開発した30億パラメータのマルチモーダルAIモデルです。単一フレームワーク内で画像および動画の…

#GPU必須 #HuggingFace対応 #Python

★ 1.2k ⑂ 87 Apache-2.0 2026-06-17

LLM

GitHub

orthrus

Orthrusは、大規模言語モデル（LLM）の推論を高速化するためのデュアルアーキテクチャフレームワークです。自己回帰…

#CLI #Colab対応 #GPU必須

★ 446 ⑂ 19 MIT 2026-05-18

マルチモーダル

GitHub

VEGA-3D

VEGA-3Dは、「Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding」の公式実装…

#CLI #GPU必須 #HuggingFace対応

★ 418 ⑂ 23 Apache-2.0 2026-06-18

画像生成

GitHub

Hallo-Live

Hallo-Liveは、テキスト入力からリアルタイムでアバターのビデオと音声を生成する先進的なフレームワークです。因果…

#GPU必須 #HuggingFace対応 #リアルタイム

★ 310 ⑂ 50 MIT 2026-06-24

ASR / 音声認識

GitHub

SoulX-Transcriber

SoulX-Transcriberは、複数の話者が登場する対話シナリオにおいて、話者特定（ダイアライゼーション）、タイムスタン…

#AI/LLM #HuggingFace対応 #Python

★ 260 ⑂ 14 Apache-2.0 2026-06-22

画像生成

GitHub

MultiWorld

MultiWorldは、マルチエージェント・マルチビュービデオ世界モデルのための統合フレームワークです。複数のエージェ…

#CLI #Conda環境 #GPU必須

★ 237 ⑂ 12 NOASSERTION 2026-05-12

動画生成

GitHub

VEFX-Bench

VEFX-Benchは、テキスト駆動型ビデオ編集および視覚効果の総合的な評価ベンチマークです。5,049件のアノテーション付…

#CLI #GPU必須 #HuggingFace対応

★ 214 ⑂ 16 Apache-2.0 2026-05-16

3D / NeRF

GitHub

WorldStereo

「WorldStereo」は、カメラ制御ビデオ生成と3Dシーン再構築を融合する革新的なフレームワークです。Global-Geometric…

#3D再構築 #GPU必須 #HuggingFace対応

★ 171 ⑂ 8 Apache-2.0 2026-04-24

動画生成

GitHub

HiAR

HiARは、階層的な自己回帰型のビデオ生成ツールで、従来のブロックファースト型からステップファースト型へと処理を…

#CLI #GPU必須 #HuggingFace対応

★ 150 ⑂ 6 Apache-2.0 2026-06-19

ASR / 音声認識

GitHub

noisekit

noisekitは、自動音声認識（ASR）システムのロバスト性ベンチマークのために、ノイズ層別化された音声データセットを…

#ASRベンチマーク #CLI #HuggingFace対応

★ 45 MIT 2026-06-09

マルチモーダル

GitHub

GDB

GDB (GraphicDesignBench) は、グラフィックデザインタスクにおけるビジョン言語モデルの性能を評価するためのリアル…

#Anthropic対応 #CLI #Gemini対応

★ 8 ⑂ 1 NOASSERTION 2026-05-05

画像生成

GitHub

f1-physics-engine

F1物理エンジンは、F1レースにおける車の動きを言語指示に基づいてビデオ生成するAIツールです。開始フレームと「急…

#CLI #GPU必須 #HuggingFace対応

★ 1 ⑂ 1 MIT 2026-06-06