音声生成 / TTS HF Kokoro-82M
Kokoroは、わずか8200万パラメータの軽量ながら、大規模なモデルに匹敵する高品質な音声合成(TTS)を提供するオープ…
❤ 6.4k ↓ 15.8M apache-2.0 2025-04-10
ASR / 音声認識 HF whisper-large-v3
Whisper large-v3は、OpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルです。500万時間以上の学習…
❤ 5.9k ↓ 5.7M apache-2.0 2024-08-12
音声生成 / TTS HF XTTS-v2
XTTS-v2は、Coquiが開発した高度な音声生成モデルです。わずか6秒の短い音声クリップを用いることで、既存の声を17種…
❤ 3.6k ↓ 9.4M other 2023-12-11
マルチモーダル HF sam3
SAM 3は、画像と動画に対してプロンプト可能なセグメンテーションを行う統合基盤モデルです。短いテキスト、点、ボッ…
❤ 2.3k ↓ 1.7M other 2025-11-20
マルチモーダル HF Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
Qwen3.6-35B-A3Bをベースに、拒否応答を極力外したHauhauCS製のGGUF配布モデルです。テキストに加えて画像・動画も扱…
❤ 2.3k ↓ 3.3M apache-2.0 2026-04-17
動画生成 HF HunyuanVideo
HunyuanVideoは、Tencentが公開した大規模な動画生成基盤モデルの実装リポジトリです。PyTorch製のモデル定義、学習…
❤ 2.2k ↓ 902 other 2025-03-06
画像生成 HF stable-diffusion-xl-refiner-1.0
Stability AIが開発した「SD-XL 1.0-refiner」は、テキストプロンプトから画像を生成・変更できる拡散ベースの画像生…
❤ 2.0k ↓ 167.9k openrail++ 2023-09-25
マルチモーダル HF GLM-OCR
GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。数式、表、情報抽出まで対応し…
❤ 1.9k ↓ 3.2M mit 2026-05-19
マルチモーダル HF Qwen3.6-27B
Qwen3.6-27Bは、Hugging Face Transformers形式で提供されるオープンウェイトの大規模マルチモーダルモデルです。画…
❤ 1.8k ↓ 5.6M apache-2.0 2026-04-24
動画生成 HF Wan2.1-T2V-14B
Wan2.1-T2V-14Bは、テキストから高品質な動画を生成する大規模オープンモデルです。480Pと720Pの両方に対応し、動き…
❤ 1.5k ↓ 59.7k apache-2.0 2025-03-12
LLM HF Qwen3-0.6B
Qwen3は、推論、指示追従、エージェント機能、多言語サポートに優れた次世代の大規模言語モデルです。複雑な論理的推…
❤ 1.4k ↓ 27.7M apache-2.0 2025-07-26
マルチモーダル HF Qwen3.6-35B-A3B-GGUF
Qwen3.6-35B-A3B-GGUFは、Unslothが提供するQwen3.6系の量子化モデル配布で、コーディング支援やツール呼び出し、画…
❤ 1.3k ↓ 917.7k apache-2.0 2026-04-20
画像生成 HF Qwen-Image-Edit-2511
Qwen-Image-Edit-2511は、Qwen-Image-Edit-2509を強化した画像編集モデルです。画像ドリフトの軽減、キャラクターの…
❤ 1.1k ↓ 176.3k apache-2.0 2025-12-23
マルチモーダル HF vit-gpt2-image-captioning
`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モ…
❤ 931 ↓ 65.0k apache-2.0 2023-02-27
マルチモーダル HF blip-image-captioning-base
SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モ…
❤ 861 ↓ 2.0M bsd-3-clause 2025-02-03
音声生成 / TTS HF supertonic-3
Supertonic 3は、端末上で完結するローカル推論向けの軽量TTS(音声合成)モデルです。ONNX Runtimeベースで動作し、…
❤ 854 ↓ 51.2k openrail 2026-05-18
動画生成 HF text-to-video-ms-1.7b
本モデルは、テキストの記述に基づいて動画を生成するマルチステージのテキストから動画生成拡散モデルです。約17億…
❤ 666 ↓ 108.4k cc-by-nc-4.0 2023-12-01
マルチモーダル HF BiRefNet
BiRefNetは、高解像度画像向けの二値画像セグメンテーションモデルの公式実装です。背景除去やマスク生成を主用途と…
❤ 600 ↓ 719.6k mit 2026-02-04
マルチモーダル HF segformer_b2_clothes
このツールは、Hugging Faceの`mattmdjaga/segformer_b2_clothes`リポジトリで提供されるSegFormer B2モデルであり、…
❤ 501 ↓ 148.7k other 2025-09-19
動画生成 HF LTX-2.3-GGUF
unsloth/LTX-2.3-GGUFは、LightricksのLTX-2.3をGGUF量子化し、ComfyUI上でローカル実行しやすくした音声付き動画生…
❤ 478 ↓ 300.6k other 2026-04-20
マルチモーダル HF table-transformer-detection
Table Transformer(Table Detection向け)は、PubTables-1Mで学習されたDETR系の表検出モデルで、請求書や論文PDFな…
❤ 425 ↓ 1.7M mit 2023-09-06
3D / NeRF HF HY-Motion-1.0
「HY-Motion 1.0」は、Tencentが開発した、テキストプロンプトから3Dヒューマンモーションを生成するための最先端モ…
❤ 418 ↓ 483 other 2025-12-31
マルチモーダル HF BiomedCLIP-PubMedBERT_256-vit_base_patch16_224
BiomedCLIP-PubMedBERT_256-vit_base_patch16_224は、PubMed Central由来の1500万件の医用画像とキャプション対で事…
❤ 411 ↓ 724.6k mit 2025-01-14
マルチモーダル HF YOLOv8
Ultralytics YOLOv8は、物体検出を中心に、追跡、インスタンスセグメンテーション、画像分類、姿勢推定、OBBまで幅広…
❤ 370 ↓ 9.3k agpl-3.0 2026-06-26