3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#CLI (1751 repos)

「CLI」タグが付いたリポジトリ

← 全リポジトリ

音声生成 / TTS

Kokoro-82M

Kokoroは、わずか8200万パラメータの軽量ながら、大規模なモデルに匹敵する高品質な音声合成（TTS）を提供するオープ…

#Apache License #CLI #Python

❤ 6.4k ↓ 15.8M apache-2.0 2025-04-10

ASR / 音声認識

whisper-large-v3

Whisper large-v3は、OpenAIが開発した最先端の自動音声認識（ASR）および音声翻訳モデルです。500万時間以上の学習…

#CLI #GPU必須 #Hugging Face Transformers対応

❤ 5.9k ↓ 5.7M apache-2.0 2024-08-12

音声生成 / TTS

XTTS-v2

XTTS-v2は、Coquiが開発した高度な音声生成モデルです。わずか6秒の短い音声クリップを用いることで、既存の声を17種…

#CLI #GPU必須 #Python

❤ 3.6k ↓ 9.4M other 2023-12-11

マルチモーダル

sam3

SAM 3は、画像と動画に対してプロンプト可能なセグメンテーションを行う統合基盤モデルです。短いテキスト、点、ボッ…

#CLI #GPU推奨

❤ 2.3k ↓ 1.7M other 2025-11-20

マルチモーダル

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

Qwen3.6-35B-A3Bをベースに、拒否応答を極力外したHauhauCS製のGGUF配布モデルです。テキストに加えて画像・動画も扱…

#CLI #GGUF #GPU推奨

❤ 2.3k ↓ 3.3M apache-2.0 2026-04-17

動画生成

HunyuanVideo

HunyuanVideoは、Tencentが公開した大規模な動画生成基盤モデルの実装リポジトリです。PyTorch製のモデル定義、学習…

#CLI #ComfyUI対応 #GPU必須

❤ 2.2k ↓ 902 other 2025-03-06

画像生成

stable-diffusion-xl-refiner-1.0

Stability AIが開発した「SD-XL 1.0-refiner」は、テキストプロンプトから画像を生成・変更できる拡散ベースの画像生…

#CLI #GPU必須 #Image-to-Image

❤ 2.0k ↓ 167.9k openrail++ 2023-09-25

マルチモーダル

GLM-OCR

GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。数式、表、情報抽出まで対応し…

#CLI #OCR

❤ 1.9k ↓ 3.2M mit 2026-05-19

マルチモーダル

Qwen3.6-27B

Qwen3.6-27Bは、Hugging Face Transformers形式で提供されるオープンウェイトの大規模マルチモーダルモデルです。画…

#CLI #GPU必須 #SGLang対応

❤ 1.8k ↓ 5.6M apache-2.0 2026-04-24

動画生成

Wan2.1-T2V-14B

Wan2.1-T2V-14Bは、テキストから高品質な動画を生成する大規模オープンモデルです。480Pと720Pの両方に対応し、動き…

#CLI #GPU必須

❤ 1.5k ↓ 59.7k apache-2.0 2025-03-12

LLM

Qwen3-0.6B

Qwen3は、推論、指示追従、エージェント機能、多言語サポートに優れた次世代の大規模言語モデルです。複雑な論理的推…

#CLI #Hugging Face Transformers #LLM

❤ 1.4k ↓ 27.7M apache-2.0 2025-07-26

マルチモーダル

Qwen3.6-35B-A3B-GGUF

Qwen3.6-35B-A3B-GGUFは、Unslothが提供するQwen3.6系の量子化モデル配布で、コーディング支援やツール呼び出し、画…

#CLI #GGUF #SGLang対応

❤ 1.3k ↓ 917.7k apache-2.0 2026-04-20

画像生成

Qwen-Image-Edit-2511

Qwen-Image-Edit-2511は、Qwen-Image-Edit-2509を強化した画像編集モデルです。画像ドリフトの軽減、キャラクターの…

#CLI #GPU必須 #Python

❤ 1.1k ↓ 176.3k apache-2.0 2025-12-23

マルチモーダル

vit-gpt2-image-captioning

`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モ…

#CLI #GPU対応 #画像キャプション生成

❤ 931 ↓ 65.0k apache-2.0 2023-02-27

マルチモーダル

blip-image-captioning-base

SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モ…

#CLI #CPU対応 #GPU対応

❤ 861 ↓ 2.0M bsd-3-clause 2025-02-03

音声生成 / TTS

supertonic-3

Supertonic 3は、端末上で完結するローカル推論向けの軽量TTS（音声合成）モデルです。ONNX Runtimeベースで動作し、…

#CLI #CPU対応

❤ 854 ↓ 51.2k openrail 2026-05-18

動画生成

text-to-video-ms-1.7b

本モデルは、テキストの記述に基づいて動画を生成するマルチステージのテキストから動画生成拡散モデルです。約17億…

#CLI #GPU必須 #Python

❤ 666 ↓ 108.4k cc-by-nc-4.0 2023-12-01

マルチモーダル

BiRefNet

BiRefNetは、高解像度画像向けの二値画像セグメンテーションモデルの公式実装です。背景除去やマスク生成を主用途と…

#CLI #GPU必須 #Hugging Face対応

❤ 600 ↓ 719.6k mit 2026-02-04

マルチモーダル

segformer_b2_clothes

このツールは、Hugging Faceの`mattmdjaga/segformer_b2_clothes`リポジトリで提供されるSegFormer B2モデルであり、…

#CLI #GPU推奨

❤ 501 ↓ 148.7k other 2025-09-19

動画生成

LTX-2.3-GGUF

unsloth/LTX-2.3-GGUFは、LightricksのLTX-2.3をGGUF量子化し、ComfyUI上でローカル実行しやすくした音声付き動画生…

#CLI #ComfyUI対応 #GGUF

❤ 478 ↓ 300.6k other 2026-04-20

マルチモーダル

table-transformer-detection

Table Transformer（Table Detection向け）は、PubTables-1Mで学習されたDETR系の表検出モデルで、請求書や論文PDFな…

#CLI #表検出

❤ 425 ↓ 1.7M mit 2023-09-06

3D / NeRF

HY-Motion-1.0

「HY-Motion 1.0」は、Tencentが開発した、テキストプロンプトから3Dヒューマンモーションを生成するための最先端モ…

#CLI #GPU必須 #Linux対応

❤ 418 ↓ 483 other 2025-12-31

マルチモーダル

BiomedCLIP-PubMedBERT_256-vit_base_patch16_224

BiomedCLIP-PubMedBERT_256-vit_base_patch16_224は、PubMed Central由来の1500万件の医用画像とキャプション対で事…

#CLI #GPU推奨 #Hugging Face

❤ 411 ↓ 724.6k mit 2025-01-14

マルチモーダル

YOLOv8

Ultralytics YOLOv8は、物体検出を中心に、追跡、インスタンスセグメンテーション、画像分類、姿勢推定、OBBまで幅広…

#CLI #Docker対応 #GPU対応

❤ 370 ↓ 9.3k agpl-3.0 2026-06-26