3,616 repos GH 3,501 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#音声処理 (14 repos)

「音声処理」タグが付いたリポジトリ

← 全リポジトリ

音楽生成

GitHub

VODER

VODERは、ローカルで動作し、無料で利用できるプロフェッショナルグレードの音声処理ツールです。音声認識、テキスト…

#CLI #Colab対応 #GPU対応

★ 119 ⑂ 11 AGPL-3.0 2026-06-28

マルチモーダル

GitHub

guardian-sdk

Ethicore Engine™ — Guardian SDKは、Python製のLLMおよびエージェントアプリケーション向けの、リアルタイム脅威検…

#AIセキュリティ #LLM #Python

★ 109 ⑂ 11 NOASSERTION 2026-06-28

ASR / 音声認識

GitHub

diarize

diarizeは、音声ファイルから「誰がいつ話したか」を自動的に識別するPython製のスピーカーダイアリゼーションツール…

#CLI #CPUのみ #Python

★ 91 ⑂ 8 Apache-2.0 2026-05-06

マルチモーダル

audio-flamingo-next-hf

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。音声Q&A、文字…

#CLI #GPU推奨 #Python

❤ 56 ↓ 7.8k other 2026-05-13

音声生成 / TTS

GitHub

voice-agents-from-scratch

「Voice agents from scratch」は、Pythonでリアルタイム音声エージェントをゼロから構築するための実践的なチュート…

#CLI #Python #ストリーミング

★ 36 ⑂ 3 MIT 2026-05-03

ComfyUI

GitHub

vibevoice.swift

VibeVoice.swiftは、macOSおよびLinux上でリアルタイム音声処理を実現するアプリケーションです。SwiftとMLXを活用し…

#GUI #Linux #リアルタイム処理

★ 9 ⑂ 1 MIT 2026-07-03

ComfyUI

GitHub

OpenShot-ComfyUI

OpenShot-ComfyUIは、人気動画編集ソフトOpenShot向けに開発されたComfyUIノードのセットです。OpenShotとAIモデルの…

#AIモデル活用 #ComfyUI対応 #OpenShot連携

★ 8 ⑂ 2 GPL-3.0 2026-04-16

マルチモーダル

GitHub

OmniMemo

OmniMemoは、MiMo V2.5 全スタックモデルを基盤とした多モーダル会議インテリジェントエージェントです。最大の特長…

#AI/LLM #CLI #Python

★ 3 MIT 2026-06-01

画像生成

GitHub

muapi-python

MuAPIの公式Python SDKで、画像、動画、音声の生成、AIによる画像強化、背景除去、動画編集（リップシンク）、ファイ…

#AI / Machine Learning #API Client #Python

★ 2 ⑂ 1 MIT 2026-06-18

音声生成 / TTS

GitHub

VoxKitchen

VoxKitchenは、生の音声録音をクリーンで検査可能なトレーニングデータセットに変換するための、宣言型音声データ処…

#AIデータセット準備 #CLI #Docker

★ 2 Apache-2.0 2026-06-23

ASR / 音声認識

GitHub

AI-Voice-Receptionist

AI Voice Receptionistは、Pythonで構築された完全なリアルタイム、フルデュプレックスのAI音声受付システムです。ロ…

#CLI #LLM連携 #Python

★ 1 2026-06-04

ASR / 音声認識

GitHub

Welcome-to-the-Narthex-Transcripts

このツールは「Welcome to the Narthex」ポッドキャストのエピソードから、OpenAI Whisperでトランスクリプト（文字…

#CLI #GPU必須 #LLM活用

★ 1 NOASSERTION 2026-05-27