3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

AudioStory

★ 302 ⑂ 22 更新: 2025-09-21 GitHubで見る →

#CLI #GPU必須 #LLM連携 #Python #Text-to-Audio #研究用

概要

AudioStoryは、大規模言語モデル（LLM）とText-to-Audio (TTA) システムを統合し、長尺の物語音声生成を可能にする統一フレームワークです。

動画の吹き替え、音声の継続、および複雑な物語音声の合成に対応し、時間的コヒーレンスと感情的トーンの一貫性を保ちます。

LLMが複雑な指示を分解し、文脈に応じたサブタスクに変換することで、強力な指示追従能力を発揮します。

モジュール式のトレーニングパイプラインを不要にするエンドツーエンドの学習と、イベント内セマンティックアラインメントとイベント間一貫性を維持するデカップリングされたブリッジングメカニズムが特徴です。

音声コンテンツの制作者や研究者向けに、長尺の高品質なナラティブオーディオを生成する革新的なツールです。

互換性・特徴

LLM連携
Text-to-Audio
Python
研究用
CLI
GPU必須

基本情報

Stars	302
Forks	22
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

動画Dubbingの実装詳細と使用方法に関する問い合わせ (更新: 2025-09-05 / Inquiry about Video Dubbing Implementation Details and Usage)
AudioStory artifacts (モデル, データセット) をHugging Faceで公開 (更新: 2025-09-02 / Release AudioStory artifacts (models, dataset) on Hugging Face)
/group/40034/gloriayxguo/AudioStory_open とは何ですか？ (更新: 2025-09-02 / whats this /group/40034/gloriayxguo/AudioStory_open)

GitHub: https://github.com/TencentARC/AudioStory

← 全リポジトリ一覧へ