3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

AudioStory

★ 302 ⑂ 22 更新: 2025-09-21 GitHubで見る →

概要

AudioStoryは、大規模言語モデル(LLM)とText-to-Audio (TTA) システムを統合し、長尺の物語音声生成を可能にする統一フレームワークです。

動画の吹き替え、音声の継続、および複雑な物語音声の合成に対応し、時間的コヒーレンスと感情的トーンの一貫性を保ちます。

LLMが複雑な指示を分解し、文脈に応じたサブタスクに変換することで、強力な指示追従能力を発揮します。

モジュール式のトレーニングパイプラインを不要にするエンドツーエンドの学習と、イベント内セマンティックアラインメントとイベント間一貫性を維持するデカップリングされたブリッジングメカニズムが特徴です。

音声コンテンツの制作者や研究者向けに、長尺の高品質なナラティブオーディオを生成する革新的なツールです。

互換性・特徴

  • LLM連携
  • Text-to-Audio
  • Python
  • 研究用
  • CLI
  • GPU必須

基本情報

Stars302
Forks22
カテゴリ音声生成 / TTS
アクティビティmid

最新のissue

GitHub: https://github.com/TencentARC/AudioStory