Microsoftが開発した新しいVibeVoiceモデルが、その驚くべき性能で注目を集めています。
Redditでは、ComfyUIのラッパーを使ったVibeVoiceの導入事例と、その非常に優れた結果が報告されました。
VibeVoiceとは?
VibeVoiceは、Microsoftが開発した最先端の音声生成モデルです。
Redditの投稿によると、ComfyUI向けのラッパーがコミュニティによって提供されており、比較的容易に導入できる環境が整っているようです。
このラッパーに関する詳細情報は、以下のRedditスレッドで確認できます。
WIP2: ComfyUI wrapper for Microsoft’s new VibeVoice
実際の導入と利用状況
投稿者によると、VibeVoiceは提供されたComfyUIラッパーを使用してインストールされたとのことです。
モジュールのフォルダにあるマルチボイスのサンプルワークフローを活用しています。
具体的な利用シナリオとして、GPTに生成させた3人間の会話テキストを基に、3つの1分間のオーディオサンプル(モノラル、44KHz .wav形式)を使用して音声生成を行ったと報告されています。
モデルは7Bサイズが選択されました。
投稿者の環境はGeForce RTX 3060(VRAM 12GB)で、処理には54分を要したとのことです。
VRAMが枯渇するOOMエラーは発生せず、見事に処理を完遂した点が強調されています。
結果は非常に素晴らしく、最初の試行で、一切の編集や再試行なしで得られたものと述べられています。
VibeVoiceに対するコミュニティの反応
このVibeVoiceの導入報告に対し、Redditコミュニティからは様々な反応が寄せられています。
- 投稿者のポケモンコレクションへの言及が見られました。
- Windows環境での動作に関する質問が寄せられました。
- 投稿者からは「はい、問題なく動作しました」との回答がありました。
- しかし、一部ユーザーからはFlash Attentionの欠如によるエラーや、使用しているPython-torch-cudaの組み合わせに関する質問がありました。
- 投稿者の環境は、Pythonバージョン: 3.13.6、PyTorchバージョン: 2.8.0+cu129、xformersバージョン: 0.0.32.post2とのことです。
- Flash-attnのwheel提供を求める声も挙がっています。
- 大統領討論会からの引用を疑うようなユーモラスなコメントもありました。
- 「素晴らしい結果だ!」という称賛の声が上がりました。
- 「17GBの7Bモデルをどうやって12GBのVRAMに収めたのか」という技術的な疑問も提示されています。
参考資料
Blocked
コメント