高速TTS「Kokoro」にボイスクローン機能を追加する「KokoClone」が登場。日本語を含む8言語に対応

オープンソースの高速音声合成エンジン「Kokoro-TTS」をベースに、ボイスクローン機能を統合した「KokoClone」が公開された。

このプロジェクトは、数秒の参照音声から特定の声を複製する「ゼロショット・ボイスクローン」を、リアルタイムに近い速度で実現することを目指している。

高速TTSを活用した「KokoClone」の概要と主な機能

KokoCloneは、最適化されたニューラルTTSエンジンである「Kokoro-ONNX」を基盤に構築されている。

GitHubのリポジトリに公開された情報によると、3秒から10秒程度の短いリファレンスオーディオ（.wav形式）をアップロードするだけで、その声の質感を維持したまま任意のテキストを読み上げることが可能とのこと。

主な特徴として、軽量なONNXランタイムを採用しているため、標準的なノートPCのCPU環境でもスムーズに動作する点が挙げられる。

対応言語は日本語をはじめ、英語、中国語、フランス語、ヒンディー語、イタリア語、ポルトガル語、スペイン語の計8言語。

開発者は、ボイスアシスタントのプロトタイプ作成やコンテンツ制作、リアルタイムのデモといった用途での活用を想定している模様。

システムは、発音や感情表現を制御するKokoro-TTS層と、声の音色を転送するボイスクローン層の2段階で構成されている。

ライセンスはApache 2.0の下で配布されており、ソースコードのほか、Hugging Face上ではWebブラウザから試せるデモも公開中。

インストールにはPython環境が必要で、コマンドラインインターフェース（CLI）やGradioベースのWebUI、さらにはPython APIを介した組み込みにも対応しているとのこと。

Redditのコミュニティでは、セットアップの容易さや動作速度に対して「素晴らしい」「非常に興味深い」といった肯定的な意見が寄せられている。

一方で、現状の品質や導入の難易度に関する懸念も散見される。

特にWindows環境において、日本語処理に必要なライブラリ「pyopenjtalk」のインストールが困難であるとの指摘がある。

また、言語ごとの品質差についても報告されており、「英語のクローン精度は高いが、ヒンディー語は意味をなさない」「スペイン語を話させると英語訛りになる」といった不満の声も上がっている様子。

一部のユーザーからは「RVC（Retrieval-based Voice Conversion）と比較すると品質が劣る」という厳しい評価もあり、既存の高度な学習済みモデルと比べると、あくまで速度と手軽さを重視したツールであると言えそうだ。

さらに、ライブデモ版でエラーが発生する報告や、日本語対応でありながら「Kokoro」という単語の発音が不自然であるといった細かなバグを指摘する投稿も確認されている。

今後のアップデートにより、こうした多言語対応の精度向上やライブラリの依存関係の整理が進むかどうかが、普及の鍵を握ると推測される。

参考リンク：