ByteDanceのUXOチームが、最先端の画像生成モデル「USO」をオープンソース化しました。IP/ID/Styleの組み合わせをサポートし、より高度なカスタマイズを可能にします。画像生成AIの新たな進化を牽引する注目プロジェクトです。
ByteDanceが開発!画像生成AIの新SOTAモデル「USO」とは
中国の大手テクノロジー企業ByteDanceのUXOチームが、画期的な画像生成モデル「USO(Unified SOTA Optimization)」をオープンソースとして公開しました。
USOは、既存の画像生成技術の最先端(SOTA)をさらに更新する能力を持つとされており、そのコードとデモがGitHubおよびHugging Face Spaceで一般に利用可能となっています。
この新モデルは、特に画像プロンプト(IP)、ID(Identity)、そしてStyle(スタイル)といった複数のカスタマイズ要素を組み合わせることをサポートしています。
これにより、ユーザーはよりきめ細かく、意図通りの画像を生成できる可能性を秘めているようです。
USOの主な特徴とできること
USOの最大の特徴は、複数の画像生成制御要素を統合している点です。
具体的には以下の要素を組み合わせたカスタマイズが可能です。
- IP(Image Prompt): 特定の画像を参考に、その構図や要素を反映した画像を生成します。
- ID(Identity): 特定の人物やオブジェクトのID(特徴)を維持したまま、異なるシチュエーションやスタイルで画像を生成します。
- Style(スタイル): 特定の芸術スタイルやテクスチャを画像に適用します。
これらの組み合わせにより、例えば「特定の人物の顔を維持しつつ、別の画像プロンプトで指定したポーズを取り、さらに水彩画風のスタイルで生成する」といった高度な画像生成が期待できます。
これは、現在の画像生成AIにおけるカスタマイズの自由度を一段と高めるものでしょう。
コードとデモを早速公開
USOは既にGitHubでコードが公開されており、開発者はその仕組みを詳細に確認し、自身のプロジェクトに組み込むことができます。
また、Hugging Face Spaceではデモが公開されており、実際にモデルの機能を試すことが可能です。
これにより、技術的な知識がないユーザーでもUSOがどのような画像生成を実現できるのかを体験できるでしょう。
ユーザーからの反応と今後の期待
今回のUSOのオープンソース化に対し、コミュニティからは早くも高い関心が寄せられています。
特に、画像生成AIの主要ツールの一つである「ComfyUI」への対応を望む声が上がっています。
「ComfyUIへの対応はいつ?」という質問に対し、開発チームは「まだリリースされたばかりのプロジェクトであり、ノードの追加は検討中か、いずれ開発されるだろう」との見方を示しています。
USOがComfyUIのようなツールと統合されれば、より多くのユーザーが簡単にこの新技術を利用できるようになり、画像生成AIの応用範囲がさらに広がるでしょう。
参考資料
GitHub – bytedance/USO: 🔥🔥 Open-sourced unified customization model
コメント