ByteDanceが画像生成AIの新SOTAモデル「USO」をオープンソース化!IP/ID/Style統合で何が変わる?

ByteDanceのUXOチームが、最先端の画像生成モデル「USO」をオープンソース化しました。IP/ID/Styleの組み合わせをサポートし、より高度なカスタマイズを可能にします。画像生成AIの新たな進化を牽引する注目プロジェクトです。

ByteDanceが開発!画像生成AIの新SOTAモデル「USO」とは

中国の大手テクノロジー企業ByteDanceのUXOチームが、画期的な画像生成モデル「USO(Unified SOTA Optimization)」をオープンソースとして公開しました。

USOは、既存の画像生成技術の最先端(SOTA)をさらに更新する能力を持つとされており、そのコードとデモがGitHubおよびHugging Face Spaceで一般に利用可能となっています。

この新モデルは、特に画像プロンプト(IP)、ID(Identity)、そしてStyle(スタイル)といった複数のカスタマイズ要素を組み合わせることをサポートしています。

これにより、ユーザーはよりきめ細かく、意図通りの画像を生成できる可能性を秘めているようです。

USOの主な特徴とできること

USOの最大の特徴は、複数の画像生成制御要素を統合している点です。

具体的には以下の要素を組み合わせたカスタマイズが可能です。

  • IP(Image Prompt): 特定の画像を参考に、その構図や要素を反映した画像を生成します。
  • ID(Identity): 特定の人物やオブジェクトのID(特徴)を維持したまま、異なるシチュエーションやスタイルで画像を生成します。
  • Style(スタイル): 特定の芸術スタイルやテクスチャを画像に適用します。

これらの組み合わせにより、例えば「特定の人物の顔を維持しつつ、別の画像プロンプトで指定したポーズを取り、さらに水彩画風のスタイルで生成する」といった高度な画像生成が期待できます。

これは、現在の画像生成AIにおけるカスタマイズの自由度を一段と高めるものでしょう。

コードとデモを早速公開

USOは既にGitHubでコードが公開されており、開発者はその仕組みを詳細に確認し、自身のプロジェクトに組み込むことができます。

また、Hugging Face Spaceではデモが公開されており、実際にモデルの機能を試すことが可能です。

これにより、技術的な知識がないユーザーでもUSOがどのような画像生成を実現できるのかを体験できるでしょう。

ユーザーからの反応と今後の期待

今回のUSOのオープンソース化に対し、コミュニティからは早くも高い関心が寄せられています。

特に、画像生成AIの主要ツールの一つである「ComfyUI」への対応を望む声が上がっています。

「ComfyUIへの対応はいつ?」という質問に対し、開発チームは「まだリリースされたばかりのプロジェクトであり、ノードの追加は検討中か、いずれ開発されるだろう」との見方を示しています。

USOがComfyUIのようなツールと統合されれば、より多くのユーザーが簡単にこの新技術を利用できるようになり、画像生成AIの応用範囲がさらに広がるでしょう。

参考資料

元記事

GitHub – bytedance/USO: 🔥🔥 Open-sourced unified customization model

USO – a Hugging Face Space by bytedance-research

コメント

タイトルとURLをコピーしました