※記事内のリンクには広告(PR)を含む場合があります。

画像生成AIの新星「ZetaChroma」開発進行中 3倍の生成速度とAI Toolkit対応に期待

画像生成AI界隈で高い評価を得ている開発者Lodestones氏が、新たなオープンソースモデル「ZetaChroma」の開発を進めていることが明らかになりました。

このプロジェクトには、学習ツール「AI Toolkit」の開発者として知られるOstris氏もテストに協力しており、コミュニティから大きな注目を集めています。

ピクセル空間での推論を採用した次世代モデル「ZetaChroma」の概要

ZetaChromaは、既存の人気モデル「Z-Image」をベースに、強力ながらも扱いが難しいとされてきた「Chroma」のデータセットを用いて再学習を施したモデルです。

技術的な最大の特徴は、従来のZ-ImageのようにVAE(変分オートエンコーダー)を必要とせず、pixNerd手法を用いたピクセル空間での推論を実行する点にあります。

開発に携わるPetiteKawa00x氏によれば、このアーキテクチャの採用により、生成速度は従来のZ-Imageと比較して最大3倍に達する可能性があるとのこと。

現在はHugging Face上で初期段階のモデルが公開されており、1〜2週間以内には実用的なレベルに到達し、非常に高速なトレーニングが進んでいるとの見通しも示されています。

Ostris氏によるAI Toolkitへの統合と学習の効率化

Discord内でのやり取りから、Ostris氏がすでにZetaChromaをAI Toolkitへ実装するためのテストを開始していることが判明しました。

これにより、ユーザーはLoRA(Low-Rank Adaptation)学習などを通じて、この新モデルを自身の用途に最適化することが容易になると期待されています。

一方で、別モデル「Klein」において、学習データのフィルタリング不備が原因と思われる意図しない描写の生成といった課題も議論されています。

Ostris氏はこれらの事象について、特定の部位を「消去」するように学習させた結果、逆バイアスが生じて不自然な描写が誘発されているのではないかと推測しています。

ZetaChromaにおいては、こうした既存モデルの反省を活かしたデータセットの構築と、学習精度の向上が図られるかが成功の鍵を握るでしょう。

ZetaChromaのポテンシャルに対するSNSの反応

Redditを中心としたコミュニティでは、このプロジェクトに対して期待と懸念が入り混じった複雑な反応が見られます。

肯定的な意見としては、「もし完成すればオープンソース界で最高のモデルになるだろう」「ComfyUI関連の助成金が活かされている」といった、Lodestones氏の技術力を信頼する声が多く寄せられています。

特に生成速度の向上や、これまでのChromaモデルが持っていた深い知識が、より扱いやすい形で提供されることへの期待感は非常に高いようです。

一方で、慎重な姿勢を崩さないユーザーも少なくありません。

「過去のChroma Radianceのように、大きな期待を背負いながら普及しなかった例もある」との指摘や、モデルの安定性を疑問視する声も上がっています。

また、従来のChroma系モデルが非常に長く詳細なプロンプトを要求する傾向にあったため、「ZetaChromaでも同様にプロンプト入力の難易度が高いのではないか」という懸念も示されています。

ハードウェア要件の高さや、ローカルLLMを併用したプロンプト生成の手間を懸念し、現時点では他の軽量なモデルを支持する意見も散見されます。

参考リンク:https://www.reddit.com/r/StableDiffusion/comments/1rkky97/ostris_is_testing_lodestones_zetachroma_zimage_x/

タイトルとURLをコピーしました