Black Forest Labs、Self-Flowで画像・動画・音声生成を改善と発表

AI Research

2026.03.10

Black Forest Labsは、自己教師ありのフローマッチング手法「Self-Flow」を発表しました。

同社は、画像、動画、音声の生成で既存手法を上回る結果を示したとしています。

Self-Flowの概要

Self-Flowは、生成モデルの学習の中に表現学習を統合する仕組みです。

外部モデルや追加の教師信号に依存せず、生成性能と意味表現の両立を狙った構成だと説明されています。

研究ページでは、入力トークンごとに異なるノイズ量を与えるDual-Timestep Schedulingを中核に据えています。

情報量に差を持たせることで、モデルが欠けた情報を推定しながら表現を学べるようにしたという内容です。

Black Forest Labsは、この設計によって画像だけでなく動画や音声にも拡張しやすいと述べました。

公開内容では、Self-Flowは画像生成でFID、動画生成でFVD、音声生成でFADの各指標において比較手法より良好な結果を示したとされています。

特に、単一の4BパラメータのFLUX.2バックボーンで画像、動画、音声を共同学習した実験結果が紹介されました。

その実験では、2億枚の画像、600万本の動画、200万組の音声付き動画を用いた高解像度ファインチューニング結果が掲載されています。

研究ページでは、顔や手の構造整合性、動きの品質、テキスト描画精度の改善も挙げられています。

さらに、モデル規模の拡大に応じて性能差が広がる傾向も示され、スケーリング面でも有効性を訴えています。

Redditでは、外部表現モデルに頼らずマルチモーダル生成を強化する発想を前向きに評価する声が見られました。

とくに、コードまで広く公開されれば既存の画像生成や動画生成の研究開発に大きな影響を与える可能性がある、という見方が出ています。

一方で、研究成果は興味深いものの、実際に利用できる動画モデルや製品としていつ触れられるのかが見えにくいという指摘もありました。

また、一部ではxAI向けライセンスとの関係や、今後の公開範囲に対する懸念も話題になっています。

技術的には有望でも、実装や公開条件まで含めて見極めたいという慎重な反応が混在している状況です。

参考リンク：