Размытая фраза о боге бури, сломанном копье, красной луне. На стороне Wukong эта расплывчатость превращается в координаты в латентном пространстве, где слова переводятся в векторы, кодирующие стиль, настроение и иконографию. Вместо воображения система опирается на статистику: на закономерности совместной встречаемости, выученные априорные представления и нечто вроде визуальной грамматики мифа.
Внутри системы генеративная модель рассматривает изображение как структурированный шум и шаг за шагом ведет его к порядку. Диффузионные процессы как бы обращают рост энтропии вспять, понемногу подправляя случайные пиксели, пока они не начнут соответствовать вероятностному распределению, заданному текстом. Механизм внимания выступает в роли переговорщика: он решает, насколько сильно каждый токен — от «дракона» до «пыли» — должен влиять на каждый участок сетки изображения.
Согласованность, ахиллесова пята многих творческих систем, здесь решается как геометрическая задача. Похожие запросы проецируются в близкие области одного и того же многообразия, поэтому повторяющийся герой сохраняет черты лица и палитру доспехов от сцены к сцене. Токены стиля, подсказки по ракурсу камеры и композиции формуют это многообразие, а температура семплирования и коэффициент направляющего сигнала регулируют, насколько сильно будет проявляться случайность по сравнению с точностью следования запросу. В итоге то, что кажется мифическим вдохновением, на самом деле оказывается системой вероятностных ограничений, прорисованных по одному пикселю.