Как я учился разговаривать с генераторами изображений

Первые три месяца я получал мусор. Серьёзно — вводил что-то вроде "красивый закат над городом" и получал размытое месиво с шестью пальцами на переднем плане. Думал, что проблема в модели. Оказалось, проблема была в том, как я формулировал запросы.

Потом я случайно наткнулся на чужой промпт в одном Discord-сервере. Там было что-то вроде: "cinematic shot, golden hour, Tokyo skyline, shot on Sony A7, f/1.8, shallow depth of field, muted tones". Результат был другим. Не идеальным, но другим. Я начал разбираться, почему.

Модель не читает мысли — она читает слова

Генератор не пытается угадать, что я имею в виду. Он буквально берёт слова и ищет паттерны. Поэтому "красивый" — бесполезное слово. Красивый для кого? В каком стиле? При каком освещении?

Я начал думать о промпте как о техническом задании для фотографа, которому нельзя задать уточняющие вопросы. Всё, что не написано — он придумает сам. Не так, как я хочу.

Конкретный пример. Я хотел портрет пожилого рыбака. Написал "old fisherman portrait" — получил стоковую фотографию дедушки с удочкой на белом фоне. Переписал: "weathered fisherman, 70s, deep wrinkles, salt-stained jacket, overcast morning light, Norwegian coast, documentary photography style" — и получил совсем другую картинку. Примерно ту, которую и представлял.

Структура, которую я использую

Я не придумал её сам — собрал из разных источников и подогнал под себя.

Сначала — субъект: кто или что главное в кадре. Потом окружение и контекст. Затем стиль и техника. В конце — настроение.

На практике это значит: не "девушка в кафе", а "young woman reading, small Parisian café, afternoon light through window, film photography, Kodak Portra 400, warm tones, quiet atmosphere". Второй вариант оставляет меньше пространства для случайных решений. Модель всё равно что-то додумает — но уже в рамках, которые я задал.

Дело в том, что порядок слов тоже имеет значение. То, что стоит в начале промпта, обычно весит больше. Если стиль важнее деталей — ставлю стиль первым.

Где я обжёгся с негативными промптами

В Stable Diffusion есть негативный промпт — список того, чего не должно быть на картинке. Я потратил часа три, пытаясь через него исправить кривые руки и размытые лица. Добавлял "bad hands, deformed fingers, blurry face, low quality" — ничего особо не менялось.

Потом понял: негативный промпт работает не как "исправлялка", а как превентивная мера. Если изначально написать детальный позитивный промпт с указанием качества — "sharp focus, high detail, professional photography" — то негативный нужен меньше. Он помогает, но не спасает плохой основной запрос.

Ещё одна ловушка — слишком длинный негативный промпт. Я видел шаблоны на 200 слов, где люди запрещали буквально всё подряд. Это начинает конфликтовать с позитивным промптом, и результат становится хуже.

Числа, имена и технические термины работают лучше прилагательных

Это открытие изменило мои промпты сильнее всего. Вместо "профессиональная фотография" — "shot on Canon 5D Mark IV". Вместо "красивое освещение" — "golden hour, rim lighting". Вместо "в стиле живописи" — "in the style of Edward Hopper" или "oil painting, impasto technique".

Модели обучены на огромных массивах изображений с подписями, и в этих подписях были конкретные имена фотографов, художников, камер, объективов. Поэтому "Ansel Adams style" даёт более предсказуемый результат, чем "black and white landscape photography with dramatic contrast" — хотя второе описание технически точнее.

Я держу небольшой список: художники, фотографы, кинооператоры, чей стиль мне нравится и которые хорошо работают в промптах. Не потому что хочу копировать — а потому что это быстрый способ задать направление.

Итерация важнее идеального промпта с первого раза

Самая большая ошибка в начале — я пытался написать идеальный промпт сразу. Сидел, редактировал, добавлял детали, снова редактировал. Потом запускал и расстраивался.

Сейчас делаю иначе. Пишу базовый промпт, смотрю что получилось, нахожу что не так и меняю одну-две вещи. Не всё сразу. Так понимаешь, что именно влияет на результат.

Однажды я пытался получить конкретное освещение — мягкий рассеянный свет, как в пасмурный день. Добавил "overcast lighting" — не то. Добавил "diffused light, soft shadows" — чуть лучше. Попробовал "cloudy day, flat lighting, no harsh shadows" — вот это уже близко. Если бы я менял всё сразу, я бы не понял, что именно сработало.

Генерация изображений — это не поиск правильного заклинания. Это диалог с инструментом, у которого есть своя логика. Чем больше работаешь с ним, тем лучше понимаешь, где он предсказуем, а где нет. И честно говоря, непредсказуемость — это иногда лучшее, что в нём есть.