Промпты для изображений: как я перестал получать странных лю

Первые недели работы с Midjourney у меня были примерно одинаковые: пишу что-то вроде "красивый закат над городом", получаю открытку из 2009 года. Пишу "портрет девушки в кафе" — получаю существо с анатомически подозрительными руками. Пишу подробнее — получаю перегруженный винегрет, где всё есть, но ничего не работает.

Потом начал замечать паттерны. Не "правила", а именно паттерны — то, что стабильно даёт нормальный результат, и то, что стабильно всё ломает. Об этом и хочу рассказать.

Модель думает картинками, не предложениями

Это первое, что пришлось принять. Когда пишешь промпт как предложение — "нарисуй осеннюю улицу с мокрой брусчаткой и жёлтыми листьями" — модель читает его примерно как список слов с разным весом. "Осеннюю", "улицу", "мокрую", "брусчатку", "жёлтые листья". Синтаксис практически не важен.

Отсюда следует неочевидное: длинные литературные описания работают хуже коротких точных наборов. Я потратил часа три, пытаясь писать красивые развёрнутые промпты — пока не переключился на структурированные блоки и не увидел разницу за первые пять генераций.

Рабочая структура выглядит так. Сначала главный объект — кто или что в центре изображения. Первые одно-два слова получают максимальный вес, модель фокусируется на них. Дальше — обстановка и контекст: где это происходит, что вокруг, время суток, погода. Потом стиль и визуальный язык — это та часть, которую новички почти всегда пропускают. И в конце технические параметры: освещение, соотношение сторон.

Стиль — это не "красиво нарисуй"

Слово "красиво" в промпте — мусор. Проверил сотни раз. То же самое с "реалистично", "детально", "профессионально". Модель не понимает абстрактных оценок, зато понимает конкретные визуальные референсы.

Вместо "реалистичный портрет" — "editorial photography, 85mm lens, shallow depth of field". Вместо "красивый пейзаж" — "cinematographic wide shot, golden hour, anamorphic lens flare". Вместо размытого "в стиле аниме" — конкретная студия: "Studio Ghibli background art" или "Makoto Shinkai lighting".

Поначалу это казалось шаманством. Но логика простая: модель обучалась на изображениях с тегами и описаниями. "Editorial photography" — это конкретный корпус фотографий с определённой эстетикой, она видела тысячи примеров. "Красиво" — не видела, потому что красота у всех разная.

Я веду текстовый файл, куда записываю стилевые формулировки, давшие хороший результат. Уже около сорока штук. Это, наверное, самый полезный документ в работе с генераторами.

Негативные промпты: где я долго ошибался

Долгое время писал негативные промпты как список всего страшного: "deformed, ugly, bad anatomy, watermark, text, blurry, extra fingers, mutation". Копировал длинные строки из туториалов. Работало плохо.

Дело в том, что длинный негативный промпт размывает внимание модели. Она пытается одновременно избежать пятидесяти вещей и в итоге делает что-то усреднённое и скучное.

Теперь пишу негативный промпт только под конкретную задачу. Портрет — "extra limbs, deformed hands". Пейзаж — "people, watermark". Предметная съёмка — "background clutter, shadows". Не всё сразу, а то, что реально мешает именно в этом типе изображений.

На практике некоторые вещи лучше убрать позитивным промптом, а не негативным. Вместо "no text" в негативном — просто не упоминать ничего текстового в позитивном. Звучит банально, но у меня это реально сократило количество случайных надписей на изображениях.

Итерация важнее идеального первого промпта

Раньше пытался написать идеальный промпт с первого раза. Это ловушка — часами сидел над формулировками и всё равно получал не то.

Сейчас работаю итерациями. Первый запрос — грубый набросок, просто чтобы понять, в какую сторону думает модель. Второй — корректирую стиль или обстановку. Третий — уточняю детали. Обычно к третьей-четвёртой итерации получается что-то близкое к задуманному.

Midjourney для этого удобен: кнопка V позволяет развивать понравившийся вариант, не начиная с нуля. Лучше делать вариации от удачного результата, чем переписывать промпт целиком — модель сохраняет то, что уже работает, и меняет то, что просишь изменить.

С другой стороны, DALL-E 3 интереснее работает с естественным языком — там можно написать "сделай то же самое, но освещение более мрачное" и это сработает. С Midjourney так не выйдет, там нужно переписывать параметры явно.

Когда промпт не работает — скорее всего дело не в словах

Несколько раз я застревал: промпт кажется правильным, итерации идут, а результат всё равно не тот. Научился спрашивать себя не "что не так с промптом", а "правильную ли задачу я поставил".

Одна история. Пытался сгенерировать обложку для поста — "рабочий стол разработчика, несколько экранов с кодом, ночь, неоновый свет". Получал либо слишком стерильные офисные картинки, либо киберпанк-трэш. Потратил итераций двадцать.

Оказалось, задача была сформулирована неправильно. Я хотел передать настроение — сосредоточенность, поздняя работа, что-то личное. Когда переформулировал через настроение, а не через объекты — "programmer lost in thought, late night, single monitor glow, film grain, muted colors" — получил нужное с третьей попытки.

Иногда проблема не в технике, а в том, что ты сам не понимаешь, что именно хочешь увидеть. И модель, как ни странно, это хорошо обнажает.

Генерация изображений — это отдельный навык, не связанный напрямую с умением писать тексты или рисовать. Я потратил на его освоение несколько месяцев и, честно говоря, ещё продолжаю. Но момент, когда начинаешь понимать, почему конкретный промпт дал конкретный результат — а не просто радоваться случайной удаче — это довольно приятная точка. Там и начинается нормальная работа с инструментом.