Fine-tuning переоценён для большинства задач

«Нам нужно дообучить модель» — фраза, которую я слышал примерно в каждом втором обсуждении ИИ-проектов. Звучит убедительно. Похоже на серьёзный инженерный подход. Я и сам так думал, пока не потратил несколько недель на эксперименты и не понял: в большинстве случаев это был лишний крюк.

Не потому что fine-tuning не работает. Работает. Но вопрос не в том, работает ли — а в том, нужен ли он вообще в конкретной ситуации.

Откуда берётся эта идея

Логика понятна. Базовая модель не знает специфики вашей компании, не пишет в нужном тоне, иногда галлюцинирует в узкой предметной области. Очевидное решение — дообучить. Залить свои данные, показать модели «правильные» примеры, получить что-то заточенное под задачу.

Я сам шёл этой дорогой. Потратил время на сбор обучающей выборки, разметку, настройку процесса. И в какой-то момент поймал себя на мысли, что результаты с fine-tuning'ом примерно такие же, как с хорошо написанным промптом — только путь в три раза длиннее.

Дело в том, что fine-tuning исторически был нужен, когда модели были слабее. GPT-3 без дообучения плохо держал стиль, плохо следовал сложным инструкциям, не умел последовательно применять правила. Тогда это имело смысл. Но с тех пор базовые модели изменились настолько, что многое из того, что раньше требовало дообучения, сегодня закрывается системным промптом на 500 токенов.

Что делает промпт-инжиниринг, которого люди не замечают

Я поставил себе небольшой эксперимент. Задача — генерировать технические описания продуктов в очень специфическом стиле: коротко, без превосходных степеней, с конкретными характеристиками. Именно тот тип задачи, под который обычно предлагают fine-tuning.

Сначала запустил базовый промпт. Стиль плавал. Потом добавил в системный промпт несколько примеров, явные запреты и конкретные требования к структуре — и результат стал другим. Стабильным, предсказуемым, именно таким, как нужно. Без единого шага в сторону дообучения.

По сути, это few-shot learning прямо в контексте. Модель видит примеры и подстраивается — прямо сейчас, в этом запросе. Без недель подготовки, без инфраструктуры для обучения, без денег на GPU.

И ещё один момент, который часто упускают: если задача меняется — я просто правлю промпт. Fine-tuned модель придётся переобучать заново.

Когда fine-tuning всё-таки нужен

Было бы нечестно сказать, что он не нужен никогда. Есть ситуации, где без него действительно сложно.

Первая — жёсткие требования к латентности и стоимости. Если у вас миллиарды запросов в день, дообучение маленькой модели может оказаться дешевле, чем гонять каждый запрос через большую с длинным системным промптом. Это уже экономика, не качество.

Вторая — когда нужное поведение буквально невозможно описать словами. Есть задачи, где разметить примеры проще, чем сформулировать правило. Медицинская транскрипция с очень специфическими сокращениями, узкоотраслевой жаргон, нестандартные форматы вывода — тут примеры говорят лучше инструкций.

Третья — безопасность и контроль. Fine-tuning можно использовать, чтобы вырезать из модели определённые типы поведения, а не просто запретить их в промпте. Промпт можно обойти. С дообученной моделью это сложнее.

Но это три достаточно специфических случая. Не «у нас корпоративный чат-бот» и не «хочу чтобы модель писала в нашем стиле».

Почему все равно тянутся к дообучению

Я думаю, тут работает несколько механизмов — и не все из них инженерные.

Первый — ощущение контроля. Fine-tuning кажется более «настоящим» решением. Ты что-то обучил, у тебя есть модель с весами, это твоё. Промпт выглядит как временный костыль — хотя на практике работает не хуже.

Второй — недоверие к промптам. Многие видели, как обновление модели ломало устоявшееся поведение. Логика такая: дообучил модель — зафиксировал поведение, оно не изменится. Это отчасти правда. Но это и проблема: базовые модели улучшаются, а ваш fine-tuned чекпойнт стоит на месте.

Третий — инерция. Статьи 2022–2023 годов активно советовали дообучение для всего подряд. Эти советы расползлись по туториалам, курсам, корпоративным гайдлайнам. Индустрия немного отстаёт от реального состояния моделей.

RAG как альтернатива, которую тоже переусложняют

Сделаю небольшое отступление, потому что RAG — отдельный зверь. Его часто ставят в одну строку с fine-tuning'ом как способ «научить модель вашим данным». Но это разные задачи.

RAG нужен, когда у вас есть база знаний, которую физически невозможно уместить в контекст — тысячи документов, актуальная информация. Это про поиск и подстановку нужного куска. Fine-tuning — про изменение поведения модели. Смешивать их без понимания зачем — верный путь к системе, которую потом никто не может нормально отладить.

Я видел такие проекты. Сложная архитектура, оба инструмента применяются одновременно — а задача в итоге решалась промптом с тремя примерами.

Что я делаю теперь

Мой подход простой: сначала пробую решить задачу промптом. Хорошим промптом — с примерами, с явными ограничениями, с указанием что делать в граничных случаях. Трачу на это час-два.

Если результат нестабильный или не дотягивает — смотрю, можно ли добавить RAG, если проблема в нехватке знаний, или улучшить промпт, если проблема в поведении.

Fine-tuning рассматриваю только если первые два шага явно не справляются. За последний год это случилось один раз.

Не говорю что это единственно правильный путь. Но обжёгшись на лишней сложности несколько раз, я теперь предпочитаю начинать с простого и добавлять сложность только когда деваться некуда.