Локальные LLM против облачных: я несколько месяцев тестирова

Полгода назад я застрял на задаче, которая казалась простой. Несколько сотен договоров — найти конкретные условия, сравнить, вытащить ключевые пункты. Для LLM это хлеб. Проблема в другом: документы под NDA, а закидывать их в ChatGPT — значит отправлять конфиденциальный текст на серверы OpenAI в США. Юристы сказали нет. Я начал разбираться в альтернативах и застрял в этой теме надолго.

Попробовал оба пути. Облако — удобно и мощно, но данные уходят куда-то туда. Локальный запуск — данные у тебя, зато сразу куча вопросов: какую модель, на чём запускать, что вообще умеет эта штука без GPT-4 за спиной. Здесь я не собираюсь говорить «вам нужно выбрать X». Расскажу, что увидел сам.

Где реально находятся ваши данные в облаке

Это то, что я сам понял не сразу. «Облачный ИИ» — не одна история. OpenAI, Anthropic, Google — у каждого свои условия. Когда я внимательно прочитал политику OpenAI именно для API (не для сайта ChatGPT, а для API), выяснилось: данные по умолчанию не используются для обучения моделей. Это важный нюанс, который многие путают.

Дело в том, что проблема не только в обучении. Данные физически проходят через их серверы. Для большинства задач это нормально. Для части бизнесов — нет. Медицинские данные пациентов, персональные данные под GDPR, закрытая финансовая отчётность, государственные контракты — здесь облако создаёт реальный регуляторный риск, а не гипотетический.

Я разговаривал с одним финтех-стартапом. Они хотели встроить GPT-4 в обработку заявок на кредит. Юристы сели, посмотрели на условия обработки данных и поставили условие: либо DPA с чёткими гарантиями, либо нет. OpenAI такой договор даёт через Enterprise-тариф. Решаемо, но это деньги и бюрократия.

Что значит «локально» на практике

Когда я первый раз запустил Llama через Ollama на своём MacBook, было ощущение какой-то магии — модель работает, никуда ничего не уходит, интернет отключён. Потом пришло трезвение.

Локальный запуск бывает очень разным. На ноутбуке с 16 ГБ памяти нормально идёт что-то вроде Mistral 7B или Llama 3.1 8B в квантизованном виде. Рабочие модели для многих задач: суммаризация, классификация, несложные вопросы по документу. Но если нужна мощь уровня GPT-4o — нужен другой масштаб. Несколько GPU, серьёзный сервер, человек, который это настроит и поддержит.

Я потратил пару недель, чтобы поднять локальный стек для той задачи с договорами. Ollama плюс Open WebUI на старом рабочем сервере с видеокартой, модель — Mixtral 8x7B. Справилась примерно на 80% от того, что делает GPT-4 на похожих задачах. Для юридического анализа это иногда ок, иногда не хватает — зависит от сложности документа.

На практике главное вот что: «безопасность» локального варианта реальна, но она требует, чтобы сам сервер был безопасным. Если Ollama с моделью крутится на машине без нормального файрвола, с открытым портом наружу — это дыра, просто другого рода.

Где облако выигрывает и почему я его не бросил

Честно — для большинства своих задач я всё равно пользуюсь облачными API. Причина простая: качество и скорость. Когда нужно написать текст, разобрать сложный аргумент, сгенерировать код с нюансами — GPT-4o или Claude Sonnet делают это лучше, чем всё локальное, что я пробовал. Не на 5%, а заметно.

Облако выигрывает и по надёжности. Не нужно думать о железе, обновлениях, дисках. Просто работает. Для задач, где данные не чувствительные — черновики, мозговые штурмы, работа с публичной информацией — я не вижу смысла городить локальный огород.

Есть ещё момент, который часто упускают. Облачные провайдеры инвестируют в безопасность инфраструктуры несравнимо больше, чем любой средний бизнес может потратить на свой сервер. SOC 2, ISO 27001, penetration testing — у крупных провайдеров это есть. У самодельного сервера в серверной комнате — скорее всего нет.

Гибридный подход: как я в итоге это развязал

Для той задачи с договорами я пришёл к схеме, которую теперь использую как шаблон. Логика простая: чувствительные данные — локально, всё остальное — в облако.

Конкретно это выглядело так. Первичное извлечение и анонимизация текста — локальная модель. Она вытаскивала структуру, заменяла имена и реквизиты на плейсхолдеры. Дальше уже анонимизированный текст шёл в GPT-4 для сложного анализа. Юристы согласились: NDA не нарушается, потому что идентифицирующей информации в запросе нет.

Это не идеальное решение для всех случаев. Но для многих — рабочее. И оно дешевле, чем тянуть полноценный GPU-кластер только ради того, чтобы не трогать облако.

Что реально важно при выборе

Делать таблицу с галочками не буду — это скучно и обманчиво точно. Лучше честно: выбор зависит от одного вопроса, который нужно задать себе первым. Не «что безопаснее», а «какие конкретно данные я буду обрабатывать и что по этому поводу говорит регулятор».

Если у тебя SaaS для B2B без медицины и финансов — облако с нормальным API и DPA, скорее всего, закроет все вопросы. Если клиника, юридическая фирма или государственный контракт — локальный вариант или хотя бы гибрид становятся необходимостью, а не паранойей.

Напоследок одно наблюдение. Большинство историй про «у нас утекли данные через ИИ», которые я видел — это не взлом OpenAI. Это сотрудники, которые сами скопировали закрытый документ в ChatGPT без ведома компании. Локальная модель эту проблему не решает — она решается политиками и обучением людей. Но хорошая политика начинается с понимания, где физически оказываются данные. Вот с этого и стоит начинать разговор.