Восемь месяцев назад я отлаживал скрипт, который тянул данные из CRM, и попросил Claude помочь с SQL-запросом. Скопировал пример — а там реальные имена клиентов, телефоны, суммы сделок. Просто потому что так было быстрее, чем придумывать фейковые данные.
Потом сидел и думал: а куда это всё ушло? Обучается ли на этом модель? Видит ли это кто-то из OpenAI или Anthropic? Ответов я не нашёл, и ощущение было неприятным. С тех пор стал аккуратнее.
Что реально происходит с твоими данными
Сам долго в этом разбирался.
Если у тебя обычный аккаунт ChatGPT — бесплатный или платный — диалоги по умолчанию могут использоваться для улучшения моделей. Это написано в условиях использования, но кто их читает. Отключается просто: Settings → Data Controls → Improve the model for everyone. Я это сделал сразу, как узнал.
С API картина другая. OpenAI и Anthropic заявляют, что данные через API не используются для обучения. Но это не значит, что данные нигде не хранятся — какое-то время они лежат на серверах ради мониторинга безопасности и отладки.
Корпоративные тарифы вроде ChatGPT Enterprise и Claude for Work дают более жёсткие гарантии: данные изолированы, для обучения не применяются, есть соглашения об обработке. Если работаешь с чем-то серьёзным — это другой разговор.
Но честно: даже зная всё это, я не могу на сто процентов верить, что мои данные в безопасности. Это просто факт, с которым приходится жить.
Где я реально облажался
Помимо той истории с базой данных, были и другие моменты.
Однажды попросил ChatGPT помочь написать письмо партнёру — и вставил в промпт реальное название компании, имя человека и детали переговоров. Чтобы письмо звучало конкретно. Сработало, письмо вышло нормальным. Но потом задумался: а если бы это были данные под NDA?
Ещё был случай с кодом. Отлаживал интеграцию с платёжным сервисом и скинул в Claude кусок конфига — прямо с API-ключами. Сам не заметил. Claude, кстати, сам на это указал и попросил убрать чувствительные данные. Это меня немного успокоило, но ключи я всё равно сразу поменял.
Что я теперь делаю по-другому
Главное правило: перед тем как вставить что-то в промпт, трачу полминуты и спрашиваю себя — а что здесь лишнего?
Имена клиентов заменяю на «Клиент А» или просто «компания». Реальные цифры — на округлённые или выдуманные. Если показываю структуру данных, хватает одной-двух строк с фейковыми значениями, а не целого дампа таблицы.
С кодом поступаю просто: перед тем как скопировать кусок в чат, пробегаю глазами строки с api_key, password, token. Это секунд десять — и уже несколько раз меня спасало.
Для чувствительных рабочих задач предпочитаю API напрямую или переформулирую задачу так, чтобы не передавать конкретику: «помоги написать запрос для такой-то структуры» вместо «вот моя таблица users, почини запрос».
Отдельная история про корпоративный контекст
В компаниях всё сложнее. Многие уже ввели политики по использованию ИИ-инструментов, и некоторые из них довольно жёсткие. Я слышал о случаях, когда людей серьёзно наказывали за отправку внутренних документов в публичные чат-боты.
Самый известный пример — Samsung в 2023 году. Несколько инженеров слили в ChatGPT конфиденциальный код и внутренние данные. После этого компания запретила внешние ИИ-инструменты на рабочих устройствах.
Не говорю, что нужно параноить. Но если в твоей компании есть политика на этот счёт — лучше её знать. А если нет — возможно, стоит поднять этот вопрос.
Инструменты, которые помогают
Оllama позволяет запустить что-то вроде Llama или Mistral прямо на своём компьютере. Качество ниже, чем у GPT-4 или Claude, но для задач вроде «объясни этот кусок кода» или «напиши unit-тест» хватает. И данные никуда не уходят.
Есть браузерные расширения, которые предупреждают о чувствительных данных в буфере обмена. Сам не пользуюсь, но видел, как коллеги применяют.
Корпоративные решения с локальным развёртыванием — это уже отдельная тема.
Честно говоря, не думаю, что нужно бояться ChatGPT или Claude. Полезные инструменты, пользуюсь каждый день. Но та история с базой данных научила одному простому правилу: прежде чем нажать Enter, потрать десять секунд и посмотри, что именно ты отправляешь. Обычно этого достаточно.
