Я отправил в ChatGPT кусок рабочей базы данных. Вот что из э

Восемь месяцев назад я отлаживал скрипт, который тянул данные из CRM, и попросил Claude помочь с SQL-запросом. Скопировал пример — а там реальные имена клиентов, телефоны, суммы сделок. Просто потому что так было быстрее, чем придумывать фейковые данные.

Потом сидел и думал: а куда это всё ушло? Обучается ли на этом модель? Видит ли это кто-то из OpenAI или Anthropic? Ответов я не нашёл, и ощущение было неприятным. С тех пор стал аккуратнее.

Что реально происходит с твоими данными

Сам долго в этом разбирался.

Если у тебя обычный аккаунт ChatGPT — бесплатный или платный — диалоги по умолчанию могут использоваться для улучшения моделей. Это написано в условиях использования, но кто их читает. Отключается просто: Settings → Data Controls → Improve the model for everyone. Я это сделал сразу, как узнал.

С API картина другая. OpenAI и Anthropic заявляют, что данные через API не используются для обучения. Но это не значит, что данные нигде не хранятся — какое-то время они лежат на серверах ради мониторинга безопасности и отладки.

Корпоративные тарифы вроде ChatGPT Enterprise и Claude for Work дают более жёсткие гарантии: данные изолированы, для обучения не применяются, есть соглашения об обработке. Если работаешь с чем-то серьёзным — это другой разговор.

Но честно: даже зная всё это, я не могу на сто процентов верить, что мои данные в безопасности. Это просто факт, с которым приходится жить.

Где я реально облажался

Помимо той истории с базой данных, были и другие моменты.

Однажды попросил ChatGPT помочь написать письмо партнёру — и вставил в промпт реальное название компании, имя человека и детали переговоров. Чтобы письмо звучало конкретно. Сработало, письмо вышло нормальным. Но потом задумался: а если бы это были данные под NDA?

Ещё был случай с кодом. Отлаживал интеграцию с платёжным сервисом и скинул в Claude кусок конфига — прямо с API-ключами. Сам не заметил. Claude, кстати, сам на это указал и попросил убрать чувствительные данные. Это меня немного успокоило, но ключи я всё равно сразу поменял.

Что я теперь делаю по-другому

Главное правило: перед тем как вставить что-то в промпт, трачу полминуты и спрашиваю себя — а что здесь лишнего?

Имена клиентов заменяю на «Клиент А» или просто «компания». Реальные цифры — на округлённые или выдуманные. Если показываю структуру данных, хватает одной-двух строк с фейковыми значениями, а не целого дампа таблицы.

С кодом поступаю просто: перед тем как скопировать кусок в чат, пробегаю глазами строки с api_key, password, token. Это секунд десять — и уже несколько раз меня спасало.

Для чувствительных рабочих задач предпочитаю API напрямую или переформулирую задачу так, чтобы не передавать конкретику: «помоги написать запрос для такой-то структуры» вместо «вот моя таблица users, почини запрос».

Отдельная история про корпоративный контекст

В компаниях всё сложнее. Многие уже ввели политики по использованию ИИ-инструментов, и некоторые из них довольно жёсткие. Я слышал о случаях, когда людей серьёзно наказывали за отправку внутренних документов в публичные чат-боты.

Самый известный пример — Samsung в 2023 году. Несколько инженеров слили в ChatGPT конфиденциальный код и внутренние данные. После этого компания запретила внешние ИИ-инструменты на рабочих устройствах.

Не говорю, что нужно параноить. Но если в твоей компании есть политика на этот счёт — лучше её знать. А если нет — возможно, стоит поднять этот вопрос.

Инструменты, которые помогают

Оllama позволяет запустить что-то вроде Llama или Mistral прямо на своём компьютере. Качество ниже, чем у GPT-4 или Claude, но для задач вроде «объясни этот кусок кода» или «напиши unit-тест» хватает. И данные никуда не уходят.

Есть браузерные расширения, которые предупреждают о чувствительных данных в буфере обмена. Сам не пользуюсь, но видел, как коллеги применяют.

Корпоративные решения с локальным развёртыванием — это уже отдельная тема.

Честно говоря, не думаю, что нужно бояться ChatGPT или Claude. Полезные инструменты, пользуюсь каждый день. Но та история с базой данных научила одному простому правилу: прежде чем нажать Enter, потрать десять секунд и посмотри, что именно ты отправляешь. Обычно этого достаточно.