Какие данные нельзя отправлять в AI: полный чеклист
Пароли, ключи API, персональные данные, медицинские записи и код — разбираем, что категорически запрещено вводить в ChatGPT, Claude и другие AI-сервисы, и как правильно анонимизировать информацию перед отправкой
Тип материала: research
Почему вопрос безопасности данных в AI стал критическим
В 2025 году более 80 процентов офисных работников в развитых странах хотя бы раз использовали генеративный AI в рабочих целях. По данным исследования Cyberhaven, около 11 процентов данных, которые сотрудники вставляют в ChatGPT, являются конфиденциальными. Это означает, что миллионы единиц чувствительной информации ежедневно покидают корпоративные периметры безопасности и попадают на серверы AI-компаний без какого-либо контроля.
Проблема усугубляется тем, что большинство пользователей воспринимают AI-чатбот как приватный инструмент — нечто вроде личного блокнота или калькулятора. В действительности каждый запрос к облачному AI-сервису — это передача данных третьей стороне. Данные покидают ваше устройство, передаются по сети, обрабатываются на удалённых серверах и потенциально сохраняются на неопределённый срок.
Эта статья представляет собой исчерпывающий чеклист: какие категории данных нельзя отправлять в AI-сервисы ни при каких обстоятельствах, какие — можно при определённых условиях, и какие методы анонимизации помогут вам безопасно использовать AI для работы с чувствительной информацией.
Категория 1: учётные данные и секреты доступа
Первая и самая очевидная категория запрещённых данных — любые секреты доступа. Это включает пароли от любых аккаунтов, ключи API (OpenAI, AWS, Google Cloud, Stripe и любые другие), токены авторизации (OAuth, JWT, bearer-токены), приватные SSH-ключи, сертификаты SSL/TLS, строки подключения к базам данных с логинами и паролями, секреты вебхуков и любые другие аутентификационные данные.
Казалось бы, зачем кому-то отправлять пароль в ChatGPT? Однако это происходит регулярно в контексте отладки. Разработчик копирует конфигурационный файл с переменными окружения, чтобы спросить, почему приложение не запускается. В файле содержится DATABASE_URL с логином и паролем, API_KEY для платёжного сервиса и SECRET_KEY приложения. Один запрос — и все секреты оказались на серверах AI-провайдера.
Даже если AI-компания обещает не использовать данные для обучения, утечка может произойти из-за взлома серверов, ошибки в системе или действий инсайдеров. В январе 2024 года Microsoft подтвердила, что группа хакеров Midnight Blizzard получила доступ к корпоративной почте компании. Аналогичные инциденты могут затронуть любого AI-провайдера.
Категория 2: персональные данные
Персональные данные — вторая критическая категория. Согласно российскому Федеральному закону 152-ФЗ «О персональных данных» и европейскому регламенту GDPR, к персональным данным относится любая информация, по которой можно идентифицировать конкретного человека. Отправка таких данных в AI-сервис может являться нарушением законодательства.
Полный перечень запрещённых персональных данных включает: полные имена в связке с другими идентификаторами, номера паспортов и других удостоверений личности, СНИЛС, ИНН, номера водительских удостоверений, адреса проживания и регистрации, номера телефонов и адреса электронной почты конкретных людей, даты рождения, биометрические данные (фотографии лица, отпечатки пальцев, образцы голоса), данные о расовой и этнической принадлежности, политических взглядах, религиозных убеждениях и состоянии здоровья.
Особую осторожность следует проявлять с так называемыми «специальными категориями» персональных данных, которые получают усиленную защиту по закону. К ним относятся медицинские диагнозы, результаты анализов, информация о лечении, данные о судимостях, генетические и биометрические данные, сведения об интимной жизни.
Категория 3: финансовая информация
Финансовые данные требуют строжайшей защиты, и их отправка в AI-сервисы создаёт серьёзные риски. К запрещённой финансовой информации относятся: номера банковских карт (полные или частичные), CVV-коды, данные банковских счетов (номер счёта, БИК, корреспондентский счёт), PIN-коды, данные для входа в интернет-банк, налоговые декларации и финансовая отчётность с конфиденциальными показателями, зарплатные ведомости с именами сотрудников.
Стандарт PCI DSS, регулирующий обработку данных платёжных карт, прямо запрещает передачу данных карт третьим сторонам без соответствующей сертификации. Ни один крупный AI-провайдер на данный момент не имеет сертификации PCI DSS для обработки данных карт в контексте чат-сессий. Отправка номера карты в ChatGPT — это прямое нарушение стандарта.
Категория 4: медицинские данные
Медицинская информация относится к специальным категориям персональных данных и защищается особенно строго. Запрещено отправлять в AI: истории болезни, результаты анализов и диагностических исследований, назначения врачей, рецепты, информацию о психическом здоровье, данные о заболеваниях конкретных людей. В США действует закон HIPAA, в России — 152-ФЗ и статья 13 закона «Об основах охраны здоровья граждан», устанавливающая врачебную тайну.
Типичный сценарий нарушения: врач копирует выписку пациента в Claude, чтобы получить рекомендации по дифференциальной диагностике. Выписка содержит имя, дату рождения, адрес, полный анамнез и результаты обследований. Даже если AI даст полезный ответ, факт передачи этих данных внешнему сервису является нарушением врачебной тайны и может повлечь юридическую ответственность.
Категория 5: проприетарный код и интеллектуальная собственность
Вставка исходного кода в AI-чатботы — одна из самых распространённых и при этом самых опасных практик. В апреле 2023 года произошёл инцидент с компанией Samsung: несколько инженеров отправили в ChatGPT фрагменты проприетарного кода, включая исходный код для измерения полупроводников и записи внутренних совещаний. Данные были использованы для дообучения модели, и Samsung потеряла контроль над интеллектуальной собственностью.
После этого инцидента Samsung полностью запретила использование ChatGPT и аналогичных сервисов на корпоративных устройствах. Аналогичные запреты ввели Apple, JPMorgan Chase, Bank of America, Deutsche Bank, Goldman Sachs и другие крупные корпорации. Запрещённые категории кода включают: исходный код продуктов компании, алгоритмы, составляющие коммерческую тайну, архитектурные схемы и дизайн-документы, внутренние библиотеки и фреймворки, конфигурации инфраструктуры с реальными адресами серверов.
Категория 6: клиентские данные и данные партнёров
Отдельная категория риска — данные, которые принадлежат не вам и не вашей компании, а вашим клиентам, заказчикам или партнёрам. Их передача в AI-сервисы может нарушать договорные обязательства (NDA, соглашения о конфиденциальности), требования регуляторов и законодательство о защите данных. Это включает: базы клиентов с контактной информацией, переписку с клиентами, условия контрактов и коммерческие предложения, данные CRM-систем, аналитику по клиентам.
Даже если ваша компания формально согласилась с условиями использования ChatGPT, это не распространяет согласие на ваших клиентов. Если вы загрузите базу клиентов в AI-сервис для анализа, вы потенциально нарушите свои обязательства перед каждым клиентом в этой базе.
Категория 7: внутренние документы и стратегия
Корпоративные документы, не предназначенные для публичного доступа, также не должны попадать в AI-сервисы. Сюда относятся: стратегические планы и дорожные карты продуктов, финансовые прогнозы и бюджеты, протоколы совещаний с чувствительной информацией, данные о слияниях и поглощениях до их публичного объявления, результаты внутренних аудитов, информация о судебных разбирательствах и юридических рисках.
Особенно критично это для публичных компаний: утечка инсайдерской информации через AI-сервис может быть квалифицирована как нарушение законодательства о ценных бумагах. Если данные о финансовых результатах до их публичного объявления попадут в обучающий набор модели и будут воспроизведены в ответах другим пользователям, последствия могут быть катастрофическими.
Инцидент Samsung: детальный разбор
Случай с Samsung заслуживает подробного рассмотрения, поскольку он наглядно демонстрирует, как легко может произойти утечка. В течение 20 дней после того, как Samsung разрешила ограниченное использование ChatGPT, произошло как минимум три инцидента. Первый: инженер загрузил исходный код программы для диагностики полупроводниковых пластин с просьбой найти и исправить ошибки. Второй: другой инженер вставил код оптимизации оборудования для идентификации дефектов. Третий: сотрудник скопировал запись внутреннего совещания и попросил ChatGPT составить протокол.
Ни один из этих сотрудников не действовал злонамеренно. Они просто использовали удобный инструмент для повышения продуктивности. Но каждый из них передал конфиденциальные данные Samsung на серверы OpenAI. На момент инцидента политика OpenAI предполагала, что данные из чат-сессий могут использоваться для улучшения моделей (если пользователь не отключил эту опцию). Samsung была вынуждена провести внутреннее расследование, ограничить длину запросов в AI-сервисах до 1024 байт и начать разработку собственного внутреннего AI-инструмента.
Почему данные в AI-сервисах небезопасны: технические причины
Существует несколько технических причин, по которым данные, отправленные в облачный AI-сервис, не могут считаться защищёнными. Первая — хранение и логирование. Большинство AI-провайдеров сохраняют историю разговоров на своих серверах. Даже если компания заявляет, что не использует данные для обучения, они всё равно могут храниться для целей мониторинга качества, отладки и соблюдения законодательства.
Вторая причина — человеческий доступ. Сотрудники AI-компаний могут просматривать отдельные разговоры в рамках процессов контроля качества, модерации контента и расследования инцидентов. OpenAI, Anthropic и Google подтверждают это в своих политиках конфиденциальности. Третья причина — риск взлома. В марте 2023 года в ChatGPT была обнаружена уязвимость, из-за которой некоторые пользователи видели заголовки чатов и платёжные данные других пользователей.
Использование данных для обучения моделей
Ключевой вопрос: используются ли ваши данные для обучения AI-моделей? Политики крупнейших провайдеров различаются. OpenAI по умолчанию использует данные из бесплатных аккаунтов для обучения, но позволяет отключить эту опцию в настройках. Данные из API и корпоративных планов (ChatGPT Enterprise, ChatGPT Team) не используются для обучения. Anthropic по умолчанию не использует данные из API для обучения. Для бесплатных аккаунтов Claude.ai политика допускает использование данных. Google в Gemini для потребителей может использовать данные для улучшения сервиса, но Gemini for Google Workspace и Vertex AI предоставляют гарантии неиспользования.
Однако даже отключение опции «использовать для обучения» не означает, что данные удаляются немедленно. Они могут сохраняться в логах, резервных копиях и системах мониторинга на протяжении длительного времени.
Как анонимизировать данные перед отправкой в AI
Если вам необходимо использовать AI для работы с данными, содержащими чувствительную информацию, существуют методы анонимизации, которые значительно снижают риски. Замена идентификаторов — самый базовый метод. Вместо реальных имён используйте «Сотрудник А» и «Сотрудник Б». Вместо реальных номеров телефонов — «+7-XXX-XXX-XX-XX». Вместо названий компаний-клиентов — «Компания 1», «Компания 2».
Обобщение — замена точных значений диапазонами. Вместо «зарплата 185 000 рублей» пишите «зарплата в диапазоне 150-200 тысяч рублей». Вместо точного возраста — возрастную группу. Вместо точного адреса — район или город. Перетасовка — изменение конкретных деталей при сохранении общей структуры проблемы. Если вы отлаживаете SQL-запрос к таблице clients с реальными полями, замените названия таблиц и полей на вымышленные.
Инструменты автоматической анонимизации
Для систематической работы с анонимизацией существуют специализированные инструменты. Microsoft Presidio — библиотека с открытым исходным кодом для обнаружения и анонимизации персональных данных в тексте. Поддерживает распознавание имён, адресов, номеров телефонов, номеров карт и других типов PII на нескольких языках. Amazon Comprehend предоставляет API для обнаружения PII в тексте с возможностью автоматической замены. Google Cloud DLP (Data Loss Prevention) — облачный сервис для инспекции, классификации и деидентификации данных.
Для разработчиков, работающих с кодом, полезно настроить pre-commit хуки, которые проверяют исходящие данные на наличие секретов. Инструменты вроде git-secrets, TruffleHog и detect-secrets сканируют текст на наличие API-ключей, паролей и других секретов и блокируют их случайную передачу.
Что безопасно отправлять в AI
После длинного списка запретов важно обозначить, что отправлять в AI можно и нужно. Безопасные категории данных включают: общие вопросы, не содержащие конфиденциальной информации; публично доступный код (open-source, Stack Overflow); обезличенные описания задач и проблем; абстрактные примеры и шаблоны; вопросы по документации и справочным материалам; запросы на генерацию кода по общему описанию (без привязки к конкретной инфраструктуре); учебные примеры и тренировочные задачи.
Золотое правило: перед отправкой любого текста в AI спросите себя — будет ли проблемой, если этот текст станет публичным? Если ответ «да», данные нужно анонимизировать или отказаться от использования AI для этой задачи.
Практический чеклист перед каждым запросом
Рекомендуем использовать следующий чеклист перед отправкой запроса в AI-сервис. Первое: содержит ли запрос пароли, ключи API или токены? Удалите их. Второе: есть ли в тексте имена, адреса, номера документов реальных людей? Замените на псевдонимы. Третье: присутствуют ли номера банковских карт, счетов или другие финансовые идентификаторы? Удалите полностью. Четвёртое: содержит ли запрос проприетарный код или коммерческую тайну? Перепишите пример с изменёнными деталями. Пятое: есть ли данные клиентов или партнёров? Обезличьте или замените вымышленными примерами. Шестое: относится ли информация к инсайдерским корпоративным данным? Не отправляйте.
Что делать, если данные уже были отправлены
Если вы осознали, что отправили конфиденциальные данные в AI-сервис, действуйте быстро. Удалите чат-сессию через интерфейс сервиса — большинство провайдеров позволяют удалять отдельные разговоры. Измените скомпрометированные учётные данные: если вы отправили пароль или API-ключ, немедленно перегенерируйте его. Сообщите ответственному за информационную безопасность в вашей компании. Зафиксируйте инцидент: что было отправлено, когда, в какой сервис.
Важно понимать, что удаление чата из интерфейса не гарантирует полного удаления данных с серверов провайдера. Данные могут сохраняться в резервных копиях и логах. Именно поэтому предотвращение утечки всегда предпочтительнее реагирования на неё.
Корпоративные решения для безопасного использования AI
Для организаций, которым необходимо использовать AI при строгих требованиях к безопасности данных, существуют специализированные решения. ChatGPT Enterprise и ChatGPT Team от OpenAI гарантируют, что данные не используются для обучения моделей и обеспечивают шифрование в покое и при передаче. Claude для бизнеса от Anthropic предоставляет аналогичные гарантии. Azure OpenAI Service позволяет использовать модели OpenAI в инфраструктуре Microsoft Azure с полным контролем над данными. Amazon Bedrock размещает модели Claude и другие в изолированном окружении AWS.
Альтернативный подход — развёртывание локальных моделей с помощью инструментов вроде Ollama, LM Studio или Jan. При использовании локальных моделей данные вообще не покидают ваше устройство. Качество ответов может быть ниже, чем у топовых облачных моделей, но для многих задач локальные модели уже достаточно хороши.
Заключение: безопасность как привычка
Безопасная работа с AI — это не разовое мероприятие, а ежедневная привычка. Каждый раз, когда вы открываете окно чата с AI-ассистентом, потратьте пять секунд на мысленную проверку: содержит ли мой запрос что-то, что не должно покинуть мой компьютер? Со временем эта проверка станет автоматической, как привычка блокировать экран при отходе от рабочего места. Стоимость предотвращения утечки — несколько секунд вашего внимания. Стоимость ликвидации последствий утечки — тысячи и миллионы, не говоря о репутационном ущербе.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться Midjourney: генерация картинок AI
Midjourney — самый популярный AI-генератор изображений. Фотореализм, арт, иллюстрации, логотипы. Показываем, как начать — от регистрации до первой картинки.
Как установить Ollama: запуск AI-моделей на своём компьютере
Ollama — самый простой способ запустить AI-модели локально. Llama, Mistral, Qwen, DeepSeek — всё работает на вашем компьютере, без интернета, бесплатно и приватно.
Как начать пользоваться ChatGPT: пошаговая инструкция для Mac, Windows, iPhone и Android
Регистрация, установка, первый запрос — всё, что нужно, чтобы начать общаться с самой популярной нейросетью в мире. Без технических знаний, за 5 минут.