О чем материал:
Каждый день компании собирают терабайты информации о клиентах, транзакциях и поведении пользователей. Big Data — это массивы информации настолько объемные, что их невозможно обработать традиционными методами. Бизнес использует эту информацию для аналитики, персонализации сервисов и обучения искусственного интеллекта. Однако значительная часть Big Data содержит персональные данные граждан. С 1 сентября 2025 года вступил в силу 233-ФЗ от 08.08.2024, который впервые регулирует работу с обезличенными персональными данными при формировании составов данных. Рассказываем об изменениях.
Проблема статуса: когда Big Data перестают быть персональными
Представьте ситуацию: маркетплейс хочет передать данные о покупках для обучения рекомендательного алгоритма. Если в данных есть ФИО, телефон или email покупателя, это персональные данные, и для передачи нужно согласие каждого клиента. Но если заменить идентификаторы на абстрактные коды, их можно использовать свободно. Это называется обезличенными персональным данными. Такие данные группируют по определенному признаку (например, полу или возрасту) для анализа, так получаются составы персональных данных.
Федеральный закон от 08.08.2024 № 233-ФЗ устанавливает важное ограничение — допускается работа только с общими данными: ФИО, контактная информация, история транзакций. В составы данных нельзя включать биометрические данные (отпечатки пальцев, изображения лица, образцы голоса) и специальные категории персональных данных (информация о здоровье, расовой принадлежности, политических взглядах, религиозных убеждениях).
Оператор персональных данных теперь обязан вести реестр обезличивания. В нем фиксируется источник данных, метод обезличивания, параметры преобразования, дата операции, ответственный сотрудник, место хранения обезличенных данных. Реестр позволяет восстановить историю преобразований и доказать регулятору соблюдение требований закона.
Разница между обезличенными и анонимными данными в 152-ФЗ
Обезличенные данные остаются персональными данными. Хотя по ним нельзя напрямую определить человека, при наличии дополнительной информации (ключа расшифровки, таблицы соответствия) связь с субъектом можно восстановить. Это обратимый процесс. Например, интернет-магазин заменил имена клиентов на коды (Клиент_001, Клиент_002), но хранит отдельную таблицу, где Клиент_001 — это Иванов Иван Иванович. Данные обезличены, но остаются персональными, потому что магазин может их «расшифровать».
Анонимные данные — это необратимо преобразованная информация, которая больше не является персональными данными. Связь с человеком утрачена навсегда. Пример: исследовательский центр собрал статистику «средний чек покупателей 25–35 лет составляет 3 500 ₽». Это агрегированные данные, по которым невозможно установить конкретных людей.
Приказ Роскомнадзора от 19.06.2025 № 140 устанавливает главный критерий качественного обезличивания: невозможность определения принадлежности данных субъекту без дополнительной информации.
Когда данные снова становятся персональными данными
Компания качественно обезличила свой набор данных, убрав все прямые идентификаторы. Но затем этот набор объединяется с другими источниками информации, и комбинация позволяет установить личность человека. Такая технология называется обогащением данных (data enrichment).
Классический пример из международной практики: в 2007 году исследователи из Техасского университета взяли обезличенную базу Netflix с оценками фильмов (только идентификатор пользователя и его оценки) и сопоставили с публичными отзывами на IMDb. Поскольку люди оценивают одни и те же фильмы примерно одинаково на разных платформах, удалось идентифицировать конкретных пользователей Netflix по их «вкусовому отпечатку».
Для бизнеса это означает: недостаточно обезличить данные один раз. Нужно оценивать риски реидентификации с учетом информации из других источников. Если обезличенные данные могут быть сопоставлены с публичными данными (соцсети, открытые реестры, утечки), они могут снова стать набором персональных данных.
Требования к методикам обезличивания
Согласно Приказу Роскомнадзора № 140, сначала нужно определить состав персональных данных и круг субъектов: понять, какие данные будут обезличиваться и скольких людей они касаются. Затем оценить достаточность выбранного метода: подходит ли он для конкретных целей обработки и обеспечивает ли необходимый уровень защиты.
Важно обеспечить невозможность определения принадлежности данных субъекту без дополнительной информации. На практике это означает, что сам обезличенный набор данных не должен позволять установить личность человека. Дополнительная информация (ключи, таблицы соответствия) должна храниться отдельно и быть недоступна тем, кто работает с обезличенными данными.
Приказ прямо запрещает совместное хранение исходных и обезличенных данных. Если дата-сайентист (специалист по анализу данных) имеет доступ и к обезличенному набору данных и к исходной базе с персональными данными, весь смысл обезличивания теряется. Также необходимо вести учет всех действий по обезличиванию в установленной форме, принять локальные нормативные акты компании о порядке обезличивания и исключить доступ третьих лиц к информации о применяемых методах.
Стандарты Роскомнадзора: методы введения идентификаторов и изменения состава
Приказ Роскомнадзора № 140 закрепляет пять официальных методов обезличивания. Их можно применять по отдельности или комбинировать для достижения нужного уровня защиты.
| Метод | Суть | Пример применения | Когда использовать |
| Введение идентификаторов | Замена персональных данных на коды с созданием ключа соответствия | ФИО «Иванов И.И.» → код «USR_48572» | Когда нужна возможность восстановить связь с субъектом |
| Изменение состава или семантики | Удаление, искажение или изменение отдельных атрибутов | Удаление точной даты рождения, оставление только года | Когда часть атрибутов не нужна для анализа |
| Перемешивание | Перестановка значений атрибутов между разными записями | Возраст из записи А переносится в запись Б | Для статистических исследований, где важны распределения |
| Декомпозиция | Разделение массива данных на части с раздельным хранением | ФИО хранится в базе А, история покупок — в базе Б | Для распределенных систем с разным уровнем доступа |
| Преобразование (агрегация) | Обобщение данных с потерей детализации | Точный возраст «27 лет» → диапазон «25–30 лет» | Для аналитики, где достаточно обобщенных показателей |
На практике чаще применяется комбинация методов. Для передачи данных о покупках аналитической компании интернет-магазин может заменить ФИО клиентов на коды (метод идентификаторов), удалить точные адреса доставки, оставив только город (изменение состава), агрегировать возраст в диапазоны (преобразование).
Современные техники: K-anonymity, Differential Privacy и их юридическая валидность
В мировой практике применяются продвинутые математические методы обезличивания, обеспечивающие измеримый и доказуемый уровень защиты. Российские компании все чаще интересуются этими подходами, но их правовой статус в РФ остается неопределенным.
K-anonymity (K-анонимность) — метод, при котором каждая запись в датасете «прячется» в группе одинаковых по ключевым характеристикам записей. Эти характеристики называются квази-идентификаторами — по отдельности они не выдают человека, но вместе могут его раскрыть: возраст, профессия, город.
L-diversity (L-разнообразие) усиливает K-anonymity. Метод требует, чтобы в каждой группе похожих записей было несколько разных значений чувствительного атрибута — например, диагноза. Компания сама задает минимальное количество: если установить значение 3, то в группе из пяти человек должно быть минимум три разных диагноза.
T-closeness (T-близость) идет еще дальше: распределение чувствительных данных в каждой группе должно совпадать с распределением по всему набору данных. Если среди всех записей 10% людей с высоким доходом, то и в любой группе должно быть около 10%.
Differential Privacy (дифференциальная приватность) работает иначе: к данным или результатам запросов добавляется математический «шум». Идея в том, что присутствие или отсутствие любой записи не должно заметно влиять на итоговую статистику.
На практике компания может применять K-anonymity или Differential Privacy, но должна обосновать их использование в рамках официальных методов из Приказа № 140. K-anonymity логично квалифицировать как разновидность «метода изменения состава и семантики» (агрегация квази-идентификаторов) или «метода преобразования».
Построение архитектуры Data Lake с учетом compliance
Практическое применение требований законодательства невозможно без грамотного проектирования инфраструктуры хранения данных. Data Lake (озеро данных) — централизованное хранилище, куда поступает информация из разных источников компании в исходном виде: логи систем, данные CRM, информация из мобильных приложений, записи транзакций. В отличие от традиционных хранилищ, где данные структурируются при загрузке, в Data Lake они сохраняются «как есть» и структурируются только при использовании.
Такая архитектура удобна для аналитики и машинного обучения, но создает серьезные compliance-риски. В озере данных легко оказываются персональные данные из разных источников, и без надлежащего контроля они могут использоваться неправомерно.
Приказ Роскомнадзора № 140 устанавливает три требования:
- Исключение совместного хранения исходных и обезличенных данных. Это означает физическое или логическое разделение: сырые данные с персональными данными и обезличенные данные не должны находиться в одном хранилище с общим доступом.
- Исключение доступа третьих лиц к информации о методах обезличивания. Алгоритмы преобразования, ключи соответствия, параметры обезличивания — это конфиденциальная информация, утечка которой может привести к деанонимизации.
- Учет всех действий по обезличиванию в определенной форме. Каждая операция преобразования должна логироваться с указанием времени, исполнителя, метода и параметров.
233-ФЗ от 08.08.2024 дополняет это требованиями к журналированию передачи данных: в журнале нужно фиксировать, когда, кому, какие данные и на каком основании переданы. Оператор обязан вести реестр обезличивания с полным набором атрибутов каждой операции.
Разделение контуров и управление доступом
Оптимальная архитектура Data Lake предполагает зонирование хранилища на три уровня с разным режимом доступа.
Raw Zone (сырая зона) содержит данные в исходном виде, включая персональные данные. Доступ к этой зоне должен быть максимально ограничен: только администраторы данных и сотрудники, которым персональные данные необходимы для работы.
Staging Zone (зона обработки) — промежуточный слой, где происходит очистка, трансформация и обезличивание данных. Здесь работают инженеры данных (data engineers), которые готовят датасеты для аналитики. Доступ шире, чем к Raw Zone, но все еще контролируемый.
Curated Zone (курируемая зона) содержит обезличенные, очищенные и структурированные данные, готовые для анализа. К этой зоне имеют доступ дата-сайентисты, аналитики, разработчики ML-моделей. Поскольку данные обезличены, риски ниже, но контроль все равно необходим.
Логирование действий дата-сайентистов и контроль выгрузок
Ведение реестра обезличивания, предусмотренное 233-ФЗ, требует внедрения полноценной системы аудита всех операций с данными. Логи важны для расследования инцидентов и демонстрации compliance регулятору.
Система аудита должна фиксировать каждое действие с данными:
- просмотр (кто, когда, какие данные запросил);
- выгрузку (объем, формат, куда выгружены данные);
- преобразование (какие операции применены);
- удаление.
Рекомендуется внедрить многоуровневую систему контроля выгрузок. Автоматические проверки блокируют выгрузку, если объем данных превышает пороговое значение или запрос содержит подозрительные паттерны (выгрузка всей таблицы вместо выборки).
Риски деанонимизации
Деанонимизация может произойти умышленно (атака злоумышленника) или случайно (непреднамеренное сопоставление данных). В обоих случаях правовые последствия наступают для оператора данных.
Помимо уголовной ответственности по статье 272.1 УК РФ, действует обновленная система административных штрафов за утечки персональных данных. Деанонимизация юридически приравнивается к утечке, поскольку в результате персональные данные становятся доступны лицам, не имеющим на это права.
Ответственность за обратное восстановление личности субъекта
Федеральный закон от 30.11.2024 №420-ФЗ ввел градуированную систему штрафов за утечки персональных данных. Размер санкции зависит от масштаба инцидента.
| Масштаб утечки | Штраф для юридических лиц |
| 1 000–10 000 записей | 3–5 млн ₽ |
| 10 000–100 000 записей | 5–10 млн ₽ |
| Более 100 000 записей | 10–15 млн ₽ |
| Специальные категории данных | 10–15 млн ₽ |
| Повторная утечка | 1–3% годовой выручки (минимум 20 млн ₽ для обычных данных, 25 млн ₽ для биометрических; максимум 500 млн ₽) |
| Неуведомление РКН об утечке | 1–3 млн ₽ |
Особенно жесткие санкции предусмотрены за повторные нарушения: штраф в процентах от выручки может достигать 500 млн ₽ для крупных компаний.
Если данные касаются несовершеннолетних или содержат биометрию, штраф возрастает до 700 000 ₽, а срок лишения свободы — до пяти лет. При корыстной заинтересованности, крупном ущербе или совершении группой лиц по предварительному сговору — штраф до 1 млн ₽ и лишение свободы до шести лет. Если деяние повлекло тяжкие последствия — лишение свободы до 10 лет.
Атаки на дата-сеты: Linkage Attack и меры превентивной защиты
Для построения эффективной системы защиты необходимо понимать основные типы атак на обезличенные данные. Злоумышленники используют различные методы, и для каждого существуют соответствующие контрмеры.
| Тип атаки | Механизм | Пример | Меры защиты |
| Linkage Attack | Связывание записей из разных источников по общим атрибутам | Сопоставление обезличенных медицинских данных с публичными профилями в соцсетях по возрасту, полу и городу | K-anonymity, минимизация публикуемых атрибутов |
| Inference Attack | Вывод чувствительных данных на основе корреляций | Если все люди в группе с определенными характеристиками имеют один диагноз, злоумышленник узнает диагноз любого члена группы | L-diversity, T-closeness |
| Reconstruction Attack | Восстановление исходных данных по агрегированной статистике | По ответам на статистические запросы восстановление индивидуальных значений | Differential Privacy, добавление шума |
Linkage Attack представляет наибольшую угрозу для озер данных, поскольку Data Lake по определению агрегирует информацию из множества источников. Злоумышленник может сопоставить обезличенный датасет компании с публично доступной информацией: профилями в социальных сетях, данными из открытых реестров, информацией из прошлых утечек. Чем больше атрибутов в обезличенном наборе, тем выше риск успешной атаки.
Для противодействия рекомендуется минимизировать число квази-идентификаторов в публикуемых или передаваемых наборах данных. Если для анализа достаточно знать возрастную группу, не нужно передавать точный возраст. Если достаточно знать регион, не нужно передавать точный адрес.
Национальная система управления данными
Минцифры поручено создать компонент «Единая доверенная платформа для обмена и анализа данных». Постановление Правительства от 28.05.2025 определило ФГИС «Единая информационная платформа национальной системы управления данными» (ЕИП НСУД) как государственную информационную систему для обработки обезличенных персональных данных.
По словам представителей Минцифры, благодаря обезличенным данным государство сможет принимать более эффективные решения по строительству инфраструктуры для граждан. Анализ обезличенных данных о перемещениях граждан поможет оптимизировать маршруты общественного транспорта, а данные о потреблении медицинских услуг — планировать размещение поликлиник.
На развитие системы в 2025–2027 годах выделено значительное финансирование: 1,8 млрд ₽ в 2025 году, 1,9 млрд ₽ в 2026 году и 2,1 млрд ₽ в 2027 году — всего 5,8 млрд ₽.
Инициатива «ГосДата.Хаб»: передача коммерческих дата-сетов государству
Проект «ГосДата.хаб» представляет собой национальное озеро данных, объединяющее потоки обезличенных данных государственных органов всех уровней. Все данные поступают в озеро уже в обезличенном виде, деперсонализация происходит на стороне поставщика данных до передачи в систему. Это снижает риски утечки персональных данных из централизованного хранилища.
Разработчиками системы выступают ФГАУ НИИ «Восход» и «Ростелеком». Первым запущенным сервисом стал сбор обезличенных геотреков от мобильных операторов — данных о перемещении абонентов без привязки к конкретным людям. Эта информация используется для анализа транспортных потоков и градостроительного планирования.
Доступ бизнеса к государственным данным
Согласно 233-ФЗ от 08.08.2024, операторы персональных данных обязаны передавать обезличенные данные в государственную информационную систему по требованию Минцифры. Это не право, а обязанность: если ведомство направило требование — компания должна подготовить и передать данные в установленном формате. Отказ влечет административную ответственность.
Для бизнеса доступ к данным будет развиваться поэтапно. На первом этапе данные доступны только государственным органам для выполнения своих функций. В перспективе планируется открыть публичный доступ. Коммерческие компании получат платный доступ к информации из государственных систем, что может быть полезно для аналитики, маркетинговых исследований и обучения AI-моделей.
Пройдите курс «Обучение защите персональных данных» в Moscow Digital School. Программа охватывает требования 152-ФЗ, трансграничную передачу данных и международное законодательство о защите данных, включая GDPR. Обучение ведут практики из Comply, ALUMNI Partners, Ozon, VK и других компаний.





