Кража голоса и AI-клонирование: правовая защита дикторов от синтеза речи

О чем материал:

В августе 2023 года актриса дубляжа Алена Андронова случайно обнаружила рекламу, озвученную ее голосом, которую она никогда не записывала. Благодаря технологии синтеза речи любой голос теперь можно скопировать и использовать. В статье разбираем, как защитить голос от клонирования и рассматриваем судебную практику в России и за рубежом.

Юридический статус голоса: объект авторского права или биометрия

Голос не является объектом авторского права, потому что авторское право защищает результаты творческой деятельности: книги, музыку, картины, программный код. Голос же — это физиологическая характеристика человека подобно цвету глаз или отпечаткам пальцев. Человек не «создает» свой голос в том смысле, в каком писатель создает роман.

При этом голос очевидно обладает ценностью. Для актера дубляжа или диктора это основной рабочий инструмент и источник дохода. Узнаваемый голос публичной персоны имеет коммерческую стоимость, а использование чужого голоса без согласия может причинить репутационный и материальный ущерб.

Российское право предлагает три возможных механизма защиты голоса, каждый из которых имеет свои ограничения.

Голос как нематериальное благо и часть цифрового образа

Голос можно рассматривать как нематериальное благо, защищаемое гражданским правом. Такие блага перечислены в статье 150 ГК РФ: жизнь, здоровье, достоинство личности и т.д.

Ближайшая аналогия в действующем законодательстве — это защита изображения гражданина, закрепленная в статье 152.1 ГК РФ. Эта норма устанавливает, что обнародование и использование изображения человека допускаются только с его согласия. Изображение позволяет идентифицировать человека, и он вправе контролировать, как эта идентифицирующая информация используется.

По аналогии со статьей 152.1 об изображении авторы законопроекта № 718834-8 (сентябрь 2024) предложили ввести статью 152.3 «Охрана голоса гражданина»: использование голоса, включая синтезированный, допускалось бы только с согласия человека, а после смерти — с согласия наследников. Однако инициатива не прошла. В октябре 2024 года Совет по кодификации дал отрицательное заключение, а в январе 2025 года Правительство РФ не поддержало законопроект, заявив, что вопрос «урегулирован действующим законодательством».

Охрана фонограммы и тембра

Второй возможный механизм защиты голоса — институт смежных прав, закрепленный в главе 71 части IV Гражданского кодекса РФ. Смежные права защищают интересы исполнителей, производителей фонограмм и вещательных организаций.

Когда диктор записывает текст, он создает исполнение, на которое возникают смежные права: исключительное право и право на неприкосновенность исполнения (ст. 1315 ГК РФ). При нарушении можно требовать компенсацию от 10 000 до 5 000 000 рублей.

Однако смежные права защищают конкретную запись, а не голос. Если компания законно приобрела запись и обучила на ней нейросеть, та генерирует новый контент голосом диктор. Но технически это не копия оригинала. Формально нарушения нет: фонограмма не копируется. В этом зазоре между «записью» и «голосом» — главная правовая проблема.

Голос как биометрические персональные данные

Третий путь защиты связан с законодательством о персональных данных. Федеральный закон № 152-ФЗ «О персональных данных» и Федеральный закон № 572-ФЗ относят голос к биометрическим персональным данным.

Это означает, что обработка голосовых данных требует согласия субъекта и должна осуществляться с соблюдением установленных законом требований. Нарушение этих требований влечет административную ответственность.

Проблема в том, что механизмы защиты персональных данных плохо приспособлены для случаев коммерческой эксплуатации голоса. Компенсации морального вреда при нарушениях в сфере персональных данных традиционно невелики: судебная практика показывает, что они редко превышают 5 000–10 000 рублей. Для диктора, чей голос используется в коммерческой рекламе без его согласия, такая сумма не покрывает даже расходов на юриста.

Судебная практика: от Бетт Мидлер до Скарлетт Йоханссон

Хотя российская судебная практика по защите голоса от AI-клонирования только формируется, зарубежный опыт насчитывает несколько десятилетий. Американские суды начали рассматривать подобные дела еще в 1980-х годах, задолго до появления нейросетей. Тогда речь шла об имитации голоса живыми исполнителями.

Эти прецеденты важны не только как исторический контекст. Они сформировали правовую концепцию, которая сейчас применяется к AI-технологиям и может служить ориентиром для российских судов.

Ключевые судебные прецеденты по защите голоса

Дело	Год	Юрисдикция	Суть спора	Исход	Почему это важно
Midler v. Ford Motor Co.	1988	США, 9-й округ	Бывшая бэк-вокалистка имитировала голос Бетт Мидлер в рекламе Ford	Победа истца, $400 000	Первое признание «голосового образа» как защищаемого объекта
Waits v. Frito-Lay	1992	США, 9-й округ	Имитация характерного хриплого голоса Тома Уэйтса в радиорекламе чипсов	Победа истца, $2,6 млн	Подтверждение защиты узнаваемой манеры речи
Йоханссон vs. OpenAI	2024	США	Голос Sky в ChatGPT-4o похож на голос Скарлетт Йоханссон из фильма «Ее»	OpenAI отключил голос после претензий	Прецедент для AI-платформ: даже без формального иска компания отступила
Андронова vs. Тинькофф	2023–	Россия	Синтез голоса актрисы дубляжа для открытой платформы без надлежащего информирования	На рассмотрении в суде	Первый резонансный российский кейс о voice cloning

Дело Бетт Мидлер: рождение концепции «голосового образа»

В 1985 году компания Ford Motor решила использовать в рекламной кампании песню «Do You Want to Dance» в исполнении певицы Бетт Мидлер. Когда Мидлер отказалась от сотрудничества, рекламное агентство Young & Rubicam нашло обходной путь: они пригласили Улу Хеджес, бывшую бэк-вокалистку Мидлер, которая могла точно воспроизвести манеру исполнения звезды. Многие слушатели были уверены, что в рекламе поет сама Мидлер.

Апелляционный суд 9-го округа встал на сторону певицы: «Голос столь же характерен и индивидуален, как и лицо». Суд признал, что намеренная имитация узнаваемого голоса для коммерческих целей нарушает право на публичность (right of publicity). Мидлер получила $400 000: голос впервые был признан защищаемым элементом личности.

Дело Тома Уэйтса: защита уникальной манеры речи

Четыре года спустя аналогичная история произошла с Томом Уэйтсом. Frito-Lay использовала в рекламе чипсов Doritos имитацию его голоса. Певец, который принципиально отказывался от рекламы, подал иск. Суд присудил $2,6 млн (включая $2 млн штрафных санкций). Решение по делу Waits v. Frito-Lay расширило прецедент Мидлер.

Скарлетт Йоханссон и OpenAI: новая эра голосовых споров

В мае 2024 года OpenAI представила ChatGPT-4o с голосовым интерфейсом Sky, который многие сочли похожим на голос Скарлетт Йоханссон. Контекст усугублял ситуацию: актриса озвучила ИИ Саманту в фильме «Она» (2013), а Сэм Альтман за несколько месяцев до презентации предлагал ей озвучить ChatGPT. Йоханссон отказалась.

Адвокаты Скарлетт Йоханссон направили письмо в компанию Open AI с требованием раскрыть подробности создания речи голосового помощника. OpenAI отрицала копирование, утверждая, что голосовой интерфейс Sky записала другая актриса. Тем не менее, компания удалила голос из ChatGPT «из уважения к Йоханссон». Формального иска не последовало, однако отступление крупнейшей ИИ-компании под давлением претензий стало важным сигналом для индустрии.

Клонирование голоса умерших знаменитостей без согласия наследников

Отдельную этическую и правовую проблему представляет использование голосов умерших. В 2021 году вышел документальный фильм о шеф-поваре Энтони Бурдене — «Roadrunner: A Film About Anthony Bourdain». Фильм вызвал резонанс, когда выяснилось, что часть закадрового текста была озвучена с помощью AI-синтеза голоса покойного.

Речь шла о трех коротких фрагментах общей продолжительностью менее минуты. Бурден написал эти тексты, но никогда не произносил вслух — они были взяты из его электронной переписки. Режиссер Морган Невилл решил, что история будет полнее, если зритель услышит эти слова голосом самого Бурдена. Но он не сообщил, что для записи использовался искусственный интеллект. Зрители не знали, что слышат не реальную запись, а сгенерированный голос.

Вдова Бурдена, Оттавия Бузиа, публично заявила, что не давала согласия на такое использование голоса мужа. Кейс не дошел до суда, но спровоцировал широкую дискуссию о границах допустимого при работе с «цифровыми двойниками» умерших.

Дело Алены Андроновой: первый российский прецедент

В 2019 году актриса дубляжа Алена Андронова откликнулась на объявление о записи голоса для Тинькофф Банка. Перед записью выяснилось, что материал будет использоваться для обучения нейросети. По словам Андроновой, представители банка заверили ее, что синтезированный голос будет применяться исключительно для внутренних нужд: колл-центра и голосового помощника «Олег». Договор содержал стандартные формулировки.

В 2022 году Андронова обнаружила, что ее голос доступен на платформе Tinkoff VoiceKit: любой пользователь мог генерировать аудио ее голосом. Вскоре актриса нашла синтезированную речь в рекламе контента 18+, на игровых стримах и в коммерческих роликах сторонних компаний. 30 августа 2023 года Андронова подала иск в Савеловский суд Москвы, требуя 5 960 000 рублей (включая 5 млн морального вреда) и ссылаясь на право исполнителя на неприкосновенность исполнения (статья 1315 ГК РФ).

Банк оспаривает версию актрисы, утверждая, что договор прямо предусматривал согласие на использование записей третьими лицами, включая обучение нейросетей.

Договорная защита: как обезопасить себя до подписания

Пока законодательство не обеспечивает надежной защиты голоса, главным инструментом остается грамотно составленный договор. Рассмотрим, какие условия следует включать и на что обращать внимание.

Что должно быть в договоре

Явное указание на допустимые способы использования. Вместо абстрактного «права на переработку» договор должен содержать закрытый перечень разрешенных действий: использование в рекламе конкретного продукта, озвучивание определенного проекта, применение в колл-центре заказчика. Все, что не разрешено прямо, считается запрещенным.

Прямой запрет на обучение нейросетей и синтез речи, если это не является целью сотрудничества. Формулировка может выглядеть так: «Заказчик не вправе использовать предоставленные записи для обучения систем машинного обучения, создания синтетических голосовых моделей или генерации речи, имитирующей голос Исполнителя».

Ограничение по территории и сроку. Права должны предоставляться на определенную территорию (например, «на территории Российской Федерации») и на определенный срок (например, «на 3 года с даты подписания договора»).

Запрет на сублицензирование или четкие условия передачи третьим лицам. Если передача допускается, должен быть указан перечень третьих лиц или категории допустимых лицензиатов.

Право на аудит. Исполнитель должен иметь возможность проверить, как используется его голос. Это может быть право запрашивать отчеты об использовании или право на доступ к системам учета.

Механизм дополнительной компенсации за использование голоса способами, не предусмотренными первоначальным договором. Если заказчик решит расширить сферу использования, он должен получить дополнительное согласие и выплатить дополнительное вознаграждение.

Осознанное лицензирование для TTS-платформ

Если диктор сознательно решает лицензировать свой голос для системы синтеза речи (TTS — text-to-speech), договор требует особого внимания. В индустрии сложилось несколько моделей лицензирования.

Эксклюзивная лицензия означает, что только один лицензиат получает право использовать синтезированный голос. Это наиболее дорогой вариант для лицензиата и наиболее выгодный для диктора в пересчете на одну сделку.

Неэксклюзивная лицензия позволяет диктору лицензировать голос нескольким платформам одновременно. Стоимость каждой отдельной лицензии ниже, но совокупный доход может быть выше.

White label — модель, при которой голос используется под брендом лицензиата без указания на личность диктора. Например, голос становится «голосом компании X» без упоминания реального исполнителя.

Технические средства защиты: водяные знаки и маркировка

Технические средства позволяют предотвратить нарушения или упростить их доказывание. Рассмотрим основные технологии.

Цифровые водяные знаки: SynthID от Google

Google DeepMind разработал SynthID — систему невидимых цифровых водяных знаков, встраиваемых в контент при генерации ИИ. Для аудио в звуковой сигнал добавляется паттерн, неслышимый человеку, но распознаваемый алгоритмом. Паттерн устойчив к сжатию в MP3, изменению скорости и добавлению шума.

Более 10 миллиардов единиц контента уже промаркировано SynthID. Детектор возвращает три результата: «watermarked», «not watermarked» или «uncertain». В 2024 году Google сделал технологию open source: теперь разработчики могут интегрировать ее в собственные модели. Компания также объявила о партнерстве с NVIDIA для маркировки видео.

Криптографические метаданные: стандарт C2PA

Альтернативный подход реализует коалиция C2PA (Coalition for Content Provenance and Authenticity), основанная Adobe, Microsoft, BBC, Intel, Arm и Truepic. Позднее присоединились Google, Meta и OpenAI.

C2PA использует криптографически подписанные метаданные — Content Credentials («удостоверения контента»). Они содержат информацию о создании файла: когда, каким инструментом, какие изменения вносились, использовался ли ИИ. Метаданные встраиваются в файл или хранятся на внешнем сервере с привязкой через хеш. Криптографическая подпись позволяет выявить любые изменения.

Ограничение: при скриншоте, перезаливке или конвертации метаданные могут быть утеряны — в отличие от водяных знаков, они не являются частью самого контента.

SynthID позволяет установить, что аудиофайл сгенерирован системой Google. Это полезно, если ответчик утверждает, что использовал реальную запись. C2PA позволяет проследить «родословную» файла: когда создан, кем и какими инструментами. Оптимальна комбинация обоих подходов: водяные знаки внутри контента и криптографические метаданные снаружи.

Законодательные тенденции: что нас ждет

Хотя российский законопроект о защите голоса не прошел, глобальный тренд очевиден: регуляторы по всему миру признают проблему и работают над ее решением.

США. Законопроект NO FAKES Act (Nurture Originals, Foster Art, and Keep Entertainment Safe Act) был внесен в Сенат США 31 июля 2024 года при поддержке SAG-AFTRA, RIAA и технологических компаний, включая OpenAI.

Ключевые положения: создание федерального имущественного права на голос и изображение; запрет на отчуждение права при жизни (только лицензирование сроком до 10 лет); посмертная защита до 70 лет; ответственность $5 000–25 000 за нарушение; режим notice & takedown для платформ.

Европейский союз. Регламент ЕС 2024/1689 (AI Act) не создает специального права на голос, но статья 50 обязывает провайдеров AI-систем обеспечивать машиночитаемую маркировку синтетического контента. Пользователи обязаны раскрывать искусственное происхождение дипфейков. Санкции — до €15 млн или 3% глобального оборота. Полное применение — с августа 2026 года.

Россия. Отклонение законопроекта № 718834-8 не закрывает тему. Параллельно обсуждаются поправки в УК с квалифицирующим признаком — совершение преступления с использованием «фальсифицированных голоса и изображения».

Освоить практическое применение ИИ в юридической работе можно на курсе «Искусственный интеллект для практикующих юристов». Программа охватывает автоматизацию рутинных задач, работу с договорами и комплаенсом, а также правовые аспекты регулирования ИИ. Курс подходит для юристов частной практики, корпоративного сектора и специалистов по технологическому праву.