Говорит Скарлетт Йоханссон: как ИИ «крадет» человеческие голоса и почему это опасно | Hi-Tech

Фото Kelly Sikkema / Unsplash

Сегодня искусственный интеллект может воспроизводить индивидуальные особенности речи с поразительной точностью. Подобный случай произошел со Скарлетт Йоханссон — актриса раскритиковала OpenAI из-за «устрашающе похожего» на ее голос чат-бота ChatGPT, и в мае 2024 года компания временно отключила этот вариант озвучки. Адвокат коллегии адвокатов Delcredere Диана Анисимова рассказала в своей колонке для Forbes Life, кто несет ответственность за такие действия ИИ и как от этого защититься

Стремительное развитие технологий позволило любому желающему заимствовать и синтезировать чужие голоса. Так, современные мессенджеры дают пользователям возможность отправлять голосовые сообщения, которые значительно упрощают коммуникацию. И всего одного голосового сообщения может быть достаточно, чтобы клонировать голос человека. В первую очередь это опасно потерей дохода для дикторов и актеров, чьи голоса могут несанкционированно использоваться в рекламе или бизнес-продуктах. Также простота использования нейросетей развязывает руки мошенникам, которые могут использовать голос в своих целях, например для звонков от вашего имени в банк или для обмана ваших родственников.

Кто пострадал от кражи голоса?

Первыми жертвами кражи голоса стали голливудские звезды и актеры озвучки. Резонансным случаем возможной кражи голоса стало создание голоса Sky, который использовался в генеративном искусственном интеллекте GPT-4o. Его звучание оказалось крайне похожим на голос персонажа Скарлетт Йоханссон — Саманты из фильма «Она». Актриса потребовала от OpenAI раскрыть, кому принадлежит голос, но получила отказ. Тем не менее в мае 2024 года компания приостановила использование голоса Sky «из уважения к миссис Йоханссон». Пока не известно, будет ли актриса предъявлять иск к OpenAI. У Йохансон остается возможность взыскать компенсацию, если в рамках судебного разбирательства будет установлено, что компания действительно использовала ее голос.

Несмотря на то что вопрос аудио дипфейков пока что законодательно не урегулирован в США, их правовая система позволяет использовать аналогию закона и прецеденты по отношению к ситуациям, которые еще не были предметом судебного разбирательства.

Другой случай кражи голоса произошел в 2021 году. Канадская актриса озвучки Бев Стэндинг подала иск о защите авторских прав к ByteDance — компании, владеющей ТikTok. Она заявила, что text-to-speech сервис приложения незаконно использует ее голос. Бев требовала прекратить незаконное использование и выплатить ей компенсацию. Спустя две недели после подачи иска компания заменила голос сервиса и заключила с актрисой мировое соглашение. После случая с Бев Министерство инноваций, науки и промышленности Канады внесло законопроект, который должен обеспечить защиту персональных данных от их использования искусственным интеллектом. На данный момент он ещё не принят.

Аналогичный случай произошёл в России. Актриса озвучки Алена Андронова рассказала, что сотрудничала с АО «Тинькофф Банк» — ее голос был записан для внутренних задач компании, в том числе обучения голосового помощника Олега. Через несколько лет девушка обнаружила, что голос без ее согласия используется на сайте Тинькофф для перевода текста в голосовой формат. Кроме того, голос Алены был выложен в открытом доступе для синтезирования аудио дипфейков при помощи ИИ. Одна из таких записей была использована в рекламе порно. Актриса обратилась с иском к АО «Тинькофф Банк» для защиты своих прав на голос. Она потребовала обязать компанию опубликовать на своем сайте информацию о том, что «Тинькофф» создал на основе ее голоса технологию аудиосинтеза, предпринять меры по удалению синтезированного голоса, прекратить использование голоса для сервисов, доступных для третьих лиц. Также девушка потребовала компенсацию убытков и морального вреда в размере практически 6 млн рублей. Спор еще рассматривается в Савёловском районном суде г. Москвы, решение по нему пока не вынесено.

Также тревогу бьет Союз дикторов России, который в январе 2023 года направил письмо Александру Хинштейну, главе комитета Государственной Думы РФ по информационной политике. Организация просила разработать законодательное регулирование технологий синтеза голоса с использованием искусственного интеллекта.

Киноиндустрия и индустрия рекламного бизнеса переживает «бум искусственного интеллекта». Например, в четвертом сезоне российского сериала «Диверсант» при помощи дипфейк-технологии воссоздали персонажа ныне покойного актера Владислава Галкина. А в 2022 году появился первый в мире дипфейк-сериал о жизни Джейсона Стэйтема в Тюмени. Главные роли в этой картине исполняют сгенерированные изображения голливудских актеров.

Также изображения знаменитостей, синтезированные ИИ, появляются в маркетинговых роликах. Так, инвестиционный стартап reAlpha Tech прорекламировал дипфейк Илона Маска. Также в сети появилась информация о том, что компания МО Paperspace использовала в своей рекламе дипфейки Тома Круза и Леонардо Ди Каприо.

Есть ли способы защиты от кражи голоса

Голос относится к биометрическим персональным данным человека, потому что он позволяет идентифицировать своего владельца, характеризует его биологические и физические особенности. Если кто-то записывает или обрабатывает голос без согласия его обладателя, то он нарушает режим использования биометрических персональных данных. Такие данные должны храниться только у специального оператора АО «Центр биометрических технологий», поскольку они позволяют идентифицировать человека и должны охраняться особенно тщательно. Оператор обеспечивает безопасные сбор, хранение и обработку биометрических персональных данных. При этом любой гражданин может удалить их через личный кабинет на сайте «Госуслуги». Это поможет избежать утечки биометрических персональных данных. Если же кто-то незаконно использовал персональные данные человека, то виновный может быть оштрафован. Размер такого штрафа для юридических лиц может составить до 100 000 рублей, а при повторном нарушении — до 300 000 рублей.

Если человек записал свой голос самостоятельно (например, в виде голосового сообщения), такую запись можно расценивать как фонограмму. В случае ее незаконного использования, в том числе переработки, изготовитель фонограммы вправе обратиться за защитой своего исключительного права на нее. В этом случае можно в том числе потребовать прекратить неправомерное использование, возместить убытки или взыскать с нарушителя компенсацию.

Например, в 2021 году Издательство «АСТ» защитило права на запись аудиокниги «Происхождение» писателя Дэна Брауна. Компания заказала запись у артиста-исполнителя и получила на нее права. После этого общество узнало, что в интернете незаконно распространяется эта аудиозапись. Московский городской суд встал на сторону издательства и запретил провайдеру хостинга сайта, на котором размещалась запись аудиокниги, создавать технические условия для использования фонограммы аудиокниги.

Также голос можно отнести к личным нематериальным благам человека наряду с именем и правом авторства. Соответственно, его можно защитить в судебном порядке. Результатом судебной защиты может быть, например, признание факта нарушения или запрет действий, которые нарушают или могут нарушить право человека. В российской судебной практике пока что такие случаи не встречались.

А вот в США еще в 1988 году известная певица Бетт Мидлер защитила свой голос от незаконного использования в рекламе автомобилей Ford. Артистка посчитала, что ее права нарушены, поскольку песня в маркетинговом ролике имитировала ее голос. Мидлер указала, что у нее уникальный голосовой тембр, который публика ассоциируют исключительно с ней. Суды встали на сторону певицы и указали, что использование голоса без согласия человека нарушает его право на публичность. Это право подразумевает, что никто не может использовать чужое имя, изображение, подпись или голос, в том числе в рекламе, без согласия обладателя. Интересно, что право на публичность закреплено менее чем в половине штатов США.

Как сейчас регулируется использование искусственного интеллекта

Динамичное развитие технологий искусственного интеллекта потребовало оперативного формирования правовой базы для его регулирования. Европейский Союз одним из первых принял комплексный акт, регулирующий искусственный интеллект. Он в том числе предусматривает обязательную маркировку аудио- и видеоконтента, созданного с использованием нейросетей. Также в США уже свыше 4 лет ведется работа по правовому регулированию искусственного интеллекта. Более 15 штатов уже приняли соответствующие законы. В Калифорнии, к примеру, запрещено использовать ИИ-ботов при общении с гражданами для стимулирования продаж. Этот запрет не действует в случае, если клиент уведомлен, что общается с ботом. Также в январе 2024 года в Сенат США был внесен законопроект, предусматривающий штрафы за синтезирование при помощи нейросетей внешности и голоса людей без их согласия.

Китай, в свою очередь, сталкивается с отсутствием единых стандартов при работе с нейросетями, а также существенным перекосом в сторону решения технических задач. Именно поэтому законодатель не делает акцент на этических аспектах, например, касающихся использования персональных данных. При этом в Китае тоже принят ряд законов, которые регулируют использование искусственного интеллекта. В том числеь запрещено генерирование нежелательной информации, которая может привести к всеобщей панике или нанести вред детям.

Российский законодатель тоже идет в ногу со временем: в 2020 году была утверждена Национальная стратегия развития искусственного интеллекта до 2030 года. Ее основное назначение — развитие технологий ИИ, в том числе в государственных интересах. В 2021 году был создан Центр экспертизы по искусственному интеллекту Аналитического центра при Правительстве РФ. А российские вузы не только запустили программы по подготовке кадров, специализирующихся в области искусственного интеллекта, но и получили гранты на развитие исследовательских центров ИИ.

Весной 2024 года Государственная Дума РФ приступила к разработке законопроекта об обязательной маркировке контента, созданного при помощи ИИ. Эта инициатива в первую очередь направлена на защиту потребителей. Дипфейк-технологии постоянно совершенствуются, и уже сейчас очень тяжело отличить реальный контент от искусственно сгенерированного. Этим легко могут воспользоваться злоумышленники. К примеру, они могут использовать дипфейк-изображение или аудиодорожку знаменитости в своей рекламе, вводя потребителей в заблуждение.

Уже сейчас нейросеть OpenVoice может сгенерировать любую аудиодорожку на основе короткой записи голоса человека. Ее функционал может не только создать аудиозапись с клонированным голосом, но и дает возможность детально проконтролировать эмоции и интонацию «говорящего». Это позволяет синтезировать звуковую дорожку, которую практически невозможно отличить от оригинальной.

Как бизнес оказывает помощь в контроле за искусственным интеллектом

Разработка и принятие законов могут занимать значительные промежутки времени, поэтому бизнес старается оказать любое возможное содействие в регулировании ИИ. Так, в 2021 году Аналитический центр при Правительстве России, Минэкономразвития и российский альянс в сфере искусственного интеллекта (в том числе «Сбер», МТС, VK,
«Яндекс») подписали Кодекс этики в сфере искусственного интеллекта. Его положения среди прочих предусматривают, что использование персональных данных должно быть этичным, безопасным и ответственным. Это значит, что компании не будут произвольно использовать чужие персональные данные при синтезировании контента с помощью ИИ.

А в ноябре 2023 года компьютерный инженер Нинг Жанг из Университета Вашингтона представил на конференции Ассоциации вычислительной техники по безопасности компьютеров и коммуникаций в Копенгагене программное обеспечение, которое не позволяет синтезировать звуковые материалы в аудиодипфейк. Разработчик предлагает «прогонять» контент через софт перед онлайн-публикацией. Если сделать это, то злоумышленники не смогут переработать аудиодорожку и использовать голос в своих целях. Интересно, что этот продукт использует ту же технологию искусственного интеллекта, которая применяется для создания аудиодорожек с чужими голосами.

Кто несет ответственность за использование чужого голоса искусственным интеллектом

Сейчас активно разрабатывается законодательная база, которая регламентирует вопрос о том, кто будет отвечать за использование искусственным интеллектом чужого голоса. Еще в октябре 2023 года сенатор Артем Шейкин заявил, что готовятся поправки в гражданский кодекс, которые урегулируют правовые отношения, связанные с синтезированием голоса искусственным интеллектом. Это вызвано волной дипфейков, которые уже сейчас переполняют интернет. Однако на данный момент законопроект еще не разработан.

Вероятно, при разработке регулирования использования голоса, законодатель пойдет по тому же пути, который был выбран для изображений. Действующее законодательство устанавливает запрет на использование изображения человека без его согласия. Ограничение относится как к фото, так и к видеоматериалам. При этом, даже если человека уже нет в живых, его изображение можно использовать только с согласия детей и пережившего супруга, а если их нет, то с согласия родителей. Это регулирование не распространяется на те случаи, когда человек позировал за плату или его сфотографировали при съемке в местах со свободным входом. Также согласие не требуется, если материал используется в публичных интересах. Так, Второй кассационный суд общей юрисдикции отказал сыну известного певца Виктора Цоя в защите прав на изображение его отца в фильме «Цой». В судебном акте указано, что такое использование осуществлялось в публичных интересах, потому что производство фильма было «необходимым элементом реализации государственной политики по обеспечению национальных интересов в области культуры».

Мнение автора может не совпадать с мнением редакции