NVIDIA представила ИИ-модель Fugatto для создания звука на основе текстовых запросов

NVIDIA представила экспериментальную генеративную модель ИИ под названием Fugatto (Foundational Generative Audio Transformer Opus 1), которую компания называет "швейцарским ножом для работы со звуком". Эта модель может превращать текстовые команды в аудио или изменять существующие музыкальные, голосовые и звуковые файлы.

Fugatto разработана международной командой исследователей ИИ, что, по словам NVIDIA, усилило ее "многоязычные и мультиакцентные возможности".

Мы хотели создать модель, которая понимает и генерирует звуки так, как это делают люди.
— Рафаэль Валье, руководитель отдела прикладных аудиоисследований NVIDIA и один из авторов проекта

Компания описала несколько практических сценариев применения Fugatto. Например, музыканты смогут быстро генерировать прототипы песен и экспериментировать с различными стилями, голосами и инструментами. Модель также может использоваться для создания материалов для языковых курсов с выбором голоса или для генерации звуковых эффектов в видеоиграх, которые адаптируются к действиям и выборам игрока.

Кроме того, Fugatto способна на задачи, которые не входили в ее первоначальное обучение. Например, она может комбинировать раздельно изученные инструкции, создавая речь с определенным акцентом и эмоциональной окраской, или звуки природы, такие как пение птиц во время грозы. Также модель может генерировать звуки с динамическими изменениями, например, звук приближающегося ливня.

Пока не заявлено, станет ли Fugatto доступной для широкой публики, но эта модель не первая в своем роде. Другие крупные технологические компании представляют свои альтернативы, правда, один из главных вопросов — это наличие инструментария для работы с подобными ИИ-моделями.

https://youtu.be/qj1Sp8He6e4