NVIDIA представила экспериментальную генеративную модель ИИ под названием Fugatto (Foundational Generative Audio Transformer Opus 1), которую компания называет "швейцарским ножом для работы со звуком". Эта модель может превращать текстовые команды в аудио или изменять существующие музыкальные, голосовые и звуковые файлы.
Fugatto разработана международной командой исследователей ИИ, что, по словам NVIDIA, усилило ее "многоязычные и мультиакцентные возможности".
Мы хотели создать модель, которая понимает и генерирует звуки так, как это делают люди.
— Рафаэль Валье, руководитель отдела прикладных аудиоисследований NVIDIA и один из авторов проекта
Компания описала несколько практических сценариев применения Fugatto. Например, музыканты смогут быстро генерировать прототипы песен и экспериментировать с различными стилями, голосами и инструментами. Модель также может использоваться для создания материалов для языковых курсов с выбором голоса или для генерации звуковых эффектов в видеоиграх, которые адаптируются к действиям и выборам игрока.
Кроме того, Fugatto способна на задачи, которые не входили в ее первоначальное обучение. Например, она может комбинировать раздельно изученные инструкции, создавая речь с определенным акцентом и эмоциональной окраской, или звуки природы, такие как пение птиц во время грозы. Также модель может генерировать звуки с динамическими изменениями, например, звук приближающегося ливня.
Пока не заявлено, станет ли Fugatto доступной для широкой публики, но эта модель не первая в своем роде. Другие крупные технологические компании представляют свои альтернативы, правда, один из главных вопросов — это наличие инструментария для работы с подобными ИИ-моделями.