Генеративный ИИ превращает звуки улиц в реалистичные изображения

Исследователи из Техасского университета в Остине использовали генеративный искусственный интеллект для преобразования звуков в реалистичные изображения, словно с высоты птичьего полёта. Они обучили модель ИИ на аудио- и визуальных данных, собранных с городских и сельских улиц, и использовали её для создания изображений по звуковым записям.

В ходе исследования было выявлено, что акустическая среда содержит визуальные подсказки, которые помогают генерировать узнаваемые и точные изображения улиц.

Для обучения модели команда использовала видео и аудио с YouTube из разных городов мира. Затем они сравнили изображения, созданные ИИ, с реальными фотографиями, и результаты оказались положительными как для людей, так и для компьютера.