В России появилась первая мультимодальная нейросеть

Мультимодальную модель искусственного интеллекта OmniFusion разработали в научно-исследовательском Институте искусственного интеллекта (AIRI). ИИ поддерживает виртуальный диалог и может ответить пользователю на вопрос по картинкам.

Модель с поддержкой русского языка и открытым исходным кодом открывает новые возможности анализа информации и выводов, пишетForbes.ru. Нейросеть расширит возможности систем обработки языка через интеграцию дополнительных данных — изображений, аудио, 3D- и видео.

OmniFusion распознает и описывает изображения, может объяснить, что изображено на картинке, узнать рецепт блюда по фото ингредиентов или как собрать устройство по фото запчастей и многое другое. Модель подходит и для логических задач, например, решить написанный на доске математический пример или распознать формулу.

В AIRI отмечают:

Спектр возможностей широкий: уже сейчас модель может проанализировать медицинское изображение [снимок] и указать на нем какую-то проблему. Разумеется, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины

Сейчас ее обучают специалисты научной группы FusionBrain Института и ученые из Sber AI и SberDevices.

изображениеFreepik