Gigachat стал мультимодальным

Система искусственного интеллекта GigaChat Pro, разработанная «Сбером», научилась распознавать изображения. Эта функциональность позволяет загружать иллюстрации в качестве запросов для анализа. Модель способна идентифицировать количество людей на изображении, оценивать их одежду, давать рекомендации по стилю и распознавать текст, включая рукописные записи, формулы, графики и таблицы. 

Также поддерживается мультимодальность, то есть, одновременная обработка изображения и текстового пояснения к нему, либо текстового запроса, дополненного картинкой. 

Бизнес-клиенты, использующие API сервиса, могут автоматизировать различные процессы, например, модерацию отзывов, классификацию медиа-контента и создание продающих описаний товаров на основе изображений. Это открывает дополнительные возможности для ритейлеров и компаний, занимающихся поддержкой клиентов. 

Для реализации мультимодельности размер контекста, который GigaChat способен обрабатывать, был увеличен с 8 тысяч до 32 тысяч токенов, что примерно соответствует 60 страницам текста формата A4. Также до 32 тыс. токенов расширили окно и у GigaChat Lite. Это расширение позволяет обрабатывать большие массивы данных и лучше адаптироваться к различным сценариям использования, как для индивидуальных пользователей, так и для бизнеса. Кроме того, у моделей повысился уровень математических знаний, а GigaChat Pro научился лучше форматировать текст — расставлять параграфы, заголовки, используя выделения и списки. 

Нейросетей с возможностью распознавания изображений много. На глобальном уровне существуют такие системы, как Google Vision AI, которая способна анализировать изображения и видео (именно её вы бесплатно обучаете, решая капчу со светофорами на картинке), а также Amazon Rekognition. Эти решения активно используются в коммерческих целях, включая автоматизацию процессов безопасности и анализа данных. 

В России есть свои системы, например, от компании VisionLabs (больше всего известны их системы распознавания лиц), а на прошлой неделе мультимодальность была внедрена и в экосистему «Яндекса». Теперь пользователи поисковика могут загружать изображения в качестве запросов для анализа, дополняя их текстом. 

«Мультимодальность расширяет способы и сферы применения больших языковых моделей, она же — ключевой тренд развития генеративного искусственного интеллекта. Теперь GigaChat умеет распознавать изображения — и это не просто ещё один важный шаг в развитии нашего сервиса, он открывает широкий спектр новых возможностей для наших пользователей. В том числе появляется много сценариев использования GigaChat API для бизнеса. Кроме того, увеличение размера контекста системы в четыре раза позволит поддерживать более длинные диалоги с пользователями и проще реализовывать кейсы с механикой RAG», -- говорит Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка

Данные о правообладателе фото и видеоматериалов взяты с сайта «TelecomDaily», подробнее в Правилах сервиса
Анализ
×
Андрей Андреевич Белевцев
Последняя должность: Директор по цифровой трансформации (ПАО "ГАЗПРОМ НЕФТЬ")
Google
Сфера деятельности:Образование и наука
226
ПАО СБЕРБАНК
Сфера деятельности:Финансы
846
Amazon.com, Inc.
Сфера деятельности:Розничная торговля
120
ООО "ВижнЛабс"
Сфера деятельности:Связь и ИТ
3
ООО "ЯНДЕКС"
Сфера деятельности:Связь и ИТ
425