Новая модель ИИ может обучать математике и задавать вопросы

Своего рода «автопортрет» GPT-4o. Эту картинку искусственный интеллект сгенерировал на просьбу проиллюстрировать свои преимущества

Новая версия языковой модели с искусственным интеллектом от компании OpenAI — GPT-4o — вызвала бурную реакцию пользователей. «Это прорыв!», «Теперь она разрушит языковые барьеры!», «Необычайная скорость», — восхищались в соцсетях одни. «Она оставит нас без работы», «Лучше бы научилась коров доить», — парировали другие. Версия будет распространяться постепенно в течение нескольких недель. Первые пользователи уже получили доступ. «Новый проспект» протестировал новинку. В целом всё отлично, хотя есть небольшие сбои и пока доступны не все функции.

В чем суть обновления. Сейчас ChatGPT предлагает два уровня доступа. Бесплатный, на базе GPT-3.5, — довольно мощный, но он ограничен в функциональности: в него нельзя загружать файлы и фото, у него нет доступа к интернету и др. Также существует платный уровень, основанный на более продвинутой модели GPT-4. Теперь же компания OpenAI открыла для всех бесплатный доступ к модели GPT-4o, которая быстрее и сообразительнее платной.

Буква «o» в GPT-4o означает omni, что подчеркивает акцент на мультимодальных вводах. И это главное преимущество. Модель способна принимать всё: от текста до фото, аудио и видео — и выводить речь, текст, картинки. Вместо того чтобы набирать текст, вы можете просто поговорить с ней и получить голосовой ответ, который будет продублирован расшифровкой. К тому же модель значительно лучше знает русский язык — и письменный, и устный.

Общаться с ИИ можно, используя только один вид данных или их комбинацию и на выходе получить сгенерированные данные в различных форматах. Например, вы можете загрузить в одном вопросе изображение, текст к нему и добавить голосовой комментарий. Часто это значительно проще, чем набирать вопрос и техусловия для выполнения задания, а взаимодействие с компьютером стало более естественным.

На полной скорости

GPT уже давно приносит пользу людям и бизнесу, но его большим недостатком была скорость. Даже «четверка» зависала в раздумьях, что сильно раздражало даже самых лояльных пользователей. Модель Gemini от Google, как и некоторые другие, значительно обходила его по этому показателю.

Первые пять дней с GPT-4o радуют: версия отвечает практически мгновенно, генерируя обстоятельные и подробные ответы. На такие тексты у GPT-4 иногда уходили минуты. Теперь проблема, похоже, решена, и уже не хочется запустить в GPT тапком. Даже в бесплатной версии он, похоже, будет одним из лучших среди больших языковых моделей (LLM).

GPT-4o настолько быстрый, что с ним можно говорить, как с живым человеком, используя микрофон. Пока, правда, не получается перебить его голосом, когда он уже что-то говорит, и приходится нажимать кнопку.

На презентации, посвященной весеннему обновлению, GPT-4o даже шутил, но нас пока веселить не пытался. Возможно, нужно время. Когда мы поблагодарили его за обстоятельный рассказ, он ответил: «Спасибо за столь высокую оценку моей работы. Вы можете обращаться ко мне с любыми вопросами». Кажется, в его голосе слышалась радость.

Do you speak Russian?

Говорит ли он по-русски? Да, и очень неплохо! Он говорит, задает вопросы, произносит скороговорки, и его голос звучит очень естественно. Хотя небольшие недочеты есть. Пару раз он странно произнес букву ё и не распознал вопрос. Например, мы спросили его, как правильно поставить ударение «по сре́дам» или «по среда́м», и он бодро ответил: «Правильно — посреди. Например, посреди комнаты». Пришлось вопрос повторить более четко, и тогда он ответил «по среда́м».

Переводит на слух с английского на русский и наоборот быстро и хорошо. Эта полезная функция и в бизнесе, и для путешествий, был бы интернет под рукой. Вы что-то хотите спросить у официанта в дальней поездке — и вот вам, пожалуйста, голосовой переводчик. Однако распознавать видео с камеры во время общения он не стал, видимо, эта функция пока доступна не всем пользователям.

И вот еще. Если «четверка» чего-то не понимала в вопросе, она отвечала по своему разумению, сочиняла или просто замолкала, но не просила дать уточнения. Модель с буквой «o» не стесняется спросить подробности и делает это виртуозно. «Это, видимо, маленький город? Не могли бы вы дать о нем дополнительную информацию? Что вас в нем привлекло?» — ответил 4o, когда не смог распознать название Высоцк. А после обстоятельного рассказа о повадках синиц он спросил, любим ли мы наблюдать за птицами.

Уравнения и картинки

Однако GPT-4o наловчился не только вести беседу. Например, он запросто решает линейные уравнения. Мы просто скормили ему фото небрежно написанной на листке задачи. Он не только дал правильный ответ, но и подробно описал алгоритм решения. Мы не можем сказать, так ли учат в школе, но ответы на все 10 задач, которые мы ему дали, были верными.

Он отлично распознает и описывает картинки. Мы залили фотографию, сделанную в аэропорту, и он углядел на ней небольшую надпись на стекле. Ответ был таким: «На фото изображена очередь на досмотр в аэропорту Милана, судя по надписям на табличках».

Послали и фотографию с более узнаваемым местом. Он не только узнал город, но и написал, с какого места предположительно сделана фотография. Вот его ответ, в котором не исправлено ни буквы.

«На фотографии изображён город Котор, расположенный на побережье Которского залива в Черногории. В центре снимка видна историческая часть города, известная своими красными черепичными крышами. На переднем плане можно увидеть множество зданий с характерной архитектурой, типичной для средневековых европейских городов. Внизу кадра просматриваются улицы и площади старого города, который обнесён крепостными стенами. Среди зданий выделяются церковные шпили и купола. Вдоль берега расположены яхты и суда, причалившие в гавани. На заднем плане виден залив с синими водами и несколько круизных лайнеров, пришвартованных к берегу. За заливом поднимаются величественные горы, покрытые зеленью, создавая живописный фон.

Фотография сделана с высоты, вероятно, с одной из крепостных стен или из района крепости Святого Иоанна, которая расположена на склоне горы и возвышается над городом. С этой точки открывается панорамный вид на Котор и его окрестности, позволяя увидеть одновременно и старый город, и залив с горами».

Он прекрасно описал и фотографии из поездок по Европе и Азии, но споткнулся на российской глубинке. Да что там глубинка! Даже Кремль в Рязани опознал только с третьей попытки и только с подсказкой, что это «город на букву Р». При нехватке информации gpt-4o по-прежнему довольно много фантазирует, хотя и тут есть прогресс.

Где собака зарыта

До недавнего времени платная версия ChatGPT (GPT-Plus за $ 20) значительно превосходила бесплатную: она лучше справлялась с переводами, работала с картинками и имела больший лимит запросов. Почему же теперь расширенная версия стала доступной бесплатно? Где подвох?

Одной из возможных причин может быть стремление OpenAI захватить большую долю рынка, даже если это временно приведет к потерям среди платных пользователей. Компания хочет, чтобы пользователи выбирали именно ее продукт. Чем бо́льшую долю рынка займет OpenAI, тем меньше пространства останется остальным. Но это только одна из версий.

В ближайшие месяцы OpenAI планирует предложить что-то значительное. Генеральный директор OpenAI Сэм Альтман написал в соцсети Х: «Мы прилежно трудимся над некоторыми новыми вещами, которые, как мы думаем, понравятся людям! Для меня это похоже на волшебство». Возможно, это более мощная и интеллектуальная модель, например GPT-5, или что-то еще. И чем больше бесплатных пользователей получит OpenAI до ее запуска, тем больше людей впоследствии могут перейти на продвинутую платную версию. Так что это не только подарок пользователям, но и серьезный вклад в будущее компании.

И — да, опасения скептиков, что ИИ лишит многих работы, теперь кажутся всё более обоснованными. Презентацию следующей версии через год-другой, похоже, будет делать уже сам ИИ.

Вопрос «НП»: Каковы основные отличия GPT-4o от предыдущих версий и в чем преимущество для бизнеса?

Ответ GPT-4o (приведен дословно, из него можно заключить, что с употреблением деепричастных оборотов ИИ еще не вполне разобрался. — Прим. «НП»):

1. Мультимодальные возможности: GPT-4o может обрабатывать голос, видео и изображения наряду с текстом, что значительно расширяет спектр задач, которые можно автоматизировать.

Примеры использования:

  • Создание мультимедийных обучающих материалов для сотрудников, объединяющих текст, изображения и голосовые инструкции.
  • Разработка чат-ботов, которые могут распознавать и анализировать изображения товаров для предоставления информации о продукте или диагностике дефектов.
  • Обработка видеоконтента для автоматической генерации субтитров и аннотаций.

2. Скорость и производительность: Новая версия работает быстрее, что позволяет бизнесу быстрее реагировать на запросы клиентов и обрабатывать большие объемы данных.

Примеры использования:

  • Реализация мгновенной поддержки клиентов через чат-ботов, обеспечивая быстрые ответы на запросы и жалобы.
  • Автоматизация процесса анализа рыночных данных и предоставление оперативных аналитических отчетов для принятия решений.
  • Обработка большого объема заказов в режиме реального времени, что особенно важно для электронной коммерции.

3. Поддержка разных языков: Улучшенная поддержка русского языка открывает новые возможности.

Примеры использования:

  • Расширение бизнеса на русскоязычные рынки с помощью автоматического перевода контента и документов.
  • Обслуживание клиентов на их родном языке, улучшая качество взаимодействия и удовлетворенность клиентов.
  • Создание многоязычных маркетинговых кампаний, адаптированных к культурным особенностям различных регионов.

4. Более естественное взаимодействие: Благодаря возможности использования различных видов данных (текст, аудио, изображения), взаимодействие с ИИ становится более гибким и удобным.

Примеры использования:

  • Интерактивные презентации и совещания, где ИИ может анализировать и обрабатывать различные виды данных в реальном времени.
  • Разработка приложений для обучения, которые используют текстовые, аудиовизуальные материалы и голосовую обратную связь.
  • Автоматизация процесса создания мультимедийных отчетов, объединяющих текстовые анализы, графики и видеообзоры.

5. Бесплатный доступ к премиум-функциям: Многие премиум-функции, которые ранее были доступны только в платных версиях, теперь доступны бесплатно, что снижает затраты для бизнеса.

Примеры использования:

  • Малый бизнес может использовать расширенные аналитические функции без дополнительных затрат, улучшая управление и стратегическое планирование.
  • Стартапы могут разрабатывать и тестировать прототипы продуктов, используя премиум-инструменты ИИ, доступные бесплатно.
  • Предприятия могут проводить маркетинговые исследования и анализы без необходимости вкладываться в дорогие программные решения.

Эти улучшения делают GPT-4o более мощным и гибким инструментом для бизнеса, обеспечивая высокую производительность и широкий спектр возможностей для различных задач.