Отчет о состоянии искусственного интеллекта 2024. Обзор

Время на прочтение:4мин

Одна из ведущих европейских инвестиционных компаний в сфере искусственного интеллекта, Air Street Capital, подготовила отчет State of AI 2024о состоянии ИИ в 2024 году – достижения, тенденции и вызовы.

Ежегодный отчет о отраслевых тенеденциях опубликован в 7й раз. В нем рассмотрены следующие направления:

исследования – технологические прорывы и их возможности;

промышленность – области коммерческого применения ИИ и его влияние на бизнес;

политика – регулирование ИИ, его экономические последствия и роль ИИ в геополитике;

безопасность – выявление и смягчение катастрофических рисков, которые могут сформироваться в результате использования высокоэффективных систем ИИ;

прогнозы развития ИИ на 2025 год.

Исследования

В 2024 году существенный рост демонстрируют большие языковые модели (GPT-4 от OpenAI, Llama 3 от Meta, Claude 3.5 Sonnet от Anthropic, Gemini от Google), конкурируя между собой в решении логических, математических, многоязычных и контекстных задач. OpenAI сохраняет лидерство зв счет запуска o1 – языковой модели, имитирующей человеческий процесс мышления. В частности, умение разбивать сложные задачи на более простые, анализировать разные подходы и исправлять собственные ошибки, что отличает её от предыдущих моделей.

GPT-4o превосходит Claude 3.5 Sonnet на MMLU, но уступает ему на MMLU-Pro – бенчмарке, разработанном для более сложного тестирования. OpenAI сообщает о значительных улучшениях в тестах, требующих большого количества рассуждений, по сравнению с 4o, с самым высоким результатом в AIME 2024 83,83 против 13,4. Профессиональное сообщество оценило работу o1, обнаружив, что она значительно лучше справляется с определенными логическими задачами и головоломками. Однако ее основное преимущество проявилось при решении сложных математических и естественнонаучных задач: например, вирусное видео, на котором аспирант с удивлением реагирует на быстрое воспроизведение программой кода его докторской диссертации, над которой он работал год. Однако модель по-прежнему слабее в отношении некоторых видов пространственного мышления.

Модели, созданные для мобильных устройств, конкурируют с более крупными аналогами. Например, Phi-3.5-mini от Microsoft — это 3,8-байтная LM, которая конкурирует с более крупными моделями, такими как 7B и Llama 3.1 8B. Она хорошо справляется с рассуждениями и ответами на вопросы, но объем памяти ограничивает ее фактические знания.

Стоит отметить, что большие языковые модели демонстрируют способность решать задачи не только в текстовых данных – область применения технологий стремительно расширяется, охватывая математику, биологию, геномику, физические науки и нейронауку.

Семейство мультимодальных моделей Med-Gemini для медицины настроено с Gemini Pro 1.0 и 1.5 с использованием различных медицинских наборов данных и включает веб-поиск актуальной информации. Они достигли точности SOTA 91,1% на MedQA, превзойдя GPT-4.

Для мультимодальных задач (например, в радиологии и патологии) Med-Gemini установила новую SOTA для 5 из 7 наборов данных. С исправлением ошибок производительность модели улучшилась, и она хорошо показала себя в тестах, например, при извлечении редких результатов из длинных электронных медицинских карт – достаточной сложной задаче. Врачи оценили результаты Med-Gemini как равные с человеком, а в некоторых случаях, как превосходящие его.

Apple Vision Pro становится обязательным инструментом для исследований в области робототехники. В то время как потребительский спрос на Vision Pro пока невелик, система виртуальной реальности стремительно захватывает исследования в области робототехники, где её высокое разрешение, расширенная отслеживающая и вычислительная мощность используются исследователями, работающими над телеуправлением – управлением движениями и действиями робота на расстоянии. Такие системы, как Open-TeleVision и Bunny-Vision Pro используют его для обеспечения точного управления многопальцевыми роботизированными руками на расстоянии 4828 км, демонстрируя высокую производительность при выполнении сложных задач манипуляции по сравнению с предыдущими подходами. Они решают такие проблемы, как управление в реальном времени, безопасность за счет предотвращения столкновений и эффективная двуручная координация.

Индустрия

Nvidia становится самой влиятельной компанией в мире на рынке оборудования для ИИ. В июне Nvidia впервые смогла обойти Apple по капитализации, повторив успех в октябре и ноябре.

Покупка акций Nvidia является более выгодным вложением, чем инвестирование в стартапы-конкуренты. Авторы отчета сравнили потенциальную инвестицию в 6 млрд долл. в компании-стартапы в 2016 году и покупку эквивалентного количества акций Nvidia по цене того дня. На графике видно, что вложенные 6 млрд долларов в 2024 году увеличились бы до 120 млрд долл., в то время как инвестиция в стартапы-конкуренты принесла бы только 31 млрд долл.

Из всех венчурных компаний самый высокий процент компаний с искусственным интеллектом приходится на робототехнику, корпоративное программное обеспечение, космос и безопасность. В прошлом году наиболее активно финансируемыми категориями искусственного интеллекта были корпоративное программное обеспечение, здравоохранение, финансы и маркетинг.

Runway, Pika, Luma и OpenAI значительно расширяют масштабы своих экспериментов по сбору данных и обучению моделей в целях повышения качества и согласованности при преобразовании текста в видео, а также создания более длинных видеороликов.

Промт: “Кинематографический документальный фильм о животных, показывающий горную корову в поле, шерсть которой развевает ветер”.

Политика

Несмотря на санкции США, китайские лаборатории ИИ стремительно развиваются, создавая высокопроизводительные мультимодальные модели и становясь лидерами в мировых рейтингах разработчиков ИИ.

В 2024 году США и Китай ‑ лидеры в научных исследованиях в области ИИ (29,5% и 23,6% всех научных публикаций в 2024 году, соответственно). В Европе Великобритания опередила Германию, а на долю Франции пришлось 2,4% от всех научных публикаций по ИИ.

Безопасность

Для многих ведущих компаний, занимающихся разработкой передовых технологий, скорость продаж своих продуктов становится важнее безопасности ИИ.

В связи с этим, ряд государств, например, Великобритания, наращивают государственный потенциал в области безопасности ИИ, создании институтов и изучении критически важной национальной инфраструктуры на предмет потенциальных уязвимостей.

Прогнозы на 2025 год

• ИИ с открытым исходным кодом превзойдет o1 от OpenAI по ряду критериев.

• Объемы инвестиций в человекоподобных роботов будут снижаться из-за сложности в достижении соответствия продукта рынку.

• Государственные инвестиции в размере более 10 млрд долл. в американские лаборатории ИИ приведут к пересмотру мер национальной безопасности.

• Приложение или веб-сайт, созданные исключительно человеком, не имеющим навыков программирования, станут вирусными (например, войдут в топ-100 App Store).

• Регулирование ИИ в ЕС окажется мягче ожиданий.

• Конкуренты не смогут существенно повлиять на позиции Nvidia.

• Результаты работы Apple в области искусственного интеллекта на персональных устройствах дадут значительные результаты.

• Прорыв в видеоиграх, использующих генеративный ИИ.

• Исследовательские лаборатории внесут существенные изменения в практику сбора данных после увеличения судебных исков.

Выводы

Искусственный интеллект становится движущим фактором технического прогресса в цифровом мире, управляемом данными. Это связано с тем, что все, что нас окружает сегодня, от культуры до потребительских товаров, является продуктом интеллекта.