Модель o3 от OpenAI показала рекордные результаты в тесте на логику

OpenAI объявила о значительном достижении своей новой модели искусственного интеллекта o3, которая показала впечатляющие результаты в престижном тесте на логическое мышление ARC Challenge. Несмотря на то, что некоторые энтузиасты ИИ предположили, что модель o3 достигла уровня искусственного общего интеллекта (AGI), организаторы конкурса, признавая важность достижения, подчеркнули, что это лишь один из этапов на пути к созданию искусственного интеллекта, сопоставимого с человеческим, сообщает New Scientist.

Модель o3, являющаяся продолжением линейки языковых моделей, лежащих в основе ChatGPT, продемонстрировала беспрецедентные способности к адаптации при решении задач. По словам Франсуа Шолле, инженера Google и создателя ARC Challenge, это неожиданный и важный скачок в развитии возможностей искусственного интеллекта, демонстрирующий невиданные ранее способности адаптации к задачам.

Модель o3, запланированная к выпуску в начале 2025 года, достигла официального результата 75,7% в полузакрытом тесте ARC Challenge, затратив около 20 долларов на каждую визуальную головоломку. При увеличении вычислительной мощности в 172 раза модель достигла неофициального результата 87,5%, что превышает средний показатель человека в 84%. Однако стоимость решения каждой задачи при этом возросла до нескольких тысяч долларов.

Организаторы ARC Challenge подчеркивают, что достижение высоких показателей в этом тесте не означает достижения уровня AGI. Даже при использовании значительных вычислительных ресурсов модель o3 не смогла решить более 100 визуальных головоломок. По мнению Томаса Диттериха из Университета штата Орегон, коммерческим системам ИИ все еще не хватает эпизодической памяти, планирования, логического мышления и метапознания.

Организаторы ARC Challenge планируют запустить второй, более сложный набор тестов в 2025 году. Конкурс ARC Prize 2025 будет продолжаться до тех пор, пока кто-либо не достигнет главного приза и не сделает свое решение открытым.

Подписывайтесь на Science XXI в Дзен и Telegram.