OpenAI не может выпустить модель GPT-5 Orion из-за недостатка данных для обучения

Разработка новой флагманской модели OpenAI под кодовым названием Orion затянулась. Уже 18 месяцев команда работает над созданием GPT-5, но столкнулась с рядом проблем, включая нехватку данных для обучения. По данным Wall Street Journal, создание этой версии оказалось значительно сложнее, чем предполагали.

OpenAI провела два крупных пробных запуска, чтобы проверить работоспособность Orion, но оба не оправдали ожиданий. Каждый раз процесс затягивался на месяцы и требовал огромных вычислительных затрат, достигающих $500 млн. Несмотря на то, что новая система уже превосходит GPT-4, она всё ещё далека от уровня, необходимого для выполнения обещаний, данных инвесторам.

Мечты и реальность

В 2022 году, с запуском ChatGPT, казалось, что искусственный интеллект станет неотъемлемой частью жизни. OpenAI уверенно лидировала в этой сфере, обещая сделать GPT-5 инструментом, способным решать научные задачи и выполнять повседневные задачи. Однако ожидания быстро столкнулись с реальностью.

Проблема в том, что у мира не хватает данных. GPT-4 обучалась на 13 триллионах токенов, но для достижения нового уровня требуются ещё большие объёмы. Открытые источники, такие как статьи, книги и публикации, исчерпаны. Для решения этой проблемы компания наняла специалистов, чтобы они вручную создавали обучающие данные: решали сложные задачи и описывали свои шаги. Также OpenAI экспериментировала с использованием ИИ для генерации данных, но это привело к сбоям и бессмысленным результатам.

Внутренние и внешние вызовы

К началу 2024 года OpenAI осознала, что её конкуренты, такие как Anthropic, начали обгонять GPT-4. Компания переключилась на другие проекты, включая генератор видео Sora и облегчённую версию GPT-4. Это привело к внутренней конкуренции за ограниченные ресурсы.

Сама индустрия ИИ стала более закрытой: компании перестали публиковать научные открытия, а данные стали охраняться как коммерческая тайна. Сотрудники избегают работать в общественных местах, опасаясь утечек информации.

Orion: впереди большие расходы и сложные решения

Несмотря на трудности, OpenAI продолжает тестировать и дорабатывать Orion. Один из приоритетов — развить способность ИИ к рассуждениям. Новая модель должна анализировать свои ответы, сравнивать варианты и выбирать лучший. Но такой подход требует дополнительных ресурсов и значительно увеличивает расходы.

Каждая ошибка в обучении сравнима с провалом при запуске ракеты: миллионы долларов и месяцы работы уходят в пустую. Последний крупный запуск показал, что даже новые данные были недостаточно разнообразными, что ограничило потенциал обучения.

Однако в OpenAI продолжают экспериментировать. Исследователи надеются, что совмещение больших объемов данных с более продвинутыми алгоритмами рассуждения поможет вывести GPT-5 на новый уровень. Этот путь требует огромных вложений, но команда настроена оптимистично, считая, что подход может оправдать себя.

OpenAI оказалась в центре гонки, где каждая задержка грозит потерей лидерства. Удастся ли компании преодолеть кризис и представить GPT-5? Ответ на этот вопрос остаётся неясным, но ставки в этой игре слишком высоки, чтобы сдаваться.