От рецепта карри до картин Да Винчи: Google учит Astra понимать вас с полуслова

Репортаж из секретной лаборатории DeepMind.

Google DeepMind представила новое семейство продуктов с искусственным интеллектом, главной звездой среди которых стал Project Astra - экспериментальное приложение, способное видеть, слышать и разговаривать с пользователем. Корреспондент MIT Technology Review побывал на закрытой демонстрации технологии в лондонском офисе компании. Символично, что презентация прошла в день, когда генеральный директор DeepMind Демис Хассабис получал Нобелевскую премию в Швеции.

В районе Кингс-Кросс, за ничем не примечательной дверью, скрывается помещение с гигантской надписью "ASTRA" на стене. По офису, между столами программистов и исследователей, свободно разгуливает пес по кличке Чарли - негласный талисман проекта, над которым работает команда под руководством Бибо Сюй и Грега Уэйна. Сотрудники намеренно создали в пространстве атмосферу секретной лаборатории.

Создатели называют Astra "универсальным ассистентом", хотя сами все еще формулируют точное определение этому понятию. Грег Уэйн объясняет просто: они создают ИИ с глазами, ушами и голосом, который сможет всегда находиться рядом и помогать в любых делах.

Для демонстраций в офисе воссоздали два пространства - бар и художественную галерею. Корреспондента сначала отвели к бару. «Давным-давно мы наняли эксперта по коктейлям, который обучал нас их приготовлению, — объяснил Правин Сриивасан, ещё один из руководителей проекта. — Мы записали эти беседы и использовали их для обучения нашей первой модели».

Сю открыла кулинарную книгу на рецепте куриного карри, направила на него свой телефон и активировала Astra. «Ни хао, Бибо!» — раздался женский голос.

«О! Почему ты говоришь со мной на мандаринском?» — спросила Сю у телефона. «Можешь, пожалуйста, говорить со мной на английском?»

«Мои извинения, Бибо. Я следовала предыдущей инструкции говорить на мандаринском. Теперь я буду говорить на английском, как вы попросили».

В отличие от привычных нам голосовых помощников, общение с Astra напоминает разговор с человеком - системе не нужны специальные команды или ключевые слова, она понимает контекст и спокойно реагирует на то, что ее перебивают для уточнений или исправлений.

Модель хранит в памяти не только историю диалогов, но и последние 10 минут видео (то есть, продемонстрированной ей через камеру ситуации). В рекламном ролике она даже подсказала, где лежат очки, которые заметила на столе несколько секунд назад. Правда, на живой демонстрации такие возможности показаны не были.

Разбирая рецепт, Astra сначала упустила некоторые специи из списка, но сразу исправилась после замечания. Затем она помогла подобрать вино к блюду - объяснила, почему подойдет риоха, и сверилась с ценами через поиск Google.

В реальных условиях возможности Astra оказались еще шире: система умеет считывать коды с экрана телефона и запоминать их, определять маршруты проезжающих автобусов и рассказывать о произведениях искусства, мимо которых идет пользователь.

В импровизированной галерее Astra изучала изображения знаменитых картин на экранах. Система проявила разумную осторожность - когда журналист попытался спровоцировать ее предположениями о местонахождении, она отказалась гадать. При этом Astra верно определила, что на экранах показаны копии оригиналов.

В сердце Project Astra работает Gemini 2.0 - обновленная языковая модель Google DeepMind. По данным компании, она вдвое быстрее предыдущей версии и превосходит ее в стандартных тестах, включая MMLU-Pro. Испытания охватывают широкий круг дисциплин: от математики и физики до психологии и философии.

Новая версия Gemini построена на передовой системе управления агентами, благодаря чему легко координирует различные сервисы Google - Search, Maps и Lens - для решения сложных задач.

Вместе с Astra компания показала и другие разработки: Mariner - помощника для веб-серфинга на базе Gemini, Jules - ассистента для программистов и Gemini for Games - советника для геймеров. Недавно также были представлены генератор видео Veo, обновленный создатель изображений Imagen 3 и квантовый чип Willow.

Вопросы приватности вызывают у экспертов особую тревогу. Мария Лиаката из Университета королевы Марии в Лондоне указывает на риски скрытого наблюдения за людьми через такие системы. Она также обращает внимание на отсутствие единых стандартов оценки таких технологий.

Разработчики признают: разрыв в качестве работы ведущих языковых моделей от разных компаний становится все меньше. Теперь главное внимание уделяется не столько улучшению базовых показателей, сколько расширению практического применения систем искусственного интеллекта.

Google DeepMind заверила, что внимательно следит за безопасностью своих разработок и защитой личных данных. По словам директора по инновациям Дон Блоксвич, перед тем как выпустить продукты на рынок, компания даст их на пробу доверенным пользователям. Google также предусмотрела возможность быстро отключить или отозвать технологии, если возникнут неожиданные проблемы.

Когда именно Project Astra появится в публичном доступе, в Google пока не говорят. А вот умные очки с этой моделью и вовсе остаются далекой перспективой, хотя компания уже показывает рабочие прототипы.