Структура имитационного обучения улучшает навыки передвижения и манипуляции четвероногих роботов в дикой природе

Четвероногие роботы, интегрирующие манипуляторы, потенциально могут решать задачи, которые подразумевают манипулирование объектами, быстро перемещаясь в окружающей среде. К ним относятся такие задачи, как сбор мусора вокруг дома, сбор определенных объектов и их доставка людям или размещение целевых объектов в определенных местах.

Многие подходы, разработанные для обучения роботов успешному решению этих задач, основаны на имитационном обучении. Это означает, что алгоритмы, планирующие действия роботов, изучают политики, которые позволят роботу выполнить задачу, обрабатывая демонстрационные данные, показывающие, как агенты справились с этой задачей.

Хотя некоторые существующие методы обучения роботов задачам, включающим как передвижение, так и манипулирование объектами, достигли многообещающих результатов в симуляциях, они часто не работают так же хорошо «в дикой природе». По сути, это означает, что они не позволяют роботам хорошо обобщать различные задачи при тестировании в реальных условиях.

Исследователи из Калифорнийского университета в Сан-Диего недавно представили WildLMa, новую структуру, которая может улучшить навыки локоманипулирования в долгосрочной перспективе у четвероногих роботов в дикой природе. Эта структура, изложенная в статье на сервере препринтов arXiv , имеет три компонента, которые в совокупности могут повысить обобщаемость навыков, полученных с помощью имитационного обучения.

«Быстрый прогресс в области имитационного обучения позволил роботам учиться на примерах людей», — рассказал Tech Xplore автор статьи Юйчэнь Сон.

«Однако эти системы часто фокусируются на изолированных, конкретных навыках и с трудом адаптируются к новым условиям. Наша работа направлена на преодоление этого ограничения путем обучения роботов приобретению обобщаемых навыков с использованием моделей «зрение-язык» (VLM), а затем использования больших языковых моделей (LLM) для объединения этих навыков в последовательности, которые позволяют роботам решать сложные задачи».

WildLMa, фреймворк, разработанный Сонгом и его коллегами, в первую очередь предоставляет простой способ сбора данных экспертной демонстрации. Это достигается с помощью системы телеуправления на основе виртуальной реальности (VR), в которой агенты-люди могут использовать предварительно обученные алгоритмы управления роботом и использовать только одну руку для управления всеми движениями тела робота.

«Эти предварительно обученные навыки затем улучшаются с помощью LLM, которые разбивают сложные задачи на управляемые шаги — подобно тому, как человек может подойти к решению задачи (например, «выбрать — провести — разместить»), — пояснил Сон. — Результатом является робот, способный эффективно и интуитивно выполнять длительные многошаговые задачи».

Характерной чертой подхода, представленного этой группой исследователей, является то, что он также интегрирует механизмы внимания. Эти механизмы позволяют роботам фокусироваться на целевом объекте, пока они выполняют определенные задачи.

«Интеграция механизмов внимания играет решающую роль в том, чтобы сделать навыки робота более адаптируемыми и обобщаемыми», — сказал Сонг. «Потенциальные приложения WildLMa включают практические домашние дела, такие как уборка или извлечение предметов. Мы уже продемонстрировали некоторые из этих возможностей».

Сонг и его коллеги уже продемонстрировали потенциал своей структуры в серии экспериментов в реальном мире, где они успешно обучили четвероногого робота выполнять различные задачи. Эти задачи включали уборку мусора в коридорах и на открытом воздухе в Калифорнийском университете в Сан-Диего, прием продуктов питания и перестановку предметов на книжной полке.

«Хотя наша система работает хорошо, на нее все еще могут влиять неожиданные помехи, такие как перемещение людей», — добавил Сонг. «Наши следующие шаги будут включать в себя повышение надежности системы в динамичных средах. В конечном счете, мы стремимся создать домашних роботов-помощников, которые будут доступны и доступны каждому».

Структура имитационного обучения улучшает навыки передвижения и манипуляции четвероногих роботов в дикой природе