Исследователи CMU расширили возможности роботов по обучению на основе видеоматериалов

Новая работа исследователей из Carnegie Mellon University (CMU) позволила роботам научиться выполнять домашние дела, просматривая видеозаписи где их выполняют люди. Исследование может помочь улучшить использование роботов в быту, позволяя им помогать людям в таких задачах, как приготовление пищи и уборка.

В ходе исследования 2 робота успешно выучили 12 задач, включая открытие ящика кухонного шкафа и дверцы духовки, снятие кастрюли с плиты и крышки с нее, взятие телефонной трубки, овощей или банки с консервами.

"Робот может узнать, где и как люди взаимодействуют с различными объектами, просматривая видео, - сказал Дипак Патхак, доцент Института робототехники Школы компьютерных наук CMU. - На основе этих данных мы можем обучить модель, которая позволит двум роботам выполнять одни и те же задачи в различных условиях".

Существующие методы обучения роботов требуют либо ручной демонстрации задач человеком, либо обучения в симулированной среде. И то, и другое занимает много времени и чревато неудачами. В прошлом Патхака и его студенты продемонстрировали метод WHIRL (In-the-Wild Human Imitating Robot Learning), при котором роботы обучались, наблюдая за выполнением задач человеком. Но этот метод требовал, чтобы человек выполнял задание в той же среде, что и робот.

Последняя работа Патхака VRB (Vision-Robotics Bridge) основана на WHIRL. Новая модель исключает необходимость демонстрации человеком и работы в идентичной среде. Как и WHIRL, робот по-прежнему требует практики для освоения задачи. Исследования команды показали, что он может освоить новую задачу примерно за 25 минут.

"Мы смогли провести роботов по кампусу и выполнить самые разные задачи, - говорит Шикхар Бахл, аспирант кафедры робототехники. - Роботы могут использовать эту модель, чтобы исследовать окружающий мир. Вместо того чтобы просто махать руками, робот может быть более непосредственным в своем взаимодействии".

VRB определяет, где и как робот может взаимодействовать с объектом, основываясь на поведении человека. Например, наблюдая за тем, как человек открывает ящик, робот определяет точки контакта и направление движения ящик. В пресс-релизе университета сообщается, что после просмотра нескольких подобных видеороликов, на которых люди открывают ящики, робот может определить, как открыть любой ящик.

Команда использовала видео из больших наборов данных, таких как Ego4D и Epic Kitchens. Ego4D содержит почти 4 000 часов видеозаписей повседневной деятельности со всего мира. Epic Kitchens содержит аналогичные видео, на которых запечатлены приготовление пищи, уборка и другие кухонные дела. Оба набора данных предназначены для обучения моделей компьютерного зрения.

Более подробную информацию можно найти на сайте проекта и в статье, представленной в июне на Конференция по компьютерному зрению и распознаванию образов.

Данные о правообладателе фото и видеоматериалов взяты с сайта «RoboGeek.Ru», подробнее в Правилах сервиса
Анализ
×
Carnegie Mellon University
Организации
YouTube
Производитель:Google
114
Робототехника
Технологии
54