Сбор эффективных человеческих манипуляций для обучения ИИ

Чтобы эффективно помогать людям в реальных условиях, роботы должны иметь возможность изучать новые навыки и адаптировать свои действия в зависимости от того, что пользователи требуют от них в разное время. Одним из способов добиться этого было бы разработать вычислительные подходы, которые позволили бы роботам учиться на человеческих демонстрациях, например, наблюдая за видео, где человек моет посуду и учится повторять одну и ту же последовательность действий.

Исследователи из Университета Британской Колумбии, Университета Карнеги-Меллона, Университета Монаша и Университета Виктории недавно решили собрать больше надежных данных для обучения роботы посредством демонстраций. Их статья, размещенная на сервере препринтов arXiv, показывает, что данные они собрали, может значительно повысить эффективность обучения роботов на демонстрациях пользователей-людей.

«Роботы могут строить автомобили, собирать товары для заказов на загруженных складах, пылесосить полы и заполнять больничные полки расходными материалами», — говорит он. Марам Сакр, один из исследователей, проводивших исследование, рассказал Tech Xplore. «Традиционные системы программирования роботов требуют, чтобы опытный программист разработал контроллер робота, который способен решать такие задачи, реагируя при этом на любую ситуацию, с которой может столкнуться робот».

Традиционные подходы к обучению роботов выполнению конкретных задач требуют навыков специалистов по информатике. Часто для эффективной работы этих подходов требуется разбить задачи на десятки или сотни более мелких подзадач с последующей проверкой надежности каждой из этих подзадач.

Этот процесс требует как времени, так и вычислительных затрат. Кроме того, если произойдет сбой и модель обучения перестанет работать должным образом, ее должны будут исправить высококвалифицированные специалисты.

«Обучение на демонстрациях (LfD) — это многообещающий альтернативный подход к обучению роботов, который позволяет неопытным преподавателям-людям (т. е. экспертам в предметной области, но не экспертам по робототехнике) программировать робота, просто показывая ему, как выполнять задачу; никакого программирования не требуется», — сказал Сакр. «Тогда, когда происходят неудачи, учителю-человеку нужно только провести больше демонстраций, а не обращаться за профессиональной помощью. LfD стремится наделить роботов способностью учиться выполнять задачу, обобщая несколько наблюдений учителя-человека».

Методы LfD основаны на новейших методах машинного обучения (ML), которые позволили добиться замечательных результатов в различных задачах. Эффективное обучение этим методам опирается на эффективные и качественные демонстрационные данные, однако большинство доступных наборов данных содержат отснятый материал низкого разрешения, низкого качества или недостаточного количества.

«Сбор набора обучающих данных в любой системе обучения имеет решающее значение для успешного процесса обучения», — сказал он. — сказал Сакр. «Данные обучения должны быть репрезентативными для состояний, с которыми робот столкнется в будущем. Таким образом, цель данной статьи – помочь пользователям предоставить эффективный набор демонстраций, на которых робот сможет учиться. По «эффективности» мы имеем в виду минимальное количество демонстраций, которые хорошо распределены по пространству задач для достижения высоких возможностей обобщения робота».

Ключевым ограничением ранее предложенных подходов LfD является то, что они полагаются на демонстрации, проводимые учеными-компьютерщиками, а не обычными пользователями-неспециалистами. В своей статье Сакр и ее коллеги исследуют возможность обучения обычных пользователей выбору обучающих данных или демонстраций, которые улучшают обучение робота и позволяют ему лучше обобщать различные задачи.

«Во время обучения учителей-человека выделяются области в пространстве задач с наибольшей неопределенностью в отношении способности робота выполнить задачу», — сказал он. Сакр объяснил. «Дополнительные демонстрации в этих областях могут принести наибольшую пользу роботу в успешном выполнении задачи при эффективном использовании усилий учителя (т. Е. Обеспечивая меньшее количество демонстраций, которые обеспечивают более широкое обобщение для робота). Под этим руководством учитель-человек может наблюдать, какая следующая демонстрация максимизирует обучение робота, а также размер и разнообразие демонстраций, необходимых для полного покрытия рабочего пространства».

Примечательно, что критериям выбора эффективных демонстраций, изложенным Сакр и ее коллегами, могут легко следовать различные пользователи-люди, независимо от их уровня знаний и конкретного алгоритма, приводящего в действие робота. Если пользователь проводит некачественные или неэффективные демонстрации, предлагаемая система наведения подчеркнет необходимость большего количества демонстраций для улучшения обучения робота.

Исследователи оценили эффективность своего подхода в простом эксперименте, в котором 24 начинающих пользователя роботов были обучены проводить эффективные демонстрации с использованием системы наведения на основе дополненной реальности (AR) на основе их критериев. После того, как эти неопытные пользователи завершили обучение, команда оценила их способность создавать эффективные демонстрации новых испытаний, ориентированных на новые задачи, без каких-либо указаний.

«Мы продемонстрировали, что краткий сеанс интерактивного обучения и рекомендаций значительно повышает эффективность непрофессиональных пользователей»; навыки преподавания, ведущие к улучшению обучения роботов и эффективности обобщения», — сказал Сакр. «Примечательно, что это онлайн-обучение происходило посредством демонстраций учителя, не обладавшего предварительным знанием робототехники или алгоритмов машинного обучения. Предлагаемая система обучения позволяет пользователям использовать необходимые демонстрации для эффективного обучения роботов, не вникая в тонкости процесса обучения».

Результаты, полученные Сакром и их коллегами, показывают, что обучение пользователей-неспециалистов созданию эффективных демонстраций может значительно снизить стоимость обучения роботов посредством имитационного обучения, а также повысить эффективность их обучения. Команда обнаружила, что демонстрации, созданные обученными участниками, повысили эффективность обучения роботов до 198% по сравнению с демонстрациями, созданными неподготовленными пользователями, и на 210% по сравнению с подходами к обучению, основанными на методе проб и ошибок.

«Наше исследование направлено на демократизацию доступа к робототехнике во всех областях», — сказал он. — сказал Сакр. «Интеграция интуитивного и интерактивного обучения в систему LfD может значительно расширить использование роботов в различных областях. Этот подход может улучшить взаимодействие человека и робота за счет сокращения времени, необходимого для обучения робота новой задаче. Более того, это облегчает передачу навыков экспертам в предметной области, которым не хватает знаний в области программирования».

В будущем критерии и система управления на основе дополненной реальности, используемые этой командой исследователей, могут помочь лучше обучать роботов новым навыкам посредством неэкспертных демонстраций. Кроме того, недавняя работа Сакра и ее коллег может вдохновить другие команды на разработку аналогичных подходов для создания эффективных демонстраций задач, что в конечном итоге облегчит развертывание роботов в реальных условиях и повысит их способность учиться, наблюдая за людьми.

«Значительное повышение эффективности за счет того, что пользователи направляют только на правильное распространение демонстраций, предполагает, что рекомендации пользователям предоставлять высококачественные демонстрации наряду с их хорошим распространением могут еще больше повысить эффективность обучения,» Сакр добавил. «Тестирование предлагаемого подхода на реальных объектах с пользователями в неконтролируемых условиях было бы интригующим. В таких сценариях пользователи могут сами определить продолжительность руководства или использовать его последовательно, чтобы обеспечить наиболее эффективную демонстрацию роботу.

«Наконец, изучение применения системы наведения, основанной на энтропии, в различных областях и в сочетании с различными алгоритмами обучения дает возможность дополнительно оценить ее возможности обобщения».

Сбор эффективных человеческих манипуляций для обучения ИИ