Воздушное обучение: тренажерный зал для тренировки алгоритмов глубокого подкрепления для навигации БПЛА

Обновление: 6 августа 2023 г.
Воздушное обучение: тренажерный зал для тренировки алгоритмов глубокого подкрепления для навигации БПЛА

Робототехники во всем мире пытались разработать автономные беспилотные летательные аппараты (БПЛА), которые можно было бы использовать во время поисково-спасательных операций или использовать для картографирования географических районов и для поиска источников. Однако для автономной работы дроны должны иметь возможность безопасно и эффективно перемещаться в окружающей среде.

В последние годы алгоритмы обучения с подкреплением (RL) достигли многообещающих результатов в обеспечении большей автономии роботов. Однако большинство существующих методов RL в первую очередь сосредоточены на разработке алгоритма без учета его фактических последствий. В результате, когда алгоритмы применяются на реальных БПЛА, их производительность может быть другой или разочаровывающей.

Например, поскольку многие дроны имеют ограниченные возможности бортовых вычислений, алгоритмы RL, обученные в симуляциях, могут занять больше времени, чтобы делать прогнозы, когда они применяются к реальным роботам. Это более длительное время вычислений может сделать БПЛА медленнее и менее отзывчивым, что, в свою очередь, может повлиять на результат миссии или привести к авариям и столкновениям.

Исследователи из Гарвардского университета и Google Research недавно разработали Air Learning, симулятор с открытым исходным кодом и тренажерный зал, где исследователи могут тренировать алгоритмы RL для навигации БПЛА. Это может помочь улучшить характеристики автономных БПЛА в реальных условиях.

«Чтобы достичь истинной автономии БПЛА, необходимо рассмотреть аспекты системного уровня, такие как выбор бортового компьютера», - сказал Шривацан Кришнан, один из исследователей, проводивших исследование. «Таким образом, основная цель нашего исследования заключалась в том, чтобы предоставить базовые блоки, которые позволят исследователям оценивать эти автономные алгоритмы в целом».

В Air Learning агенты БПЛА могут быть подвергнуты воздействию сложных сценариев навигации и обучены им. В частности, их можно обучить выполнению задач по предотвращению препятствий в трех ключевых средах с использованием двух методов обучения, называемых алгоритмами глубокой Q-сети (DQN) и ближайшей оптимизации политики (PPO).

«Air Learning предоставляет фундаментальные строительные блоки для целостного проектирования и оценки алгоритмов автономности», - сказал Кришнан. «Он предоставляет генераторы среды, совместимые с OpenAI для тренажерного зала, которые позволят исследователям обучать несколько алгоритмов обучения с подкреплением и политик на основе нейронных сетей».

На платформе, разработанной Кришнаном и его коллегами, исследователи могут оценивать производительность разработанных ими алгоритмов с использованием различных показателей качества полета (QoF). Например, они могут оценивать энергию, потребляемую дронами при использовании своих алгоритмов, а также их выносливость и среднюю длину траектории при использовании оборудования с ограниченными ресурсами, такого как Raspberry Pi.

«После того, как их алгоритмы разработаны, исследователи могут использовать аппаратное обеспечение для подключения встроенного компьютера и оценить, как работает алгоритм автономности, как если бы он работал на реальном БПЛА с этим бортовым компьютером», - сказал Кришнан. «Используя эти методы, различные узкие места на уровне системы можно выявить на ранней стадии процесса проектирования».

При проведении тестов Air Learning исследователи обнаружили, что обычно существует несоответствие между прогнозируемыми характеристиками и фактическим функционированием бортовых компьютеров. Это несоответствие может повлиять на общие характеристики БПЛА, потенциально влияя на их развертывание, результаты миссии и безопасность.

«Хотя мы уделяем особое внимание беспилотным летательным аппаратам, мы считаем, что используемые нами методологии могут быть применены к другим автономным системам, таким как беспилотные автомобили», - сказал Кришнан. «Учитывая, что эти бортовые компьютеры являются мозгом автономных систем, отсутствует систематическая методология их проектирования. Для эффективного проектирования бортовых компьютеров нам сначала необходимо понять узкие места производительности, а Air Learning предоставляет базовые блоки для понимания узких мест производительности ».

В будущем Air Learning может стать ценной платформой для оценки алгоритмов RL, предназначенных для автономной работы БПЛА и других роботизированных систем. Кришнан и его коллеги теперь используют созданную ими платформу для решения множества исследовательских задач, начиная от разработки дронов, предназначенных для выполнения конкретных миссий, и заканчивая созданием специализированных бортовых компьютеров.

«Известно, что обучение с подкреплением очень медленно обучается», - сказал Кришнан. «Люди обычно ускоряют обучение RL, добавляя больше вычислительных ресурсов, что может оказаться дорогостоящим и снизить входные барьеры для многих исследователей. Наша работа QuaRL (квантованное обучение с подкреплением) использует квантование для ускорения обучения RL и вывода. Мы использовали Air Learning, чтобы продемонстрировать реальное применение QuaRL в развертывании более крупных политик RL на БПЛА с ограниченным объемом памяти ».

Бортовые компьютеры действуют как «мозги» автономных систем, поэтому они должны уметь эффективно запускать различные алгоритмы. Однако проектирование этих компьютеров может быть очень дорогостоящим и не требует систематической методологии проектирования. Поэтому в своих следующих исследованиях Кришнан и его коллеги также планируют изучить, как они могут автоматизировать проектирование бортовых компьютеров для автономных БПЛА, чтобы снизить их стоимость и максимизировать производительность БПЛА.

«Мы уже использовали Air Learning для обучения и тестирования нескольких политик навигации для различных сценариев развертывания», - сказал Кришнан. «Кроме того, в рамках нашего исследования автономных Приложения, мы создали полностью автономный БПЛА для поиска источников света. В работе использовалось Air Learning для обучения и развертывания политики поиска света на крошечном БПЛА с питанием от микроконтроллера ».

ЭЛЕ Таймс
+ сообщения
  • Bluetest и Anritsu поддерживают измерения OTA в диапазоне IEEE 802.11ax 6 ГГц (Wi-Fi 6Е) Устройства
  • Инженеры существенно продвинулись в разработке квантовых компьютеров
  • Глобальный кризис чипов может продлиться до 2023 года, заявил генеральный директор Infineon
  • Использование алгоритмов глубокого обучения, чтобы дать велосипедистам «зеленую волну» при светофоре