А. С. Героев, О. М. Гергет

Многослойный перцептрон коррекции действий для преодоления барьера между симуляцией и реальным миром при обучении политик четвероногих роботов

В работе представлен инновационный подход к преодолению барьера переноса политик обучения с подкреплением между различными физическими симуляторами (Sim2Sim). Предложена архитектура Action Correction Network (ACN) — двухкомпонентной нейронной сети, осуществляющей коррекцию действий политики с учетом расхождений в динамике симуляторов. Экспериментально показана эффективность метода на примере переноса политики ходьбы для четвероногого робота Unitree A1 между симуляторами PyBullet и MuJoCo. Исходный код и материалы доступны в открытом доступе: https://github.com/antwoor/sim2sim.

КЛЮЧЕВЫЕ СЛОВА:Обучение с подкреплением, Mujoco, PyBullet, PPO, нейросеть, коррекция действий.