В контексте задачи стабилизации рассмотрены системы управления

Е.С. Пономарев, И.В. Оселедец, А.С.Чихоцкий

Обучение с подкреплением в задаче алгоритмической торговли

Развитие методов обучения с подкреплением открыло широкие границы по их использованию во многих областях, в том числе в алгоритмической торговле. В данной работе торговля на бирже интерпретируется в терминах среды с марковским свойством, состоящей из состояний, действий и наград. В работе предложена и экспериментально протестирована система управления фиксированным объемом финансового инструмента на базе метода асинхронного исполнителя-критика (asynchronous advantage actor-critic) с использованием ряда архитектур нейронных сетей. Исследовано применение рекуррентных слоев в данном подходе. Эксперименты производились на реальных обезличенных данных. Лучшая архитектура продемонстрировала торговую стратегию для фьючерса индекса РТС (MOEX:RTSI) с прибыльностью 66% годовых с учетом комиссии. Исходный код проекта доступен по ссылке: http://github.com/evgps/a3c_trading

КЛЮЧЕВЫЕ СЛОВА: обучение с подкреплением, нейронные сети, рекуррентные нейронные сети, алгоритмическая торговля