Исследовательская группа разрабатывает новую метрику для оценки соотношения риска и доходности при оценке вне политики

SharpeRatio@k, новая метрика оценки для оценщиков вне политики, эффективно измеряет соотношение риска и доходности при оценке политик, используемых в обучении с подкреплением, и контекстных бандитов, которые обычно игнорируются традиционными метриками, показывают ученые из Tokyo Tech. Этот новый показатель, основанный на оценке рисков в управлении финансовым портфелем, обеспечивает более глубокую оценку OPE, открывая путь к более эффективному выбору политики. Фото: Токийский институт Технологии

SharpeRatio@k: новый показатель для оценки соотношения риска и доходности при оценке вне политики — SharpeRatio@k, новая метрика оценки для оценщиков вне политики, эффективно измеряет соотношение риска и доходности при оценке политик, используемых в обучении с подкреплением, и контекстных бандитов, которые обычно игнорируются традиционными метриками, показывают ученые из Tokyo Tech. Этот новый показатель, основанный на оценке рисков в управлении финансовым портфелем, обеспечивает более глубокую оценку OPE, открывая путь к более эффективному выбору политики. Фото: Токийский институт Технологии

Обучение с подкреплением (RL) — это метод машинного обучения, который обучает программное обеспечение, имитируя процесс обучения людей методом проб и ошибок. Он продемонстрировал значительный успех во многих областях, требующих последовательного принятия решений. Однако обучение моделей RL с помощью реальных онлайн-тестов часто нежелательно, поскольку это может быть рискованным, трудоемким и, что немаловажно, неэтичным. Таким образом, использование офлайн-наборов данных, которые естественным образом собираются в ходе прошлых операций, становится все более популярным для обучения и оценки политики ОД и бандитизма.

В частности, в практических приложениях метод Off-Policy Evaluation (OPE) используется для того, чтобы сначала отфильтровать наиболее перспективные политики-кандидаты, называемые «политиками top-k», из набора данных, зарегистрированных в автономном режиме, а затем использовать более надежные тесты в реальных условиях. , называемые онлайн-тестами A/B, для выбора окончательной политики.

Чтобы оценить эффективность различных оценщиков OPE, исследователи в первую очередь сосредоточились на таких показателях, как среднеквадратическая ошибка (MSE), RankCorr и Regret. Однако эти методы ориентированы исключительно на точность методов OPE, но не позволяют оценить соотношение риска и доходности во время онлайн-развертывания политики.

В частности, MSE и RankCorr не могут отличить, недооценены ли почти оптимальные политики или переоценены неэффективные политики, в то время как Regret фокусируется только на лучшей политике и упускает из виду возможность нанесения вреда системе из-за неоптимальных политик в онлайн-A/B. тесты.

Решая эту проблему, группа исследователей из Японии под руководством профессора Кадзухидэ Наката из Токийского технологического института разработала новую метрику оценки для оценщиков OPE.

«Измерение риска и доходности имеет решающее значение для обеспечения безопасности в чувствительных к риску сценариях, таких как финансы. Вдохновленные принципом расчета показателя оценки финансовых рисков, коэффициентом Шарпа, мы разработали SharpeRatio@k, который измеряет как потенциальный риск, так и доходность при выборе политики из топ-k», — объясняет профессор Наката. Исследование было представлено на конференции ICLR 2024.

SharpeRatio@k рассматривает топ-k полисов, выбранных оценщиком OPE, как портфель политик, аналогично финансовым портфелям, и измеряет риск, доходность и эффективность оценщика на основе статистики портфеля. В этом методе портфель политик считается эффективным, если он содержит политики, которые значительно повышают производительность (высокая доходность), не включая плохо эффективные политики, которые негативно влияют на обучение в онлайн-тестах A/B (низкий риск). Этот метод максимизирует доход и минимизирует риск, тем самым определяя самый безопасный и эффективный оценщик.

Исследователи продемонстрировали возможности этой новой метрики на примерах сценариев и контрольных тестах, а также сравнили ее с существующими метриками.

Тестирование показало, что SharpeRatio@k эффективно измеряет риск, доходность и общую эффективность различных оценщиков при различных бюджетах онлайн-оценки, в то время как существующие показатели не позволяют этого сделать. Кроме того, в нем также рассматривается проблема переоценки и недооценки политики. Интересно, что они также обнаружили, что, хотя в некоторых сценариях он соответствует существующим показателям, лучшее значение этих показателей не всегда приводит к лучшему значению SharpeRatio@k.

С помощью этих тестов исследователи также предложили несколько будущих направлений исследований для оценщиков OPE, включая необходимость использования SharpeRatio@k для оценки эффективности оценщиков OPE, а также необходимость в новых оценщиках и методах выбора оценщиков, которые учитывают компромисс между риском и доходностью. Кроме того, они также внедрили свою инновационную метрику в программное обеспечение с открытым исходным кодом для быстрой, точной и глубокой оценки OPE.

Подчеркивая важность исследования, профессор Наката заключает: «Наше исследование показывает, что SharpreRatio@k может определить подходящий оценщик для использования с точки зрения его эффективности при различных политиках поведения, предоставляя полезную информацию для более подходящей оценки и выбора в обоих случаях». исследования и практика».

В целом, это исследование расширяет возможности выбора политики с помощью OPE, открывая путь к улучшению обучения с подкреплением.