Forschungsteam entwickelt neuartige Metrik zur Bewertung des Risiko-Rendite-Kompromisses bei der Off-Policy-Bewertung

SharpeRatio@k, eine neuartige Bewertungsmetrik für Off-Policy-Bewertungsschätzer, misst effektiv den Risiko-Rendite-Kompromiss von Bewertungsrichtlinien, die beim Reinforcement Learning und bei kontextbezogenen Banditen verwendet werden und von herkömmlichen Metriken normalerweise ignoriert werden, zeigen Wissenschaftler von Tokyo Tech. Diese neuartige Metrik, die von der Risikobewertung im Finanzportfoliomanagement inspiriert ist, bietet eine aufschlussreichere Bewertung des OPE und ebnet den Weg für eine verbesserte Politikauswahl. Bildnachweis: Tokyo Institute of Technologie

SharpeRatio@k: Neuartige Metrik zur Bewertung des Risiko-Rendite-Kompromisses bei der Off-Policy-Bewertung — SharpeRatio@k, eine neuartige Bewertungsmetrik für Off-Policy-Bewertungsschätzer, misst effektiv den Risiko-Rendite-Kompromiss von Bewertungsrichtlinien, die beim Reinforcement Learning und bei kontextbezogenen Banditen verwendet werden und von herkömmlichen Metriken normalerweise ignoriert werden, zeigen Wissenschaftler von Tokyo Tech. Diese neuartige Metrik, die von der Risikobewertung im Finanzportfoliomanagement inspiriert ist, bietet eine aufschlussreichere Bewertung des OPE und ebnet den Weg für eine verbesserte Politikauswahl. Bildnachweis: Tokyo Institute of Technologie

Reinforcement Learning (RL) ist eine maschinelle Lerntechnik, die Software trainiert, indem sie den Versuch-und-Irrtum-Lernprozess des Menschen nachahmt. Es hat in vielen Bereichen, die eine sequenzielle Entscheidungsfindung erfordern, beachtliche Erfolge gezeigt. Allerdings ist das Training von RL-Modellen mit realen Online-Tests oft unerwünscht, da es riskant, zeitaufwändig und vor allem unethisch sein kann. Daher wird die Verwendung von Offline-Datensätzen, die auf natürliche Weise bei früheren Operationen gesammelt wurden, für die Schulung und Bewertung von RL- und Bandit-Richtlinien immer beliebter.

In praktischen Anwendungen wird insbesondere die Off-Policy Evaluation (OPE)-Methode verwendet, um zunächst die vielversprechendsten Kandidatenrichtlinien, sogenannte „Top-K-Richtlinien“, aus einem offline protokollierten Datensatz herauszufiltern und dann zuverlässigere Tests in der realen Welt zu verwenden , sogenannte Online-A/B-Tests, um die endgültige Richtlinie auszuwählen.

Um die Wirksamkeit verschiedener OPE-Schätzer zu bewerten, haben sich Forscher hauptsächlich auf Metriken wie den mittleren quadratischen Fehler (MSE), RankCorr und Regret konzentriert. Diese Methoden konzentrieren sich jedoch ausschließlich auf die Genauigkeit der OPE-Methoden und bewerten den Risiko-Rendite-Kompromiss während der Bereitstellung von Online-Richtlinien nicht.

Insbesondere können MSE und RankCorr nicht unterscheiden, ob nahezu optimale Richtlinien unterschätzt oder Richtlinien mit schlechter Leistung überschätzt werden, während Regret sich nur auf die beste Richtlinie konzentriert und die Möglichkeit einer Schädigung des Systems aufgrund suboptimaler Richtlinien im Online-A/B übersieht Tests.

Um dieses Problem anzugehen, hat ein Forscherteam aus Japan unter der Leitung von Professor Kazuhide Nakata vom Tokyo Institute of Technology eine neue Bewertungsmetrik für OPE-Schätzer entwickelt.

„Risiko-Rendite-Messung ist entscheidend für die Gewährleistung der Sicherheit in risikosensiblen Szenarien wie dem Finanzwesen. Inspiriert durch das Designprinzip der Finanzrisikobewertungsmetrik Sharpe Ratio haben wir SharpeRatio@k entwickelt, das sowohl das potenzielle Risiko als auch die Rendite bei der Auswahl von Top-K-Richtlinien misst“, erklärt Prof. Nakata. Die Studie wurde auf den Proceedings der ICLR 2024-Konferenz vorgestellt.

SharpeRatio@k behandelt die von einem OPE-Schätzer ausgewählten Top-K-Policen als Policenportfolio, ähnlich wie Finanzportfolios, und misst das Risiko, die Rendite und die Effizienz des Schätzers basierend auf den Statistiken des Portfolios. Bei dieser Methode gilt ein Richtlinienportfolio als effizient, wenn es Richtlinien enthält, die die Leistung erheblich verbessern (hohe Rendite), ohne Richtlinien mit schlechter Leistung einzubeziehen, die sich negativ auf das Lernen in Online-A/B-Tests auswirken (geringes Risiko). Diese Methode maximiert die Rendite und minimiert das Risiko, wodurch der sicherste und effizienteste Schätzer ermittelt wird.

Die Forscher demonstrierten die Leistungsfähigkeit dieser neuartigen Metrik anhand von Beispielszenarien und Benchmark-Tests und verglichen sie mit bestehenden Metriken.

Tests ergaben, dass SharpeRatio@k das Risiko, die Rendite und die Gesamteffizienz verschiedener Schätzer bei unterschiedlichen Online-Bewertungsbudgets effektiv misst, während bestehende Metriken dies nicht können. Darüber hinaus wird auch die Über- und Unterschätzung politischer Maßnahmen thematisiert. Interessanterweise stellten sie auch fest, dass es in einigen Szenarien zwar mit vorhandenen Metriken übereinstimmt, ein besserer Wert dieser Metriken jedoch nicht immer zu einem besseren SharpeRatio@k-Wert führt.

Durch diese Benchmarks schlugen die Forscher auch mehrere zukünftige Forschungsrichtungen für OPE-Schätzer vor, darunter die Notwendigkeit, SharpeRatio@k für die Effizienzbewertung von OPE-Schätzern zu verwenden, und die Notwendigkeit neuer Schätzer und Schätzerauswahlmethoden, die Risiko-Rendite-Kompromisse berücksichtigen. Darüber hinaus implementierten sie ihre innovative Metrik in eine Open-Source-Software für eine schnelle, genaue und aufschlussreiche Bewertung von OPE.

Prof. Nakata hebt die Bedeutung der Studie hervor und kommt zu dem Schluss: „Unsere Studie zeigt, dass SharpreRatio@k den geeigneten Schätzer identifizieren kann, der im Hinblick auf seine Effizienz unter verschiedenen Verhaltensrichtlinien verwendet werden kann, und nützliche Erkenntnisse für eine angemessenere Bewertung und Auswahl des Schätzers in beiden Fällen liefert.“ Forschung und Praxis.“

Insgesamt verbessert diese Studie die Politikauswahl durch OPE und ebnet den Weg für verbessertes Reinforcement Learning.