Un gruppo di ricerca sviluppa una nuova metrica per la valutazione del compromesso rischio-rendimento nella valutazione fuori politica

SharpeRatio@k, una nuova metrica di valutazione per gli stimatori di valutazione fuori politica, misura efficacemente il compromesso rischio-rendimento delle politiche di valutazione utilizzate nell'apprendimento per rinforzo e nei banditi contestuali, che sono tipicamente ignorati dalle metriche convenzionali, mostrano gli scienziati della Tokyo Tech. Questo nuovo parametro, ispirato alla valutazione del rischio nella gestione del portafoglio finanziario, fornisce una valutazione più approfondita dell’OPE, aprendo la strada a una migliore selezione delle politiche. Credito: Istituto di Tokyo Tecnologia

SharpeRatio@k: nuova metrica per la valutazione del compromesso rischio-rendimento nella valutazione fuori politica — SharpeRatio@k, una nuova metrica di valutazione per gli stimatori di valutazione fuori politica, misura efficacemente il compromesso rischio-rendimento delle politiche di valutazione utilizzate nell'apprendimento per rinforzo e nei banditi contestuali, che sono tipicamente ignorati dalle metriche convenzionali, mostrano gli scienziati della Tokyo Tech. Questo nuovo parametro, ispirato alla valutazione del rischio nella gestione del portafoglio finanziario, fornisce una valutazione più approfondita dell’OPE, aprendo la strada a una migliore selezione delle politiche. Credito: Istituto di Tokyo Tecnologia

L'apprendimento per rinforzo (RL) è una tecnica di apprendimento automatico che addestra il software imitando il processo di apprendimento per tentativi ed errori degli esseri umani. Ha dimostrato un notevole successo in molte aree che implicano un processo decisionale sequenziale. Tuttavia, l’addestramento dei modelli RL con test online reali è spesso indesiderabile in quanto può essere rischioso, dispendioso in termini di tempo e, soprattutto, non etico. Pertanto, l’utilizzo di set di dati offline raccolti naturalmente attraverso operazioni passate sta diventando sempre più popolare per la formazione e la valutazione delle politiche RL e anti-bandit.

In particolare, nelle applicazioni pratiche, il metodo Off-Policy Evaluation (OPE) viene utilizzato per filtrare innanzitutto le politiche candidate più promettenti, chiamate "politiche top-k", da un set di dati registrato offline, e quindi utilizzare test reali più affidabili , chiamati test A/B online, per scegliere la politica finale.

Per valutare l’efficacia dei diversi stimatori OPE, i ricercatori si sono concentrati principalmente su parametri come l’errore quadratico medio (MSE), RankCorr e Regret. Tuttavia, questi metodi si concentrano esclusivamente sull’accuratezza dei metodi OPE senza valutare il compromesso rischio-rendimento durante l’implementazione delle politiche online.

Nello specifico, MSE e RankCorr non riescono a distinguere se le politiche quasi ottimali sono sottostimate o le politiche con scarso rendimento sono sovrastimate, mentre Regret si concentra solo sulla politica migliore e trascura la possibilità di danneggiare il sistema a causa di politiche non ottimali nell'A/B online. test.

Affrontando questo problema, un team di ricercatori giapponesi, guidato dal professor Kazuhide Nakata del Tokyo Institute of Technology, ha sviluppato una nuova metrica di valutazione per gli stimatori OPE.

“La misurazione del rapporto rischio-rendimento è fondamentale per garantire la sicurezza in scenari sensibili al rischio come quello finanziario. Ispirandoci al principio di progettazione del parametro di valutazione del rischio finanziario, l’indice di Sharpe, abbiamo sviluppato SharpeRatio@k, che misura sia il rischio potenziale che il rendimento nella selezione delle politiche top-k”, spiega il prof. Nakata. Lo studio è stato presentato agli Atti della Conferenza ICLR 2024.

SharpeRatio@k tratta le polizze top-k selezionate da uno stimatore OPE come un portafoglio di polizze, simile ai portafogli finanziari, e misura il rischio, il rendimento e l'efficienza dello stimatore sulla base delle statistiche del portafoglio. In questo metodo, un portafoglio di polizze è considerato efficiente quando contiene polizze che migliorano notevolmente le prestazioni (rendimento elevato) senza includere polizze con scarse prestazioni che influenzano negativamente l’apprendimento nei test A/B online (basso rischio). Questo metodo massimizza il rendimento e minimizza il rischio, identificando così lo stimatore più sicuro ed efficiente.

I ricercatori hanno dimostrato le capacità di questo nuovo parametro attraverso scenari di esempio e test di benchmark e lo hanno confrontato con i parametri esistenti.

I test hanno rivelato che SharpeRatio@k misura efficacemente il rischio, il rendimento e l’efficienza complessiva di diversi stimatori con diversi budget di valutazione online, mentre i parametri esistenti non riescono a farlo. Inoltre, affronta anche la questione della sovrastima e sottostima delle politiche. È interessante notare che hanno anche scoperto che, sebbene in alcuni scenari si allinei con i parametri esistenti, un valore migliore di questi parametri non sempre si traduce in un valore SharpeRatio@k migliore.

Attraverso questi parametri di riferimento, i ricercatori hanno anche suggerito diverse direzioni di ricerca future per gli stimatori OPE, inclusa la necessità di utilizzare SharpeRatio@k per la valutazione dell’efficienza degli stimatori OPE e la necessità di nuovi stimatori e metodi di selezione degli stimatori che tengano conto dei compromessi rischio-rendimento. Inoltre, hanno anche implementato la loro metrica innovativa in un software open source per una valutazione rapida, accurata e approfondita dell’OPE.

Sottolineando l’importanza dello studio, il Prof. Nakata conclude: “Il nostro studio mostra che SharpreRatio@k può identificare lo stimatore appropriato da utilizzare in termini di efficienza in diverse politiche comportamentali, fornendo informazioni utili per una valutazione e selezione dello stimatore più appropriata sia in ricerca e pratica”.

Nel complesso, questo studio migliora la selezione delle politiche attraverso l’OPE, aprendo la strada a un migliore apprendimento per rinforzo.