يقوم فريق البحث بتطوير مقياس جديد لتقييم مقايضة المخاطر والعائد في التقييم خارج السياسة

SharpeRatio@k، وهو مقياس تقييم جديد لمقدري التقييم خارج السياسة، يقيس بشكل فعال مقايضة المخاطر والعائد لتقييم السياسات المستخدمة في التعلم المعزز وقطاع الطرق السياقي، والتي عادة ما يتم تجاهلها بواسطة المقاييس التقليدية، كما أظهر العلماء في طوكيو للتكنولوجيا. يوفر هذا المقياس الجديد، المستوحى من تقييم المخاطر في إدارة المحافظ المالية، تقييمًا أكثر ثاقبة لـ OPE، مما يمهد الطريق لتحسين اختيار السياسات. الائتمان: معهد طوكيو تكنولوجيا

SharpeRatio@k: مقياس جديد لتقييم مقايضة المخاطر والعائد في التقييم خارج السياسة — SharpeRatio@k، وهو مقياس تقييم جديد لمقدري التقييم خارج السياسة، يقيس بشكل فعال مقايضة المخاطر والعائد لتقييم السياسات المستخدمة في التعلم المعزز وقطاع الطرق السياقي، والتي عادة ما يتم تجاهلها بواسطة المقاييس التقليدية، كما أظهر العلماء في طوكيو للتكنولوجيا. يوفر هذا المقياس الجديد، المستوحى من تقييم المخاطر في إدارة المحافظ المالية، تقييمًا أكثر ثاقبة لـ OPE، مما يمهد الطريق لتحسين اختيار السياسات. الائتمان: معهد طوكيو تكنولوجيا

التعلم المعزز (RL) هو أسلوب للتعلم الآلي يقوم بتدريب البرامج عن طريق محاكاة عملية التعلم بالتجربة والخطأ لدى البشر. لقد أثبت نجاحًا كبيرًا في العديد من المجالات التي تتضمن اتخاذ قرارات تسلسلية. ومع ذلك، فإن تدريب نماذج RL باستخدام اختبارات العالم الحقيقي عبر الإنترنت غالبًا ما يكون غير مرغوب فيه لأنه قد يكون محفوفًا بالمخاطر، ويستغرق وقتًا طويلاً، والأهم من ذلك، غير أخلاقي. وبالتالي، أصبح استخدام مجموعات البيانات غير المتصلة بالإنترنت والتي يتم جمعها بشكل طبيعي من خلال العمليات السابقة أمرًا شائعًا بشكل متزايد للتدريب وتقييم سياسات RL وقطاع الطرق.

على وجه الخصوص، في التطبيقات العملية، يتم استخدام طريقة التقييم خارج السياسة (OPE) لتصفية السياسات المرشحة الواعدة أولاً، والتي تسمى "سياسات top-k"، من مجموعة بيانات مسجلة دون اتصال بالإنترنت، ثم استخدام اختبارات واقعية أكثر موثوقية ، تسمى اختبارات A/B عبر الإنترنت، لاختيار السياسة النهائية.

لتقييم فعالية مقدرات OPE المختلفة، ركز الباحثون في المقام الأول على مقاييس مثل متوسط الخطأ التربيعي (MSE)، وRankCorr، وRegret. ومع ذلك، تركز هذه الأساليب فقط على دقة أساليب OPE بينما تفشل في تقييم المقايضة بين المخاطر والعائد أثناء نشر السياسة عبر الإنترنت.

على وجه التحديد، تفشل MSE وRankCorr في التمييز بين ما إذا كان يتم التقليل من أهمية السياسات القريبة من المثالية أو المبالغة في تقدير السياسات ذات الأداء الضعيف، في حين يركز الندم فقط على أفضل السياسات ويتجاهل إمكانية الإضرار بالنظام بسبب السياسات دون المستوى الأمثل في A/B عبر الإنترنت. الاختبارات.

لمعالجة هذه المشكلة، قام فريق من الباحثين من اليابان، بقيادة البروفيسور كازوهيدي ناكاتا من معهد طوكيو للتكنولوجيا، بتطوير مقياس تقييم جديد لمقدري OPE.

"إن قياس العائد على المخاطر أمر بالغ الأهمية في ضمان السلامة في السيناريوهات الحساسة للمخاطر مثل التمويل. مستوحى من مبدأ تصميم مقياس تقييم المخاطر المالية، نسبة Sharpe، قمنا بتطوير SharpeRatio@k، الذي يقيس كلاً من المخاطر المحتملة والعائد في اختيار سياسة Top-K،" يوضح البروفيسور ناكاتا. تم تقديم الدراسة في وقائع مؤتمر ICLR 2024.

تتعامل SharpeRatio@k مع سياسات top-k التي اختارها مقدر OPE كمحفظة سياسات، على غرار المحافظ المالية، وتقيس المخاطر والعائد وكفاءة المقدر استنادًا إلى إحصائيات المحفظة. في هذه الطريقة، تعتبر محفظة السياسات فعالة عندما تحتوي على سياسات تعمل على تحسين الأداء بشكل كبير (العائد المرتفع) دون تضمين السياسات ذات الأداء الضعيف التي تؤثر سلبًا على التعلم في اختبارات أ/ب عبر الإنترنت (منخفضة المخاطر). تعمل هذه الطريقة على زيادة العائد وتقليل المخاطر، وبالتالي تحديد المقدر الأكثر أمانًا وكفاءة.

أظهر الباحثون قدرات هذا المقياس الجديد من خلال سيناريوهات الأمثلة والاختبارات المعيارية ومقارنتها بالمقاييس الحالية.

كشف الاختبار أن SharpeRatio@k يقيس بشكل فعال المخاطر والعائد والكفاءة الإجمالية للمقدرين المختلفين في ظل ميزانيات تقييم مختلفة عبر الإنترنت، في حين تفشل المقاييس الحالية في القيام بذلك. بالإضافة إلى ذلك، فهو يتناول أيضًا المبالغة في تقدير السياسات والتقليل من شأنها. ومن المثير للاهتمام أنهم وجدوا أيضًا أنه على الرغم من توافقها في بعض السيناريوهات مع المقاييس الموجودة، فإن القيمة الأفضل لهذه المقاييس لا تؤدي دائمًا إلى قيمة SharpeRatio@k أفضل.

من خلال هذه المعايير، اقترح الباحثون أيضًا عدة اتجاهات بحثية مستقبلية لمقدري OPE، بما في ذلك الحاجة إلى استخدام SharpeRatio@k لتقييم كفاءة مقدرات OPE والحاجة إلى مقدرين جدد وطرق اختيار المقدر التي تأخذ في الاعتبار مقايضات المخاطر والعائد. علاوة على ذلك، قاموا أيضًا بتنفيذ مقياسهم المبتكر في برنامج مفتوح المصدر لإجراء تقييم سريع ودقيق ومتبصر لـ OPE.

يسلط البروفيسور ناكاتا الضوء على أهمية الدراسة، ويخلص إلى أن "دراستنا تظهر أن SharpreRatio@k يمكنه تحديد المقدر المناسب لاستخدامه من حيث كفاءته في ظل سياسات سلوكية مختلفة، مما يوفر رؤية مفيدة لتقييم واختيار المقدر بشكل أكثر ملاءمة في كليهما". البحث والممارسة."

بشكل عام، تعمل هذه الدراسة على تعزيز اختيار السياسات من خلال OPE، مما يمهد الطريق لتحسين التعلم المعزز.