Nhóm nghiên cứu phát triển thước đo mới để đánh giá sự cân bằng rủi ro-lợi nhuận trong đánh giá phi chính sách

SharpeRatio@k, một thước đo đánh giá mới dành cho các công cụ ước tính Đánh giá ngoài chính sách, đo lường hiệu quả sự cân bằng giữa rủi ro và lợi nhuận của việc đánh giá các chính sách được sử dụng trong học tập tăng cường và kẻ cướp theo ngữ cảnh, thường bị các thước đo thông thường bỏ qua, các nhà khoa học tại Tokyo Tech cho biết. Số liệu mới này, lấy cảm hứng từ đánh giá rủi ro trong quản lý danh mục đầu tư tài chính, cung cấp đánh giá sâu sắc hơn về OPE, mở đường cho việc lựa chọn chính sách được cải thiện. Nguồn: Viện Tokyo Công nghệ

SharpeRatio@k: thước đo mới để đánh giá sự cân bằng rủi ro-lợi nhuận trong đánh giá phi chính sách — SharpeRatio@k, một thước đo đánh giá mới dành cho các công cụ ước tính Đánh giá ngoài chính sách, đo lường hiệu quả sự cân bằng giữa rủi ro và lợi nhuận của việc đánh giá các chính sách được sử dụng trong học tập tăng cường và kẻ cướp theo ngữ cảnh, thường bị các thước đo thông thường bỏ qua, các nhà khoa học tại Tokyo Tech cho biết. Số liệu mới này, lấy cảm hứng từ đánh giá rủi ro trong quản lý danh mục đầu tư tài chính, cung cấp đánh giá sâu sắc hơn về OPE, mở đường cho việc lựa chọn chính sách được cải thiện. Nguồn: Viện Tokyo Công nghệ

Học tăng cường (RL) là một kỹ thuật học máy đào tạo phần mềm bằng cách bắt chước quá trình học thử và sai của con người. Nó đã chứng tỏ sự thành công đáng kể trong nhiều lĩnh vực liên quan đến việc ra quyết định tuần tự. Tuy nhiên, việc đào tạo các mô hình RL bằng các bài kiểm tra trực tuyến trong thế giới thực thường không được mong muốn vì nó có thể rủi ro, tốn thời gian và quan trọng là phi đạo đức. Do đó, việc sử dụng các bộ dữ liệu ngoại tuyến được thu thập tự nhiên thông qua các hoạt động trước đây ngày càng trở nên phổ biến để đào tạo và đánh giá các chính sách RL và kẻ cướp.

Đặc biệt, trong các ứng dụng thực tế, phương pháp Đánh giá ngoài chính sách (OPE) được sử dụng để trước tiên lọc các chính sách ứng viên hứa hẹn nhất, được gọi là “chính sách top-k”, từ tập dữ liệu được ghi nhật ký ngoại tuyến, sau đó sử dụng các thử nghiệm thực tế đáng tin cậy hơn , được gọi là thử nghiệm A/B trực tuyến, để chọn chính sách cuối cùng.

Để đánh giá tính hiệu quả của các công cụ ước tính OPE khác nhau, các nhà nghiên cứu chủ yếu tập trung vào các số liệu như lỗi bình phương trung bình (MSE), RankCorr và Regret. Tuy nhiên, các phương pháp này chỉ tập trung vào tính chính xác của phương pháp OPE mà không đánh giá được sự cân bằng giữa rủi ro và lợi nhuận trong quá trình triển khai chính sách trực tuyến.

Cụ thể, MSE và RankCorr không phân biệt được chính sách gần tối ưu bị đánh giá thấp hay chính sách hoạt động kém được đánh giá quá cao, trong khi Regret chỉ tập trung vào chính sách tốt nhất và bỏ qua khả năng gây tổn hại cho hệ thống do chính sách dưới mức tối ưu trong A/B trực tuyến. các bài kiểm tra.

Giải quyết vấn đề này, một nhóm các nhà nghiên cứu đến từ Nhật Bản, do Giáo sư Kazuhide Nakata từ Viện Công nghệ Tokyo dẫn đầu, đã phát triển một thước đo đánh giá mới cho các công cụ ước tính OPE.

“Đo lường lợi nhuận rủi ro là rất quan trọng trong việc đảm bảo an toàn trong các tình huống nhạy cảm với rủi ro như tài chính. Lấy cảm hứng từ nguyên tắc thiết kế của thước đo đánh giá rủi ro tài chính, tỷ lệ Sharpe, chúng tôi đã phát triển SharpeRatio@k, thước đo cả rủi ro tiềm ẩn và lợi nhuận khi lựa chọn chính sách top-k,” Giáo sư Nakata giải thích. Nghiên cứu được trình bày tại Kỷ yếu của Hội nghị ICLR 2024.

SharpeRatio@k xử lý các chính sách top-k được công cụ ước tính OPE chọn làm danh mục chính sách, tương tự như danh mục đầu tư tài chính và đo lường rủi ro, lợi nhuận và hiệu quả của công cụ ước tính dựa trên số liệu thống kê của danh mục đầu tư. Trong phương pháp này, một danh mục chính sách được coi là hiệu quả khi nó chứa các chính sách cải thiện đáng kể hiệu suất (lợi nhuận cao) mà không bao gồm các chính sách hoạt động kém ảnh hưởng tiêu cực đến việc học trong các thử nghiệm A/B trực tuyến (rủi ro thấp). Phương pháp này tối đa hóa lợi nhuận và giảm thiểu rủi ro, từ đó xác định công cụ ước tính an toàn nhất và hiệu quả nhất.

Các nhà nghiên cứu đã chứng minh khả năng của thước đo mới này thông qua các kịch bản ví dụ và bài kiểm tra điểm chuẩn, đồng thời so sánh nó với các thước đo hiện có.

Thử nghiệm cho thấy SharpeRatio@k đo lường hiệu quả rủi ro, lợi nhuận và hiệu quả tổng thể của các công cụ ước tính khác nhau trong các ngân sách đánh giá trực tuyến khác nhau, trong khi các số liệu hiện tại không làm được điều đó. Ngoài ra, nó cũng giải quyết việc đánh giá quá cao và đánh giá thấp các chính sách. Điều thú vị là họ cũng nhận thấy rằng mặc dù trong một số trường hợp, nó phù hợp với các số liệu hiện có, nhưng giá trị tốt hơn của các số liệu này không phải lúc nào cũng dẫn đến giá trị SharpeRatio@k tốt hơn.

Thông qua các điểm chuẩn này, các nhà nghiên cứu cũng đề xuất một số hướng nghiên cứu trong tương lai cho các công cụ ước tính OPE, bao gồm nhu cầu sử dụng SharpeRatio@k để đánh giá hiệu quả của các công cụ ước tính OPE và nhu cầu về các công cụ ước tính và phương pháp lựa chọn công cụ ước tính mới có tính đến sự cân bằng rủi ro-lợi nhuận. Hơn nữa, họ cũng triển khai thước đo đổi mới của mình trong một phần mềm nguồn mở để đánh giá OPE nhanh chóng, chính xác và sâu sắc.

Nhấn mạnh tầm quan trọng của nghiên cứu, Giáo sư Nakata kết luận: “Nghiên cứu của chúng tôi cho thấy SharpreRatio@k có thể xác định công cụ ước tính phù hợp để sử dụng xét về mặt hiệu quả của nó theo các chính sách hành vi khác nhau, cung cấp thông tin chi tiết hữu ích để đánh giá và lựa chọn công cụ ước tính phù hợp hơn trong cả hai trường hợp. nghiên cứu và thực hành.”

Nhìn chung, nghiên cứu này tăng cường lựa chọn chính sách thông qua OPE, mở đường cho việc cải thiện học tập tăng cường.