Sử dụng phương pháp học tăng cường mô phỏng như thực để huấn luyện rô-bốt thực hiện các nhiệm vụ đơn giản trong môi trường rộng

Cập nhật: ngày 19 tháng 2024 năm XNUMX


Sử dụng phương pháp học tăng cường mô phỏng như thực để huấn luyện rô-bốt thực hiện các nhiệm vụ đơn giản trong môi trường rộng
Triển khai đến môi trường ngoài trời. Tín dụng: Ilija Radosavov

Một nhóm các nhà chế tạo robot tại Đại học California, Berkeley, báo cáo rằng có thể huấn luyện robot thực hiện các nhiệm vụ tương đối đơn giản bằng cách sử dụng phương pháp học tăng cường mô phỏng như thực để huấn luyện chúng. Trong nghiên cứu của họ, được công bố trên tạp chí Khoa học Robot, nhóm đã huấn luyện một robot đi lại trong những môi trường xa lạ trong khi nó mang những tải trọng khác nhau mà không bị lật.

Trong nhiều năm qua, các nhà chế tạo robot đã sử dụng nhiều kỹ thuật khác nhau để huấn luyện robot di chuyển hiệu quả và nhanh chóng trên nhiều môi trường khác nhau. Nhưng như các nhà nghiên cứu lưu ý về nỗ lực mới này, những robot như vậy không có nhiều ứng dụng hữu ích. Họ gợi ý rằng những robot có khả năng thực hiện các nhiệm vụ trần tục một cách chậm rãi nhưng hiệu quả sẽ hữu ích hơn nhiều. Để đạt được mục tiêu đó, họ đã chuyển sang học tăng cường từ mô phỏng đến thực tế.






Triển khai trong môi trường ngoài trời. Tín dụng: Ilija Radosavov

Kỹ thuật này liên quan đến việc huấn luyện một phiên bản mô phỏng của robot để thực hiện các nhiệm vụ mong muốn bằng cách cho nó tiếp xúc với hàng tỷ ví dụ trong môi trường mô phỏng. Phương pháp này cũng liên quan đến việc sử dụng hệ thống khen thưởng/hình phạt như một phần trong quá trình đào tạo của robot—ví dụ: nếu nó làm điều gì đó đúng khi cố gắng đạt được mục tiêu, thì nó sẽ được khen thưởng bằng cách nhận được điểm “1”. Tuy nhiên, nếu nó làm sai điều gì đó, nó sẽ nhận được “-1”. Theo thời gian, nó cải thiện hiệu suất của mình khi tìm cách tăng số lượng phần thưởng.

Nhóm nghiên cứu đã sử dụng phương pháp này để huấn luyện robot có tên Digit cách di chuyển trên con đường dọc theo vỉa hè ở một khu vực không xác định của thị trấn và phục hồi sau khi bị một quả bóng lớn tấn công liên tục, khắc phục hạn chế về thể chất, đi qua các vật liệu có thể khiến nó bị vấp ngã, phải xách ba lô, xách túi đựng rác vào thùng và dùng túi tote để đựng đồ dùng cá nhân đi khắp nơi.






Thí nghiệm trong nhà và điểm chuẩn mô phỏng. Tín dụng: Ilija Radosavovic

Các nhà nghiên cứu gợi ý rằng việc học tăng cường mô phỏng như thực có thể được sử dụng để huấn luyện robot trong môi trường thế giới thực như nhà ở, văn phòng hoặc sàn nhà máy. Họ lưu ý rằng ý tưởng là làm cho robot trở nên hữu ích hơn.