Dạy chính sách robot mà không cần các bản trình diễn mới: phỏng vấn Jiahui Zhang và Jesse Zhang - Robohub

Nguồn: robohub
Ngày đăng: 4/12/2025
Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.
Đọc bài viết gốcBài báo thảo luận về khung ReWiND được giới thiệu bởi Jiahui Zhang, Jesse Zhang và các đồng nghiệp trong bài báo CoRL 2025 của họ, cho phép robot học các chính sách thao tác cho các nhiệm vụ mới được chỉ định bằng ngôn ngữ mà không cần các bản trình diễn cụ thể cho từng nhiệm vụ mới. ReWiND hoạt động qua ba giai đoạn: đầu tiên, nó học một hàm thưởng dày đặc từ một tập nhỏ các bản trình diễn trong môi trường triển khai bằng cách dự đoán tiến trình từng khung hình hướng tới hoàn thành nhiệm vụ. Một kỹ thuật tăng cường tua lại video mới được sử dụng để tổng hợp các chuỗi mô phỏng cả tiến trình và thất bại, cải thiện độ chính xác và khả năng tổng quát của mô hình thưởng. Thứ hai, khung này tiền huấn luyện một chính sách ngoại tuyến sử dụng các phần thưởng dày đặc được gán lại trên dữ liệu bản trình diễn. Cuối cùng, chính sách đã được tiền huấn luyện được tinh chỉnh trực tuyến trong môi trường triển khai trên các nhiệm vụ chưa từng thấy, sử dụng hàm thưởng đã đóng băng để cung cấp phản hồi mà không cần thêm bản trình diễn.
Các nhà nghiên cứu đã đánh giá ReWiND cả trong môi trường mô phỏng (MetaWorld) và thực tế (Koch), tập trung vào khả năng tổng quát của mô hình thưởng và chính sách.
Thẻ
roboticsrobot-learningreinforcement-learninglanguage-guided-roboticsrobot-manipulationreward-function-learningpolicy-adaptation