Dạy chính sách robot mà không cần các bài trình diễn mới: phỏng vấn Jiahui Zhang và Jesse Zhang - Robohub

Nguồn: robohub
Ngày đăng: 4/12/2025
Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.
Đọc bài viết gốcBài báo thảo luận về khung ReWiND được giới thiệu bởi Jiahui Zhang, Jesse Zhang và các cộng sự trong bài báo CoRL 2025 của họ, cho phép robot học các chính sách thao tác cho các nhiệm vụ mới được chỉ định bằng ngôn ngữ mà không cần các minh họa mới. ReWiND hoạt động qua ba giai đoạn: đầu tiên, nó học một hàm thưởng dày đặc từ một tập nhỏ các minh họa trong môi trường triển khai bằng cách dự đoán tiến trình từng khung hình hướng tới hoàn thành nhiệm vụ. Một kỹ thuật tăng cường tua lại video mới tổng hợp các chuỗi giả lập tiến trình và thất bại để cải thiện độ chính xác và khả năng tổng quát của mô hình thưởng. Thứ hai, hàm thưởng được sử dụng để gán nhãn lại dữ liệu minh họa với các phần thưởng dày đặc, cho phép học tăng cường ngoại tuyến để tiền huấn luyện chính sách. Cuối cùng, chính sách đã được tiền huấn luyện được tinh chỉnh trực tuyến trên các nhiệm vụ chưa từng thấy bằng cách sử dụng hàm thưởng cố định làm phản hồi, cho phép thích ứng liên tục mà không cần thêm minh họa.
Các nhà nghiên cứu đã xác thực ReWiND thông qua các thí nghiệm cả trong mô phỏng MetaWorld và thiết lập robot thực tế (Koch). Họ tập trung vào khả năng tổng quát hóa của mô hình thưởng đối với các nhiệm vụ chưa từng thấy.
Thẻ
roboticsrobot-learningreinforcement-learninglanguage-guided-roboticsrobot-manipulationreward-function-learningpolicy-adaptation