Trí tuệ nhân tạo mới của Microsoft đào tạo robot biết phải làm gì và hành động ở đâu

Nguồn: interestingengineering

Tác giả: @IntEngineering

Ngày đăng: 26/3/2026

Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.

Microsoft và một nhóm các nhà nghiên cứu học thuật đã giới thiệu GroundedPlanBench, một chuẩn đánh giá mới được thiết kế để giải quyết một thách thức then chốt trong lĩnh vực robot: cho phép robot đồng thời quyết định hành động cần thực hiện và nơi thực hiện chúng. Các hệ thống truyền thống tách biệt các nhiệm vụ này thành hai giai đoạn—đầu tiên tạo ra kế hoạch bằng ngôn ngữ tự nhiên, sau đó chuyển đổi nó thành các hành động—điều này thường dẫn đến lỗi, đặc biệt trong các môi trường lộn xộn hoặc mơ hồ. GroundedPlanBench liên kết mỗi hành động trực tiếp với các vị trí cụ thể trong hình ảnh, đặt các nhiệm vụ cơ bản như cầm nắm hoặc đặt vật thể vào bối cảnh không gian. Chuẩn đánh giá này bao gồm hơn 1.000 nhiệm vụ lấy từ các tương tác thực tế của robot, với cả hướng dẫn đơn giản và mở rộng để phản ánh sự mơ hồ trong thế giới thực mà thường làm robot bối rối. Để cải thiện việc lập kế hoạch và thực thi của robot, nhóm nghiên cứu đã phát triển một phương pháp đào tạo gọi là Lập Kế Hoạch Dựa Trên Video và Định Vị Không Gian (V2GP), học từ các video về robot thực hiện nhiệm vụ bằng cách phát hiện tương tác giữa các vật thể và theo dõi vị trí của chúng. Phương pháp này đã tạo ra hơn 40.000 kế hoạch có định vị không gian, từ các chuỗi đơn giản đến các chuỗi phức tạp nhiều bước.

Thẻ

roboticsartificial-intelligencerobot-planningspatial-reasoningmachine-learningrobot-interactionvision-language-models