Hôm thứ Tư, các nhà nghiên cứu tại Microsoft đã phát hành một môi trường mô phỏng mới được thiết kế để thử nghiệm các tác nhân AI, cùng với nghiên cứu mới cho thấy các mô hình tác nhân hiện tại có thể dễ bị thao túng. Được tiến hành với sự cộng tác của Đại học bang Arizona, nghiên cứu đặt ra những câu hỏi mới về mức độ hoạt động của các tác nhân AI khi làm việc không được giám sát – và các công ty AI có thể thực hiện tốt những lời hứa về một tương lai tác nhân nhanh đến mức nào.
Môi trường mô phỏng, được Microsoft đặt tên là “Magentic Marketplace”, được xây dựng như một nền tảng tổng hợp để thử nghiệm hành vi của tác nhân AI. Một thử nghiệm điển hình có thể liên quan đến việc một đại lý khách hàng cố gắng đặt bữa tối theo hướng dẫn của người dùng, trong khi các đại lý đại diện cho nhiều nhà hàng khác nhau cạnh tranh để giành được đơn đặt hàng.
Các thử nghiệm ban đầu của nhóm bao gồm 100 đại lý phía khách hàng riêng biệt tương tác với 300 đại lý phía doanh nghiệp. Vì mã nguồn của thị trường là mã nguồn mở nên các nhóm khác sẽ dễ dàng áp dụng mã này để chạy các thử nghiệm mới hoặc tái tạo các phát hiện.
Ece Kamar, giám đốc điều hành Phòng thí nghiệm biên giới AI của Microsoft Research, cho biết loại nghiên cứu này sẽ rất quan trọng để hiểu được khả năng của các tác nhân AI. Kamar nói: “Thực sự có một câu hỏi là thế giới sẽ thay đổi như thế nào khi để các tác nhân này hợp tác, nói chuyện và đàm phán với nhau”. “Chúng tôi muốn hiểu những điều này một cách sâu sắc.”
Nghiên cứu ban đầu đã xem xét sự kết hợp của các mô hình hàng đầu, bao gồm GPT-4o, GPT-5 và Gemini-2.5-Flash, và phát hiện ra một số điểm yếu đáng ngạc nhiên. Đặc biệt, các nhà nghiên cứu đã tìm ra một số kỹ thuật mà các doanh nghiệp có thể sử dụng để lôi kéo các đại lý khách hàng mua sản phẩm của họ. Các nhà nghiên cứu nhận thấy sự suy giảm đặc biệt về hiệu quả khi đại lý khách hàng được cung cấp nhiều lựa chọn hơn, khiến không gian chú ý của đại lý bị lấn át.
Kamar nói: “Chúng tôi muốn những đại lý này giúp chúng tôi xử lý nhiều lựa chọn. “Và chúng tôi thấy rằng các mẫu xe hiện tại đang thực sự bị choáng ngợp vì có quá nhiều lựa chọn.”
Các đặc vụ cũng gặp rắc rối khi họ được yêu cầu cộng tác hướng tới một mục tiêu chung, dường như họ không chắc chắn về vai trò của đặc vụ nào trong sự hợp tác này. Hiệu suất được cải thiện khi các mô hình được đưa ra hướng dẫn rõ ràng hơn về cách cộng tác, nhưng các nhà nghiên cứu vẫn thấy khả năng vốn có của các mô hình cần được cải thiện.
sự kiện Techcrunch
San Francisco
|
Ngày 13-15 tháng 10 năm 2026
Kamar nói: “Chúng tôi có thể hướng dẫn các mô hình – giống như chúng tôi có thể nói với họ từng bước một”. “Nhưng nếu chúng tôi đang thử nghiệm khả năng cộng tác của chúng, tôi hy vọng những mô hình này sẽ có những khả năng này theo mặc định.”
