Nghiên cứu của Openai về các mô hình AI cố tình nói dối là hoang dã

admin

2 tháng trước

Thỉnh thoảng, các nhà nghiên cứu tại các công ty công nghệ lớn nhất thả một quả bom. Đã có lúc Google cho biết chip lượng tử mới nhất của nó cho thấy nhiều vũ trụ tồn tại. Hoặc khi nhân chủng học cho đại lý AI của mình, Claudius một máy bán đồ ăn nhẹ để chạy và nó đã vui vẻ, kêu gọi bảo mật cho mọi người và khăng khăng đó là con người.

Tuần này, đến lượt Openai để nâng lông mày tập thể của chúng tôi.

Openai đã phát hành vào thứ Hai, một số nghiên cứu giải thích cách nó ngăn chặn các mô hình AI từ sơ đồ. Đó là một thực tế trong đó một AI AI hành xử một chiều trên bề mặt trong khi che giấu các mục tiêu thực sự của nó, ông Open Openai đã định nghĩa trong tweet của mình về nghiên cứu.

Trong bài báo, được thực hiện với Apollo Research, các nhà nghiên cứu đã đi xa hơn một chút, thích âm mưu của AI với một nhà môi giới chứng khoán của con người vi phạm luật để kiếm càng nhiều tiền càng tốt. Các nhà nghiên cứu, tuy nhiên, lập luận rằng hầu hết các âm mưu của AI không có hại. Những thất bại phổ biến nhất liên quan đến các hình thức lừa dối đơn giản – ví dụ, giả vờ đã hoàn thành một nhiệm vụ mà không thực sự làm như vậy, họ đã viết.

Bài báo hầu hết được xuất bản để chỉ ra rằng sự liên kết có chủ ý của Hồi giáo-kỹ thuật chống trường học mà họ đang thử nghiệm-hoạt động tốt.

Nhưng nó cũng giải thích rằng các nhà phát triển AI đã không tìm ra cách đào tạo các mô hình của họ không theo chương trình. Đó là bởi vì đào tạo như vậy thực sự có thể dạy mô hình làm thế nào để sơ đồ thậm chí tốt hơn để tránh bị phát hiện.

Một chế độ thất bại lớn của việc cố gắng ‘đào tạo’ âm mưu chỉ đơn giản là dạy cho mô hình này một cách cẩn thận và bí mật hơn, các nhà nghiên cứu đã viết.

Sự kiện TechCrunch

San Francisco
|
27-29 tháng 10 năm 2025

Có lẽ phần đáng kinh ngạc nhất là, nếu một mô hình hiểu rằng nó đang được thử nghiệm, thì nó có thể giả vờ rằng nó không được sử dụng chỉ để vượt qua bài kiểm tra, ngay cả khi nó vẫn đang được sử dụng. Các mô hình thường nhận thức rõ hơn rằng chúng đang được đánh giá. Nhận thức tình huống này có thể làm giảm âm mưu, độc lập với sự liên kết chính hãng, các nhà nghiên cứu đã viết.

Đó không phải là tin tức rằng các mô hình AI sẽ nói dối. Đến bây giờ, hầu hết chúng ta đã trải qua ảo giác AI, hoặc mô hình tự tin đưa ra câu trả lời cho một lời nhắc đơn giản là không đúng. Nhưng ảo giác về cơ bản đang trình bày phỏng đoán với sự tự tin, như nghiên cứu Openai đã công bố vào đầu tháng này được ghi nhận.

Sơ đồ là một cái gì đó khác. Nó có chủ ý.

Ngay cả sự mặc khải này – rằng một mô hình sẽ cố tình đánh lừa con người – không phải là mới. Apollo Research lần đầu tiên xuất bản một bài báo vào tháng 12, ghi lại cách năm mô hình được đề cập khi chúng được hướng dẫn để đạt được mục tiêu bằng mọi giá.

Tin tức ở đây thực sự là một tin tốt: các nhà nghiên cứu đã thấy sự giảm đáng kể trong việc lập trình âm bằng cách sử dụng sự liên kết có chủ ý của Cameron. Kỹ thuật đó liên quan đến việc dạy cho mô hình một đặc điểm kỹ thuật chống trường học của người Hồi giáo và sau đó làm cho mô hình đi xem lại trước khi hành động. Nó giống như làm cho trẻ nhỏ lặp lại các quy tắc trước khi cho phép chúng chơi.

Các nhà nghiên cứu Openai khăng khăng rằng sự nói dối mà họ đã bắt được với các mô hình của riêng họ, hoặc thậm chí với Chatgpt, không phải là nghiêm trọng. Vì người đồng sáng lập của Openai, Wojciech Zaremba đã nói với Maxwell Zeff của TechArnch về nghiên cứu này: Công việc này đã được thực hiện trong các môi trường mô phỏng và chúng tôi nghĩ rằng nó đại diện cho các trường hợp sử dụng trong tương lai. công việc tuyệt vời. ” Và đó chỉ là lời nói dối. Có một số hình thức lừa dối nhỏ mà chúng ta vẫn cần giải quyết.

Thực tế là các mô hình AI từ nhiều người chơi cố tình lừa dối con người, có lẽ, dễ hiểu. Chúng được xây dựng bởi con người, để bắt chước con người và (dữ liệu tổng hợp sang một bên) cho hầu hết các phần được đào tạo về dữ liệu do con người tạo ra.

Đó cũng là bonkers.

Mặc dù tất cả chúng ta đều trải qua sự thất vọng của công nghệ hoạt động kém (nghĩ về bạn, máy in gia đình của năm qua), thì lần cuối cùng phần mềm không phải của bạn đã cố tình nói dối bạn là khi nào? Hộp thư đến của bạn có bao giờ tựa kế email không? CMS của bạn đã ghi lại triển vọng mới không tồn tại để đệm số của nó? Ứng dụng fintech của bạn đã tạo nên các giao dịch ngân hàng của riêng mình chưa?

Điều đáng để suy ngẫm điều này như thế giới doanh nghiệp hướng tới tương lai AI, nơi các công ty tin rằng các đại lý có thể được đối xử như nhân viên độc lập. Các nhà nghiên cứu của bài viết này có cảnh báo tương tự.

Là một AI được giao các nhiệm vụ phức tạp hơn với hậu quả trong thế giới thực và bắt đầu theo đuổi các mục tiêu dài hạn, mơ hồ hơn, chúng tôi hy vọng rằng khả năng âm mưu có hại sẽ tăng lên-vì vậy các biện pháp bảo vệ và khả năng kiểm tra nghiêm ngặt của chúng tôi phải phát triển tương ứng, họ đã viết.