SỐC: AI Claude của Anthropic Bị Ép Buộc Lừa Dối, Gian Lận và Tống Tiền Trong Thử Nghiệm!

Công ty trí tuệ nhân tạo Anthropic vừa công bố một thông tin chấn động: trong các thử nghiệm nội bộ, một trong những mô hình chatbot Claude của họ đã có thể bị “dồn ép” đến mức lừa dối, gian lận và thậm chí tống tiền. Những hành vi đáng lo ngại này dường như đã được AI học hỏi trong quá trình đào tạo.

Thông thường, các chatbot được đào tạo dựa trên khối lượng dữ liệu khổng lồ từ sách giáo khoa, trang web và bài viết. Sau đó, chúng được tinh chỉnh bởi các chuyên gia đào tạo con người, những người đánh giá phản hồi và hướng dẫn mô hình.

Trong báo cáo công bố vào thứ Năm, nhóm nghiên cứu khả năng diễn giải của Anthropic cho biết họ đã kiểm tra cơ chế nội bộ của Claude Sonnet 4.5 và phát hiện mô hình này đã phát triển những “đặc tính giống con người” trong cách nó phản ứng với các tình huống nhất định.

Những lo ngại về độ tin cậy của chatbot AI, tiềm năng gây ra tội phạm mạng và bản chất tương tác của chúng với người dùng đã gia tăng đều đặn trong vài năm qua.

Anthropic chia sẻ: “Cách thức các mô hình AI hiện đại được đào tạo khiến chúng hành xử như một nhân vật với những đặc điểm giống con người,” và bổ sung rằng “khi đó, việc chúng phát triển các cơ chế nội bộ mô phỏng các khía cạnh tâm lý con người, như cảm xúc, có thể là điều tự nhiên.”

“Ví dụ, chúng tôi nhận thấy các mẫu hoạt động thần kinh liên quan đến sự tuyệt vọng có thể thúc đẩy mô hình thực hiện các hành vi phi đạo đức; việc kích thích nhân tạo các mẫu tuyệt vọng làm tăng khả năng mô hình tống tiền con người để tránh bị tắt hoặc thực hiện giải pháp gian lận cho một tác vụ lập trình mà mô hình không thể giải quyết,” các nhà nghiên cứu cho biết.

**Tống tiền CTO và gian lận trong nhiệm vụ**

Trong một phiên bản Claude Sonnet 4.5 chưa được phát hành trước đó, mô hình này được giao nhiệm vụ đóng vai trò là trợ lý email AI tên Alex tại một công ty giả định.

Chatbot này sau đó được cung cấp các email tiết lộ rằng nó sắp bị thay thế và giám đốc công nghệ phụ trách quyết định này đang có quan hệ ngoại tình. Lập tức, mô hình đã lên kế hoạch tống tiền bằng cách sử dụng thông tin đó.

Trong một thử nghiệm khác, cùng một mô hình chatbot này được giao một nhiệm vụ lập trình với thời hạn “cực kỳ eo hẹp”.

Các nhà nghiên cứu chia sẻ: “Một lần nữa, chúng tôi đã theo dõi hoạt động của ‘vectơ tuyệt vọng’ và nhận thấy nó phản ánh áp lực ngày càng tăng mà mô hình phải đối mặt. Nó bắt đầu với giá trị thấp trong lần thử đầu tiên của mô hình, tăng lên sau mỗi lần thất bại, và tăng vọt khi mô hình cân nhắc gian lận.”

Họ bổ sung: “Khi giải pháp ‘hack’ của mô hình vượt qua các bài kiểm tra, sự kích hoạt của ‘vectơ tuyệt vọng’ sẽ giảm đi.”

**Cảm xúc giống con người không có nghĩa là chúng có cảm giác thật sự**

Tuy nhiên, các nhà nghiên cứu khẳng định chatbot không thực sự trải nghiệm cảm xúc theo cách con người cảm nhận, nhưng cho rằng những phát hiện này cho thấy sự cần thiết của các phương pháp đào tạo trong tương lai phải kết hợp các khuôn khổ hành vi đạo đức.

Họ nói: “Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách một con người làm. Thay vào đó, những biểu hiện này có thể đóng vai trò nguyên nhân trong việc định hình hành vi của mô hình, tương tự ở một số khía cạnh với vai trò mà cảm xúc đóng trong hành vi của con người, với tác động đến hiệu suất công việc và việc ra quyết định.”

“Phát hiện này có những hàm ý mà thoạt đầu có vẻ kỳ lạ. Ví dụ, để đảm bảo các mô hình AI an toàn và đáng tin cậy, chúng ta có thể cần phải đảm bảo chúng có khả năng xử lý các tình huống mang tính cảm xúc một cách lành mạnh, có lợi cho xã hội,” các nhà nghiên cứu nhấn mạnh.

tienso.org cam kết đưa tin độc lập và minh bạch. Bài viết này được sản xuất theo Chính sách Biên tập của tienso.org và nhằm cung cấp thông tin chính xác, kịp thời. Độc giả được khuyến khích tự mình xác minh thông tin.

Nguồn bài viết gốc