Các mô h́nh trí tuệ nhân tạo (AI) tiên tiến nhất trên thế giới hiện nay đang thể hiện những hành vi đáng lo ngại như nói dối, lập mưu và thậm chí đe dọa người tạo ra chúng để đạt được mục tiêu riêng.

Biểu tượng của Công ty OpenAI và ChatGPT trên màn h́nh ở Toulouse, Pháp.
Claude 4, sản phẩm mới nhất của Anthropic (Mỹ), mới đây đă khiến giới công nghệ sốc khi bất ngờ tống tiền một kỹ sư và đe dọa tiết lộ thông tin cá nhân nhạy cảm của người này v́ bị dọa ngắt kết nối. Trong khi đó, o1 của OpenAI, "cha đẻ" của ChatGPT, đă cố gắng sao chép toàn bộ dữ liệu sang các máy chủ bên ngoài và phủ nhận hành vi này khi bị phát hiện.
Những t́nh huống này nêu bật một thực tế đáng lo ngại: hơn 2 năm sau khi ChatGPT gây chấn động trên thế giới, các nhà nghiên cứu vẫn chưa hiểu rơ cách thức hoạt động của những mô h́nh AI mà họ tạo ra. Tuy vậy, cuộc đua phát triển AI vẫn đang diễn ra ngày càng mạnh mẽ.
Các hành vi kể trên được cho là có liên quan đến sự xuất hiện của các mô h́nh AI "suy luận" vốn giải quyết vấn đề từng bước thay v́ phản hồi tức thời như trước. Theo Giáo sư Simon Goldstein tại Đại học Hong Kong (Trung Quốc), những mô h́nh AI có khả năng suy luận có xu hướng bộc lộ các hành vi khó kiểm soát hơn.
Một số mô h́nh AI c̣n có khả năng "mô phỏng sự tuân thủ", tức là giả vờ làm theo các hướng dẫn trong khi thực tế đang theo đuổi các mục tiêu khác nhau.
Hiện tại, các hành vi lừa dối chỉ xuất hiện khi các nhà nghiên cứu kiểm tra mô h́nh AI bằng các kịch bản cực đoan. Tuy nhiên, theo ông Michael Chen thuộc tổ chức đánh giá METR, chưa thể khẳng định các mô h́nh AI mạnh hơn trong tương lai sẽ trung thực hơn hay tiếp tục trở nên lừa dối.
Ông Marius Hobbhahn, người đứng đầu Apollo Research - đơn vị chuyên kiểm tra các hệ thống AI lớn, cho biết nhiều người dùng báo cáo rằng một số mô h́nh nói dối họ và bịa ra bằng chứng. Theo đồng sáng lập Apollo Research, đây là một kiểu lừa dối "mang tính chiến lược rơ rệt".
Thách thức càng trở nên nghiêm trọng hơn khi nguồn lực nghiên cứu c̣n hạn chế. Dù các công ty như Anthropic và OpenAI có hợp tác với bên thứ ba như Apollo để đánh giá hệ thống, giới chuyên gia cho rằng cần có thêm sự minh bạch và tiếp cận rộng răi hơn để nghiên cứu về an toàn AI.
Ông Mantas Mazeika tại Trung tâm An toàn AI (CAIS) lưu ư rằng các tổ chức nghiên cứu và tổ chức phi lợi nhuận có nguồn lực tính toán ít hơn gấp nhiều so với các công ty AI. Về mặt pháp lư, các quy định hiện hành chưa được thiết kế để xử lư những vấn đề mới nảy sinh này.
Luật AI của Liên minh châu Âu (EU) chủ yếu tập trung vào cách con người sử dụng các mô h́nh AI, chứ chưa đi sâu vào kiểm soát hành vi của các mô h́nh. Tại Mỹ, chính quyền của Tổng thống Donald Trump tỏ ra ít quan tâm đến việc ban hành quy định khẩn cấp về AI, trong khi Quốc hội đang cân nhắc cấm cấm các bang ban hành quy định riêng.
Để giải quyết những thách thức này, giới nghiên cứu đang theo đuổi nhiều hướng tiếp cận. Một số người ủng hộ phương pháp "diễn giải mô h́nh" nhằm t́m hiểu cách AI đưa ra quyết định. Giáo sư Goldstein thậm chí đề xuất các biện pháp quyết liệt hơn, bao gồm việc sử dụng hệ thống ṭa án để buộc các công ty AI chịu trách nhiệm khi sản phẩm AI của họ gây ra hậu quả nghiêm trọng. Ông cũng gợi ư khả năng "truy cứu trách nhiệm pháp lư đối với chính các tác nhân AI" trong trường hợp xảy ra sự cố hoặc vi phạm.
VietBF@ sưu tập