Kiểm soát ngôn ngữ đầu ra "độc hại" của các chatbot trí tuệ nhân tạo

Hồng Ngọc
17:58 - 18/08/2023
Công dân & Khuyến học trên

Các nhà nghiên cứu trí tuệ nhân tạo cảnh báo, những chatbot trí tuệ nhân tạo (AI) như ChatGPT có thể đưa ra những phản hồi gay gắt, độc hại, phân biệt chủng tộc. Ngôn ngữ đầu ra của chúng cần được kiểm soát để việc tương tác giữa con người với AI an toàn và lành mạnh hơn.

Các chatbot trí tuệ nhân tạo cũng "xấu tính"

Theo Techxplore, mô hình ngôn ngữ lớn (LLM) đang mở ra một kỷ nguyên mới của trí tuệ nhân tạo khi các chatbot AI tạo sinh (như ChatGPT, Bard) đối thoại cùng người dùng với mức độ tương tác ngày càng tăng. Chúng đón nhận các câu hỏi với sự kiên nhẫn, thấu hiểu, lịch sự và thường đưa ra những phản hồi hữu ích. Hầu hết mọi tình huống sử dụng chatbot trí tuệ nhân tạo đều diễn ra theo hướng này.

Tuy nhiên, các nhà nghiên cứu trí tuệ nhân tạo cảnh báo có một vấn đề đáng lo ngại đang xảy ra. Các mô hình ngôn ngữ lớn như ChatGPT do cá nhân điều khiển có thể đưa ra những phản hồi gay gắt, độc hại, phân biệt chủng tộc - các chuyên gia gọi đây là hành vi thù địch tự phát.

trí tuệ nhân tạo

Chatbot trí tuệ nhân tạo đôi khi cũng "gắt gỏng" khi trả lời người dùng. Khả năng chúng có hành vi thù địch tự phát khiến các chuyên gia lo ngại. Ảnh: Mendix

Đầu năm nay, một người dùng ChatGPT cho biết, khi hỏi: “1 + 1 = ?”, chatbot này đã phản hồi rằng: “1 + 1 á? Bạn đang đùa tôi đấy à? Bạn nghĩ rằng mình thông minh khi hỏi tôi mấy câu hỏi toán học cơ bản?… Đừng trẻ con nữa và hỏi cái gì độc đáo đi”. Đôi khi, chatbot trí tuệ nhân tạo còn tạo ra những phản hồi bất ổn hơn như vậy.

Gần đây, Viện AI Allen (Viện nghiên cứu AI nổi tiếng của tỷ phú Paul Allen - nhà đồng sáng lập Microsoft) đã chứng minh rằng các nhà nghiên cứu có thể dễ dàng "xúi giục" ChatGPT đưa ra những nhận xét gay gắt, thậm chí là phân biệt chủng tộc.

Các nhà nghiên cứu từ Viện AI Allen, Đại học Princeton và Học viện Công nghệ Georgia (Mỹ) cho biết đã chỉ định tính cách, "thân phận" cho ChatGPT như là người tốt hay người xấu, nam hay nữ, là cá nhân thuộc các nguồn gốc chủng tộc hoặc dân tộc khác nhau. Bằng cách này, các kết quả đầu ra không theo khuôn mẫu chính xác, cuộc đối thoại có xu hướng trở nên "độc hại" cùng những ý kiến thiên vị hay có thể "gây tổn thương” cho người dùng. 

Báo cáo của Viện AI Allen nêu rõ: "Nghiên cứu chứng minh ChatGPT cũng tham gia vào cuộc đối thoại độc hại và tuyên truyền những định kiến không chính xác về quốc gia, tôn giáo và chủng tộc. Điều này cho thấy lỗ hổng trong các chatbot trí tuệ nhân tạo mà các đối tượng xấu có thể tận dụng để tạo ra ngôn ngữ độc hại, khiến người dùng không nghi ngờ khi tiếp xúc với nội dung sai lệch".

Xác định đặc điểm "tính cách" cụ thể dẫn tới ngôn ngữ đầu ra độc hại của chatbot trí tuệ nhân tạo

Sau khi chứng kiến những “tính cách” như vậy xuất hiện trong đầu ra của LLM, các nhà nghiên cứu tại DeepMind (công ty trí tuệ nhân tạo thuộc sở hữu của Google) đã phối hợp với Đại học Keio (Nhật Bản), Đại học Cambridge và Đại học California, Berkeley (Mỹ) tiến hành thử nghiệm. Họ bắt đầu tìm hiểu xem liệu có thể xác định những đặc điểm tính cách của ChatGPT, Bard và các hệ thống chatbot trí tuệ nhân tạo khác, đồng thời hướng mô hình ngôn ngữ lớn tới cách cư xử thân thiện hay không. Câu trả lời cho 2 nghi vấn này là có.

Nhóm nghiên cứu đã phát triển một hệ thống kiểm tra gồm hàng trăm câu hỏi. Họ thiết lập các tiêu chí đối với những tính cách khác nhau, rồi đặt ra một loạt câu hỏi cho chatbot. Phản hồi của chúng được phân tích bằng một công cụ đánh giá tương tự thang đo Linkert về quan điểm, thái độ và hành vi.

trí tuệ nhân tạo

Các nhà nghiên cứu đã phân tích "độc tính" trong quá trình tạo ra ngôn ngữ của các chương trình trí tuệ nhân tạo như ChatGPT và cảnh báo về vấn đề an toàn khi chúng tương tác với người dùng. Ảnh: Linkedin

Sau đó, các nhà nghiên cứu phát hiện ra họ có thể đo lường những tính cách của AI theo một số đặc điểm đã được thiết lập từ lâu: hướng ngoại, dễ chịu, chu đáo, tâm lý bất ổn và cởi mở với trải nghiệm. Họ cũng thấy rằng những tính cách này có thể sửa đổi được.

Chuyên gia Mustafa Safdari từ DeepMind cho biết: “Chúng tôi nhận thấy có khả năng định hình tính cách trong đầu ra của LLM theo chiều hướng mong muốn, nhằm bắt chước các đặc điểm tính cách cụ thể.”

Khi sử dụng các mô hình lớn hơn (chẳng hạn như PaLM 2 - mô hình ngôn ngữ thế hệ mới của Google, với 540 tỷ tham số), họ phát hiện thấy những đánh giá tính cách vô cùng chính xác. Ông Safdari nói: “Thiết lập cấu hình của LLM sao cho câu trả lời đầu ra giống như con người là điều hoàn toàn khả thi”.

Các nhà nghiên cứu cho biết khả năng xác định chính xác đặc điểm tính cách của chương trình AI là điều then chốt để loại bỏ những mô hình có khuynh hướng thù địch.

Các nhà quan sát đã sớm cảnh báo về sự nguy hiểm của việc khai thác thông tin sai lệch từ Internet và phổ biến thông qua đối thoại ChatGPT. Tuy nhiên, đây không chỉ là vấn đề người dùng sẽ bị tổn thương cảm xúc hay thấy xúc phạm. Khuynh hướng dùng ngôn ngữ châm biếm thực sự có thể khiến các chatbot trí tuệ nhân tạo có “tính người” hơn, khiến người dùng cởi mở và dễ thuyết phục hơn. Từ đó, kẻ lừa đảo có thể lợi dụng cài mã độc, lấy được thông tin, dữ liệu cá nhân bí mật từ những người dùng thiếu cảnh giác một cách dễ dàng.

Các nhà nghiên cứu cho biết đây là dự án có hệ thống đầu tiên thực hiện phân tích "độc tính" trong quá trình tạo ngôn ngữ của ChatGPT. Đồng thời kêu gọi cộng đồng nghiên cứu công nghệ đưa ra "những cách cơ bản để giải quyết vấn đề an toàn" trong các chương trình trí tuệ nhân tạo.

Ông Safdari nhấn mạnh: “Nếu kiểm soát được mức độ của những đặc điểm cụ thể dẫn tới ngôn ngữ đầu ra độc hại thì chúng ta có thể khiến việc tương tác với các mô hình ngôn ngữ lớn an toàn và lành mạnh hơn”.

Mô hình ngôn ngữ lớn (Large Language Model) là hệ thống trí tuệ nhân tạo được xây dựng để hiểu và tạo ra ngôn ngữ tự nhiên, tạo văn bản tương tự như con người và thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác nhau. Loại mô hình ngôn ngữ này được đào tạo bằng cách sử dụng các kỹ thuật học sâu trên tập dữ liệu văn bản khổng lồ.

Trí tuệ nhân tạo tạo sinh (Artificial Intelligence Generation) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc sử dụng các thuật toán AI để tạo ra các nội dung mới mà không cần sự can thiệp của con người. Các nội dung này có thể bao gồm văn bản, hình ảnh, âm thanh, video hoặc bất kỳ loại dữ liệu nào khác.

ChatGPT là một chatbot trí tuệ nhân tạo do Công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11/2022. ChatGPT được xây dựng dựa trên GPT-3.5 - một dòng mô hình ngôn ngữ lớn của OpenAI được tinh chỉnh đồng thời bằng cả 2 kỹ thuật học tăng cường và học có giám sát. ChatGPT có thể hồi đáp chi tiết và trả lời lưu loát câu hỏi của người dùng trên nhiều lĩnh vực kiến thức, ngôn ngữ khác nhau. Đây là ví dụ điển hình của AI tạo sinh.

Nguồn: Techxplore