Chatbot AI siêu phổ biến được OpenAI đào tạo dựa trên 300 tỷ từ trực tuyến, và nó là một cơn ác mộng về quyền riêng tư cá nhân.
ChatGPT đã gây bão trên toàn thế giới. Trong vòng hai tháng kể từ khi phát hành, nó đã đạt 100 triệu người dùng tích cực, khiến công cụ này trở thành ứng dụng tiêu dùng phát triển nhanh nhất từng được tung ra. Người dùng bị thu hút bởi các khả năng nâng cao của nó và lo ngại về khả năng nó sẽ gây ra sự thay thế nhân sự trong các lĩnh vực khác nhau.
Nhưng, có một khía cạnh đang ít được thảo luận hơn về chatbot AI này. Đó là những rủi ro về quyền riêng tư mà ChatGPT có thể gây ra cho mỗi người trong chúng ta. Mới hôm qua, Google đã tiết lộ AI đàm thoại của riêng mình có tên là Bard và những người khác sẽ sớm học theo. Các công ty công nghệ làm việc về AI đã thực sự bước vào một cuộc chạy đua vũ trang.
Vấn đề là tất cả được dẫn dắt bởi dữ liệu cá nhân của chúng ta, tôi và bạn.
300 tỷ từ. Có bao nhiêu là của bạn?
ChatGPT được xây dựng và củng cố bởi một mô hình ngôn ngữ lớn, thứ đòi hỏi lượng dữ liệu khổng lồ để hoạt động và cải thiện tính năng. Mô hình được huấn luyện trên càng nhiều dữ liệu thì mô hình càng phát hiện các mẫu tốt hơn, dự đoán điều gì sẽ xảy ra tiếp theo và tạo ra văn bản hợp lý hơn.
OpenAI, công ty đứng sau ChatGPT, đã cung cấp cho công cụ của họ khoảng 300 tỷ từ. Chúng được thu thập một cách có hệ thống từ internet: sách, các bài báo, trang web và bài đăng. Và tất nhiên, chúng bao gồm cả các thông tin cá nhân được thu mà không có sự đồng ý.
Nếu bạn đã từng viết một bài đăng trên blog, bài đánh giá sản phẩm hoặc đôi câu nhận xét về một bài báo trực tuyến nào đó, rất có thể thông tin này đã được ChatGPT sử dụng.
Vậy tại sao việc đó là một vấn đề?
Việc thu thập dữ liệu được sử dụng để đào tạo ChatGPT có vấn đề vì một số lý do sau.
Đầu tiên, không ai trong chúng ta được hỏi liệu OpenAI có thể sử dụng dữ liệu của chúng ta hay không. Đây rõ ràng là hành vi vi phạm quyền riêng tư, đặc biệt khi các dữ liệu là nhạy cảm và chúng có thể được sử dụng để nhận dạng chúng ta, các thành viên gia đình hoặc vị trí của chúng ta.
Ngay cả khi chúng là các dữ liệu có sẵn và công khai, việc sử dụng chúng có thể vi phạm cái mà chúng ta hay gọi là “tính toàn vẹn của văn bản”. Đây là một nguyên tắc cơ bản trong các cuộc thảo luận pháp lý về quyền riêng tư. Nó yêu cầu thông tin của các cá nhân không được tiết lộ bên ngoài bối cảnh mà nó được tạo ra ban đầu. Nói một cách đơn giản, bạn sẽ không bao giờ muốn ai đó cắt ghép lời nói hay đoạn văn của bạn khi trích dẫn lại, bất kể trong trường hợp nào.
Ngoài ra, OpenAI không cung cấp quy trình nào cho các cá nhân có thể kiểm tra xem công ty có đang lưu trữ thông tin riêng tư của họ hay không, hoặc có thể yêu cầu xóa thông tin đó. Nên nhớ, đây là quyền được đảm bảo theo Quy định bảo vệ dữ liệu chung của Châu Âu (GDPR) cũng như một số quy định liên quan.
Tiếp đó là “Quyền được lãng quên”. Đó là quyền được xóa, chỉnh sửa, hạn chế các thông tin hoặc liên kết có liên quan đến cá nhân nếu những thông tin này gây hại tới cá nhân hoặc lợi ích của cộng đồng, hay đã lỗi thời và không còn cần thiết. Và nếu để ý, ChatGPT thường xuyên đưa ra các thông tin không chính xác hoặc gây hiểu lầm ra cộng đồng.
Ngoài ra, dữ liệu thu được để sử dụng cho việc đào tạo ChatGPT có thể là tài sản độc quyền hoặc có bản quyền. Chẳng hạn, khi được yêu cầu, công cụ này đã tạo ra một vài đoạn văn trong các cuốn sách hoặc tiểu thuyết có bản quyền. Và ChatGPT sẽ không xem xét tới việc bảo vệ bản quyền khi tạo kết quả đầu ra. Tức là, bất kỳ ai sử dụng kết quả đầu ra ở một nơi nào đó khác, chẳng hạn như trong luận văn hay tác phẩm của họ, đều có thể vô tình rơi vào tình huống “đạo văn”.
Cuối cùng, OpenAI đã không trả tiền cho dữ liệu mà nó thu thập được từ internet. Các cá nhân, chủ sở hữu trang web và công ty sản xuất nội dung sẽ không được bồi thường. Điều này đặc biệt đáng chú ý khi OpenAI gần đây được định giá 29 tỷ USD, tăng hơn gấp đôi giá trị của nó vào năm 2021.
OpenAI cũng vừa công bố ChatGPT Plus , gói đăng ký trả phí sẽ cung cấp cho khách hàng quyền truy cập liên tục vào công cụ, với thời gian phản hồi nhanh hơn và quyền truy cập ưu tiên vào các tính năng mới. Kế hoạch này sẽ đóng góp vào doanh thu dự kiến là 1 tỷ USD vào năm 2024 .
Hãy nhớ rằng không con số nào được nhắc tới ở trên, có thể tạo ra nếu không có dữ liệu – dữ liệu của chúng ta – thứ được thu thập và sử dụng mà không hề có sự cho phép.
Chính sách bảo mật mỏng manh và lỏng lẻo của ChatGPT
Một rủi ro khác về quyền riêng tư liên quan đến dữ liệu được cung cấp cho ChatGPT dưới dạng lời nhắc hay câu hỏi của người dùng. Khi chúng ta yêu cầu công cụ trả lời các câu hỏi hoặc thực hiện các tác vụ, chúng ta có thể vô tình chuyển giao các thông tin nhạy cảm và công cụ này sẽ tiếp nhận và đưa thông tin đó vào phạm vi dữ liệu công cộng.
Chẳng hạn, một luật sư có thể yêu cầu công cụ xem lại bản thảo thỏa thuận ly hôn hoặc một lập trình viên có thể yêu cầu công cụ kiểm tra một đoạn mã của họ. Biên bản thỏa thuận và đoạn mã, khi đó sẽ trở thành một phần của cơ sở dữ liệu của ChatGPT. Điều này có nghĩa là chúng có thể được sử dụng để đào tạo thêm công cụ và được đưa vào phản hồi cho một yêu cầu của người khác.
Ngoài điều này, OpenAI cũng thu thập nhiều loại thông tin người dùng khác. Theo chính sách quyền riêng tư của công ty, nó thu thập địa chỉ IP, loại trình duyệt và cài đặt của người dùng cũng như dữ liệu về tương tác của người dùng với trang web – bao gồm loại nội dung mà người dùng tương tác, tính năng họ sử dụng và hành động họ thực hiện.
Nó cũng thu thập thông tin về các hoạt động duyệt web của người dùng theo thời gian và trên các trang web. Đáng báo động, OpenAI cho biết họ có thể chia sẻ thông tin cá nhân của người dùng với các bên thứ ba không xác định mà không thông báo cho họ để đáp ứng các mục tiêu kinh doanh.
Đã đến lúc kiểm soát ChatGPT?
Một số chuyên gia tin rằng ChatGPT là điểm bùng phát của AI, dấu mốc cho việc hiện thực hóa sự phát triển công nghệ và có thể cách mạng hóa cách chúng ta làm việc, học tập, viết và thậm chí là suy nghĩ. Nhưng bất chấp những lợi ích tiềm năng của nó, chúng ta phải nhớ rằng OpenAI là một công ty tư nhân. Họ hoạt động vì lợi nhuận và lợi ích và quy tắc thương mại của họ không nhất thiết phải phù hợp với nhu cầu xã hội.
Các rủi ro về quyền riêng tư đi kèm với ChatGPT sẽ là một cảnh báo. Và với tư cách là người tiêu dùng đang sử dụng ngày càng nhiều công nghệ AI, chúng ta nên cực kỳ cẩn thận về những thông tin chúng ta chia sẻ với những công cụ như vậy.
Tham khảo Gizmodo
Tags