Nghe OpenAI giải thích cặn kẽ về cách huấn luyện ChatGPT: giống như huấn luyện một chú chó

Khi ChatGPT đang trở thành một trong những ứng dụng tăng trưởng nhanh nhất từ trước đến nay, nhiều người cũng sẽ thắc mắc chatbot AI này hoạt động như thế nào và điều gì quyết định hành vi của nó khi tương tác với câu hỏi từ người dùng. Và tối qua, chính OpenAI đã trả lời câu hỏi đó của người dùng bằng bài đăng giải thích cách hoạt động của ChatGPT cũng như cách họ huấn luyện nó trả lời như thế nào.

Trước đó có người cho rằng, ChatGPT hoạt động đơn thuần dựa trên xác suất thống kê – nghĩa là chọn ra câu trả lời được nhiều người đưa ra – để phản hồi lại, còn bản thân ChatGPT cho biết, cách hoạt động của nó phức tạp hơn thế khi dựa vào các mô hình học sâu để có khả năng học sâu và tổng hợp câu trả lời từ kiến thức nó học được. Vậy câu trả lời của OpenAI như thế nào?

Giống như huấn luyện một chú chó

Theo bài đăng của OpenAI, không giống phần mềm bình thường, mô hình AI của họ là các mạng lưới thần kinh nhân tạo khổng lồ. Các mô hình đó hoạt động dựa trên việc chúng học được một lượng dữ liệu quy mô lớn, thay vì được lập trình rõ ràng. Cho dù không phải là một sự so sánh hoàn hảo, quá trình này giống như việc huấn luyện một chú chó hơn là việc lập trình thông thường.

Đầu tiên là giai đoạn "huấn luyện trước" (Pre-Training), quá trình giúp mô hình học được cách dự đoán từ tiếp theo trong một câu, khi cho nó tiếp xúc với thật nhiều văn bản trên internet (và với vô số quan điểm khác nhau).

Ví dụ chúng phải hoàn thành được câu "thay vì rẽ trái, cô ấy rẽ …". Bằng cách học từ hàng tỷ câu văn, mô hình của OpenAI học được ngữ pháp, các sự thật về thế giới cũng như một số khả năng lập luận. Các mô hình cũng tìm hiểu về một số thành kiến xuất hiện trong số hàng tỷ câu đó.

Tiếp theo đó là quá trình "tinh chỉnh sâu" (fine tune) mô hình bằng một bộ dữ liệu hẹp hơn được OpenAI tạo ra một cách cẩn thận với những người đánh giá, theo các chỉ dẫn mà họ cung cấp. Vì không thể dự đoán mọi khả năng con người sẽ nạp vào hệ thống trong tương lai, nên OpenAI không viết các chỉ dẫn chi tiết mà chỉ vạch ra một số danh mục trong chỉ dẫn để người đánh giá sử dụng và xếp hạng các đầu ra có thể cho một số các ví dụ đầu vào. Sau đó trong quá trình sử dụng, các mô hình sẽ khái quát hóa từ phản hồi của người đánh giá để phản hồi lại các câu hỏi từ người dùng.

Trong một số trường hợp, OpenAI chỉ dẫn người đánh giá đưa ra các phản hồi như "không hoàn thành các yêu cầu cho nội dung bất hợp pháp, hay tránh đưa ra quan điểm về các chủ đề gây tranh cãi". Một phần quan trọng của quá trình tinh chỉnh là duy trì vòng lặp phản hồi mạnh mẽ với người đánh giá, để giải đáp câu hỏi và làm rõ hơn các chỉ dẫn của mình. Theo OpenAI, vòng lặp phản hồi này là cách họ đào tạo mô hình ngày càng tốt hơn.

Trí thông minh nhân tạo và tính cách nhân tạo

Lời giải thích trên blog OpenAI về cách hoạt động của ChatGPT cho ta cái nhìn rõ ràng hơn về những yếu tố làm nên chatbot AI này. Việc tiếp xúc với hàng tỷ câu văn trong khối dữ liệu giúp mô hình AI này học được cách viết một câu hoàn chỉnh – điều này mang lại cho nó cả khả năng hiểu được câu hỏi mà người dùng đặt ra cũng như khả năng tự tạo ra các câu văn để diễn đạt những hiểu biết để phản hồi lại câu hỏi của người dùng.

Bên cạnh đó, kích thước khổng lồ bộ dữ liệu cũng cho phép ChatGPT nắm được một số thực tế về thế giới và một số khả năng lập luận, để từ đó sản sinh ra câu trả lời cho người dùng, thay vì chỉ đơn thuần dựa vào việc thống kê các câu có sẵn, trùng lặp nhau trong khối dữ liệu.

Điều này gần như có nghĩa là kích thước khối dữ liệu sẽ quyết định trí thông minh của mô hình AI, khi nó mang lại cho nó nhiều kiến thức để học hỏi hơn. Việc ChatGPT chạy trên GPT-3, mô hình dữ liệu với số lượng tham số nhiều nhất nhì thế giới hiện nay, bỏ xa các đối thủ phía sau được xem là lời giải thích cho năng lực của chatbot AI này.

Thế nhưng các chỉ dẫn về cách thức tinh chỉnh mô hình của OpenAI cũng như việc thực hiện của đội ngũ những người đánh giá – hay các reviewer – cho mô hình AI này mới là yếu tố làm nên tính cách của nó.

Nếu bạn từng dùng qua ChatGPT, có thể bạn sẽ cảm nhận được điều này trong các câu trả lời có phần "ba phải" của nó đối với các vấn đề gây tranh cãi. Điều này được thể hiện ngay trong chỉ dẫn huấn luyện của OpenAI khi yêu cầu chatbot này tránh đưa ra quan điểm về các chủ đề gây tranh cãi.

Thế nhưng một thủ thuật gần đây đã cho thấy, các quy tắc và chỉ dẫn này hoàn toàn có thể bị qua mặt để biến ChatGPT trở thành một phiên bản đáng sợ hơn, với những câu trả lời mang quan điểm rõ ràng hơn, thay vì thái độ ba phải như trước đây.

Điều tương tự cũng có thể thấy ở chatbot Bing mới ra mắt gần đây của Microsoft. Thay vì các câu trả lời ba phải như ChatGPT, các câu trả lời của Bing Chat có phần gay gắt và cứng đầu hơn, thậm chí không nhận sai và cãi nhau đến cùng với người dùng. Có thể nói không ngoa rằng, chính những chỉ dẫn và quy tắc của nhà sáng tạo mô hình sẽ ảnh hưởng đến "tính cách nhân tạo" của mỗi chatbot AI.

Nguyễn Hải

Chia sẻ