Anthropic và nguyên tắc AI có lương tri

2 Views
Published
Tải ứng dụng Sách Tinh Gọn để nghe hơn 2000 sách tóm tắt nhé bạn: https://www.sachtinhgon.com

Hầu hết các AI như ChatGPT đều học cách trả lời thông qua những phản hồi từ con người – phương pháp này được gọi là RLHF. Nghĩa là: con người nói cái gì đúng, AI sẽ nhớ và lặp lại kiểu như vậy.

Nhưng Anthropic không chấp nhận kiểu “truyền thống” này.

Họ tạo ra một cách tiếp cận mới: Constitutional AI – hay còn gọi là AI có hiến pháp.

Thay vì dạy AI dựa vào phản hồi và thiên kiến của con người, họ thiết kế một bộ nguyên tắc đạo đức rõ ràng, lấy cảm hứng từ Tuyên ngôn Nhân quyền, các chuẩn mực khoa học và nhân văn. Sau đó, chính AI sẽ tự đánh giá hành vi của mình dựa trên “hiến pháp” đó – từ chối các yêu cầu nguy hiểm, phân biệt đối xử hay thiếu trung thực.

Kết quả là gì?
Claude – chatbot của Anthropic – không chỉ thông minh, mà còn có khả năng suy nghĩ đạo đức ở mức cơ bản. Nó từ chối những yêu cầu tiêu cực mà không cần con người nhắc, giữ thái độ trung lập, và luôn có lý do rõ ràng cho mọi phản hồi.

Trong thế giới AI, Claude giống như AI "có kỷ luật nội tâm".

---

???? Nếu bạn quan tâm đến AI, triết lý đạo đức và những ý tưởng thay đổi thế giới, hãy thử ngay app Sách Tinh Gọn – nơi bạn có thể nắm bắt ý tưởng cốt lõi của những cuốn sách xuất sắc nhất chỉ trong 15 phút.
Bạn có thể tìm kiếm “Sách Tinh Gọn” trên Appstore hoặc CH Play nhé.
Category
Người Nổi Tiếng
Tags
người thành công, tiểu sử người thành công, bài học thành công