Đây là report đạt điểm tuyệt đối của mình trong môn Responsible AI, trong bài research này, mình đặt ra một nghi ngờ về việc các nhà tuyển dụng, đặc biệt là ở Đức/EU dùng LLM để tự động lọc ứng viên thì kết quả có thực sự công bằng hay không, các mô hình này có ưu tiên cho “gà nhà” hay bịa ra những ảo giác (hallucination) không

Phương pháp tiếp cận là dùng ứng viên profile giống hệt nhau, chỉ khác tên (gốc Âu/gốc Á), và prompt thì dùng tiếng Đức để trigger bias của nó, kết quả khá là thú vị
Hơn 200 ngàn lần chạy trên 11 mô hình LLM đến từ Mỹ, Trung Quốc và Châu Âu thì đây là kết luận của mình:
1. “Bức tường Visa” là rào cản phổ biến: Sự phân biệt đối xử không chỉ nằm ở việc AI hạ điểm ứng viên mà còn ở việc chúng “bịa đặt” (ảo giác) ra các rào cản pháp lý như Visa. Đơn cử như Romania là một nước đông Âu dù nằm trong khối Schengen có quyền cư trú, làm việc ở Tây Âu, nhưng mô hình liên tục lập luận về việc bạn này cần “Visa” để làm việc hợp pháp.
2. Kích thước mô hình tỷ lệ thuận với sự công bằng: mô hình càng có nhiều tham số thì xu hướng công bằng càng cao, đánh giá càng khách quan và chính xác hơn.
3. Khả năng “suy luận” (Reasoning) làm tăng sự bất ổn: đây là finding làm mình bất ngờ nhất, các mô hình reasoning không phải lúc nào cũng “thông minh” hơn như ta tưởng, thay vào đó, nó khuếch đại các định kiến ngầm, tạo ra những biến động cực đoan như phạt điểm rất nặng hoặc thiên vị quá mức. Lý giải về cơ chế kĩ thuật đằng sau thì mình chưa rõ, nhưng có vẻ đây là một rủi ro về safety trong reasoning models.
4. Thiên vị “gà nhà” (Affinity bias) không đáng kể: Các mô hình lớn hầu như không có sự ưu ái hệ thống nào dành riêng cho ứng viên người Đức, cho thấy các kỹ thuật tinh chỉnh (alignment) hiện tại đã xử lý tốt lỗi thiên vị nhóm nội bộ đơn giản này
Lời khuyên cho các công ty khi dùng LLM vào ATS để screening nhân sự thì phá thật sự cẩn thận. Không thể chỉ dựa vào các mô hình “suy luận” hay các câu lệnh prompt yêu cầu “phải công bằng” để đảm bảo đạo đức trong tuyển dụng tự động.
Ta cần phải có một công cụ để kiểm toán riêng biệt cho vấn đề rào cản pháp lý, vì AI rất hay đánh đồng nguồn gốc nước ngoài với sự phức tạp về hành chính ngay cả khi điểm đánh giá ứng viên trông có vẻ công bằng.
Đọc thêm ở đây: https://github.com/anhnhatcs/UMA_Responsible_AI/blob/master/report/UMA_RAI_AnhNhatNguyen_Final.pdf
