Skip to content

Anh Nhat Blog

Writing for Life

Menu
  • Home
  • Project
  • Bucket
  • About
  • Contact
Menu
close up shot of a typewriter

Tin giả khắp nơi

Posted on November 25, 2025November 25, 2025 by Anh Nhat

Có lẽ tốc độ phát triển của AI nhanh đến mức, não bộ con người ta chưa kịp thích nghi, ở giai đoạn bình minh của công nghệ này, việc trang bị kiến thức cơ bản cho mình là điều cực kì quan trọng, vừa để sử dụng nó, vừa để phòng tránh nó. Bài viết dưới đây là một case study như vậy, mình đăng lại từ một nền tảng khác, các bạn đọc nhé.

Cùng với sự ra mắt của Gemini 3 Pro, Google cũng cho ra công cụ mang tên SynthID để kiểm tra xem một ảnh hay video có phải tạo ra bởi AI hay không.

Tình cờ mình lướt trúng cái ảnh con chó ôm con mèo giữa dòng nước lũ, thấy bố cục nó hơi điện ảnh, trong khi nhà dân phía sau ngập lên nửa nhà thì chú chó này vẫn có thể đi 4 chân.

Vào Google, đưa ảnh vào, check với cú pháp “Synth ID score” thì Gemini xác nhận đây là ảnh được tạo bởi Gemini, không quá là bất ngờ.

Tìm hiểu sâu hơn về technical paper của phương pháp này thì thấy rất thú vị, về căn bản, các mô hình generative AI hiện tại đều dựa vào việc sinh ra các chữ (token) dựa trên xác suất của nó trên toàn bộ tập dữ liệu training (context), kí hiệu p(token/context).

SynthID không thay đổi mô hình hay phân phối xác suất gốc p(token/context) mà chỉ điều chỉnh rất nhẹ quá trình sampling khi chọn token. Ở mỗi bước sinh, hệ thống dùng một khóa bí mật để tạo thêm một giá trị thống kê (g-value) cho các token ứng viên và ưu tiên chọn những token có g-value phù hợp. Mức ưu tiên này rất nhỏ nên không làm thay đổi chất lượng câu, độ trôi chảy hay perplexity.

Khi cần truy ngược, detector có cùng khóa sẽ tính lại các g-value từ chuỗi token và so sánh với phân phối kỳ vọng. Nếu chuỗi có watermark, các giá trị sẽ thể hiện một mẫu thống kê rõ ràng so với văn bản bình thường. Cách làm này không cần truy cập lại mô hình và cũng không ảnh hưởng đến người đọc vì watermark hoàn toàn vô hình.

Tóm lại, kỹ thuật này tạo một sai lệch thống kê rất nhỏ trong bước chọn token, đủ để máy nhận ra, nhưng con người không thể phân biệt bằng mắt thường. Nếu được áp dụng rộng rãi, đây có thể trở thành một tiêu chuẩn quan trọng giúp xác minh nội dung AI và hạn chế việc lan truyền tin giả trong tương lai.

Source:

https://www.nature.com/articles/s41586-024-08025-4

https://deepmind.google/models/synthid

Share this:

  • Click to share on X (Opens in new window) X
  • Click to share on Facebook (Opens in new window) Facebook
  • More
  • Click to share on LinkedIn (Opens in new window) LinkedIn

Like this:

Like Loading...

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Categories

About me

Mình là Anh Nhật, mình là cựu sinh viên Trường Đại học Kinh tế – Luật, ĐHQG TP.HCM. Mình từng có 3 năm kinh nghiệm làm việc với các vị trí BI Analyst, Data Engineer. Hiện mình đang theo học Master Data Science tại trường Đại học Tổng hợp Mannheim, CHLB Đức.

Blog này là nơi mình chia sẻ về những hành trình của mình, cám ơn tất cả các bạn đã đến đây và ủng hộ mình.

LinkedIn Feed

© 2025 Anh Nhat Blog | Powered by Minimalist Blog WordPress Theme
%d