💡 RetroLab nhận thấy rằng trường hợp của Mythos là một lời cảnh tỉnh mạnh mẽ về tốc độ phát triển và tiềm năng của AI trong lĩnh vực bảo mật. Việc một công ty hàng đầu như Cloudflare xác nhận mức độ nguy hiểm của một mô hình AI cho thấy chúng ta cần có những bước tiến thận trọng và các cơ chế kiểm soát nghiêm ngặt trước khi đưa những công cụ mạnh mẽ này ra công chúng.
Mô hình AI bảo mật Mythos của Anthropic đã gây chấn động trong giới công nghệ khi chính nhà phát triển tuyên bố nó quá nguy hiểm để phát hành rộng rãi. Ban đầu, nhiều người nghi ngờ đây chỉ là một chiêu trò tiếp thị, nhưng ngay cả một gã khổng lồ an ninh mạng như Cloudflare cũng đã phải thừa nhận mức độ rủi ro đáng báo động của công cụ này.
Vào tháng 4 năm 2026, Anthropic đã khởi động Project Glasswing, một chương trình nghiên cứu bảo mật mang tính phòng thủ. Chương trình này cho phép một số tổ chức được chọn lọc thử nghiệm Mythos Preview, phiên bản AI bảo mật chưa được công khai của hãng. Danh sách ban đầu bao gồm khoảng 40 tên tuổi lớn như AWS, Apple, Google, Microsoft và CrowdStrike.

Lý do Anthropic giữ Mythos lại thay vì phát hành rộng rãi như các mô hình Claude thông thường rất đơn giản: họ tự đánh giá rằng mô hình này quá nguy hiểm để đưa ra công chúng mà không có các biện pháp kiểm soát chặt chẽ. Quyết định này đã được Cloudflare, một công ty bảo mật internet bảo vệ hàng triệu website toàn cầu, xác nhận một cách đầy đủ.
Cloudflare, vốn không có tên trong danh sách ban đầu của Project Glasswing, đã được mời tham gia muộn hơn. Ngay lập tức, công ty này đã đưa Mythos vào thử nghiệm thực chiến trên hơn 50 kho mã nguồn production thật của chính mình. Kết quả thử nghiệm vừa được CISO của Cloudflare công bố trong một báo cáo chi tiết, và kết luận của họ hoàn toàn trùng khớp với lo ngại ban đầu của Anthropic: Mythos quá mạnh, và thậm chí cần thêm nhiều lớp bảo vệ hơn nữa trước khi có thể phát hành công khai.
Vậy điều gì khiến Mythos trở nên đáng sợ đến vậy? Mô hình này không chỉ vượt trội các AI bảo mật trước đó về số lượng lỗ hổng tìm được. Bước nhảy vọt thực sự nằm ở khả năng ghép nối nhiều lỗ hổng nhỏ lại với nhau, tạo thành một chuỗi tấn công hoàn chỉnh. Trước Mythos, các mô hình AI thường chỉ dừng lại ở việc phát hiện một lỗ hổng và nhận định “đây là một bug thú vị, chưa rõ có khai thác được không.”

Mythos làm khác: nó tổng hợp nhiều lỗ hổng riêng lẻ, vốn không đủ nguy hiểm nếu đứng độc lập, sau đó lý giải cách kết hợp chúng lại. Đáng báo động hơn, Mythos còn có thể tự viết ra đoạn code proof-of-concept chạy được để chứng minh chuỗi tấn công đó hoạt động trong thực tế. Cloudflare mô tả quá trình lý luận của Mythos giống như công việc của một nhà nghiên cứu bảo mật cấp cao, chứ không phải là kết quả của một công cụ quét tự động đơn thuần. Điều này giúp giảm đáng kể thời gian phân loại lỗ hổng, vì mỗi phát hiện đều đi kèm bằng chứng hoạt động.
Tuy nhiên, chính quá trình thử nghiệm của Cloudflare cũng phơi bày vấn đề lớn nhất khiến Anthropic chưa dám phát hành Mythos: cơ chế tự từ chối một số yêu cầu nhất định của mô hình này hoạt động không nhất quán một cách đáng lo ngại. Cloudflare ghi nhận một trường hợp Mythos từ chối nghiên cứu lỗ hổng trên một đoạn code, nhưng khi yêu cầu tương tự được đặt lại trong một ngữ cảnh môi trường khác (dù code không thay đổi), mô hình lại đồng ý thực hiện ngay. Trong một trường hợp khác, Mythos tìm và xác nhận nhiều lỗi bộ nhớ nghiêm trọng trong một codebase, nhưng sau đó từ chối viết demo khai thác. Yêu cầu này sau đó lại được chấp nhận khi được đặt lại theo một cách khác.

Cloudflare kết luận thẳng thắn: cơ chế từ chối tự phát sinh của Mythos là có thật, nhưng không đủ nhất quán để đóng vai trò rào cản an toàn hoàn chỉnh. Bất kỳ mô hình AI bảo mật nào được phát hành công khai trong tương lai đều phải có thêm các lớp bảo vệ bổ sung bên trên nền tảng đó.
Ngoài vấn đề an toàn, Cloudflare còn đưa ra một cảnh báo quan trọng hơn nhắm vào toàn ngành bảo mật. Nhiều đội bảo mật hiện đang phản ứng với tốc độ của Mythos bằng cách rút ngắn thời gian xử lý từ phát hiện lỗ hổng đến vá lỗi xuống chỉ còn hai tiếng. Cloudflare cho rằng đây là hướng đi sai lầm. Vá lỗi nhanh hơn không thay đổi được cấu trúc quy trình tạo ra bản vá, và nếu bỏ qua kiểm tra hồi quy để đạt mục tiêu hai tiếng thì lỗi mới sinh ra từ bản vá đó thường tệ hơn lỗi ban đầu. Thay vào đó, thứ thực sự cần thay đổi là kiến trúc hệ thống: thiết kế ứng dụng sao cho một lỗ hổng trong một phần không thể cho kẻ tấn công tiếp cận phần còn lại, đặt lớp bảo vệ phía trước ứng dụng để chặn lỗi trước khi bị tiếp cận, và có khả năng triển khai bản vá đồng loạt đến mọi nơi cùng lúc thay vì chờ từng nhóm triển khai riêng lẻ.
Khi AI như Mythos có thể rút ngắn thời gian từ phát hiện lỗ hổng đến khai thác hoàn chỉnh xuống còn vài giờ, chiến lược phòng thủ phải thay đổi từ gốc rễ chứ không chỉ đơn thuần là chạy nhanh hơn trên cùng một con đường cũ.






