8 thg 5, 2026

Dirty Frag và Gia Đình Copy-Fail: Tại Sao AI Sẽ Tìm Ra Lỗi Tiếp Theo Trước

Từ Dirty COW đến Dirty Frag — Linux kernel liên tục đặt cược vào fast path bỏ COW và thua. AI variant analysis sắp thay đổi cuộc chơi. 🔬

Bảo mật

Thẻ (5)

Mục lục

Hôm qua có người thả một one-liner root được bất kỳ máy Linux nào chưa patch. Không cần quyền đặc biệt. Không cần setup phức tạp. Chỉ một script Bash, một payload C nhỏ, và một design pattern mà kernel team cứ mắc đi mắc lại suốt cả chục năm.

Bug này tên Dirty Frag. Nó là thành viên mới nhất trong một gia đình tôi gọi là “dòng copy-fail” — những lỗ hổng kernel khai thác đường tắt trong cơ chế copy-on-write của Linux. Nhìn kỹ cái pattern này, bạn sẽ hiểu tại sao AI variant analysis sắp xóa sổ toàn bộ bug class này.

Gia Phả Copy-Fail

Memory subsystem của Linux hứa thế này: khi bạn fork process hoặc đọc file, kernel dùng chung physical page và chỉ copy khi có ai ghi vào. Đó là copy-on-write. Elegant, nhanh, và mỗi lần kernel thêm “fast path” bỏ qua bước copy để chạy nhanh hơn, sớm muộn gì cũng có người tìm ra cách ghi xuyên qua từ unprivileged context.

Đây là dòng dõi:

Vuln	Năm	Subsystem	Root Cause	Ẩn Bao Lâu
Dirty COW	2016	mm/gup.c	Race trong COW page fault handler	9 năm
Dirty Pipe	2022	pipe/splice	Stale `PIPE_BUF_FLAG_CAN_MERGE`	2 năm
Copy Fail	2026	(CVE-2026-31431)	Cùng class, chi tiết chưa công bố	TBD
Dirty Frag	2026	xfrm/ESP-in-UDP	`MSG_SPLICE_PAGES` no-COW fast path	TBD

Bốn bug. Cùng một kiểu đánh cược. Cùng một kết cục. Kernel thêm zero-copy shortcut cho performance, mặc định rằng không ai truy cập được từ unprivileged context, rồi researcher chứng minh ngược lại.

Dirty Frag Chạy Kiểu Gì

Lỗ hổng nằm trong xfrm subsystem — nơi Linux xử lý IPsec transformation. Cụ thể là đường dẫn ESP-in-UDP dùng MSG_SPLICE_PAGES để khỏi copy packet data.

// The fast path promise: "we won't copy this page, trust us"
// Narrator: they should not have trusted the fast path.
msg.msg_flags |= MSG_SPLICE_PAGES;  // no-COW shortcut

Chuỗi exploit diễn ra thế này:

Gọi XFRM user netlink interface để kernel tự load module esp4/esp6 — không cần quyền gì cả, kernel load hộ luôn
Từ userspace, chạm vào no-COW splice path
Ghi thẳng vào page-cache của file read-only
Ghi đè SUID binary trong memory — xong, bạn là root

Phần đáng sợ nhất? Page-cache bị sửa nhưng file trên disk vẫn nguyên. Integrity checker quét thấy sạch. Bản trong memory thì đã bị thay đổi từ lâu. Vô hình hoàn toàn trước forensic, trừ khi bạn drop cache rồi kiểm tra lại.

# The "oh no" mitigation — blocks IPsec but stops the exploit
echo "blacklist esp4" >> /etc/modprobe.d/dirty-frag.conf
echo "blacklist esp6" >> /etc/modprobe.d/dirty-frag.conf
echo "blacklist rxrpc" >> /etc/modprobe.d/dirty-frag.conf

# Drop page-cache because you can't trust what's loaded
echo 3 > /proc/sys/vm/drop_caches
# Your IPsec tunnels are dead now. You're welcome.

Chuyện Người Tìm Ra Bug

Mỗi bug trong gia đình này đều do trực giác con người phát hiện — và mỗi câu chuyện giải thích tại sao công cụ tự động lại bỏ lỡ.

Dirty COW (2016): Phil Oester bắt được exploit traffic ngoài thực tế. Bug nằm đó từ kernel 2.6.22 (2007). Chín năm code review, static analysis, fuzzing — không ai tìm ra. Kẻ tấn công thấy trước tất cả defender.

Dirty Pipe (2022): Max Kellermann mất nhiều tháng trời truy lùng gzip log file bị hỏng. ZIP magic bytes (PK) cứ xuất hiện trong compressed output — nơi chúng không có quyền tồn tại. Anh lần ngược từ splice syscall đến stale pipe buffer flag. Đây là kiệt tác điều tra mà không fuzzer nào tái hiện nổi — trigger đòi hỏi đúng chuỗi fill-drain-splice-write.

Dirty Frag (2026): Hyunwoo Kim công bố trên oss-security ngày 7 tháng 5, 2026. Cùng class với Copy Fail (CVE-2026-31431) nhưng khác subsystem. PoC công khai, root máy chỉ bằng một lệnh.

Pattern rõ ràng: con người tìm ra sau nhiều năm bug nằm im. Fuzzer bỏ lỡ vì điều kiện trigger mang tính ngữ nghĩa, không phải ngẫu nhiên.

AI Vào Cuộc: Máy Săn Variant

Tháng 10/2024, Project Zero và DeepMind của Google trình làng Big Sleep — một agent chạy bằng LLM, tự tìm ra zero-day stack buffer underflow thật sự trong SQLite. Đây là lần đầu tiên AI phát hiện lỗ hổng khai thác được trong phần mềm mà hàng triệu người dùng.

Cách nó hoạt động: bắt đầu từ patch đã biết, hiểu pattern của bug, rồi lùng sục pattern tương tự khắp codebase. Variant analysis — nhưng chạy ở tốc độ máy, quét hàng triệu dòng code.

Tại sao điều này quan trọng cho dòng copy-fail:

# What a variant analysis agent "sees" in the copy-fail pattern:
pattern = {
    "mechanism": "zero-copy/splice fast path skips COW protection",
    "precondition": "page-cache reference shared with userspace",
    "trigger": "write path reachable from unprivileged context",
    "impact": "arbitrary write to read-only page-cache pages",
}

# Kernel locations with MSG_SPLICE_PAGES or similar no-COW paths:
# Each one is a candidate for the same bug class.
# A human auditor checks maybe 3-5 per quarter.
# An AI agent checks all of them in hours.

Phát hiện SQLite của Big Sleep chính là bằng chứng. Bug nó tìm ra đã qua mặt 150 CPU-hour fuzzing bằng AFL — vì harness không bật đúng extension. Coverage-guided fuzzer không tìm được thứ nó không chạm tới được. LLM hiểu semantic pattern thì không bị giới hạn đó.

Phát Hiện Lỗ Hổng: Truyền Thống vs AI

AI nén timeline phát hiện bằng cách tìm variant của bug pattern đã biết trên toàn bộ codebase cùng lúc.

View diagram source


flowchart TD
  A[Bug class phát hiện] -->|Truyền thống| B[Human audit code tương tự]
  A -->|AI-accelerated| C[LLM agent scan toàn bộ codebase]
  B -->|Tháng/năm| D[Tìm 1-2 variant]
  C -->|Giờ/ngày| E[Tìm tất cả variant reachable]
  D -->|Vuln tiếp theo attacker tìm| F[Reactive patch]
  E -->|Variant fix trước disclosure| G[Proactive hardening]
  F -->|Rollout chậm| H[Cửa sổ khai thác: tuần]
  G -->|Pre-release| I[Cửa sổ khai thác: zero]

Cuộc Chạy Đua Chưa Ai Sẵn Sàng

AI giúp defender tìm bug thì cũng giúp attacker exploit. Nén timeline xảy ra cả hai chiều:

Lợi thế phòng thủ (hiện tại): Scan code trước khi release. Google đang chạy Big Sleep trên chính sản phẩm của họ. Dirty Frag hoàn toàn có thể bị phát hiện sớm nếu ai đó scan tất cả MSG_SPLICE_PAGES call site xem unprivileged user có chạm tới được không.

Lợi thế tấn công (đang hình thành): Theo dõi patch commit. Đẩy diff vào LLM. Để nó sinh exploit hypothesis. Khoảng cách giữa “patch xuất hiện trên git” và “exploit sẵn sàng” co lại từ vài tuần xuống vài giờ.

Con số đáng lo: Linux kernel có khoảng 30 triệu dòng code. Riêng xfrm subsystem đã có hàng trăm code path. Mỗi MSG_SPLICE_PAGES, mỗi PIPE_BUF_FLAG_CAN_MERGE, mỗi COW-bypass optimization là một canh bạc — đặt cược rằng fast path không ai chạm tới từ unprivileged context. Con người không audit hết nổi. AI thì quét hết.

Câu hỏi không phải AI có tìm ra copy-fail variant tiếp theo không. Câu hỏi là ai tìm ra trước — defender chạy Big Sleep, hay attacker với custom agent và zero-day broker đang chờ sẵn.

Patch trước, nghĩ sau. Nếu bạn đang chạy Linux trên CloudLinux, RHEL, Debian, hay Ubuntu — kiểm tra xfrm module ngay. Blacklist esp4/esp6/rxrpc nếu không dùng IPsec. Drop page-cache. Chờ kernel update. PoC đã công khai và chỉ cần một lệnh duy nhất.

Việc Cần Làm Ngay

Xử lý Dirty Frag:

Kiểm tra module esp4/esp6 có đang load không: lsmod | grep esp
Không dùng IPsec? Blacklist module rồi reboot
Drop page-cache trên mọi máy đã bị expose: echo 3 > /proc/sys/vm/drop_caches
Theo dõi security tracker của distro để chờ patched kernel

Phòng thủ dài hạn (cả bug class):

Audit tất cả nơi dùng MSG_SPLICE_PAGES trong kernel — mỗi call site là một copy-fail variant tiềm năng
Maintain kernel module? Đừng bao giờ giả định fast path không ai chạm tới. Chứng minh nó. Test nó. Lịch sử cho thấy giả định đó luôn sai.
Để ý các AI-powered kernel auditing tool. Cách tiếp cận Big Sleep của Google nhiều khả năng sẽ phổ biến cho cộng đồng security trong vòng một năm tới.

Kernel team cứ thêm zero-copy fast path cho performance. Mỗi cái là một canh bạc rằng đường tắt bỏ COW sẽ không ai chạm tới từ unprivileged context. Bốn lần rồi, họ thua. Lần thứ năm, AI agent có lẽ sẽ tìm ra trước con người — câu hỏi duy nhất là agent đó ngồi bên nào hàng rào.

Patch máy đi. Rồi đọc paper Big Sleep. Tương lai của vulnerability research vừa bước vào phòng, và nó không cần nghỉ uống cà phê.

Nguồn Tham Khảo

Dirty Frag — CloudLinux mitigation and kernel update — timeline công bố, phiên bản bị ảnh hưởng, cách blacklist module
CVE-2016-5195 (Dirty COW) — NVD — CVSS 7.0, race condition trong mm/gup.c, kernel 2.6.22–4.8.2
Dirty COW — dirtycow.ninja — trang disclosure chính thức của Phil Oester
CVE-2022-0847 (Dirty Pipe) — NVD — CVSS 7.8, lỗi khởi tạo pipe buffer flag
Dirty Pipe — bài phân tích kỹ thuật của Max Kellermann — câu chuyện phát hiện, phân tích root cause, cơ chế exploit
CVE-2024-1086 (nf_tables) — NVD — CVSS 7.8, use-after-free trong nft_verdict_init()
CVE-2024-1086 exploit — Notselwyn — PoC công khai và writeup chi tiết
From Naptime to Big Sleep — Google Project Zero — zero-day đầu tiên AI tìm ra trong SQLite, LLM-based variant analysis agent
Dirty Frag upstream fix — netdev/net.git — kernel patch commit
CISA Known Exploited Vulnerabilities Catalog — Dirty COW, Dirty Pipe, nf_tables đều có trong danh sách