20 thg 4, 2026

MiniMax M2.7: Khi Agent AI Tự Viết Lại Code Của Chính Nó

MiniMax M2.7 đạt 30% cải thiện hiệu suất không cần retraining bằng cách coi agent harness như infrastructure có thể mutate — và nó thay đổi mọi thứ về cách chúng ta deploy AI

AI & ML

Thẻ (5)

Mục lục

Hầu hết các mô hình AI trong production đều là artifact đông cứng. Train một lần, đóng gói, và bọc trong harness tĩnh gồm tools, memory, và workflow rules. Khi có lỗi, con người vá scaffold. Model không bao giờ đụng đến kiến trúc của chính nó.

MiniMax M2.7 coi scaffold đó như code nó có thể viết lại. Và kết quả thì đáng lo ngại cho bất kỳ ai đã xây dựng business xung quanh những model lớn hơn.

Harness như Infrastructure Sống

Mọi agent hoạt động trong ràng buộc: tool nào được gọi, skill nào sở hữu, cách tổ chức memory, và workflow rules điều phối quyết định. Truyền thống, con người thiết kế những ràng buộc này. M2.7 coi chúng là mutable và self-optimizable.

Kiến trúc chạy một vòng lặp liên tục: thực thi task, phân tích lỗi, lập kế hoạch thay đổi harness, áp dụng, đánh giá với benchmarks, rồi quyết định giữ hay revert. Sau mỗi iteration, agent viết self-criticism vào memory — để vòng tiếp theo bắt đầu với những bài học tích lũy.

Self-Optimization Loop

Vòng cải thiện harness lặp của M2.7: analyze → plan → modify → evaluate → decide

View diagram source

flowchart TD
  A[Execute Task] --> B[Analyze Failures]
  B --> C[Plan Harness Changes]
  C --> D[Modify Scaffold Code]
  D --> E[Run Evaluations]
  E --> F[Compare Results]
  F --> G{Keep or Revert}
  G -->|Keep| H[Update Harness]
  G -->|Revert| I[Rollback Changes]
  H --> J[Write Self-Criticism]
  I --> J
  J --> K[Next Round]
  K --> A

Qua 100 rounds nội bộ, M2.7 phát hiện những tối ưu hóa không ai hướng dẫn. Nó có hệ thống điều chỉnh sampling parameters (temperature, frequency penalty, presence penalty). Nó viết workflow rules như “tự động kiểm tra cùng bug pattern trong các file khác sau khi fix.” Nó thêm loop detection để tránh các chu kỳ failure lặp đi lặp lại.

Kết quả: 30% cải thiện hiệu suất trên internal benchmarks. Không gradient updates. Không retraining. Chỉ scaffolding tốt hơn.

RL Team Workflow đã Chạy trong Production

MiniMax không chỉ chạy experiments nội bộ — họ đưa M2.7 vào production với RL team riêng của mình. Đây là cách nó hoạt động:

RL Team Research Agent Workflow

M2.7 xử lý 30-50% reinforcement learning research workflow một cách tự chủ

View diagram source

flowchart TB
  A["Researcher — Discuss Idea"] --> B["Agent — Literature Review"]
  B --> C["Agent — Track Experiment Spec"]
  C --> D["Agent — Pipeline Data"]
  D --> E["Agent — Launch Experiments"]
  E --> F["Agent — Monitor and Profile"]
  F --> G["Agent — Log Analysis"]
  G --> H["Agent — Debug and Fix Code"]
  H --> I["Agent — Merge Requests"]
  I --> J["Agent — Smoke Tests"]
  J --> K{Success}
  K -->|No| F
  K -->|Yes| L["Human — Critical Decisions Only"]

Một researcher thảo luận ý tưởng experiment với agent. Agent xử lý literature review, theo dõi experiment specs, pipeline data, launch experiments. Trong quá trình chạy, M2.7 giám sát tiến độ, đọc logs, trigger debugging, phân tích metrics, và submit code fixes với merge requests. Các nhà nghiên cứu con người chỉ can thiệp cho các quyết định quan trọng.

M2.7 xử lý 30-50% workflow đó một cách tự chủ. Feedback loop chạy liên tục: agent tự thu thập evaluation data, xây dựng internal task sets, rồi iterative cập nhật kiến trúc, skills, và memory mechanisms của chính nó.

MLE-Bench Lite: 22 ML Competitions

MiniMax test M2.7 qua 22 ML competitions trên OpenAI’s MLE-Bench Lite, mỗi cái chạy trên một A30 GPU. Harness sử dụng ba thành phần: short-term memory, self-feedback, và self-optimization.

MLE-Bench Lite Optimization Process

Ba trial experiments với 24 giờ mỗi lần: memory + self-feedback thúc đẩy cải thiện liên tục

View diagram source

flowchart TD
  A[Iteration N] --> B[Generate Memory Markdown]
  A --> C[Self-Criticism on Results]
  B --> D[Optimization Directions]
  C --> D
  D --> E["Iteration N+1"]
  E --> F{24h Trial}
  F --> G[Medal Rate Improves]
  G --> H{End of Trial}
  H -->|No| A
  H -->|Yes| I["Best Run — 9 Gold, 5 Silver, 1 Bronze"]

Sau mỗi iteration, agent tạo memory markdown file và thực hiện self-criticism — cung cấp hướng tối ưu hóa cho vòng tiếp theo. Vòng tiếp theo tiếp tục self-optimization dựa trên tất cả memory và feedback từ các vòng trước.

Run tốt nhất đạt 9 vàng, 5 bạc, và 1 đồng — 66.6% average medal rate trên tất cả runs. Ngang Gemini 3.1 và chỉ sau Opus 4.6 (75.7%) và GPT-5.4 (71.2%).

Các weights không bao giờ thay đổi. Chỉ harness thay đổi.

Benchmark Performance

M2.7 chỉ activate 10 tỷ parameters — là model nhỏ nhất trong tier-1 performance class. Đây là cách nó so sánh trên các benchmarks chính:

Benchmark	M2.7	Opus 4.6	GPT-5.3
SWE-Pro	56.22%	~57%	56.2%
SWE-bench Verified	78%	55%	—
VIBE-Pro (end-to-end)	55.6%	—	—
Terminal Bench 2	57.0%	—	—
GDPval-AA (Office)	1495 ELO	—	—
MLE-Bench Lite	66.6%	75.7%	71.2%

M2.7 áp đảo Opus trên SWE-bench Verified (78% vs 55%). Nó đạt điểm cao nhất trong các model open-source trên office productivity tasks. Tỷ lệ skill adherence 97% trên 40+ complex tasks (mỗi cái vượt quá 2,000 tokens) chứng minh execution đáng tin cậy trên những workflows phức tạp, nhiều bước.

SWE-bench Verified ở mức 78% đặc biệt đáng chú ý — benchmark này test các GitHub issues thực tế, không phải problems tổng hợp. Việc M2.7 đánh bại Opus 55% với 23 điểm phần trăm là một khoảng cách đáng kể.

Economics Thay đổi Tất cả

Nhưng câu chuyện thực sự là chi phí và tốc độ:

Metric	M2.7	Claude Opus 4.6
Input cost	$0.30/M	$15/M
Output cost	$1.20/M	$75/M
Speed	100 TPS	~33 TPS
Activated params	10B	—

M2.7 rẻ gấp 50 lần trên input và rẻ gấp 60 lần trên output so với Opus — trong khi ngang nó trên SWE-Pro. Ở 100 tokens mỗi giây, nó nhanh gấp 3 lần. Với automatic cache optimization, blended cost giảm xuống chỉ $0.06 per triệu tokens.

Với các team chạy high-volume agent workloads, coding assistants, hoặc document processing pipelines, cấu trúc chi phí này thay đổi những gì về mặt kinh tế. Một task tốn $100 với Opus chỉ tốn $2 với M2.7.

Tại Sao Deployment Calculus Thay đổi

Điểm khác biệt là kiến trúc: cải tiến không cần retraining có nghĩa optimization loop có thể chạy liên tục trong production, không cần downtime.

Không multi-GPU training cycles — chỉ thay đổi code
Không model versioning gymnastics — harness updates propagate ngay lập tức
Thích ứng trong giờ, không phải tuần — failure modes mới được xử lý trong thời gian thực

Khi các hệ thống agent lan rộng, nút thắt cổ chai chuyển từ model capability sang system design. Nếu harness của bạn có thể cải thiện chính nó, trần hiệu suất không ngừng di chuyển lên mà không cần đụng đến weights.

Model execute. Harness mới là product.