LLM Của Bạn Vốn Dĩ Đã 'Khôn' Hơn Bạn Tưởng — Chỉ Cần Nó Chịu 'Nghe' Chính Mình
Các nhà nghiên cứu của Apple phát hiện ra rằng việc fine-tuning một model trên chính output (chưa kiểm chứng) của nó giúp tăng khả năng sinh code lên 30%. Không cần teacher model, không RL, không verifier. Đây là lý do tại sao Simple Self-Distillation (SSD) hoạt động, và nó có ý nghĩa gì đối với cách chúng ta nghĩ về năng lực của LLM.