Prompt chạy trong sản phẩm phải được đối xử như code: lưu phiên bản, có bộ input thử, đo kết quả trước khi thay — không sửa mò trên production.
Trước khi đổi prompt chatbot, chạy bản mới trên 20 câu hỏi thật đã lưu. Điểm không tăng thì không deploy — cảm giác "nghe hay hơn" không phải bằng chứng.