Chatbot tra cứu tài liệu, agent có system prompt dài, pipeline chấm bài theo cùng một rubric — tất cả đều gửi lại phần tĩnh ở mọi request. Prompt caching cho phép Claude "ghi nhớ" phần đó: đọc lại từ cache rẻ hơn khoảng 90% và nhanh hơn rõ rệt.
- Hiểu cơ chế cache và điều kiện để cache trúng
- Sắp xếp prompt theo nguyên tắc tĩnh-trước-động-sau
- Đặt cache breakpoint và tính điểm hòa vốn
- Đang gọi Claude API trong ứng dụng thật
- Một prompt có phần lặp lại ≥ 1.024 token
Cơ chế trong 30 giây
Bạn đánh dấu điểm cache trong request. Lần gọi đầu, Claude xử lý bình thường và lưu lại trạng thái phần trước điểm đánh dấu (ghi cache — đắt hơn một chút). Các lần sau, nếu phần đó GIỐNG HỆT, Claude đọc lại từ cache — rẻ hơn ~90% và bỏ qua toàn bộ thời gian xử lý phần đó.
Chữ "giống hệt" là chìa khóa: chỉ cần lệch một ký tự ở phần cache là trượt, và bạn trả giá đầy đủ.
Nguyên tắc vàng: tĩnh trước, động sau
Chỉ một thay đổi nhỏ chèn vào tầng 1 (ví dụ đóng dấu thời gian hiện tại vào system prompt) là phá sạch cache — lỗi phổ biến số một.
- Tầng 1 — system prompt, quy tắc, rubric: gần như không bao giờ đổi
- Tầng 2 — tài liệu nền, ví dụ few-shot: đổi theo phiên bản
- Tầng 3 — lịch sử hội thoại, câu hỏi mới của người dùng: đổi mỗi request
Đánh dấu cache trong code
response = client.messages.create(
model="claude-sonnet-4-5",
system=[{
"type": "text",
"text": HUONG_DAN + TAI_LIEU_NEN, # ~20 trang, bất biến
"cache_control": {"type": "ephemeral"}
}],
messages=history + [{"role": "user", "content": cau_hoi_moi}],
max_tokens=1024,
)Khi nào đáng bật
Điểm hòa vốn đơn giản: ghi cache đắt hơn ~25%, đọc rẻ hơn ~90% — chỉ cần dùng lại từ lần thứ hai trong cửa sổ cache là đã lời.
- Đáng: chatbot nền tri thức, agent gọi nhiều lượt cùng bộ tools, pipeline xử lý hàng loạt cùng một rubric
- Chưa đáng: phần lặp dưới ~1.024 token (không đủ ngưỡng cache), request thưa thớt (cache hết hạn giữa hai lần gọi)
Đo để xác nhận
Response API trả về các trường usage cho biết bao nhiêu token được ghi cache và bao nhiêu được đọc từ cache. Log hai con số này tuần đầu tiên: tỷ lệ cache-hit thấp nghĩa là phần "tĩnh" của bạn đang lén thay đổi — đi tìm dấu thời gian, ID phiên hay thứ tự trường bị xáo.
Củng cố những gì bạn vừa học
3 câu trắc nghiệm · đạt từ 70% · câu hỏi và đáp án xáo trộn mỗi lần.