Dùng model lớn nhất cho mọi việc giống như đi họp đầu ngõ bằng máy bay. Gia đình Claude có ba cỡ; hiểu đánh đổi của từng cỡ giúp bạn nhanh hơn và rẻ hơn mà chất lượng không đổi.
- Nắm vị trí của Haiku, Sonnet, Opus trên trục tốc độ — độ sâu
- Chọn model theo loại việc, có đường nâng cấp rõ
- Tiết kiệm chi phí API bằng cách phối hợp model
- Tài khoản Claude hoặc API key
Ba cỡ, một trục đánh đổi
Cùng một gia đình, cùng cách dùng — khác ở độ sâu suy luận, tốc độ và giá mỗi token.
- Haiku — nhanh và rẻ nhất: phân loại, trích xuất, trả lời mẫu, việc khối lượng lớn
- Sonnet — điểm cân bằng: viết, phân tích, code hằng ngày; mặc định tốt cho hầu hết việc
- Opus — sâu nhất: suy luận nhiều bước, kiến trúc phức tạp, việc mà một câu sai gây hậu quả lớn
Quy tắc chọn trong 10 giây
Bắt đầu bằng Sonnet. Chỉ đổi khi có tín hiệu rõ: kết quả hời hợt dù prompt đã tốt → thử Opus; việc đơn giản lặp lại hàng nghìn lần → thử Haiku.
Đừng nâng model để bù cho prompt kém — với việc thường ngày, prompt tốt trên Sonnet thắng prompt cẩu thả trên Opus.
Ví dụ phân bổ theo việc
- Tóm tắt email hàng loạt, gắn nhãn ticket: Haiku
- Viết đề xuất, phân tích báo cáo, viết code tính năng: Sonnet
- Thiết kế kiến trúc hệ thống, rà hợp đồng quan trọng, debug hóc búa: Opus
Trong ứng dụng: phối hợp nhiều model
Kiến trúc tiết kiệm phổ biến: model nhỏ đứng trước sàng lọc và định tuyến, model lớn chỉ nhận ca khó. Ví dụ pipeline hỗ trợ khách hàng: Haiku phân loại và trả lời câu FAQ; ca phức tạp chuyển Sonnet; khiếu nại pháp lý mới tới Opus.
# giả mã định tuyến
label = haiku.classify(ticket)
if label in FAQ: reply = haiku
elif label == "complex": reply = sonnet
else: reply = opus # ca nhạy cảmĐo trước khi tin
Với việc chạy thường xuyên, đừng chọn theo cảm giác: lấy 20 ca thật, chạy trên hai model, so kết quả và chi phí. Nhiều đội ngạc nhiên khi Haiku đạt yêu cầu cho 70% khối lượng — và ngân sách còn lại dồn cho 30% thực sự khó.
Củng cố những gì bạn vừa học
3 câu trắc nghiệm · đạt từ 70% · câu hỏi và đáp án xáo trộn mỗi lần.