Mỗi request trả phí theo token vào + token ra. Log hai con số này từ ngày đầu: mọi quyết định tối ưu (cache, rút prompt, đổi model) cần số liệu, không cần cảm giác.
Thêm một dòng log usage.input_tokens/output_tokens mỗi call. Cuối tuần nhìn phân bố: 80% chi phí thường nằm ở 20% loại request — tối ưu đúng chỗ đó trước.