Cắt tài liệu cho RAG: hai chunk kề nhau nên chồng lấn một phần — câu nằm đúng đường cắt vẫn xuất hiện trọn vẹn ở ít nhất một chunk.
Chunk 500 token thì overlap ~60-75 token. Không overlap, điều khoản vắt ngang hai chunk sẽ không bao giờ được tìm thấy nguyên vẹn — lỗi "biết mà không thấy" kinh điển.