{"product_id":"tom-tắt-van-bản-với-claude-từ-cơ-bản-dến-domain-specific","title":"Tóm tắt văn bản với Claude — Từ cơ bản đến domain-specific","description":"\n\u003cp\u003eTrong bài hướng dẫn này, bạn sẽ xây dựng hệ thống tóm tắt văn bản chuyên nghiệp bằng Claude. Chúng ta sẽ đi qua 5 kỹ thuật: Basic → Multi-Shot → Guided → Domain-Specific → Meta-Summarization, cùng phương pháp đánh giá quality bài bản.\u003c\/p\u003e\n\n\u003cp\u003eBài viết dựa trên \u003cstrong\u003eClaude Cookbooks chính thức\u003c\/strong\u003e của Anthropic, sử dụng tài liệu pháp lý (sublease agreements) làm ví dụ minh họa.\u003c\/p\u003e\n\n\u003ch2\u003eTại sao tóm tắt văn bản quan trọng?\u003c\/h2\u003e\n\n\u003cp\u003eTrong thế giới tràn ngập thông tin, khả năng \u003cstrong\u003etrích xuất và tổng hợp nhanh\u003c\/strong\u003e các điểm chính từ tài liệu dài là vô giá. Đặc biệt với tài liệu pháp lý — hợp đồng, điều khoản, quy định — nơi mà fine print và thuật ngữ chuyên ngành khiến việc đọc trở nên mệt mỏi.\u003c\/p\u003e\n\n\u003cp\u003eClaude giải quyết vấn đề này: tóm tắt tài liệu hàng chục trang trong vài giây, với độ chính xác mà bạn có thể kiểm chứng và cải thiện có hệ thống.\u003c\/p\u003e\n\n\u003ch2\u003eKỹ thuật 1: Basic Summarization\u003c\/h2\u003e\n\n\u003cp\u003eCách đơn giản nhất — gửi tài liệu, yêu cầu tóm tắt:\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003edef basic_summarize(text):\n    response = client.messages.create(\n        model=\"claude-sonnet-4-6\",\n        messages=[\n            {\"role\": \"user\", \"content\": f\"Tóm tắt tài liệu:\\n{text}\"},\n            # Prefill để ép output format\n            {\"role\": \"assistant\", \"content\": \"\u0026lt;summary\u0026gt;\"},\n        ],\n        stop_sequences=[\"\u0026lt;\/summary\u0026gt;\"],\n        max_tokens=1000\n    )\n    return response.content[0].text\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eKỹ thuật \u003cstrong\u003eassistant prefill + stop sequences\u003c\/strong\u003e đảm bảo Claude output trực tiếp nội dung tóm tắt, không thêm preamble.\u003c\/p\u003e\n\n\u003cp\u003e\u003cstrong\u003eHạn chế:\u003c\/strong\u003e Output không có cấu trúc chuẩn, khó parse tự động, và không tập trung vào thông tin quan trọng nhất.\u003c\/p\u003e\n\n\u003ch2\u003eKỹ thuật 2: Multi-Shot — Học từ ví dụ\u003c\/h2\u003e\n\n\u003cp\u003eThêm 2-3 ví dụ tóm tắt mẫu vào prompt. Hai thay đổi quan trọng:\u003c\/p\u003e\n\n\u003col\u003e\n  \u003cli\u003e\n\u003cstrong\u003e\"Do not preamble\"\u003c\/strong\u003e — Loại bỏ câu mở đầu kiểu hội thoại\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eFew-shot examples\u003c\/strong\u003e — 3 cặp (document, summary) mẫu\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003cp\u003eĐiều thú vị: chúng ta \u003cstrong\u003ekhông hề chỉ định format output\u003c\/strong\u003e, nhưng Claude tự động theo đúng format của các ví dụ. Đây là sức mạnh của few-shot learning — Claude generalize từ vài mẫu sang input mới.\u003c\/p\u003e\n\n\u003ch2\u003eKỹ thuật 3: Guided Summarization\u003c\/h2\u003e\n\n\u003cp\u003eThay vì để Claude tự quyết nội dung tóm tắt, chúng ta \u003cstrong\u003eđịnh nghĩa framework rõ ràng\u003c\/strong\u003e để hướng dẫn quá trình tóm tắt qua prompt:\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003eprompt = f\"\"\"Tóm tắt tài liệu sau theo framework:\n\n1. TỔNG QUAN: 2-3 câu mô tả tổng thể\n2. CÁC BÊN LIÊN QUAN: Liệt kê tất cả bên tham gia\n3. ĐIỀU KHOẢN CHÍNH: Các điểm quan trọng nhất\n4. NGHĨA VỤ: Trách nhiệm của mỗi bên\n5. THỜI HẠN: Các mốc thời gian quan trọng\n6. ĐIỀU KIỆN ĐẶC BIỆT: Clause đáng chú ý\n\nTài liệu:\n{text}\"\"\"\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eGuided summarization đặc biệt mạnh cho tài liệu chuyên ngành — bạn kiểm soát được \u003cstrong\u003enhững gì cần trích xuất\u003c\/strong\u003e thay vì để model tự chọn.\u003c\/p\u003e\n\n\u003ch2\u003eKỹ thuật 4: Domain-Specific Guided Summarization\u003c\/h2\u003e\n\n\u003cp\u003eNâng cấp tiếp bằng cách \u003cstrong\u003etailored cho loại tài liệu cụ thể\u003c\/strong\u003e. Ví dụ, với sublease agreement, prompt yêu cầu trích xuất các trường đặc thù:\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003eprompt = f\"\"\"Phân tích sublease agreement sau.\nTrích xuất và format theo XML:\n\n\u0026lt;parties\u0026gt;Tenant, Subtenant, Landlord\u0026lt;\/parties\u0026gt;\n\u0026lt;property\u0026gt;Địa chỉ, diện tích, mục đích sử dụng\u0026lt;\/property\u0026gt;\n\u0026lt;term\u0026gt;Ngày bắt đầu, kết thúc, gia hạn\u0026lt;\/term\u0026gt;\n\u0026lt;rent\u0026gt;Số tiền, kỳ hạn, phương thức thanh toán\u0026lt;\/rent\u0026gt;\n\u0026lt;security_deposit\u0026gt;Số tiền, điều kiện hoàn trả\u0026lt;\/security_deposit\u0026gt;\n\u0026lt;special_conditions\u0026gt;Điều khoản đặc biệt\u0026lt;\/special_conditions\u0026gt;\n\nTài liệu: {text}\"\"\"\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eOutput dạng XML cho phép \u003cstrong\u003eparse tự động\u003c\/strong\u003e — lý tưởng khi cần xử lý hàng loạt tài liệu.\u003c\/p\u003e\n\n\u003ch2\u003eKỹ thuật 5: Meta-Summarization — Nhiều tài liệu\u003c\/h2\u003e\n\n\u003cp\u003eKhi có nhiều tài liệu liên quan (ví dụ: nhiều hợp đồng của cùng khách hàng), dùng \u003cstrong\u003echunking + meta-summary\u003c\/strong\u003e:\u003c\/p\u003e\n\n\u003col\u003e\n  \u003cli\u003eTóm tắt từng tài liệu riêng biệt\u003c\/li\u003e\n  \u003cli\u003eGộp các tóm tắt lại\u003c\/li\u003e\n  \u003cli\u003eTạo meta-summary tổng hợp tất cả\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003cp\u003eKỹ thuật này cũng áp dụng cho \u003cstrong\u003etài liệu rất dài\u003c\/strong\u003e vượt quá context window — chia thành chunks, tóm tắt từng chunk, rồi tóm tắt lại.\u003c\/p\u003e\n\n\u003ch2\u003eSummary-Indexed RAG — Ứng dụng nâng cao\u003c\/h2\u003e\n\n\u003cp\u003eKết hợp tóm tắt với RAG để tạo hệ thống truy xuất thông minh:\u003c\/p\u003e\n\n\u003col\u003e\n  \u003cli\u003e\n\u003cstrong\u003eDocument Summarization\u003c\/strong\u003e — Tạo tóm tắt ngắn cho mỗi tài liệu\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eContext Window Optimization\u003c\/strong\u003e — Đảm bảo tất cả summaries fit trong context window\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eRelevancy Scoring\u003c\/strong\u003e — Xếp hạng relevance của mỗi summary với query\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eReranking\u003c\/strong\u003e — Tinh chỉnh top-K kết quả\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eAnswer Generation\u003c\/strong\u003e — Trả lời dựa trên tài liệu liên quan nhất\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003cp\u003eƯu điểm so với RAG truyền thống:\u003c\/p\u003e\n\u003cul\u003e\n  \u003cli\u003eRanking tài liệu hiệu quả hơn, dùng ít context hơn\u003c\/li\u003e\n  \u003cli\u003eOutperform RAG truyền thống trên nhiều task\u003c\/li\u003e\n  \u003cli\u003eReranking giúp compress kết quả, đưa thông tin relevance nhất cho model\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eĐánh giá chất lượng tóm tắt\u003c\/h2\u003e\n\n\u003cp\u003eĐánh giá summarization là \u003cstrong\u003enotoriously khó\u003c\/strong\u003e. Không có metric hoàn hảo vì tóm tắt mang tính chủ quan — summary khác nhau có thể đều valid.\u003c\/p\u003e\n\n\u003ch3\u003ePhương pháp kết hợp\u003c\/h3\u003e\n\n\u003cul\u003e\n  \u003cli\u003e\n\u003cstrong\u003eROUGE scores\u003c\/strong\u003e — So sánh n-gram overlap giữa summary và reference\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eBLEU scores\u003c\/strong\u003e — Đo precision của n-gram matches\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eLLM-as-judge\u003c\/strong\u003e — Dùng Claude đánh giá quality (coherence, accuracy, completeness)\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eRegex checks\u003c\/strong\u003e — Kiểm tra format, trường bắt buộc có được trích xuất không\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003ePromptfoo\u003c\/strong\u003e — Framework evaluation tự động, so sánh models và prompts\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch3\u003eKết quả Promptfoo evaluation\u003c\/h3\u003e\n\n\u003cp\u003eKhi test trên dataset 9 sublease agreements:\u003c\/p\u003e\n\u003cul\u003e\n  \u003cli\u003eClaude Sonnet đạt \u003cstrong\u003e66% pass rate\u003c\/strong\u003e across all evals, chỉ 3\/45 tests thất bại\u003c\/li\u003e\n  \u003cli\u003eHaiku hiệu quả về chi phí nhưng kém hơn trên complex extractions\u003c\/li\u003e\n  \u003cli\u003eGuided + domain-specific prompt consistently outperform basic prompt\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eBest practices cho summarization\u003c\/h2\u003e\n\n\u003col\u003e\n  \u003cli\u003e\n\u003cstrong\u003eDùng \"do not preamble\"\u003c\/strong\u003e — Constrain output chỉ gồm nội dung tóm tắt\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eÍt nhất 2 examples\u003c\/strong\u003e — Few-shot learning cải thiện format và quality đáng kể\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eGuided summarization cho domain-specific\u003c\/strong\u003e — Define framework rõ ràng cho loại tài liệu cụ thể\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eXML\/JSON output\u003c\/strong\u003e — Cho phép parse tự động, lý tưởng cho pipeline production\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eChunking cho tài liệu dài\u003c\/strong\u003e — Chia nhỏ, tóm tắt từng phần, rồi meta-summarize\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eIterate dựa trên evaluation\u003c\/strong\u003e — Analyze failures, refine prompts, re-evaluate\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003ch2\u003eÁp dụng thực tế\u003c\/h2\u003e\n\n\u003cul\u003e\n  \u003cli\u003e\n\u003cstrong\u003ePháp lý\u003c\/strong\u003e: Tóm tắt hợp đồng, đơn kiện, luật — trích xuất điều khoản quan trọng\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eTài chính\u003c\/strong\u003e: Tóm tắt báo cáo tài chính, earnings calls, market research\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eY tế\u003c\/strong\u003e: Tóm tắt hồ sơ bệnh nhân, nghiên cứu y khoa\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eGiáo dục\u003c\/strong\u003e: Tóm tắt sách giáo khoa, bài giảng, research papers\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eBusiness\u003c\/strong\u003e: Tóm tắt email dài, meeting notes, RFPs\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003cp\u003eBước tiếp theo: Đọc thêm về \u003ca href=\"\/en\/collections\/nang-cao\"\u003eRAG với Claude\u003c\/a\u003e để kết hợp summarization vào pipeline truy xuất thông tin, và \u003ca href=\"\/en\/collections\/nang-cao\"\u003ePrompt Engineering nâng cao\u003c\/a\u003e để tối ưu prompt tóm tắt.\u003c\/p\u003e\n","brand":"Minh Tuấn","offers":[{"title":"Default Title","offer_id":47721706586324,"sku":null,"price":0.0,"currency_code":"VND","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0821\/0264\/9044\/files\/tom-t_t-van-b_n-v_i-claude-t_-c_-b_n-d_n-domain-specific.jpg?v=1774505575","url":"https:\/\/claude.vn\/en\/products\/tom-t%e1%ba%aft-van-b%e1%ba%a3n-v%e1%bb%9bi-claude-t%e1%bb%ab-c%c6%a1-b%e1%ba%a3n-d%e1%ba%bfn-domain-specific","provider":"CLAUDE.VN","version":"1.0","type":"link"}