{"product_id":"claude-cho-engineering-incident-response-workflow","title":"Claude cho Engineering: Incident Response workflow","description":"\n\u003cp\u003eProduction down lúc 2 giờ sáng là tình huống mà không developer nào muốn gặp nhưng tất cả đều phải sẵn sàng xử lý. Sự khác biệt giữa incident được xử lý tốt và tệ không nằm ở việc có sự cố hay không — mà nằm ở quy trình: bạn có communicate rõ ràng không, có document timeline không, và quan trọng nhất, bạn có học được gì để ngăn tái diễn không. Claude có thể đồng hành cùng bạn trong suốt incident lifecycle — từ triage ban đầu đến blameless postmortem cuối cùng.\u003c\/p\u003e\n\n\u003ch2\u003eBốn phase của Incident Response\u003c\/h2\u003e\n\n\u003ch3\u003ePhase 1: Triage (Phân loại mức độ)\u003c\/h3\u003e\n\u003cp\u003eNgay khi nhận alert, câu hỏi đầu tiên: severity là gì?\u003c\/p\u003e\n\n\u003ctable\u003e\n  \u003cthead\u003e\n    \u003ctr\u003e\n      \u003cth\u003eLevel\u003c\/th\u003e\n      \u003cth\u003eTiêu chí\u003c\/th\u003e\n      \u003cth\u003eResponse Time\u003c\/th\u003e\n    \u003c\/tr\u003e\n  \u003c\/thead\u003e\n  \u003ctbody\u003e\n    \u003ctr\u003e\n      \u003ctd\u003e\u003cstrong\u003eSEV1\u003c\/strong\u003e\u003c\/td\u003e\n      \u003ctd\u003eService down, toàn bộ users bị ảnh hưởng\u003c\/td\u003e\n      \u003ctd\u003eNgay lập tức, all-hands\u003c\/td\u003e\n    \u003c\/tr\u003e\n    \u003ctr\u003e\n      \u003ctd\u003e\u003cstrong\u003eSEV2\u003c\/strong\u003e\u003c\/td\u003e\n      \u003ctd\u003eTính năng chính bị degraded, nhiều users\u003c\/td\u003e\n      \u003ctd\u003eTrong vòng 15 phút\u003c\/td\u003e\n    \u003c\/tr\u003e\n    \u003ctr\u003e\n      \u003ctd\u003e\u003cstrong\u003eSEV3\u003c\/strong\u003e\u003c\/td\u003e\n      \u003ctd\u003eTính năng phụ bị lỗi, một số users\u003c\/td\u003e\n      \u003ctd\u003eTrong vòng 1 giờ\u003c\/td\u003e\n    \u003c\/tr\u003e\n    \u003ctr\u003e\n      \u003ctd\u003e\u003cstrong\u003eSEV4\u003c\/strong\u003e\u003c\/td\u003e\n      \u003ctd\u003eCosmetic hoặc low-impact\u003c\/td\u003e\n      \u003ctd\u003eNext business day\u003c\/td\u003e\n    \u003c\/tr\u003e\n  \u003c\/tbody\u003e\n\u003c\/table\u003e\n\n\u003ch3\u003ePhase 2: Communicate (Thông báo)\u003c\/h3\u003e\n\u003cp\u003eCommunication rõ ràng, đúng lúc là yếu tố phân biệt team SRE chuyên nghiệp. Cần cập nhật thường xuyên dù chưa có resolution.\u003c\/p\u003e\n\n\u003ch3\u003ePhase 3: Mitigate (Xử lý)\u003c\/h3\u003e\n\u003cp\u003eDocument mọi action đã thực hiện và timeline events. Không phụ thuộc vào memory — viết real-time.\u003c\/p\u003e\n\n\u003ch3\u003ePhase 4: Postmortem (Phân tích sau sự cố)\u003c\/h3\u003e\n\u003cp\u003eBlameless postmortem: tập trung vào hệ thống và quy trình, không đổ lỗi cá nhân.\u003c\/p\u003e\n\n\u003ch2\u003ePrompt mẫu: Bắt đầu incident mới\u003c\/h2\u003e\n\n\u003cpre\u003e\u003ccode\u003eTôi đang xử lý incident. Hãy giúp tôi triage và\ntạo incident document ban đầu.\n\nThông tin:\n- Alert: \"Payment service error rate 25%, threshold 1%\"\n- Thời gian phát hiện: 02:15 SA\n- Stack: Node.js payment service, Stripe integration\n- Monitoring: Datadog alert kích hoạt\n- Ảnh hưởng ban đầu: Không rõ, đang kiểm tra\n\nHãy:\n1. Suggest severity level và justify\n2. Tạo incident document ban đầu\n3. List 5 câu hỏi đầu tiên cần trả lời ngay\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003ePrompt mẫu: Update status mid-incident\u003c\/h2\u003e\n\n\u003cpre\u003e\u003ccode\u003eCần viết status update cho incident đang xảy ra.\n\nIncident: Payment service degraded\nSeverity: SEV2\nĐã xảy ra từ: 02:15 SA (45 phút trước)\nTimeline đã biết:\n- 02:15: Alert kích hoạt\n- 02:20: Incident Commander paged\n- 02:30: Xác định root cause: third-party API timeout\n- 02:45: Mitigation: switch sang backup payment provider\n- 02:58: Error rate giảm xuống 3%, đang theo dõi\n\nHãy viết:\n1. Internal Slack update cho team\n2. External status page update cho customers\n(Tone: factual, không speculation, reassuring)\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eVí dụ status update Claude tạo ra\u003c\/h2\u003e\n\n\u003cpre\u003e\u003ccode\u003e## Incident Update: Payment Service Degraded\nSeverity: SEV2 | Status: Monitoring\nImpact: Khoảng 15% payment transactions bị lỗi\nLast Updated: 02:58 SA\n\n### Tình trạng hiện tại\nChúng tôi đã xác định nguyên nhân và đang trong quá\ntrình phục hồi. Error rate đã giảm từ 25% xuống 3%.\n\n### Hành động đã thực hiện\n- 02:30: Xác định root cause: timeout từ provider X\n- 02:45: Kích hoạt backup payment provider\n- 02:55: Verify transactions đang được xử lý bình thường\n\n### Bước tiếp theo\n- Tiếp tục monitor 30 phút\n- Nếu ổn định, resolve incident và bắt đầu postmortem\n\n### Timeline\n| Thời gian | Sự kiện |\n|-----------|---------|\n| 02:15 SA  | Alert kích hoạt |\n| 02:20 SA  | IC on-call được paged |\n| 02:30 SA  | Root cause identified |\n| 02:45 SA  | Mitigation applied |\n| 02:58 SA  | Update này |\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003ePrompt mẫu: Viết blameless postmortem\u003c\/h2\u003e\n\n\u003cpre\u003e\u003ccode\u003eIncident đã được resolve. Hãy giúp tôi viết\nblameless postmortem.\n\nIncident summary:\n- Tên: Payment Service Degraded - 2026-03-20\n- Duration: 02:15 - 03:30 SA (75 phút)\n- Severity: SEV2\n- Impact: 15% payment transactions fail, ~500 users bị ảnh hưởng\n\nTimeline:\n- 02:15: Datadog alert payment error rate 25%\n- 02:20: On-call Minh được paged\n- 02:30: Confirmed root cause: Stripe timeout \u0026gt;30s\n  do Stripe có incident riêng ở US region\n- 02:45: Switch sang backup provider VNPay\n- 02:58: Error rate giảm xuống 3%\n- 03:30: Fully resolved, Stripe recovered\n\nRoot cause: Upstream dependency (Stripe) incident\nảnh hưởng đến API calls của chúng tôi.\n\nKhông có circuit breaker, nên requests bị queue\ncho đến khi timeout. Không có fallback tự động.\n\nHãy viết postmortem đầy đủ với 5 Whys analysis\nvà action items cụ thể.\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eVí dụ postmortem Claude tạo ra\u003c\/h2\u003e\n\n\u003cpre\u003e\u003ccode\u003e## Postmortem: Payment Service Degraded\nDate: 2026-03-20 | Duration: 75 phút | Severity: SEV2\nAuthors: Minh Nguyen | Status: Draft\n\n### Summary\nLúc 02:15 SA ngày 20\/3\/2026, payment service\nbắt đầu timeout do upstream incident từ Stripe.\nDo thiếu circuit breaker và automatic fallback,\nkhoảng 15% transactions bị fail trong 75 phút\ntrước khi team switch thủ công sang VNPay backup.\n\n### Impact\n- ~500 users không checkout được trong 75 phút\n- Estimated revenue impact: ~50 triệu VND\n- Không có data loss\n\n### 5 Whys\n1. Tại sao payment fail? -\u0026gt; Stripe API timeout\n2. Tại sao Stripe timeout gây outage? -\u0026gt; Không có circuit breaker\n3. Tại sao không có circuit breaker? -\u0026gt; Chưa được implement\n4. Tại sao chưa implement? -\u0026gt; Không có trong technical roadmap\n5. Tại sao không có trong roadmap? -\u0026gt; Chưa có incident cần thiết trước đây\n\nRoot cause: Thiếu resilience pattern (circuit breaker + fallback)\ncho external payment dependency.\n\n### Điều làm tốt\n- Alert phát hiện nhanh (2 phút từ khi degraded)\n- Team on-call response time tốt\n- Communication internal rõ ràng\n\n### Điều cần cải thiện\n- Không có automatic fallback sang backup provider\n- Detection time vs mitigation time quá dài (30 phút)\n- Chưa có runbook cho payment provider failure\n\n### Action Items\n| Action | Owner | Priority | Deadline |\n|--------|-------|----------|----------|\n| Implement circuit breaker cho Stripe | Nam | P0 | 1 tuần |\n| Auto-failover sang VNPay khi Stripe down | Hoa | P0 | 2 tuần |\n| Viết runbook payment provider failure | Minh | P1 | 1 tuần |\n| Load test với Stripe bị timeout | DevOps | P1 | 3 tuần |\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eMẹo xử lý incident hiệu quả\u003c\/h2\u003e\n\n\u003cul\u003e\n  \u003cli\u003e\n\u003cstrong\u003eBắt đầu document ngay:\u003c\/strong\u003e Đừng chờ đủ thông tin. Update document liên tục khi biết thêm.\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eCập nhật có cấu trúc:\u003c\/strong\u003e What we know, what we've done, what's next. Không speculation.\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003ePostmortem blameless:\u003c\/strong\u003e Tập trung vào systems và processes. \"Hệ thống thiếu circuit breaker\" không phải \"Minh quên implement\".\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eAction items có owner:\u003c\/strong\u003e Mỗi action item phải có người chịu trách nhiệm và deadline cụ thể.\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eBước tiếp theo\u003c\/h2\u003e\n\u003cp\u003eIncident response tốt là nền tảng của SRE mature:\u003c\/p\u003e\n\u003cul\u003e\n  \u003cli\u003e\u003ca href=\"\/en\/collections\/ung-dung\"\u003eThư viện ứng dụng Claude cho Engineering\u003c\/a\u003e\u003c\/li\u003e\n  \u003cli\u003eKết hợp với Deploy Checklist để giảm incident do deploy\u003c\/li\u003e\n  \u003cli\u003eDùng Documentation workflow để viết runbook từ lessons learned\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\n\u003chr\u003e\n\u003ch3\u003eBài viết liên quan\u003c\/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-engineering-debug-va-x%E1%BB%AD-ly-l%E1%BB%97i\"\u003eClaude cho Engineering: Debug và xử lý lỗi\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-engineering-chi%E1%BA%BFn-l%C6%B0%E1%BB%A3c-testing-toan-di%E1%BB%87n\"\u003eClaude cho Engineering: Chiến lược testing toàn diện\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-engineering-code-review-t%E1%BB%B1-d%E1%BB%99ng\"\u003eClaude cho Engineering: Code Review tự động\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-data-phan-tich-d%E1%BB%AF-li%E1%BB%87u-t%E1%BB%B1-d%E1%BB%99ng\"\u003eClaude cho Data: Phân tích dữ liệu tự động\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/developer-playbook-claude-cho-l%E1%BA%ADp-trinh-vien\"\u003eDeveloper Playbook — Claude cho lập trình viên\u003c\/a\u003e\u003c\/li\u003e\n\u003c\/ul\u003e","brand":"Minh Tuấn","offers":[{"title":"Default Title","offer_id":47722092396756,"sku":null,"price":0.0,"currency_code":"VND","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0821\/0264\/9044\/files\/claude-cho-engineering-incident-response-workflow_f4a50071-e7a9-4de6-b13d-fa3096e83aef.jpg?v=1774522004","url":"https:\/\/claude.vn\/en\/products\/claude-cho-engineering-incident-response-workflow","provider":"CLAUDE.VN","version":"1.0","type":"link"}