Trung cấpHướng dẫnClaude ChatNguồn: Anthropic

Claude cho Operations: Viết Runbook tự động

Minh TuấnCTO, Transform GroupTheo dõi

26/03/2026 647 0 5 phút đọc

Nghe bài viết

00:00

1 Bước thực hành then chốt trong tại sao runbook là tài sản quý giá của team operations?: Khi sự cố xảy ra lúc 2 giờ sáng, người on-call không có thời gian để suy nghĩ — họ cần biết chính xác phải làm gì, từng bước một, không mập mờ — nắm vững điều này giúp bạn triển khai nhanh hơn và giảm thiểu lỗi thường gặp.
2 Điểm cần cân nhắc khi sử dụng prompt tạo runbook từ mô tả: Tạo runbook cho quy trình: Database Failover khi primary PostgreSQL instance bị lỗi. Ngữ cảnh: - Stack: PostgreSQL 15 trên AWS RDS, có read replica - Công cụ: AWS Console, AWS CLI — không phải mọi trường hợp đều phù hợp, cần đánh giá bối cảnh cụ thể trước khi áp dụng.
3 Theo phân tích runbook cho incident phổ biến, Runbook: Xử lý high CPU trên production server Tạo runbook khi nhận alert "CPU &gt 90% trong 5 phút". Infrastructure: 3 EC2 instances behind load balancer, app viết bằng Node.js, database MySQL RDS. Steps cần bao gồm: 1 — con số thực tế này đáng để tham khảo khi lập kế hoạch triển khai cho dự án của bạn.
4 Để áp dụng troubleshooting guide format hiệu quả, bạn cần nắm rõ: Tạo troubleshooting guide cho vấn đề phổ biến nhất của hệ thống email delivery. Format: symptom → likely cause → fix Ít nhất 8 scenarios: - Email gửi nhưng không đến inbox - Bounce rate đột ngột tăng — đây là bước quan trọng giúp tối ưu quy trình làm việc với AI trong thực tế.
5 Một thực tế quan trọng về runbook cho quy trình thường ngày: Runbook không chỉ cho emergency — các quy trình hàng ngày cũng cần được document: Tạo runbook cho quy trình deploy code lên production hàng tuần: - Thứ 4 hàng tuần — tuy mang lại lợi ích rõ ràng nhưng cũng đòi hỏi đầu tư thời gian học và thử nghiệm phù hợp.

Tại sao runbook là tài sản quý giá của team Operations?

Khi sự cố xảy ra lúc 2 giờ sáng, người on-call không có thời gian để suy nghĩ — họ cần biết chính xác phải làm gì, từng bước một, không mập mờ. Một runbook tốt là sự khác biệt giữa incident được resolve trong 15 phút và incident kéo dài 3 tiếng vì không ai nhớ câu lệnh cụ thể cần chạy.

Nhiều team biết điều này nhưng vẫn không có runbook đầy đủ vì viết runbook tốt đòi hỏi thời gian và sự tỉ mỉ. Claude giúp bạn biến kiến thức tribal knowledge thành runbook có cấu trúc trong vài phút.

Nguyên tắc runbook tốt

Painfully specific — "Chạy script" không phải là bước. "Chạy python sync.py --env prod --dry-run từ server ops1" mới là bước
Bao gồm failure modes — Mỗi bước có thể fail, cần có "nếu bước này thất bại, làm gì tiếp"
Test thực tế — Yêu cầu người chưa biết quy trình follow theo. Fix khi họ bị stuck
Cập nhật sau mỗi lần dùng — Runbook cũ lạc hậu nguy hiểm hơn là không có runbook

Prompt tạo runbook từ mô tả

Tạo runbook cho quy trình: Database Failover
khi primary PostgreSQL instance bị lỗi.

Ngữ cảnh:
- Stack: PostgreSQL 15 trên AWS RDS, có read replica
- Công cụ: AWS Console, AWS CLI, psql
- On-call có quyền admin AWS

Các bước tôi biết (chưa có thứ tự cụ thể):
- Check health của primary và replica
- Promote replica lên primary
- Update DNS/connection string trong app
- Notify team về downtime
- Verify connections hoạt động
- Document incident

Hãy biến thành runbook đầy đủ với từng lệnh cụ thể,
expected output, và "nếu thất bại thì làm gì".

Cấu trúc runbook chuẩn

Claude sẽ tạo runbook theo cấu trúc:

Header

Tên runbook và mục đích
Owner: Team/người phụ trách
Tần suất sử dụng: Daily/Weekly/As Needed/Emergency
Ngày cập nhật cuối

Prerequisites (Điều kiện tiên quyết)

Tạo phần prerequisites cho runbook DB Failover:
- Quyền truy cập AWS IAM cần thiết
- Tools phải được cài sẵn (AWS CLI, psql version X)
- Thông tin cần có trước khi bắt đầu
  (endpoint addresses, credentials location, alert channel)

Các bước chi tiết với expected output

Đây là phần quan trọng nhất — mỗi bước phải cụ thể đến mức không cần đoán:

Bước 1: Xác nhận primary instance đang down

Chạy lệnh:
aws rds describe-db-instances   --db-instance-identifier prod-db-primary   --query 'DBInstances[0].DBInstanceStatus'

Expected output: "available"
Nếu output là "available": Primary vẫn hoạt động,
  kiểm tra lại alert — có thể là false alarm.
  Chạy bước diagnostic thay vì failover.
Nếu output là "failed" hoặc không kết nối được:
  Tiếp tục sang bước 2.

Runbook cho incident phổ biến

Runbook: Xử lý high CPU trên production server

Tạo runbook khi nhận alert "CPU > 90% trong 5 phút".

Infrastructure: 3 EC2 instances behind load balancer,
app viết bằng Node.js, database MySQL RDS.

Steps cần bao gồm:
1. Verify alert không phải false positive
2. Xác định nguyên nhân (query chậm, traffic spike, memory leak)
3. Short-term fix (restart process, scale up, kill query)
4. Rollback nếu vấn đề do deployment mới
5. Escalation criteria và contacts
6. Post-incident documentation

Runbook: Restore backup database

Tạo runbook restore database từ backup S3.
Environment: MySQL 8.0, backup daily lúc 2AM,
stored ở S3 bucket prod-db-backups.

Scenario: cần restore database dev từ backup production
(mask sensitive data trước khi restore).

Bao gồm:
- Tìm và download backup file đúng
- Restore vào instance dev
- Mask PII data (email, phone, CCCD)
- Verify data integrity sau restore
- Notify team khi hoàn thành

Incident Playbook

Incident playbook khác runbook thông thường ở chỗ bao gồm cả quy trình communication và escalation:

Tạo incident playbook cho P1 incident:
"Hệ thống payment không thể xử lý giao dịch"

Công ty: fintech, 100.000 transactions/ngày,
mỗi phút down = mất ~70 triệu VNĐ doanh thu.

Playbook cần bao gồm:

PHASE 1 - DETECTION (0-5 phút)
- Cách xác nhận đây là P1 thực sự
- Ai cần được notify ngay lập tức (PagerDuty roles)

PHASE 2 - INITIAL RESPONSE (5-30 phút)
- Incident commander là ai?
- War room setup (Slack channel, Zoom bridge)
- Triage: loại bỏ known issues trước

PHASE 3 - INVESTIGATION
- Checklist diagnostic theo từng component
- Escalation path khi không tìm ra root cause

PHASE 4 - RESOLUTION
- Fix options và trade-offs
- Communication to customers (cần không?)
- Rollback criteria

PHASE 5 - POST-INCIDENT
- Timeline: bao lâu sau khi resolve cần post-mortem?
- Template incident report
- Cách ngăn tái phát

Troubleshooting guide format

Tạo troubleshooting guide cho vấn đề phổ biến
nhất của hệ thống email delivery.

Format: symptom → likely cause → fix

Ít nhất 8 scenarios:
- Email gửi nhưng không đến inbox
- Bounce rate đột ngột tăng
- DKIM/SPF fail
- Rate limiting từ Gmail/Yahoo
- Attachment bị block
- Template rendering lỗi
- Unsubscribe link không hoạt động
- Email delay hơn 30 phút

Giữ runbook luôn cập nhật

Runbook không dùng đến thì cũng vô nghĩa. Sau mỗi lần sử dụng:

Tôi vừa sử dụng runbook DB Failover lần đầu trong production.
Ghi chú thực tế:
- Bước 3 mất 15 phút thay vì 5 phút vì cần chờ DNS propagate
- Bước 5 thiếu lệnh để verify connections từ app (không chỉ từ CLI)
- Tìm ra cần notify team Finance riêng vì họ có batch job chạy tối

Cập nhật runbook để phản ánh thực tế này.
Thêm phần History với ngày và ghi chú.

Runbook cho quy trình thường ngày

Runbook không chỉ cho emergency — các quy trình hàng ngày cũng cần được document:

Tạo runbook cho quy trình deploy code lên production hàng tuần:
- Thứ 4 hàng tuần, 7PM sau giờ cao điểm
- Stack: Docker containers trên Kubernetes
- Cần zero-downtime deployment
- Approval từ 1 senior engineer
- Rollback trong vòng 5 phút nếu error rate > 1%

Bước tiếp theo

Runbook tốt là đầu tư một lần, sử dụng nhiều lần. Cùng với process documentation và risk assessment, đây là ba trụ cột của operational excellence. Khám phá thêm:

Xem tất cả hướng dẫn ứng dụng Claude cho HR & Operations

Gợi ý cho bạn

Claude cho Operations: Lập kế hoạch năng lực

Claude cho Operations: Viết Runbook tự động

Điểm nổi bật

Tại sao runbook là tài sản quý giá của team Operations?

Nguyên tắc runbook tốt

Prompt tạo runbook từ mô tả

Cấu trúc runbook chuẩn

Header

Prerequisites (Điều kiện tiên quyết)

Các bước chi tiết với expected output

Runbook cho incident phổ biến

Runbook: Xử lý high CPU trên production server

Runbook: Restore backup database

Incident Playbook

Troubleshooting guide format

Giữ runbook luôn cập nhật

Runbook cho quy trình thường ngày

Bước tiếp theo

Bài viết liên quan

Gợi ý cho bạn

Claude cho Operations: Lập kế hoạch năng lực

Claude cho Operations: Tài liệu hóa quy trình

Claude viết SOP — Tự động hóa tài liệu quy trình vận hành

Claude cho Operations: Tối ưu hóa quy trình

Tin liên quan nên xem

Claude cho Operations: Báo cáo tình hình hoạt động

Claude cho Operations: Đánh giá rủi ro chuỗi cung ứng nâng cao

Claude cho Supply Chain: Demand planning và inventory optimization

Claude cho Operations: Quản lý Change Request

Claude cho Operations: Viết Runbook tự động

Điểm nổi bật

Tại sao runbook là tài sản quý giá của team Operations?

Nguyên tắc runbook tốt

Prompt tạo runbook từ mô tả

Cấu trúc runbook chuẩn

Header

Prerequisites (Điều kiện tiên quyết)

Các bước chi tiết với expected output

Runbook cho incident phổ biến

Runbook: Xử lý high CPU trên production server

Runbook: Restore backup database

Incident Playbook

Troubleshooting guide format

Giữ runbook luôn cập nhật

Runbook cho quy trình thường ngày

Bước tiếp theo

Bài viết liên quan

Gợi ý cho bạn

Claude cho Operations: Lập kế hoạch năng lực

Claude cho Operations: Tài liệu hóa quy trình

Claude viết SOP — Tự động hóa tài liệu quy trình vận hành

Claude cho Operations: Tối ưu hóa quy trình

Tin liên quan nên xem

Claude cho Operations: Báo cáo tình hình hoạt động

Claude cho Operations: Đánh giá rủi ro chuỗi cung ứng nâng cao

Claude cho Supply Chain: Demand planning và inventory optimization

Claude cho Operations: Quản lý Change Request

Đăng ký nhận bản tin