Xây dựng Skills cho Claude — Phần 3: Testing và Tối ưu hiệu suất
Điểm nổi bật
Nhấn để đến mục tương ứng
- 1 Description v2 (sau khi iterate) Kết quả: Tỷ lệ triggering đúng tăng từ 40% lên 95%.
- 2 Tín hiệu thực thi có vấn đề Kết quả không nhất quán Lỗi API call Người dùng phải sửa output Giải pháp: Cải thiện instructions, thêm xử lý lỗi.
- 3 Sử dụng Skill-Creator Skill-creator là skill có sẵn trên Claude.ai (qua plugin directory) và Claude Code, giúp bạn xây dựng và iterate skill nhanh ...
- 4 Anthropic khuyến nghị 3 cấp độ testing với mức nghiêm ngặt tăng dần.
- 5 Cần kiểm tra: Output được tạo ra hợp lệ Các lệnh gọi API thành công Xử lý lỗi hoạt động Các edge case được bao phủ Ví dụ functional test 3.
Serial: Hướng dẫn toàn diện xây dựng Skills cho Claude | Phần 3/6
Dịch và biên soạn từ "The Complete Guide to Building Skills for Claude" của Anthropic.
Bạn đã thiết kế skill ở Phần 2. Giờ là lúc kiểm tra xem nó hoạt động đúng chưa và tối ưu hiệu suất. Anthropic khuyến nghị 3 cấp độ testing với mức nghiêm ngặt tăng dần.
Ba cấp độ Testing
Cấp 1: Testing thủ công trên Claude.ai
Chạy truy vấn trực tiếp và quan sát hành vi. Nhanh, không cần setup. Phù hợp giai đoạn phát triển ban đầu.
Cấp 2: Testing có kịch bản trên Claude Code
Tự động hoá test case để kiểm tra lặp lại qua các thay đổi. Phù hợp khi skill đã ổn định cơ bản.
Cấp 3: Testing lập trình qua Skills API
Xây dựng bộ đánh giá chạy có hệ thống với tập test xác định. Phù hợp cho skill triển khai quy mô lớn.
Chọn cách tiếp cận phù hợp với yêu cầu chất lượng của bạn. Skill dùng nội bộ cho team nhỏ có nhu cầu testing khác so với skill triển khai cho hàng ngàn người dùng doanh nghiệp.
Mẹo quan trọng: Iterate trên một tác vụ trước
Kinh nghiệm từ Anthropic: những người tạo skill hiệu quả nhất thường iterate trên một tác vụ khó cho đến khi Claude thành công, rồi mới trích xuất cách tiếp cận thành công thành skill. Phương pháp này tận dụng khả năng in-context learning của Claude và cho tín hiệu nhanh hơn testing rộng. Khi đã có nền tảng hoạt động, hãy mở rộng sang nhiều test case.
1. Triggering Tests
Mục tiêu: Đảm bảo skill được tải đúng lúc.
Bạn cần kiểm tra 3 điều:
- Skill kích hoạt khi có yêu cầu rõ ràng
- Skill kích hoạt khi yêu cầu được diễn đạt khác
- Skill KHÔNG kích hoạt khi chủ đề không liên quan
Ví dụ bộ test triggering
NEN kich hoat:
- "Giup toi thiet lap workspace ProjectHub moi"
- "Toi can tao du an trong ProjectHub"
- "Khoi tao du an ProjectHub cho ke hoach Q4"
KHONG NEN kich hoat:
- "Thoi tiet hom nay the nao?"
- "Giup toi viet code Python"
- "Tao spreadsheet" (tru khi skill xu ly sheets)
Cách debug triggering: Hỏi Claude: "Khi nào bạn sẽ dùng skill [tên skill]?" Claude sẽ trích dẫn description. Dựa vào đó để điều chỉnh những gì còn thiếu.
2. Functional Tests
Mục tiêu: Xác minh skill tạo ra output đúng.
Cần kiểm tra:
- Output được tạo ra hợp lệ
- Các lệnh gọi API thành công
- Xử lý lỗi hoạt động
- Các edge case được bao phủ
Ví dụ functional test
Test: Tao du an voi 5 tasks
Given: Ten du an "Ke hoach Q4", 5 mo ta task
When: Skill thuc thi quy trinh
Then:
- Du an duoc tao trong ProjectHub
- 5 tasks duoc tao voi thuoc tinh dung
- Tat ca tasks lien ket voi du an
- Khong co loi API
3. So sánh hiệu suất (Performance Comparison)
Mục tiêu: Chứng minh skill cải thiện kết quả so với baseline.
So sánh giữa có và không có skill:
| Chỉ số | Không có Skill | Có Skill |
|---|---|---|
| Tin nhắn qua lại | 15 tin nhắn | 2 câu hỏi làm rõ |
| API calls thất bại | 3 lần cần retry | 0 lần thất bại |
| Token tiêu thụ | 12,000 tokens | 6,000 tokens |
| Quy trình | Người dùng phải hướng dẫn từng bước | Tự động thực thi workflow |
Giảm một nửa token và loại bỏ hoàn toàn lỗi API -- đó là sự khác biệt rõ ràng mà skill mang lại.
Sử dụng Skill-Creator
Skill-creator là skill có sẵn trên Claude.ai (qua plugin directory) và Claude Code, giúp bạn xây dựng và iterate skill nhanh hơn.
Tạo skill
- Tạo skill từ mô tả bằng ngôn ngữ tự nhiên
- Sinh SKILL.md với frontmatter đúng định dạng
- Đề xuất trigger phrases và cấu trúc
Review skill
- Phát hiện vấn đề phổ biến (description mơ hồ, thiếu trigger, lỗi cấu trúc)
- Xác định rủi ro over/under-triggering
- Đề xuất test case dựa trên mục đích của skill
Cải thiện liên tục
- Sau khi dùng skill và gặp edge case hoặc lỗi, mang ví dụ đó quay lại skill-creator
- Ví dụ: "Dùng các vấn đề và giải pháp trong cuộc trò chuyện này để cải thiện cách skill xử lý [edge case cụ thể]"
Cách sử dụng
Dung skill-creator skill giup toi xay dung mot skill cho [use case cua ban]
Lưu ý: Skill-creator giúp bạn thiết kế và tinh chỉnh skill nhưng không chạy bộ test tự động hay tạo kết quả đánh giá định lượng.
Iteration dựa trên Feedback
Skills là tài liệu sống. Hãy lên kế hoạch iterate dựa trên các tín hiệu sau:
Tín hiệu Under-triggering (kích hoạt quá ít)
- Skill không tải khi lẽ ra nên tải
- Người dùng phải bật thủ công
- Có câu hỏi hỗ trợ về "khi nào dùng skill này"
Giải pháp: Thêm chi tiết và sắc thái vào description, đặc biệt là từ khoá cho thuật ngữ kỹ thuật.
Tín hiệu Over-triggering (kích hoạt quá nhiều)
- Skill tải cho các truy vấn không liên quan
- Người dùng tắt skill đi
- Nhầm lẫn về mục đích của skill
Giải pháp: Thêm negative triggers, cụ thể hoá hơn.
description: Phan tich du lieu nang cao cho file CSV. Dung cho
mo hinh thong ke, hoi quy, phan cum. KHONG dung cho kham pha
du lieu don gian (dung skill data-viz thay the).
Tín hiệu thực thi có vấn đề
- Kết quả không nhất quán
- Lỗi API call
- Người dùng phải sửa output
Giải pháp: Cải thiện instructions, thêm xử lý lỗi.
Quy trình Testing thực tế cho developer Việt Nam
Dựa trên kinh nghiệm thực tế, đây là quy trình testing gợi ý:
- Ngày 1 - Prototype: Tạo skill bằng skill-creator, test thủ công trên Claude.ai với 5 truy vấn khác nhau
- Ngày 2 - Triggering: Viết 10 truy vấn (5 nên trigger, 5 không nên), chạy và ghi nhận kết quả
- Ngày 3 - Functional: Test 3-5 tình huống thực tế hoàn chỉnh, bao gồm cả edge case
- Tuần 2 - Feedback: Chia sẻ cho 2-3 đồng nghiệp dùng thử, thu thập feedback
- Tuần 3 - Iteration: Điều chỉnh description và instructions dựa trên feedback, chạy lại toàn bộ test
Không cần quá cầu toàn ngay từ đầu. Skill tốt nhất được xây dựng qua nhiều vòng iterate, không phải viết một lần là xong.
So sánh trước và sau khi tối ưu
Để minh hoạ hiệu quả của quá trình iterate, xem ví dụ thực tế:
Description v1 (chưa tối ưu)
description: Giup tao du an.
Vấn đề: Quá chung chung, không có trigger, Claude không biết khi nào dùng.
Description v2 (sau khi iterate)
description: Tao va cau hinh du an web moi theo chuan cong ty, bao gom cau truc thu muc, config, va template. Dung khi nguoi dung noi "tao du an moi", "setup project", "khoi tao workspace", hoac upload file yeu cau du an.
Kết quả: Tỷ lệ triggering đúng tăng từ 40% lên 95%.
Tổng kết Phần 3
Bạn đã nắm được:
- 3 cấp độ testing: thủ công, có kịch bản, lập trình
- Cách test triggering, functional, và performance
- Sử dụng skill-creator để tạo và review skill
- Nhận diện tín hiệu under/over-triggering và cách sửa
- Quy trình iterate thực tế
Trong Phần 4, chúng ta sẽ tìm hiểu cách phân phối và chia sẻ skill: mô hình phân phối, sử dụng qua API, hosting trên GitHub, và cách định vị skill cho người dùng.
Đọc tiếp serial
- Phần 1: Giới thiệu và Cơ bản
- Phần 2: Thiết kế và Lập kế hoạch
- Phần 3: Testing và Tối ưu (bạn đang đọc)
- Phần 4: Phân phối và Chia sẻ
- Phần 5: Patterns và Troubleshooting
- Phần 6: Tài liệu tham khảo và Checklist
Bai viet co huu ich khong?
Bản quyền thuộc về tác giả. Vui lòng dẫn nguồn khi chia sẻ.









