Trung cấpHướng dẫnClaude CodeNguồn: Anthropic

Xây dựng Skills cho Claude — Phần 3: Testing và Tối ưu hiệu suất

Minh TuấnCTO, Transform GroupTheo dõi

29/03/2026 213 0 7 phút đọc

Nghe bài viết

00:00

1 Description v2 (sau khi iterate) Kết quả: Tỷ lệ triggering đúng tăng từ 40% lên 95%.
2 Tín hiệu thực thi có vấn đề Kết quả không nhất quán Lỗi API call Người dùng phải sửa output Giải pháp: Cải thiện instructions, thêm xử lý lỗi.
3 Sử dụng Skill-Creator Skill-creator là skill có sẵn trên Claude.ai (qua plugin directory) và Claude Code, giúp bạn xây dựng và iterate skill nhanh ...
4 Anthropic khuyến nghị 3 cấp độ testing với mức nghiêm ngặt tăng dần.
5 Cần kiểm tra: Output được tạo ra hợp lệ Các lệnh gọi API thành công Xử lý lỗi hoạt động Các edge case được bao phủ Ví dụ functional test 3.

Serial: Hướng dẫn toàn diện xây dựng Skills cho Claude | Phần 3/6

← Phần 2: Thiết kế | Phần 4: Phân phối →

Dịch và biên soạn từ "The Complete Guide to Building Skills for Claude" của Anthropic.

Bạn đã thiết kế skill ở Phần 2. Giờ là lúc kiểm tra xem nó hoạt động đúng chưa và tối ưu hiệu suất. Anthropic khuyến nghị 3 cấp độ testing với mức nghiêm ngặt tăng dần.

Ba cấp độ Testing

Cấp 1: Testing thủ công trên Claude.ai

Chạy truy vấn trực tiếp và quan sát hành vi. Nhanh, không cần setup. Phù hợp giai đoạn phát triển ban đầu.

Cấp 2: Testing có kịch bản trên Claude Code

Tự động hoá test case để kiểm tra lặp lại qua các thay đổi. Phù hợp khi skill đã ổn định cơ bản.

Cấp 3: Testing lập trình qua Skills API

Xây dựng bộ đánh giá chạy có hệ thống với tập test xác định. Phù hợp cho skill triển khai quy mô lớn.

Chọn cách tiếp cận phù hợp với yêu cầu chất lượng của bạn. Skill dùng nội bộ cho team nhỏ có nhu cầu testing khác so với skill triển khai cho hàng ngàn người dùng doanh nghiệp.

Mẹo quan trọng: Iterate trên một tác vụ trước

Kinh nghiệm từ Anthropic: những người tạo skill hiệu quả nhất thường iterate trên một tác vụ khó cho đến khi Claude thành công, rồi mới trích xuất cách tiếp cận thành công thành skill. Phương pháp này tận dụng khả năng in-context learning của Claude và cho tín hiệu nhanh hơn testing rộng. Khi đã có nền tảng hoạt động, hãy mở rộng sang nhiều test case.

1. Triggering Tests

Mục tiêu: Đảm bảo skill được tải đúng lúc.

Bạn cần kiểm tra 3 điều:

Skill kích hoạt khi có yêu cầu rõ ràng
Skill kích hoạt khi yêu cầu được diễn đạt khác
Skill KHÔNG kích hoạt khi chủ đề không liên quan

Ví dụ bộ test triggering

NEN kich hoat:
- "Giup toi thiet lap workspace ProjectHub moi"
- "Toi can tao du an trong ProjectHub"
- "Khoi tao du an ProjectHub cho ke hoach Q4"

KHONG NEN kich hoat:
- "Thoi tiet hom nay the nao?"
- "Giup toi viet code Python"
- "Tao spreadsheet" (tru khi skill xu ly sheets)

Cách debug triggering: Hỏi Claude: "Khi nào bạn sẽ dùng skill [tên skill]?" Claude sẽ trích dẫn description. Dựa vào đó để điều chỉnh những gì còn thiếu.

2. Functional Tests

Mục tiêu: Xác minh skill tạo ra output đúng.

Cần kiểm tra:

Output được tạo ra hợp lệ
Các lệnh gọi API thành công
Xử lý lỗi hoạt động
Các edge case được bao phủ

Ví dụ functional test

Test: Tao du an voi 5 tasks
Given: Ten du an "Ke hoach Q4", 5 mo ta task
When: Skill thuc thi quy trinh
Then:
  - Du an duoc tao trong ProjectHub
  - 5 tasks duoc tao voi thuoc tinh dung
  - Tat ca tasks lien ket voi du an
  - Khong co loi API

3. So sánh hiệu suất (Performance Comparison)

Mục tiêu: Chứng minh skill cải thiện kết quả so với baseline.

So sánh giữa có và không có skill:

Chỉ số	Không có Skill	Có Skill
Tin nhắn qua lại	15 tin nhắn	2 câu hỏi làm rõ
API calls thất bại	3 lần cần retry	0 lần thất bại
Token tiêu thụ	12,000 tokens	6,000 tokens
Quy trình	Người dùng phải hướng dẫn từng bước	Tự động thực thi workflow

Giảm một nửa token và loại bỏ hoàn toàn lỗi API -- đó là sự khác biệt rõ ràng mà skill mang lại.

Sử dụng Skill-Creator

Skill-creator là skill có sẵn trên Claude.ai (qua plugin directory) và Claude Code, giúp bạn xây dựng và iterate skill nhanh hơn.

Tạo skill

Tạo skill từ mô tả bằng ngôn ngữ tự nhiên
Sinh SKILL.md với frontmatter đúng định dạng
Đề xuất trigger phrases và cấu trúc

Review skill

Phát hiện vấn đề phổ biến (description mơ hồ, thiếu trigger, lỗi cấu trúc)
Xác định rủi ro over/under-triggering
Đề xuất test case dựa trên mục đích của skill

Cải thiện liên tục

Sau khi dùng skill và gặp edge case hoặc lỗi, mang ví dụ đó quay lại skill-creator
Ví dụ: "Dùng các vấn đề và giải pháp trong cuộc trò chuyện này để cải thiện cách skill xử lý [edge case cụ thể]"

Cách sử dụng

Dung skill-creator skill giup toi xay dung mot skill cho [use case cua ban]

Lưu ý: Skill-creator giúp bạn thiết kế và tinh chỉnh skill nhưng không chạy bộ test tự động hay tạo kết quả đánh giá định lượng.

Iteration dựa trên Feedback

Skills là tài liệu sống. Hãy lên kế hoạch iterate dựa trên các tín hiệu sau:

Tín hiệu Under-triggering (kích hoạt quá ít)

Skill không tải khi lẽ ra nên tải
Người dùng phải bật thủ công
Có câu hỏi hỗ trợ về "khi nào dùng skill này"

Giải pháp: Thêm chi tiết và sắc thái vào description, đặc biệt là từ khoá cho thuật ngữ kỹ thuật.

Tín hiệu Over-triggering (kích hoạt quá nhiều)

Skill tải cho các truy vấn không liên quan
Người dùng tắt skill đi
Nhầm lẫn về mục đích của skill

Giải pháp: Thêm negative triggers, cụ thể hoá hơn.

description: Phan tich du lieu nang cao cho file CSV. Dung cho
mo hinh thong ke, hoi quy, phan cum. KHONG dung cho kham pha
du lieu don gian (dung skill data-viz thay the).

Tín hiệu thực thi có vấn đề

Kết quả không nhất quán
Lỗi API call
Người dùng phải sửa output

Giải pháp: Cải thiện instructions, thêm xử lý lỗi.

Quy trình Testing thực tế cho developer Việt Nam

Dựa trên kinh nghiệm thực tế, đây là quy trình testing gợi ý:

Ngày 1 - Prototype: Tạo skill bằng skill-creator, test thủ công trên Claude.ai với 5 truy vấn khác nhau
Ngày 2 - Triggering: Viết 10 truy vấn (5 nên trigger, 5 không nên), chạy và ghi nhận kết quả
Ngày 3 - Functional: Test 3-5 tình huống thực tế hoàn chỉnh, bao gồm cả edge case
Tuần 2 - Feedback: Chia sẻ cho 2-3 đồng nghiệp dùng thử, thu thập feedback
Tuần 3 - Iteration: Điều chỉnh description và instructions dựa trên feedback, chạy lại toàn bộ test

Không cần quá cầu toàn ngay từ đầu. Skill tốt nhất được xây dựng qua nhiều vòng iterate, không phải viết một lần là xong.

So sánh trước và sau khi tối ưu

Để minh hoạ hiệu quả của quá trình iterate, xem ví dụ thực tế:

Description v1 (chưa tối ưu)

description: Giup tao du an.

Vấn đề: Quá chung chung, không có trigger, Claude không biết khi nào dùng.

Description v2 (sau khi iterate)

description: Tao va cau hinh du an web moi theo chuan cong ty, bao gom cau truc thu muc, config, va template. Dung khi nguoi dung noi "tao du an moi", "setup project", "khoi tao workspace", hoac upload file yeu cau du an.

Kết quả: Tỷ lệ triggering đúng tăng từ 40% lên 95%.

Tổng kết Phần 3

Bạn đã nắm được:

3 cấp độ testing: thủ công, có kịch bản, lập trình
Cách test triggering, functional, và performance
Sử dụng skill-creator để tạo và review skill
Nhận diện tín hiệu under/over-triggering và cách sửa
Quy trình iterate thực tế

Trong Phần 4, chúng ta sẽ tìm hiểu cách phân phối và chia sẻ skill: mô hình phân phối, sử dụng qua API, hosting trên GitHub, và cách định vị skill cho người dùng.