Claude cho Data: Trích xuất context từ datasets
Điểm nổi bật
Nhấn để đến mục tương ứng
- 1 Muốn làm chủ vấn đề: tribal knowledge trong data team, hãy bắt đầu từ việc hiểu Trong hầu hết các data team Việt Nam, có một số người biết mọi thứ về data warehouse — nhưng kiến thức đó chỉ tồn tại trong đầu họ — kỹ thuật này được nhiều developer áp dụng thành công trong dự án thực tế.
- 2 Góc nhìn thực tế về hai chế độ hoạt động: Bootstrap Mode: Tạo skill từ đầu Dùng khi bạn muốn tạo data context skill hoàn toàn mới cho data warehouse của công ty. Tôi muốn tạo data context skill cho warehouse của công ty. Chúng tôi dùng BigQuery — hiệu quả phụ thuộc nhiều vào cách triển khai và ngữ cảnh sử dụng cụ thể.
- 3 Theo phân tích năm câu hỏi claude sẽ hỏi bạn, Trong Bootstrap Mode, Claude sẽ dẫn dắt cuộc trò chuyện với 5 câu hỏi then chốt: 1. Entity Disambiguation "Khi mọi người trong team nói 'user' hay 'khách hàng' — con số thực tế này đáng để tham khảo khi lập kế hoạch triển khai cho dự án của bạn.
- 4 Để áp dụng ví dụ thực tế: tài liệu hóa metric cho sàn tmđt hiệu quả, bạn cần nắm rõ: Đây là ví dụ một đoạn trong file metrics.md sau khi Claude tạo: ## GMV Gross Merchandise Value **Định nghĩa**: Tổng giá trị đơn hàng trước khi trừ phí và hoàn tiền **Công thức**: GMV SUMorder_total WHERE status IN 'completed' — đây là bước quan trọng giúp tối ưu quy trình làm việc với AI trong thực tế.
- 5 Góc nhìn thực tế về lợi ích dài hạn: Sau khi có data context skill: Claude trả lời chính xác hơn ngay lần đầu, không cần giải thích lại Người mới trong team có tài liệu tham khảo đáng tin cậy Giảm sai sót do hiểu nhầm định nghĩa — hiệu quả phụ thuộc nhiều vào cách triển khai và ngữ cảnh sử dụng cụ thể.
Mỗi công ty có "ngôn ngữ dữ liệu" riêng của mình: "user" ở đây có thể khác với "user" ở chỗ khác, "doanh thu" có thể được tính theo 3 cách khác nhau tùy bộ phận, và bảng tbl_orders_v2_final_FINAL mới là bảng cần dùng chứ không phải orders. Claude có thể giúp bạn tài liệu hóa toàn bộ kiến thức ngầm đó thành một data context skill — để dùng lại trong mọi câu hỏi phân tích về sau.
Vấn đề: Tribal knowledge trong data team
Trong hầu hết các data team Việt Nam, có một số người biết mọi thứ về data warehouse — nhưng kiến thức đó chỉ tồn tại trong đầu họ. Khi người đó nghỉ việc hoặc đi phép, cả team bị tắc. Các vấn đề điển hình:
- "Churn" ở bảng này được tính khác với báo cáo CFO — tại sao?
- Luôn phải filter
is_test = falsenhưng không có ai ghi lại điều này - Bảng
customersvàaccountskhác nhau như thế nào? - Timezone của timestamp trong bảng events là UTC hay GMT+7?
Data Context Extractor là công cụ meta-skill giúp Claude chiết xuất và tài liệu hóa những kiến thức này.
Hai chế độ hoạt động
Bootstrap Mode: Tạo skill từ đầu
Dùng khi bạn muốn tạo data context skill hoàn toàn mới cho data warehouse của công ty.
Tôi muốn tạo data context skill cho warehouse của công ty.
Chúng tôi dùng BigQuery. Hãy giúp tôi tài liệu hóa kiến thức
về data để Claude có thể phân tích chính xác hơn.
Claude sẽ dẫn dắt bạn qua 4 pha:
- Khám phá schema: Liệt kê datasets, tables, columns
- Hỏi các câu hỏi cốt lõi: Entity disambiguation, metric definitions, data hygiene
- Tạo skill files: SKILL.md và các reference files
- Package và deliver: Đóng gói để dùng lại
Iteration Mode: Bổ sung context cho skill hiện có
Dùng khi skill đã có nhưng cần thêm domain mới (marketing, finance, product...).
Skill data context hiện tại của tôi chưa có thông tin
về domain Marketing. Hãy giúp tôi bổ sung: bảng nào dùng
cho phân tích campaign, metric nào quan trọng, và
các gotcha cần biết.
Năm câu hỏi Claude sẽ hỏi bạn
Trong Bootstrap Mode, Claude sẽ dẫn dắt cuộc trò chuyện với 5 câu hỏi then chốt:
1. Entity Disambiguation
"Khi mọi người trong team nói 'user' hay 'khách hàng', họ đang nói đến đối tượng nào? Có nhiều loại khác nhau không?"
Ví dụ câu trả lời cho e-commerce: "Chúng tôi có buyers (người mua), sellers (người bán), và admins. Bảng users chứa cả ba, phân biệt bằng cột user_type. Khi nói 'users' trong phân tích, thường chỉ buyers."
2. Primary Identifiers
"ID chính của mỗi thực thể là gì? Có nhiều ID song song không?"
Ví dụ: "Chúng tôi có user_id (UUID nội bộ) và phone_number (dùng cho login). Khi join với bảng transactions phải dùng user_id, còn phone_number chỉ dùng cho CRM."
3. Key Metrics
"Đâu là 2-3 metric được hỏi nhiều nhất? Cách tính chính xác của từng metric?"
Ví dụ: "GMV = SUM(order_amount) WHERE status IN ('completed', 'delivering'). Không include 'cancelled' và 'returned'. Revenue = GMV minus returns and refunds, tính từ bảng accounting_ledger."
4. Data Hygiene
"Điều kiện lọc nào phải LUÔN áp dụng trong mọi query?"
Ví dụ: "Luôn filter is_test_account = false trong bảng users. Luôn loại orders có source = 'internal_test'. Timestamp trong events là UTC, cần convert sang GMT+7 khi report."
5. Common Gotchas
"Analyst mới hay mắc lỗi gì nhất khi làm việc với data này?"
Ví dụ: "Hay nhầm bảng orders (OLTP, chứa mọi state) với orders_completed (data mart, chỉ đơn đã xong). Hay quên là created_at trong payments là thời điểm tạo payment request, không phải thời điểm tiền về."
Cấu trúc skill được tạo ra
Claude tạo ra bộ file có cấu trúc chuẩn:
acme-data-analyst/
├── SKILL.md # Entry point, navigation
└── references/
├── entities.md # Định nghĩa các thực thể
├── metrics.md # Công thức tính KPI
├── tables/
│ ├── ecommerce.md # Orders, products, categories
│ ├── users.md # Customers, accounts
│ └── marketing.md # Campaigns, attribution
└── gotchas.md # Các lỗi thường gặp
Ví dụ thực tế: Tài liệu hóa metric cho sàn TMĐT
Đây là ví dụ một đoạn trong file metrics.md sau khi Claude tạo:
## GMV (Gross Merchandise Value)
**Định nghĩa**: Tổng giá trị đơn hàng trước khi trừ phí và hoàn tiền
**Công thức**:
GMV = SUM(order_total) WHERE status IN ('completed', 'delivering', 'shipped')
**Bảng nguồn**: analytics.orders
**Chú ý**:
- Bao gồm VAT (10%)
- KHÔNG bao gồm phí vận chuyển (trong cột shipping_fee riêng)
- Dùng confirmed_at, không dùng created_at cho time-series
**Phân biệt với Net Revenue**:
Net Revenue = GMV - returns - platform_fees - payment_fees
Lợi ích dài hạn
Sau khi có data context skill:
- Claude trả lời chính xác hơn ngay lần đầu, không cần giải thích lại
- Người mới trong team có tài liệu tham khảo đáng tin cậy
- Giảm sai sót do hiểu nhầm định nghĩa metric
- Audit trail rõ ràng khi metric definition thay đổi
Bước tiếp theo
Tìm hiểu cách dùng skill đã tạo để khám phá dataset mới hoặc viết SQL queries phức tạp chính xác hơn với context đầy đủ về schema của công ty bạn.
Bài viết liên quan
Bai viet co huu ich khong?
Bản quyền thuộc về tác giả. Vui lòng dẫn nguồn khi chia sẻ.




