Trung cấpHướng dẫnClaude ChatNguồn: Anthropic

Claude cho Data: Trích xuất context từ datasets

Nghe bài viết
00:00

Điểm nổi bật

Nhấn để đến mục tương ứng

  1. 1 Muốn làm chủ vấn đề: tribal knowledge trong data team, hãy bắt đầu từ việc hiểu Trong hầu hết các data team Việt Nam, có một số người biết mọi thứ về data warehouse — nhưng kiến thức đó chỉ tồn tại trong đầu họ — kỹ thuật này được nhiều developer áp dụng thành công trong dự án thực tế.
  2. 2 Góc nhìn thực tế về hai chế độ hoạt động: Bootstrap Mode: Tạo skill từ đầu Dùng khi bạn muốn tạo data context skill hoàn toàn mới cho data warehouse của công ty. Tôi muốn tạo data context skill cho warehouse của công ty. Chúng tôi dùng BigQuery — hiệu quả phụ thuộc nhiều vào cách triển khai và ngữ cảnh sử dụng cụ thể.
  3. 3 Theo phân tích năm câu hỏi claude sẽ hỏi bạn, Trong Bootstrap Mode, Claude sẽ dẫn dắt cuộc trò chuyện với 5 câu hỏi then chốt: 1. Entity Disambiguation "Khi mọi người trong team nói 'user' hay 'khách hàng' — con số thực tế này đáng để tham khảo khi lập kế hoạch triển khai cho dự án của bạn.
  4. 4 Để áp dụng ví dụ thực tế: tài liệu hóa metric cho sàn tmđt hiệu quả, bạn cần nắm rõ: Đây là ví dụ một đoạn trong file metrics.md sau khi Claude tạo: ## GMV Gross Merchandise Value **Định nghĩa**: Tổng giá trị đơn hàng trước khi trừ phí và hoàn tiền **Công thức**: GMV SUMorder_total WHERE status IN 'completed' — đây là bước quan trọng giúp tối ưu quy trình làm việc với AI trong thực tế.
  5. 5 Góc nhìn thực tế về lợi ích dài hạn: Sau khi có data context skill: Claude trả lời chính xác hơn ngay lần đầu, không cần giải thích lại Người mới trong team có tài liệu tham khảo đáng tin cậy Giảm sai sót do hiểu nhầm định nghĩa — hiệu quả phụ thuộc nhiều vào cách triển khai và ngữ cảnh sử dụng cụ thể.
yellow and green electric wires

Mỗi công ty có "ngôn ngữ dữ liệu" riêng của mình: "user" ở đây có thể khác với "user" ở chỗ khác, "doanh thu" có thể được tính theo 3 cách khác nhau tùy bộ phận, và bảng tbl_orders_v2_final_FINAL mới là bảng cần dùng chứ không phải orders. Claude có thể giúp bạn tài liệu hóa toàn bộ kiến thức ngầm đó thành một data context skill — để dùng lại trong mọi câu hỏi phân tích về sau.

Vấn đề: Tribal knowledge trong data team

Trong hầu hết các data team Việt Nam, có một số người biết mọi thứ về data warehouse — nhưng kiến thức đó chỉ tồn tại trong đầu họ. Khi người đó nghỉ việc hoặc đi phép, cả team bị tắc. Các vấn đề điển hình:

  • "Churn" ở bảng này được tính khác với báo cáo CFO — tại sao?
  • Luôn phải filter is_test = false nhưng không có ai ghi lại điều này
  • Bảng customersaccounts khác nhau như thế nào?
  • Timezone của timestamp trong bảng events là UTC hay GMT+7?

Data Context Extractor là công cụ meta-skill giúp Claude chiết xuất và tài liệu hóa những kiến thức này.

Hai chế độ hoạt động

Bootstrap Mode: Tạo skill từ đầu

Dùng khi bạn muốn tạo data context skill hoàn toàn mới cho data warehouse của công ty.

Tôi muốn tạo data context skill cho warehouse của công ty.
Chúng tôi dùng BigQuery. Hãy giúp tôi tài liệu hóa kiến thức
về data để Claude có thể phân tích chính xác hơn.

Claude sẽ dẫn dắt bạn qua 4 pha:

  1. Khám phá schema: Liệt kê datasets, tables, columns
  2. Hỏi các câu hỏi cốt lõi: Entity disambiguation, metric definitions, data hygiene
  3. Tạo skill files: SKILL.md và các reference files
  4. Package và deliver: Đóng gói để dùng lại

Iteration Mode: Bổ sung context cho skill hiện có

Dùng khi skill đã có nhưng cần thêm domain mới (marketing, finance, product...).

Skill data context hiện tại của tôi chưa có thông tin
về domain Marketing. Hãy giúp tôi bổ sung: bảng nào dùng
cho phân tích campaign, metric nào quan trọng, và
các gotcha cần biết.

Năm câu hỏi Claude sẽ hỏi bạn

Trong Bootstrap Mode, Claude sẽ dẫn dắt cuộc trò chuyện với 5 câu hỏi then chốt:

1. Entity Disambiguation

"Khi mọi người trong team nói 'user' hay 'khách hàng', họ đang nói đến đối tượng nào? Có nhiều loại khác nhau không?"

Ví dụ câu trả lời cho e-commerce: "Chúng tôi có buyers (người mua), sellers (người bán), và admins. Bảng users chứa cả ba, phân biệt bằng cột user_type. Khi nói 'users' trong phân tích, thường chỉ buyers."

2. Primary Identifiers

"ID chính của mỗi thực thể là gì? Có nhiều ID song song không?"

Ví dụ: "Chúng tôi có user_id (UUID nội bộ) và phone_number (dùng cho login). Khi join với bảng transactions phải dùng user_id, còn phone_number chỉ dùng cho CRM."

3. Key Metrics

"Đâu là 2-3 metric được hỏi nhiều nhất? Cách tính chính xác của từng metric?"

Ví dụ: "GMV = SUM(order_amount) WHERE status IN ('completed', 'delivering'). Không include 'cancelled' và 'returned'. Revenue = GMV minus returns and refunds, tính từ bảng accounting_ledger."

4. Data Hygiene

"Điều kiện lọc nào phải LUÔN áp dụng trong mọi query?"

Ví dụ: "Luôn filter is_test_account = false trong bảng users. Luôn loại orders có source = 'internal_test'. Timestamp trong events là UTC, cần convert sang GMT+7 khi report."

5. Common Gotchas

"Analyst mới hay mắc lỗi gì nhất khi làm việc với data này?"

Ví dụ: "Hay nhầm bảng orders (OLTP, chứa mọi state) với orders_completed (data mart, chỉ đơn đã xong). Hay quên là created_at trong payments là thời điểm tạo payment request, không phải thời điểm tiền về."

Cấu trúc skill được tạo ra

Claude tạo ra bộ file có cấu trúc chuẩn:

acme-data-analyst/
├── SKILL.md                    # Entry point, navigation
└── references/
    ├── entities.md             # Định nghĩa các thực thể
    ├── metrics.md              # Công thức tính KPI
    ├── tables/
    │   ├── ecommerce.md        # Orders, products, categories
    │   ├── users.md            # Customers, accounts
    │   └── marketing.md        # Campaigns, attribution
    └── gotchas.md              # Các lỗi thường gặp

Ví dụ thực tế: Tài liệu hóa metric cho sàn TMĐT

Đây là ví dụ một đoạn trong file metrics.md sau khi Claude tạo:

## GMV (Gross Merchandise Value)

**Định nghĩa**: Tổng giá trị đơn hàng trước khi trừ phí và hoàn tiền

**Công thức**:
  GMV = SUM(order_total) WHERE status IN ('completed', 'delivering', 'shipped')

**Bảng nguồn**: analytics.orders

**Chú ý**:
- Bao gồm VAT (10%)
- KHÔNG bao gồm phí vận chuyển (trong cột shipping_fee riêng)
- Dùng confirmed_at, không dùng created_at cho time-series

**Phân biệt với Net Revenue**:
  Net Revenue = GMV - returns - platform_fees - payment_fees

Lợi ích dài hạn

Sau khi có data context skill:

  • Claude trả lời chính xác hơn ngay lần đầu, không cần giải thích lại
  • Người mới trong team có tài liệu tham khảo đáng tin cậy
  • Giảm sai sót do hiểu nhầm định nghĩa metric
  • Audit trail rõ ràng khi metric definition thay đổi

Bước tiếp theo

Tìm hiểu cách dùng skill đã tạo để khám phá dataset mới hoặc viết SQL queries phức tạp chính xác hơn với context đầy đủ về schema của công ty bạn.


Bài viết liên quan

Tính năng liên quan:Context ExtractionSchema AnalysisData Profiling

Bai viet co huu ich khong?

Bản quyền thuộc về tác giả. Vui lòng dẫn nguồn khi chia sẻ.

Bình luận (0)
Ảnh đại diện
Đăng nhập để bình luận...
Đăng nhập để bình luận
  • Đang tải bình luận...

Đăng ký nhận bản tin

Nhận bài viết hay nhất về sản phẩm và vận hành, gửi thẳng vào hộp thư của bạn.

Bảo mật thông tin. Hủy đăng ký bất cứ lúc nào. Chính sách bảo mật.