{"product_id":"claude-cho-data-trich-xuất-context-từ-datasets","title":"Claude cho Data: Trích xuất context từ datasets","description":"\n\u003cp\u003eMỗi công ty có \"ngôn ngữ dữ liệu\" riêng của mình: \"user\" ở đây có thể khác với \"user\" ở chỗ khác, \"doanh thu\" có thể được tính theo 3 cách khác nhau tùy bộ phận, và bảng \u003ccode\u003etbl_orders_v2_final_FINAL\u003c\/code\u003e mới là bảng cần dùng chứ không phải \u003ccode\u003eorders\u003c\/code\u003e. Claude có thể giúp bạn \u003cstrong\u003etài liệu hóa toàn bộ kiến thức ngầm\u003c\/strong\u003e đó thành một data context skill — để dùng lại trong mọi câu hỏi phân tích về sau.\u003c\/p\u003e\n\n\u003ch2\u003eVấn đề: Tribal knowledge trong data team\u003c\/h2\u003e\n\n\u003cp\u003eTrong hầu hết các data team Việt Nam, có một số người biết mọi thứ về data warehouse — nhưng kiến thức đó chỉ tồn tại trong đầu họ. Khi người đó nghỉ việc hoặc đi phép, cả team bị tắc. Các vấn đề điển hình:\u003c\/p\u003e\n\n\u003cul\u003e\n  \u003cli\u003e\"Churn\" ở bảng này được tính khác với báo cáo CFO — tại sao?\u003c\/li\u003e\n  \u003cli\u003eLuôn phải filter \u003ccode\u003eis_test = false\u003c\/code\u003e nhưng không có ai ghi lại điều này\u003c\/li\u003e\n  \u003cli\u003eBảng \u003ccode\u003ecustomers\u003c\/code\u003e và \u003ccode\u003eaccounts\u003c\/code\u003e khác nhau như thế nào?\u003c\/li\u003e\n  \u003cli\u003eTimezone của timestamp trong bảng events là UTC hay GMT+7?\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003cp\u003eData Context Extractor là công cụ meta-skill giúp Claude chiết xuất và tài liệu hóa những kiến thức này.\u003c\/p\u003e\n\n\u003ch2\u003eHai chế độ hoạt động\u003c\/h2\u003e\n\n\u003ch3\u003eBootstrap Mode: Tạo skill từ đầu\u003c\/h3\u003e\n\n\u003cp\u003eDùng khi bạn muốn tạo data context skill hoàn toàn mới cho data warehouse của công ty.\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003eTôi muốn tạo data context skill cho warehouse của công ty.\nChúng tôi dùng BigQuery. Hãy giúp tôi tài liệu hóa kiến thức\nvề data để Claude có thể phân tích chính xác hơn.\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eClaude sẽ dẫn dắt bạn qua 4 pha:\u003c\/p\u003e\n\n\u003col\u003e\n  \u003cli\u003e\n\u003cstrong\u003eKhám phá schema\u003c\/strong\u003e: Liệt kê datasets, tables, columns\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eHỏi các câu hỏi cốt lõi\u003c\/strong\u003e: Entity disambiguation, metric definitions, data hygiene\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eTạo skill files\u003c\/strong\u003e: SKILL.md và các reference files\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003ePackage và deliver\u003c\/strong\u003e: Đóng gói để dùng lại\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003ch3\u003eIteration Mode: Bổ sung context cho skill hiện có\u003c\/h3\u003e\n\n\u003cp\u003eDùng khi skill đã có nhưng cần thêm domain mới (marketing, finance, product...).\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003eSkill data context hiện tại của tôi chưa có thông tin\nvề domain Marketing. Hãy giúp tôi bổ sung: bảng nào dùng\ncho phân tích campaign, metric nào quan trọng, và\ncác gotcha cần biết.\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eNăm câu hỏi Claude sẽ hỏi bạn\u003c\/h2\u003e\n\n\u003cp\u003eTrong Bootstrap Mode, Claude sẽ dẫn dắt cuộc trò chuyện với 5 câu hỏi then chốt:\u003c\/p\u003e\n\n\u003ch3\u003e1. Entity Disambiguation\u003c\/h3\u003e\n\u003cblockquote\u003e\n  \u003cp\u003e\"Khi mọi người trong team nói 'user' hay 'khách hàng', họ đang nói đến đối tượng nào? Có nhiều loại khác nhau không?\"\u003c\/p\u003e\n\u003c\/blockquote\u003e\n\u003cp\u003eVí dụ câu trả lời cho e-commerce: \"Chúng tôi có \u003cem\u003ebuyers\u003c\/em\u003e (người mua), \u003cem\u003esellers\u003c\/em\u003e (người bán), và \u003cem\u003eadmins\u003c\/em\u003e. Bảng \u003ccode\u003eusers\u003c\/code\u003e chứa cả ba, phân biệt bằng cột \u003ccode\u003euser_type\u003c\/code\u003e. Khi nói 'users' trong phân tích, thường chỉ buyers.\"\u003c\/p\u003e\n\n\u003ch3\u003e2. Primary Identifiers\u003c\/h3\u003e\n\u003cblockquote\u003e\n  \u003cp\u003e\"ID chính của mỗi thực thể là gì? Có nhiều ID song song không?\"\u003c\/p\u003e\n\u003c\/blockquote\u003e\n\u003cp\u003eVí dụ: \"Chúng tôi có \u003ccode\u003euser_id\u003c\/code\u003e (UUID nội bộ) và \u003ccode\u003ephone_number\u003c\/code\u003e (dùng cho login). Khi join với bảng transactions phải dùng \u003ccode\u003euser_id\u003c\/code\u003e, còn \u003ccode\u003ephone_number\u003c\/code\u003e chỉ dùng cho CRM.\"\u003c\/p\u003e\n\n\u003ch3\u003e3. Key Metrics\u003c\/h3\u003e\n\u003cblockquote\u003e\n  \u003cp\u003e\"Đâu là 2-3 metric được hỏi nhiều nhất? Cách tính chính xác của từng metric?\"\u003c\/p\u003e\n\u003c\/blockquote\u003e\n\u003cp\u003eVí dụ: \"GMV = SUM(order_amount) WHERE status IN ('completed', 'delivering'). \u003cem\u003eKhông\u003c\/em\u003e include 'cancelled' và 'returned'. Revenue = GMV minus returns and refunds, tính từ bảng accounting_ledger.\"\u003c\/p\u003e\n\n\u003ch3\u003e4. Data Hygiene\u003c\/h3\u003e\n\u003cblockquote\u003e\n  \u003cp\u003e\"Điều kiện lọc nào phải LUÔN áp dụng trong mọi query?\"\u003c\/p\u003e\n\u003c\/blockquote\u003e\n\u003cp\u003eVí dụ: \"Luôn filter \u003ccode\u003eis_test_account = false\u003c\/code\u003e trong bảng users. Luôn loại orders có \u003ccode\u003esource = 'internal_test'\u003c\/code\u003e. Timestamp trong \u003ccode\u003eevents\u003c\/code\u003e là UTC, cần convert sang GMT+7 khi report.\"\u003c\/p\u003e\n\n\u003ch3\u003e5. Common Gotchas\u003c\/h3\u003e\n\u003cblockquote\u003e\n  \u003cp\u003e\"Analyst mới hay mắc lỗi gì nhất khi làm việc với data này?\"\u003c\/p\u003e\n\u003c\/blockquote\u003e\n\u003cp\u003eVí dụ: \"Hay nhầm bảng \u003ccode\u003eorders\u003c\/code\u003e (OLTP, chứa mọi state) với \u003ccode\u003eorders_completed\u003c\/code\u003e (data mart, chỉ đơn đã xong). Hay quên là \u003ccode\u003ecreated_at\u003c\/code\u003e trong \u003ccode\u003epayments\u003c\/code\u003e là thời điểm \u003cem\u003etạo payment request\u003c\/em\u003e, không phải thời điểm \u003cem\u003etiền về\u003c\/em\u003e.\"\u003c\/p\u003e\n\n\u003ch2\u003eCấu trúc skill được tạo ra\u003c\/h2\u003e\n\n\u003cp\u003eClaude tạo ra bộ file có cấu trúc chuẩn:\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003eacme-data-analyst\/\n├── SKILL.md                    # Entry point, navigation\n└── references\/\n    ├── entities.md             # Định nghĩa các thực thể\n    ├── metrics.md              # Công thức tính KPI\n    ├── tables\/\n    │   ├── ecommerce.md        # Orders, products, categories\n    │   ├── users.md            # Customers, accounts\n    │   └── marketing.md        # Campaigns, attribution\n    └── gotchas.md              # Các lỗi thường gặp\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eVí dụ thực tế: Tài liệu hóa metric cho sàn TMĐT\u003c\/h2\u003e\n\n\u003cp\u003eĐây là ví dụ một đoạn trong file \u003ccode\u003emetrics.md\u003c\/code\u003e sau khi Claude tạo:\u003c\/p\u003e\n\n\u003cpre\u003e\u003ccode\u003e## GMV (Gross Merchandise Value)\n\n**Định nghĩa**: Tổng giá trị đơn hàng trước khi trừ phí và hoàn tiền\n\n**Công thức**:\n  GMV = SUM(order_total) WHERE status IN ('completed', 'delivering', 'shipped')\n\n**Bảng nguồn**: analytics.orders\n\n**Chú ý**:\n- Bao gồm VAT (10%)\n- KHÔNG bao gồm phí vận chuyển (trong cột shipping_fee riêng)\n- Dùng confirmed_at, không dùng created_at cho time-series\n\n**Phân biệt với Net Revenue**:\n  Net Revenue = GMV - returns - platform_fees - payment_fees\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eLợi ích dài hạn\u003c\/h2\u003e\n\n\u003cp\u003eSau khi có data context skill:\u003c\/p\u003e\n\n\u003cul\u003e\n  \u003cli\u003eClaude trả lời chính xác hơn ngay lần đầu, không cần giải thích lại\u003c\/li\u003e\n  \u003cli\u003eNgười mới trong team có tài liệu tham khảo đáng tin cậy\u003c\/li\u003e\n  \u003cli\u003eGiảm sai sót do hiểu nhầm định nghĩa metric\u003c\/li\u003e\n  \u003cli\u003eAudit trail rõ ràng khi metric definition thay đổi\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eBước tiếp theo\u003c\/h2\u003e\n\u003cp\u003eTìm hiểu cách dùng skill đã tạo để \u003ca href=\"\/en\/collections\/ung-dung\"\u003ekhám phá dataset mới\u003c\/a\u003e hoặc \u003ca href=\"\/en\/collections\/ung-dung\"\u003eviết SQL queries phức tạp\u003c\/a\u003e chính xác hơn với context đầy đủ về schema của công ty bạn.\u003c\/p\u003e\n\n\n\u003chr\u003e\n\u003ch3\u003eBài viết liên quan\u003c\/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-data-vi%E1%BA%BFt-database-queries-t%E1%BB%AB-ngon-ng%E1%BB%AF-t%E1%BB%B1-nhien\"\u003eClaude cho Data: Viết database queries từ ngôn ngữ tự nhiên\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-d%E1%BB%AF-li%E1%BB%87u-va-phan-tich-t%E1%BB%95ng-quan-plugin\"\u003eClaude cho Dữ liệu và Phân tích: Tổng quan Plugin\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-data-data-visualization-nang-cao\"\u003eClaude cho Data: Data Visualization nâng cao\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/context-compaction-t%E1%BB%B1-d%E1%BB%99ng-nen-context-cho-conversations-dai\"\u003eContext Compaction — Tự động nén context cho conversations dài\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/en\/products\/claude-cho-engineering-thi%E1%BA%BFt-k%E1%BA%BF-ki%E1%BA%BFn-truc-h%E1%BB%87-th%E1%BB%91ng\"\u003eClaude cho Engineering: Thiết kế kiến trúc hệ thống\u003c\/a\u003e\u003c\/li\u003e\n\u003c\/ul\u003e","brand":"Minh Tuấn","offers":[{"title":"Default Title","offer_id":47722091741396,"sku":null,"price":0.0,"currency_code":"VND","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0821\/0264\/9044\/files\/claude-cho-data-trich-xu_t-context-t_-datasets_824bb10c-ac9c-4dd7-8944-e17269b81124.jpg?v=1774521953","url":"https:\/\/claude.vn\/en\/products\/claude-cho-data-trich-xu%e1%ba%a5t-context-t%e1%bb%ab-datasets","provider":"CLAUDE.VN","version":"1.0","type":"link"}