Cơ bảnHướng dẫnClaude ChatNguồn: Anthropic

Claude cho Data: Khám phá dataset mới

Nghe bài viết
00:00

Điểm nổi bật

Nhấn để đến mục tương ứng

  1. 1 Để áp dụng tại sao phải explore trước khi phân tích? hiệu quả, bạn cần nắm rõ: Nhiều analysis sai không phải vì logic sai, mà vì dữ liệu đầu vào có vấn đề chưa được phát hiện: 40% giá trị NULL trong cột revenue — đây là bước quan trọng giúp tối ưu quy trình làm việc với AI trong thực tế.
  2. 2 Về lệnh explore cơ bản, thực tế cho thấy Bắt đầu đơn giản nhất: Hãy explore bảng orders trong data warehouse của chúng tôi. Tôi cần hiểu: cấu trúc bảng, chất lượng dữ liệu, và nên phân tích gì tiếp theo. Hoặc với file upload: Tôi upload file orders_q1_2026.csv — đây là con dao hai lưỡi nếu không hiểu rõ giới hạn và điều kiện áp dụng của nó.
  3. 3 Kết quả đo lường từ ví dụ thực tế: explore bảng customers fintech: Hãy explore bảng customers với schema sau: customer_id VARCHAR, full_name VARCHAR, phone VARCHAR, email VARCHAR, date_of_birth DATE, province VARCHAR, segment VARCHAR, kyc_level INT, registration_date TIMESTAMP, last_login_date TIMESTAMP, lifetime_value DECIMAL, referral_code VARCHAR, is_active BOOLEAN Tổng 1.2 triệu hàng — các chỉ số cụ thể này giúp bạn đánh giá chính xác hiệu quả trước khi đầu tư nguồn lực.
  4. 4 Muốn làm chủ framework đánh giá chất lượng dữ liệu, hãy bắt đầu từ việc hiểu Claude áp dụng 4 tiêu chí để đánh giá mỗi cột: Completeness : Tỷ lệ non-null. Trên 99% xanh, 95-99% vàng, 80-95% cam, dưới 80% đỏ Consistency : Cùng một khái niệm có được biểu diễn nhất quán không? "TP — kỹ thuật này được nhiều developer áp dụng thành công trong dự án thực tế.
  5. 5 Một thực tế quan trọng về phát hiện pattern và outlier: Trong bảng orders, hãy phân tích phân phối của cột total_amount: - Phân phối có dạng gì? normal, right-skewed, bimodal? - Có outlier đáng chú ý không? - Ngưỡng nào để định nghĩa "đơn hàng bất thường"? - So sánh phân phối theo payment_method — tuy mang lại lợi ích rõ ràng nhưng cũng đòi hỏi đầu tư thời gian học và thử nghiệm phù hợp.
bees gathering near beehive

Khi nhận một dataset hoặc được giao làm việc với một bảng dữ liệu mới, bước đầu tiên không phải là phân tích ngay — mà là hiểu dữ liệu trước khi tin vào nó. Claude giúp bạn thực hiện EDA (Exploratory Data Analysis) có hệ thống, từ profile tổng quan đến phát hiện vấn đề chất lượng tiềm ẩn.

Tại sao phải explore trước khi phân tích?

Nhiều analysis sai không phải vì logic sai, mà vì dữ liệu đầu vào có vấn đề chưa được phát hiện:

  • 40% giá trị NULL trong cột revenue — mean sẽ bị sai lệch
  • Dữ liệu tháng 3 chỉ đến ngày 15 — so sánh với tháng 2 đầy đủ sẽ misleading
  • Có 500 bản ghi trùng lặp — mọi count và sum đều bị inflate
  • "Completed" và "complete" là hai giá trị khác nhau trong cùng một cột status

EDA phát hiện những vấn đề này trước khi chúng làm hỏng kết quả.

Lệnh explore cơ bản

Bắt đầu đơn giản nhất:

Hãy explore bảng orders trong data warehouse của chúng tôi.
Tôi cần hiểu: cấu trúc bảng, chất lượng dữ liệu,
và nên phân tích gì tiếp theo.

Hoặc với file upload:

Tôi upload file orders_q1_2026.csv. Hãy profile bảng này
và báo cáo những vấn đề chất lượng dữ liệu cần lưu ý.

Bảy câu hỏi Claude sẽ trả lời

Khi explore một bảng, Claude tự động kiểm tra:

1. Cấu trúc tổng quan

  • Bảng có bao nhiêu hàng và cột?
  • Grain của bảng là gì — một hàng đại diện cho gì?
  • Primary key là gì và có unique không?
  • Dữ liệu trải dài từ ngày nào đến ngày nào?

2. Phân loại cột

Claude phân loại mỗi cột thành:

Loại Mô tả Ví dụ
Identifier Khóa chính, foreign key order_id, customer_id
Dimension Thuộc tính phân loại status, province, category
Metric Giá trị đo lường revenue, quantity, rating
Temporal Ngày giờ created_at, updated_at
Boolean Cờ true/false is_paid, is_deleted

3. Tỷ lệ NULL

Cột nào có NULL, bao nhiêu phần trăm, và NULL đó có nghĩa gì (thiếu dữ liệu hay có ý nghĩa kinh doanh)?

4. Phân phối giá trị

Với cột số: min, max, mean, median, percentile p5/p95/p99. Với cột text: top values và tần suất.

5. Phát hiện trùng lặp

Có hàng nào bị duplicate không? Nếu có, duplicate theo key nào?

6. Vấn đề chất lượng

Giá trị bất thường, encoding inconsistency, timezone issues, business rule violations.

7. Gợi ý phân tích tiếp theo

3-5 câu hỏi cụ thể bạn nên khám phá dựa trên những gì tìm thấy trong data.

Ví dụ thực tế: Explore bảng customers fintech

Hãy explore bảng customers với schema sau:

customer_id (VARCHAR), full_name (VARCHAR), phone (VARCHAR),
email (VARCHAR), date_of_birth (DATE), province (VARCHAR),
segment (VARCHAR), kyc_level (INT), registration_date (TIMESTAMP),
last_login_date (TIMESTAMP), lifetime_value (DECIMAL),
referral_code (VARCHAR), is_active (BOOLEAN)

Tổng 1.2 triệu hàng. Cho tôi biết:
1. Vấn đề chất lượng dữ liệu
2. Phân phối theo segment và province
3. Những điều bất thường cần điều tra

Claude sẽ tạo profile report dạng:

## Data Profile: customers

### Tổng quan
- Hàng: 1,200,000
- Cột: 13 (2 ID, 4 dimension, 3 metric, 2 temporal, 2 boolean)
- Khoảng thời gian: 2020-03-01 đến 2026-03-25

### Vấn đề chất lượng phát hiện

[HIGH] email: 18.3% NULL — cần xác định xem có bắt buộc không
[MEDIUM] date_of_birth: 2,340 giá trị trong tương lai (sau 2026)
[MEDIUM] province: có 47 giá trị phân biệt khi chỉ nên có 63
  → Gợi ý: 'HCM', 'TP HCM', 'Tp.HCM', 'TP.HCM' là cùng một tỉnh
[LOW] full_name: 340 hàng có khoảng trắng thừa đầu/cuối

### Phân phối segment
segment     | count   | pct
Retail      | 890,000 | 74.2%
SME         | 245,000 | 20.4%
Enterprise  |  65,000 |  5.4%

### Gợi ý phân tích tiếp theo
1. Cohort analysis theo registration_date: tỷ lệ active theo tuổi tài khoản
2. Phân tích lifetime_value theo segment và kyc_level
3. Điều tra 18.3% users không có email — có pattern gì không?

Framework đánh giá chất lượng dữ liệu

Claude áp dụng 4 tiêu chí để đánh giá mỗi cột:

  • Completeness: Tỷ lệ non-null. Trên 99% = xanh, 95-99% = vàng, 80-95% = cam, dưới 80% = đỏ
  • Consistency: Cùng một khái niệm có được biểu diễn nhất quán không? ("TP.HCM" vs "HCM City")
  • Accuracy: Có giá trị placeholder hoặc impossible không? (tuổi 150, ngày trong tương lai)
  • Timeliness: Dữ liệu có cập nhật đúng tần suất mong đợi không?

Khám phá quan hệ giữa các bảng

Tôi có 3 bảng: customers, orders, order_items.
Hãy giúp tôi hiểu:
1. Cách các bảng join với nhau
2. Có foreign key nào không match không?
3. Có bảng orders nào không có customer_id hợp lệ không?
4. Vẽ sơ đồ quan hệ đơn giản bằng text

Phát hiện pattern và outlier

Trong bảng orders, hãy phân tích phân phối của cột total_amount:
- Phân phối có dạng gì? (normal, right-skewed, bimodal?)
- Có outlier đáng chú ý không?
- Ngưỡng nào để định nghĩa "đơn hàng bất thường"?
- So sánh phân phối theo payment_method

Bước tiếp theo

Sau khi hiểu rõ cấu trúc và chất lượng dữ liệu, chuyển sang phân tích dữ liệu tự động để trả lời câu hỏi kinh doanh, hoặc validation và data quality để sửa các vấn đề đã phát hiện.


Bài viết liên quan

Tính năng liên quan:Data ExplorationEDASummary Statistics

Bai viet co huu ich khong?

Bản quyền thuộc về tác giả. Vui lòng dẫn nguồn khi chia sẻ.

Bình luận (0)
Ảnh đại diện
Đăng nhập để bình luận...
Đăng nhập để bình luận
  • Đang tải bình luận...

Đăng ký nhận bản tin

Nhận bài viết hay nhất về sản phẩm và vận hành, gửi thẳng vào hộp thư của bạn.

Bảo mật thông tin. Hủy đăng ký bất cứ lúc nào. Chính sách bảo mật.