Cơ bảnHướng dẫnClaude ChatNguồn: Anthropic

Claude cho Data: Khám phá dataset mới

Minh TuấnCTO, Transform GroupTheo dõi

26/03/2026 575 0 4 phút đọc

Nghe bài viết

00:00

1 Để áp dụng tại sao phải explore trước khi phân tích? hiệu quả, bạn cần nắm rõ: Nhiều analysis sai không phải vì logic sai, mà vì dữ liệu đầu vào có vấn đề chưa được phát hiện: 40% giá trị NULL trong cột revenue — đây là bước quan trọng giúp tối ưu quy trình làm việc với AI trong thực tế.
2 Về lệnh explore cơ bản, thực tế cho thấy Bắt đầu đơn giản nhất: Hãy explore bảng orders trong data warehouse của chúng tôi. Tôi cần hiểu: cấu trúc bảng, chất lượng dữ liệu, và nên phân tích gì tiếp theo. Hoặc với file upload: Tôi upload file orders_q1_2026.csv — đây là con dao hai lưỡi nếu không hiểu rõ giới hạn và điều kiện áp dụng của nó.
3 Kết quả đo lường từ ví dụ thực tế: explore bảng customers fintech: Hãy explore bảng customers với schema sau: customer_id VARCHAR, full_name VARCHAR, phone VARCHAR, email VARCHAR, date_of_birth DATE, province VARCHAR, segment VARCHAR, kyc_level INT, registration_date TIMESTAMP, last_login_date TIMESTAMP, lifetime_value DECIMAL, referral_code VARCHAR, is_active BOOLEAN Tổng 1.2 triệu hàng — các chỉ số cụ thể này giúp bạn đánh giá chính xác hiệu quả trước khi đầu tư nguồn lực.
4 Muốn làm chủ framework đánh giá chất lượng dữ liệu, hãy bắt đầu từ việc hiểu Claude áp dụng 4 tiêu chí để đánh giá mỗi cột: Completeness : Tỷ lệ non-null. Trên 99% xanh, 95-99% vàng, 80-95% cam, dưới 80% đỏ Consistency : Cùng một khái niệm có được biểu diễn nhất quán không? "TP — kỹ thuật này được nhiều developer áp dụng thành công trong dự án thực tế.
5 Một thực tế quan trọng về phát hiện pattern và outlier: Trong bảng orders, hãy phân tích phân phối của cột total_amount: - Phân phối có dạng gì? normal, right-skewed, bimodal? - Có outlier đáng chú ý không? - Ngưỡng nào để định nghĩa "đơn hàng bất thường"? - So sánh phân phối theo payment_method — tuy mang lại lợi ích rõ ràng nhưng cũng đòi hỏi đầu tư thời gian học và thử nghiệm phù hợp.

Khi nhận một dataset hoặc được giao làm việc với một bảng dữ liệu mới, bước đầu tiên không phải là phân tích ngay — mà là hiểu dữ liệu trước khi tin vào nó. Claude giúp bạn thực hiện EDA (Exploratory Data Analysis) có hệ thống, từ profile tổng quan đến phát hiện vấn đề chất lượng tiềm ẩn.

Tại sao phải explore trước khi phân tích?

Nhiều analysis sai không phải vì logic sai, mà vì dữ liệu đầu vào có vấn đề chưa được phát hiện:

40% giá trị NULL trong cột revenue — mean sẽ bị sai lệch
Dữ liệu tháng 3 chỉ đến ngày 15 — so sánh với tháng 2 đầy đủ sẽ misleading
Có 500 bản ghi trùng lặp — mọi count và sum đều bị inflate
"Completed" và "complete" là hai giá trị khác nhau trong cùng một cột status

EDA phát hiện những vấn đề này trước khi chúng làm hỏng kết quả.

Lệnh explore cơ bản

Bắt đầu đơn giản nhất:

Hãy explore bảng orders trong data warehouse của chúng tôi.
Tôi cần hiểu: cấu trúc bảng, chất lượng dữ liệu,
và nên phân tích gì tiếp theo.

Hoặc với file upload:

Tôi upload file orders_q1_2026.csv. Hãy profile bảng này
và báo cáo những vấn đề chất lượng dữ liệu cần lưu ý.

Bảy câu hỏi Claude sẽ trả lời

Khi explore một bảng, Claude tự động kiểm tra:

1. Cấu trúc tổng quan

Bảng có bao nhiêu hàng và cột?
Grain của bảng là gì — một hàng đại diện cho gì?
Primary key là gì và có unique không?
Dữ liệu trải dài từ ngày nào đến ngày nào?

2. Phân loại cột

Claude phân loại mỗi cột thành:

Loại	Mô tả	Ví dụ
Identifier	Khóa chính, foreign key	order_id, customer_id
Dimension	Thuộc tính phân loại	status, province, category
Metric	Giá trị đo lường	revenue, quantity, rating
Temporal	Ngày giờ	created_at, updated_at
Boolean	Cờ true/false	is_paid, is_deleted

3. Tỷ lệ NULL

Cột nào có NULL, bao nhiêu phần trăm, và NULL đó có nghĩa gì (thiếu dữ liệu hay có ý nghĩa kinh doanh)?

4. Phân phối giá trị

Với cột số: min, max, mean, median, percentile p5/p95/p99. Với cột text: top values và tần suất.

5. Phát hiện trùng lặp

Có hàng nào bị duplicate không? Nếu có, duplicate theo key nào?

6. Vấn đề chất lượng

Giá trị bất thường, encoding inconsistency, timezone issues, business rule violations.

7. Gợi ý phân tích tiếp theo

3-5 câu hỏi cụ thể bạn nên khám phá dựa trên những gì tìm thấy trong data.

Ví dụ thực tế: Explore bảng customers fintech

Hãy explore bảng customers với schema sau:

customer_id (VARCHAR), full_name (VARCHAR), phone (VARCHAR),
email (VARCHAR), date_of_birth (DATE), province (VARCHAR),
segment (VARCHAR), kyc_level (INT), registration_date (TIMESTAMP),
last_login_date (TIMESTAMP), lifetime_value (DECIMAL),
referral_code (VARCHAR), is_active (BOOLEAN)

Tổng 1.2 triệu hàng. Cho tôi biết:
1. Vấn đề chất lượng dữ liệu
2. Phân phối theo segment và province
3. Những điều bất thường cần điều tra

Claude sẽ tạo profile report dạng:

## Data Profile: customers

### Tổng quan
- Hàng: 1,200,000
- Cột: 13 (2 ID, 4 dimension, 3 metric, 2 temporal, 2 boolean)
- Khoảng thời gian: 2020-03-01 đến 2026-03-25

### Vấn đề chất lượng phát hiện

[HIGH] email: 18.3% NULL — cần xác định xem có bắt buộc không
[MEDIUM] date_of_birth: 2,340 giá trị trong tương lai (sau 2026)
[MEDIUM] province: có 47 giá trị phân biệt khi chỉ nên có 63
  → Gợi ý: 'HCM', 'TP HCM', 'Tp.HCM', 'TP.HCM' là cùng một tỉnh
[LOW] full_name: 340 hàng có khoảng trắng thừa đầu/cuối

### Phân phối segment
segment     | count   | pct
Retail      | 890,000 | 74.2%
SME         | 245,000 | 20.4%
Enterprise  |  65,000 |  5.4%

### Gợi ý phân tích tiếp theo
1. Cohort analysis theo registration_date: tỷ lệ active theo tuổi tài khoản
2. Phân tích lifetime_value theo segment và kyc_level
3. Điều tra 18.3% users không có email — có pattern gì không?

Framework đánh giá chất lượng dữ liệu

Claude áp dụng 4 tiêu chí để đánh giá mỗi cột:

Completeness: Tỷ lệ non-null. Trên 99% = xanh, 95-99% = vàng, 80-95% = cam, dưới 80% = đỏ
Consistency: Cùng một khái niệm có được biểu diễn nhất quán không? ("TP.HCM" vs "HCM City")
Accuracy: Có giá trị placeholder hoặc impossible không? (tuổi 150, ngày trong tương lai)
Timeliness: Dữ liệu có cập nhật đúng tần suất mong đợi không?

Khám phá quan hệ giữa các bảng

Tôi có 3 bảng: customers, orders, order_items.
Hãy giúp tôi hiểu:
1. Cách các bảng join với nhau
2. Có foreign key nào không match không?
3. Có bảng orders nào không có customer_id hợp lệ không?
4. Vẽ sơ đồ quan hệ đơn giản bằng text

Phát hiện pattern và outlier

Trong bảng orders, hãy phân tích phân phối của cột total_amount:
- Phân phối có dạng gì? (normal, right-skewed, bimodal?)
- Có outlier đáng chú ý không?
- Ngưỡng nào để định nghĩa "đơn hàng bất thường"?
- So sánh phân phối theo payment_method

Bước tiếp theo

Sau khi hiểu rõ cấu trúc và chất lượng dữ liệu, chuyển sang phân tích dữ liệu tự động để trả lời câu hỏi kinh doanh, hoặc validation và data quality để sửa các vấn đề đã phát hiện.

Gợi ý cho bạn

Claude cho Data: Phân tích dữ liệu tự động

Claude cho Data: Khám phá dataset mới

Điểm nổi bật

Tại sao phải explore trước khi phân tích?

Lệnh explore cơ bản

Bảy câu hỏi Claude sẽ trả lời

1. Cấu trúc tổng quan

2. Phân loại cột

3. Tỷ lệ NULL

4. Phân phối giá trị

5. Phát hiện trùng lặp

6. Vấn đề chất lượng

7. Gợi ý phân tích tiếp theo

Ví dụ thực tế: Explore bảng customers fintech

Framework đánh giá chất lượng dữ liệu

Khám phá quan hệ giữa các bảng

Phát hiện pattern và outlier

Bước tiếp theo

Bài viết liên quan

Gợi ý cho bạn

Claude cho Data: Phân tích dữ liệu tự động

Claude cho Data: Phân tích thống kê chuyên sâu

Claude cho Dữ liệu và Phân tích: Tổng quan Plugin

Claude cho Data: Tạo biểu đồ và visualization

Tin liên quan nên xem

Claude cho Data: Validation và data quality

Claude cho Data: Viết database queries từ ngôn ngữ tự nhiên

Claude Phân tích Dữ liệu: Hướng dẫn Kết nối Công cụ

Claude cho Data: Xây dựng Dashboard từ dữ liệu

Claude cho Data: Khám phá dataset mới

Điểm nổi bật

Tại sao phải explore trước khi phân tích?

Lệnh explore cơ bản

Bảy câu hỏi Claude sẽ trả lời

1. Cấu trúc tổng quan

2. Phân loại cột

3. Tỷ lệ NULL

4. Phân phối giá trị

5. Phát hiện trùng lặp

6. Vấn đề chất lượng

7. Gợi ý phân tích tiếp theo

Ví dụ thực tế: Explore bảng customers fintech

Framework đánh giá chất lượng dữ liệu

Khám phá quan hệ giữa các bảng

Phát hiện pattern và outlier

Bước tiếp theo

Bài viết liên quan

Gợi ý cho bạn

Claude cho Data: Phân tích dữ liệu tự động

Claude cho Data: Phân tích thống kê chuyên sâu

Claude cho Dữ liệu và Phân tích: Tổng quan Plugin

Claude cho Data: Tạo biểu đồ và visualization

Tin liên quan nên xem

Claude cho Data: Validation và data quality

Claude cho Data: Viết database queries từ ngôn ngữ tự nhiên

Claude Phân tích Dữ liệu: Hướng dẫn Kết nối Công cụ

Claude cho Data: Xây dựng Dashboard từ dữ liệu

Đăng ký nhận bản tin