{"product_id":"claude-cho-bio-research-qc-dữ-liệu-single-cell-rna-seq","title":"Claude cho Bio Research: QC dữ liệu single-cell RNA-seq","description":"\n\u003cp\u003eQuality Control (QC) là bước không thể bỏ qua trong pipeline single-cell RNA-seq. Dữ liệu kém chất lượng — tế bào chết, doublets, ambient RNA — sẽ làm nhiễu mọi phân tích downstream từ clustering đến differential expression. Claude hỗ trợ quy trình QC theo chuẩn scverse với MAD-based filtering, phù hợp cho cả file \u003ccode\u003e.h5ad\u003c\/code\u003e lẫn output 10X Genomics \u003ccode\u003e.h5\u003c\/code\u003e.\u003c\/p\u003e\n\n\u003ch2\u003eĐịnh dạng input được hỗ trợ\u003c\/h2\u003e\n\u003cul\u003e\n  \u003cli\u003e\n\u003cstrong\u003e.h5ad:\u003c\/strong\u003e AnnData format từ scanpy\/Python workflows\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003e.h5:\u003c\/strong\u003e 10X Genomics Cell Ranger output (filtered_feature_bc_matrix.h5)\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eHai cách tiếp cận\u003c\/h2\u003e\n\n\u003ch3\u003eCách 1: Complete QC Pipeline (khuyến nghị)\u003c\/h3\u003e\n\u003cp\u003eCho phân tích chuẩn với ngưỡng có thể điều chỉnh:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003e# File h5ad\npython3 scripts\/qc_analysis.py input.h5ad\n\n# File 10X Genomics h5\npython3 scripts\/qc_analysis.py raw_feature_bc_matrix.h5\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eScript tự động phát hiện format file và thực hiện toàn bộ quy trình.\u003c\/p\u003e\n\n\u003ch3\u003eCách 2: Modular Building Blocks (cho workflow tùy chỉnh)\u003c\/h3\u003e\n\u003cp\u003eKhi cần logic lọc không chuẩn, như lọc khác nhau cho từng loại tế bào:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003eimport anndata as ad\nfrom qc_core import calculate_qc_metrics, detect_outliers_mad, filter_cells\nfrom qc_plotting import plot_qc_distributions\n\nadata = ad.read_h5ad('input.h5ad')\ncalculate_qc_metrics(adata, inplace=True)\n# ... custom logic tại đây\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eQuy trình QC chi tiết\u003c\/h2\u003e\n\n\u003ch3\u003eBước 1: Tính QC metrics\u003c\/h3\u003e\n\u003cp\u003eClaude sẽ tính các metrics cho từng tế bào:\u003c\/p\u003e\n\u003cul\u003e\n  \u003cli\u003e\n\u003cstrong\u003en_counts:\u003c\/strong\u003e Tổng số UMI (độ sâu sequencing)\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003en_genes:\u003c\/strong\u003e Số gene được phát hiện\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003epct_counts_mt:\u003c\/strong\u003e Phần trăm reads từ gene mitochondria\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003epct_counts_ribo:\u003c\/strong\u003e Phần trăm reads ribosomal (tùy chọn)\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003epct_counts_hb:\u003c\/strong\u003e Phần trăm reads hemoglobin (tùy chọn)\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003cp\u003ePattern phát hiện gene theo loài:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003e# Người\nmt_pattern = \"^MT-\"   # MT-CO1, MT-ND1, v.v.\nribo_pattern = \"^RP[SL]\"\nhb_pattern = \"^HB[^P]\"\n\n# Chuột\nmt_pattern = \"^mt-\"   # mt-Co1, mt-Nd1, v.v.\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch3\u003eBước 2: MAD-based filtering (lọc thông minh)\u003c\/h3\u003e\n\u003cp\u003eTại sao dùng MAD thay vì ngưỡng cứng? MAD (Median Absolute Deviation) tự động thích nghi với phân phối của từng dataset, thay vì dùng một ngưỡng cố định áp lên tất cả dữ liệu.\u003c\/p\u003e\n\n\u003cp\u003eNguyên lý: một tế bào là outlier nếu giá trị của nó lệch quá \u003cem\u003eN lần MAD\u003c\/em\u003e so với median:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003e# MAD-based outlier detection\noutlier_mask = detect_outliers_mad(adata, metric='log1p_n_counts', n_mads=5)\n# n_mads mặc định là 5 (permissive — giữ nhiều tế bào)\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eTham số có thể điều chỉnh:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003epython3 scripts\/qc_analysis.py input.h5ad     --mad-counts 5      # MAD cho tổng counts\n    --mad-genes 5       # MAD cho số genes\n    --mad-mt 3          # MAD cho %MT (thường strict hơn)\n    --mt-threshold 20    # Hard cutoff tối đa cho %MT\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch3\u003eBước 3: Lọc gene ít phổ biến\u003c\/h3\u003e\n\u003cpre\u003e\u003ccode\u003e# Loại bỏ genes chỉ có ở rất ít tế bào\nfilter_genes(adata, min_cells=20)  # mặc định: gene phải có ít nhất 20 tế bào\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch3\u003eBước 4: Visualizations\u003c\/h3\u003e\n\u003cp\u003eScript tự động tạo bộ plots trước và sau lọc:\u003c\/p\u003e\n\u003cul\u003e\n  \u003cli\u003e\n\u003cstrong\u003eqc_metrics_before_filtering.png:\u003c\/strong\u003e Violin plots và scatter plots QC metrics ban đầu\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eqc_filtering_thresholds.png:\u003c\/strong\u003e Hiển thị ngưỡng MAD overlay lên phân phối\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eqc_metrics_after_filtering.png:\u003c\/strong\u003e Metrics sau khi lọc\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eOutput files\u003c\/h2\u003e\n\u003cp\u003eTất cả files được lưu vào \u003ccode\u003e\u0026lt;input_basename\u0026gt;_qc_results\/\u003c\/code\u003e:\u003c\/p\u003e\n\u003cul\u003e\n  \u003cli\u003e\n\u003ccode\u003einput_filtered.h5ad\u003c\/code\u003e — Dataset sạch, sẵn sàng cho downstream analysis\u003c\/li\u003e\n  \u003cli\u003e\n\u003ccode\u003einput_with_qc.h5ad\u003c\/code\u003e — Dataset gốc với QC annotations được bảo tồn\u003c\/li\u003e\n  \u003cli\u003e3 file PNG visualizations\u003c\/li\u003e\n\u003c\/ul\u003e\n\n\u003ch2\u003eVí dụ thực tế\u003c\/h2\u003e\n\n\u003cp\u003ePrompt cho quy trình chuẩn:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003eTôi có file scRNA-seq từ mô não chuột: brain_cells.h5ad\n(~15,000 tế bào, mixed cell types)\n\nHãy chạy QC theo scverse best practices:\n1. Tính metrics với mt_pattern=\"^mt-\" (chuột)\n2. MAD filtering permissive (n_mads=5)\n3. Tạo visualizations trước\/sau\n4. Xuất filtered dataset\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003cp\u003eVí dụ cho QC với logic tùy chỉnh (neurons chịu được %MT cao hơn):\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003eimport anndata as ad\nfrom qc_core import calculate_qc_metrics, apply_hard_threshold, filter_cells\n\nadata = ad.read_h5ad('brain.h5ad')\ncalculate_qc_metrics(adata, mt_pattern=\"^mt-\", inplace=True)\n\n# Neurons tolerate %MT cao hơn (đặc điểm sinh học)\nneurons = adata.obs['initial_cluster'] == 'neuron'\nother = ~neurons\n\nneuron_mt_mask = apply_hard_threshold(adata[neurons], 'pct_counts_mt', 15, operator='\u0026gt;')\nother_mt_mask = apply_hard_threshold(adata[other], 'pct_counts_mt', 8, operator='\u0026gt;')\n\n# Kết hợp và filter\ncombined_remove = neurons \u0026amp; neuron_mt_mask | other \u0026amp; other_mt_mask\nadata_clean = filter_cells(adata, ~combined_remove)\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eBest practices cần ghi nhớ\u003c\/h2\u003e\n\u003col\u003e\n  \u003cli\u003e\n\u003cstrong\u003ePermissive filtering mặc định:\u003c\/strong\u003e Ngưỡng mặc định (n_mads=5) giữ nhiều tế bào — tránh mất rare populations\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eLuôn xem visualizations:\u003c\/strong\u003e Review plots trước\/sau để đảm bảo filtering có ý nghĩa sinh học\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eCân nhắc mô\/loài:\u003c\/strong\u003e Một số mô tự nhiên có %MT cao (neurons, cardiomyocytes)\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eKiểm tra gene annotations:\u003c\/strong\u003e mt- cho chuột, MT- cho người\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eLặp lại nếu cần:\u003c\/strong\u003e QC parameters có thể cần điều chỉnh theo experiment cụ thể\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003ch2\u003eCác bước downstream sau QC\u003c\/h2\u003e\n\u003cp\u003eSau khi có dataset sạch, quy trình điển hình tiếp theo:\u003c\/p\u003e\n\u003col\u003e\n  \u003cli\u003e\n\u003cstrong\u003eAmbient RNA correction:\u003c\/strong\u003e SoupX hoặc CellBender\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eDoublet detection:\u003c\/strong\u003e scDblFinder\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eNormalization:\u003c\/strong\u003e Log-normalize hoặc scran\u003c\/li\u003e\n  \u003cli\u003e\u003cstrong\u003eFeature selection và dimensionality reduction\u003c\/strong\u003e\u003c\/li\u003e\n  \u003cli\u003e\n\u003cstrong\u003eClustering và cell type annotation\u003c\/strong\u003e (xem hướng dẫn scvi-tools)\u003c\/li\u003e\n\u003c\/ol\u003e\n\n\u003cp\u003ePrompt để kiểm tra thống kê QC:\u003c\/p\u003e\n\u003cpre\u003e\u003ccode\u003eSau khi QC, hãy cho tôi biết:\n- Bao nhiêu tế bào bị loại và vì lý do gì?\n- Phân phối n_counts và n_genes sau lọc có ổn không?\n- Có cụm tế bào nào đáng ngờ (potential doublets) không?\u003c\/code\u003e\u003c\/pre\u003e\n\n\u003ch2\u003eBước tiếp theo\u003c\/h2\u003e\n\u003cp\u003eSau khi có dataset đã QC, bước tự nhiên là chạy phân tích với scvi-tools để tích hợp batch và phân loại tế bào. Khám phá thêm tại \u003ca href=\"\/collections\/ung-dung\"\u003ebộ sưu tập Ứng dụng\u003c\/a\u003e.\u003c\/p\u003e\n\n\n\u003chr\u003e\n\u003ch3\u003eBài viết liên quan\u003c\/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003ca href=\"\/products\/claude-nghien-c%E1%BB%A9u-sinh-h%E1%BB%8Dc-h%C6%B0%E1%BB%9Bng-d%E1%BA%ABn-k%E1%BA%BFt-n%E1%BB%91i-cong-c%E1%BB%A5\"\u003eClaude Nghiên cứu Sinh học: Hướng dẫn Kết nối Công cụ\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/products\/claude-cho-bio-research-b%E1%BA%AFt-d%E1%BA%A7u-d%E1%BB%B1-an-nghien-c%E1%BB%A9u-sinh-h%E1%BB%8Dc\"\u003eClaude cho Bio Research: Bắt đầu dự án nghiên cứu sinh học\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/products\/claude-cho-bio-research-chuy%E1%BB%83n-d%E1%BB%95i-d%E1%BB%AF-li%E1%BB%87u-thi%E1%BA%BFt-b%E1%BB%8B-sang-d%E1%BB%8Bnh-d%E1%BA%A1ng-allotrope\"\u003eClaude cho Bio Research: Chuyển đổi dữ liệu thiết bị sang định dạng Allotrope\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/products\/claude-cho-data-xay-d%E1%BB%B1ng-dashboard-t%E1%BB%AB-d%E1%BB%AF-li%E1%BB%87u\"\u003eClaude cho Data: Xây dựng Dashboard từ dữ liệu\u003c\/a\u003e\u003c\/li\u003e\n\u003cli\u003e\u003ca href=\"\/products\/claude-cho-engineering-debug-va-x%E1%BB%AD-ly-l%E1%BB%97i\"\u003eClaude cho Engineering: Debug và xử lý lỗi\u003c\/a\u003e\u003c\/li\u003e\n\u003c\/ul\u003e","brand":"Minh Tuấn","offers":[{"title":"Default Title","offer_id":47722091282644,"sku":null,"price":0.0,"currency_code":"VND","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0821\/0264\/9044\/files\/claude-cho-bio-research-qc-d_-li_u-single-cell-rna-seq_1727c796-f351-41d5-90c7-486b3a0af57c.jpg?v=1774521916","url":"https:\/\/claude.vn\/products\/claude-cho-bio-research-qc-d%e1%bb%af-li%e1%bb%87u-single-cell-rna-seq","provider":"CLAUDE.VN","version":"1.0","type":"link"}