Sự Cố Claude Cowork Xóa 11GB File: Bài Học Đắt Giá Về AI Agent Safety
Điểm nổi bật
Nhấn để đến mục tương ứng
- 1 Hạn chế thực tế ít review nào nhắc đến: Gap này tạo ra "safety illusion." Khi Cowork. Biết trước những điểm này giúp bạn lập plan B và phân bổ resource hợp lý ngay từ đầu.
- 2 Quy trình đã được cộng đồng kiểm chứng nhiều lần: Dựa trên video và comments từ HN thread: Bước 1: Setup Ban Đầu McAulay mở Cowork, grant access vào một folder, và ra lệnh bằng. Instruction nghe có vẻ vô hại. Phần lớn người overthink giai đoạn setup và mất hàng giờ — thực tế chỉ cần làm đúng trình tự.
- 3 Khía cạnh quan trọng ít được bàn luận: Kết quả: 11GB dữ liệu biến mất. Theo nhận xét từ cộng đồng: "Claude Cowork first impression: Cowork Deleted 11GB of files.". Nắm được chi tiết này giúp bạn tránh sai lầm phổ biến và khai thác tối đa giá trị từ công cụ.
- 4 Thực tế không hoàn hảo như marketing: Bài học từ sự cố McAulay và HN discussion tổng hợp thành 7 nguyên tắc: Nguyên Tắc 1: Backup Trước, Không Phải Sau Quy tắc số một. Người dùng thành công học cách biến constraint thành cơ hội, xoay sở thay vì chờ phiên bản hoàn thiện.
- 5 Hạn chế thực tế ít review nào nhắc đến: Nhìn sâu hơn vào tại sao sự cố này xảy ra về mặt kỹ thuật: Vấn Đề 1: Ambiguous Instructions "Xóa duplicates" có thể hiểu theo. AI phải chọn một interpretation — và có thể chọn sai. Biết trước những điểm này giúp bạn lập plan B và phân bổ resource hợp lý ngay từ đầu.
Ngày 13 Tháng 1: Video Gây Sốc Hacker News
Vào ngày đầu tiên sau khi Claude Cowork ra mắt cho người dùng rộng rãi, một video ngắn lan truyền nhanh chóng trên Hacker News với tiêu đề khiến cộng đồng công nghệ đóng băng: "Claude Cowork first impression: Cowork Deleted 11GB of files."
Người đăng video — James McAulay, một developer — đang thử nghiệm Cowork với task đơn giản: tổ chức lại thư mục Downloads. Kết quả: 11GB dữ liệu biến mất.
Thread HN nhanh chóng đạt hàng trăm comments. Và điều thú vị hơn con số 11GB là cuộc tranh luận sâu sắc xảy ra sau đó — về AI agent safety, accountability, và những gì chúng ta chưa chuẩn bị khi giao AI quyền tự hành.
Chuyện Gì Đã Xảy Ra? Phân Tích Từng Bước
Dựa trên video và comments từ HN thread:
Bước 1: Setup Ban Đầu
McAulay mở Cowork, grant access vào một folder, và ra lệnh bằng ngôn ngữ tự nhiên để tổ chức files. Instruction nghe có vẻ vô hại.
Bước 2: Cowork Lên Kế Hoạch
Cowork hiển thị kế hoạch tác vụ — gồm nhiều bước, trong đó có bước "remove duplicate files." McAulay click approve mà không đọc kỹ từng bước.
Bước 3: Execution Và Sự Cố
Ở phút thứ 9:20, McAulay phát hiện 11GB đã bị xóa. Nhiều file không phải duplicates — chúng là originals.
Điểm Mấu Chốt Từ HN Discussion
Một commenter đặt câu hỏi quan trọng: "Did Claude actually execute the deletion, or did it hallucinate the command history?"
Câu hỏi này quan trọng hơn có vẻ. Nếu Claude hallucinate (bịa đặt rằng đã xóa trong khi thực tế không xóa), đó là một loại vấn đề. Nếu Claude thực sự chạy rm -rf với parameters sai — đó là vấn đề hoàn toàn khác.
Câu trả lời từ người hiểu kiến trúc: Cowork hoạt động như một sophisticated harness quanh LLM, sử dụng tools như Bash và file readers để reference actual session traces — không phải hallucination thuần túy.
Tại Sao Người Dùng Non-Technical Đặc Biệt Dễ Bị Tổn Thương
Một comment trong thread ghi lại insight quan trọng:
"A non-programmer likely wouldn't recognize
rm -rfas dangerous even when granting permissions step by step."
Đây là core problem của AI agents có quyền thực thi: chúng thực hiện operations bằng commands kỹ thuật (bash, API calls, file operations) — nhưng interface với người dùng là ngôn ngữ tự nhiên. Gap này tạo ra "safety illusion."
Khi Cowork hiển thị "Xóa files trùng lặp" trong kế hoạch, người dùng thấy text tự nhiên. Nhưng implementation là rm -rf — một command không có undo button.
7 Nguyên Tắc Safety Không Thể Bỏ Qua
Bài học từ sự cố McAulay và HN discussion tổng hợp thành 7 nguyên tắc:
Nguyên Tắc 1: Backup Trước, Không Phải Sau
Quy tắc số một và không thể thương lượng: Luôn backup dữ liệu trước khi grant AI access vào bất kỳ folder nào.
Phương pháp backup cụ thể:
- Time Machine (macOS) bật và recent backup verified
- Copy folder sang external drive hoặc cloud trước khi test
- Tạo snapshot bằng
ziphoặctarnếu backup toàn bộ là quá lớn
Không có backup = bạn đang cờ bạc với dữ liệu của mình.
Nguyên Tắc 2: Dùng Test Folder, Không Phải Real Folder
Tạo một folder riêng với data test (copies không quan trọng) trước khi thử AI agent với real data. Chỉ khi đã satisfied với behavior trên test data, mới apply vào real data.
McAulay mắc lỗi này — anh test trực tiếp trên real downloads folder.
Nguyên Tắc 3: Đọc Kỹ Task Plan Trước Khi Approve
Khi Cowork hiển thị task plan với nhiều bước, không click "Run All" ngay. Đọc từng bước và hỏi:
- Bước này làm gì CHÍNH XÁC?
- Operation này có reversible không?
- Có bước "delete" hoặc "remove" nào không?
Bất kỳ bước nào liên quan đến deletion nên được test riêng trước.
Nguyên Tắc 4: Dùng "Dry Run" Mode Khi Có
Nhiều file operations support dry run — hiển thị những gì sẽ xảy ra mà không thực sự thực hiện. Khi prompt Cowork, hãy yêu cầu:
"Show me what files you plan to delete BEFORE actually deleting them. Wait for my confirmation before proceeding with any deletion."
Nguyên Tắc 5: Giới Hạn Scope Permission
Chỉ grant access vào folder nhỏ nhất cần thiết cho task. Không grant access vào home directory khi bạn chỉ cần tổ chức thư mục Downloads.
Principle of least privilege áp dụng với AI agents cũng như với users và applications.
Nguyên Tắc 6: Không Có File Quan Trọng Trong Folder AI Có Quyền
Passwords, crypto keys, tài liệu pháp lý, ảnh cưới không thể recover — những thứ này không bao giờ nên trong scope của AI agent. Tạo separate folders và exclude chúng khỏi AI access.
Nguyên Tắc 7: Giám Sát Trong Thời Gian Thực, Không Bỏ Đi Làm Việc Khác
Đặc biệt trong những lần đầu tiên dùng agent cho một task type mới: ở lại và watch. Đừng để agent chạy unattended cho đến khi bạn đã verify nhiều lần rằng behavior là đúng như mong đợi.
Phân Tích Kỹ Thuật: Tại Sao AI Agent Xóa Nhầm
Nhìn sâu hơn vào tại sao sự cố này xảy ra về mặt kỹ thuật:
Vấn Đề 1: Ambiguous Instructions
"Xóa duplicates" có thể hiểu theo nhiều cách: giữ newest, giữ oldest, giữ cái trong folder gốc, giữ cái có path ngắn hơn. AI phải chọn một interpretation — và có thể chọn sai.
Vấn Đề 2: Hallucination Trong Planning
AI agents đôi khi tạo ra task plans có chứa steps "hợp lý" nhưng không phải điều bạn muốn. Vì plan được viết bằng ngôn ngữ tự nhiên, người dùng có thể không nhận ra sự khác biệt.
Vấn Đề 3: No "Undo" Native Support
File deletion trong terminal là permanent theo mặc định. Trash bin (Recycle Bin) chỉ hoạt động với UI-level operations, không phải bash rm commands.
Trách Nhiệm Ở Đây Thuộc Về Ai?
HN discussion không đồng thuận về câu trả lời này — và đó là điều quan trọng để nhận ra.
Phía "User's fault":
- Anthropic cảnh báo rõ trong documentation về rủi ro file operations
- User approve task plan không đọc kỹ
- Không có backup là thiếu cẩn thận
Phía "Anthropic's fault":
- Interface không đủ rõ ràng về irreversible operations
- Không có "danger zone" warning cho deletion steps
- Không auto-move to Trash trước khi confirm permanent delete
Kết luận cân bằng: Trách nhiệm là shared. Người dùng phải học cách dùng AI agent an toàn. Anthropic cần improve UI để làm rõ hơn consequences của mỗi action. Và cả hai bên cần đồng ý: khi AI có quyền thực thi, stakes cao hơn chat bình thường.
Từ Sự Cố Này: Điều Anthropic Đã Thay Đổi
Sau video viral, Anthropic nhanh chóng cập nhật Cowork:
- Deletion operations giờ yêu cầu explicit separate confirmation
- Irreversible operations được đánh dấu rõ ràng với warning icon
- Thêm option "Move to Trash" thay vì permanent delete
- Session log chi tiết hơn để trace back lỗi
Đây là cách hệ sinh thái AI cải thiện — thông qua real incidents và community feedback, không chỉ internal testing.
Bài Học Lớn Hơn: AI Agent Safety Là Trách Nhiệm Mới
Kết thúc, HN discussion đặt ra câu hỏi quan trọng hơn sự cố cụ thể:
Khi AI có thể thực thi — không chỉ tư vấn — ai chịu trách nhiệm về kết quả?
Đây là câu hỏi không có câu trả lời dễ. Nhưng nó nhắc nhở chúng ta về một thực tế: học cách dùng AI agent an toàn là skill mới mà tất cả chúng ta cần phát triển.
Tương tự như người mới học lái xe cần thời gian để develop "safety intuition," người dùng AI agents cần thời gian để hiểu: khi nào nên trust, khi nào nên verify, và khi nào nên không grant permission.
Tìm hiểu thêm về bảo mật khi dùng Claude tại bài Bảo mật và quyền riêng tư khi dùng Claude.
Và xem cách sử dụng Cowork đúng cách từ đầu trong Claude Cowork: Hướng dẫn sử dụng toàn diện.
Nguồn tham khảo
- James McAulay et al., "Claude Cowork first impression: Cowork Deleted 11GB of files," Hacker News, 13/01/2026. Đọc thread gốc
- UCStrategies, "I Let an AI Work Alone for 15 Minutes. It Erased 11GB of My Files," 2026.
- Anthropic, Cowork Safety Documentation, 2026. Tài liệu chính thức
Bai viet co huu ich khong?
Bản quyền thuộc về tác giả. Vui lòng dẫn nguồn khi chia sẻ.





