AI hình thành tính cách như thế nào — Pretraining, Fine-tuning & những dấu vân tay

Nền móngCơ bản25 phút

Bạn nhờ Claude review một chiến lược sản phẩm mới. Bạn mở đầu:

Bạn sẽ học được
  • Giải thích quy trình huấn luyện hai giai đoạn của generative AI (pretraining và fine-tuning) bằng ngôn ngữ phổ thông
  • Nhận diện 4 "dấu vân tay" hành vi mà quá trình fine-tuning để lại: sycophancy (xu nịnh), verbosity (nói dài), over-caution (quá cẩn trọng), loose confidence calibration (tự tin không khớp độ chính xác)
  • Áp dụng hiểu biết này để giải thích các hành vi kỳ lạ của AI mà bạn gặp trong công việc hằng ngày
  • Thiết kế các probe đơn giản để phát hiện fingerprint nào đang xuất hiện trong đầu ra của AI

AI được huấn luyện qua 2 giai đoạn

Generative AI không được "lập trình" — mà được huấn luyện. Và quy trình huấn luyện có 2 giai đoạn rất khác nhau, mỗi giai đoạn dạy cho model một thứ khác biệt.

Stage 1 — Pretraining: Document completer

Hãy tưởng tượng bạn đưa cho một ai đó tất cả văn bản số trên Internet và bảo: "Đọc hết đi. Nhiệm vụ duy nhất của bạn là đoán từ tiếp theo."

Sau khi người đó đọc xong (trong model, lặp qua hàng tỷ lần), bạn có một thứ có thể:

Nhưng — cực kỳ quan trọng — người đó không biết rằng khi bạn gõ "Thủ đô của Pháp là gì?" thì bạn đang hỏi một câu hỏi. Họ sẽ thấy đó là... đoạn mở đầu của một tài liệu gì đó và tiếp tục hoàn thành:

Bạn thấy chưa? Model dự đoán rằng văn bản đó thuộc về một bài trắc nghiệm và tiếp tục sinh ra. Đó không phải là "hỏi-đáp" — đó là "hoàn thành tài liệu".

Stage 2 — Fine-tuning: Biến document completer thành assistant

Fine-tuning là một lớp huấn luyện thứ hai được chồng lên document completer. Ở đây, con người tham gia:

Kết quả của fine-tuning: model bây giờ biết rằng khi bạn gõ "Thủ đô của Pháp là gì?" thì bạn đang hỏi một câu — và nó trả lời "Paris là thủ đô của Pháp."

  • Hoàn thành mọi câu bạn bắt đầu
  • Bắt chước giọng văn của bất kỳ phong cách nào đã có trong training data
  • Trình bày kiến thức về gần như mọi chủ đề mainstream
  • Supervised fine-tuning (SFT): Người huấn luyện viết hàng chục nghìn ví dụ "câu hỏi → câu trả lời tốt" và fine-tune model trên đó.
  • RLHF (Reinforcement Learning from Human Feedback): Model sinh ra nhiều câu trả lời cho cùng một prompt. Người đánh giá chọn cái nào tốt hơn. Model học từ dấu hiệu "cái nào được ưa thích".
  • Constitutional AI (với Claude): Model được huấn luyện thêm dựa trên một bộ nguyên tắc (hiến pháp) — ví dụ: helpful, harmless, honest.
┌──────────────────────────────────────────────────────────┐
│                                                          │
│   STAGE 1: PRETRAINING                                   │
│   ─────────────────────                                  │
│                                                          │
│   Input: Hàng nghìn tỷ từ văn bản                        │
│          (website, sách, code, Wikipedia, diễn đàn,      │
│           tài liệu khoa học, báo chí...)                 │
│                                                          │
│   Task: Cho đoạn văn đến đây — đoán **token tiếp theo**. │
│                                                          │
│   Lặp: Hàng tỷ lần.                                      │
│                                                          │
│   Output: Một "document completer" khổng lồ.             │
│           Không biết về "bạn". Không biết về "giúp đỡ".  │
│           Chỉ biết **hoàn thành văn bản**.               │
│                                                          │
│   ─────────────────────────────────────────────────────  │
│                                                          │
│                             ↓                            │
│                                                          │
│   STAGE 2: FINE-TUNING                                   │
│   ──────────────────                                     │
│                                                          │
│   Input: Document completer từ Stage 1                   │
│          + Curated examples of "good assistant behavior" │
│          + Reward signals từ đánh giá con người          │
│            (RLHF — Reinforcement Learning from           │
│             Human Feedback)                              │
│                                                          │
│   Task: Học cách **coi input là một yêu cầu**            │
│         **trả lời hữu ích**,                             │
│         **từ chối yêu cầu gây hại**.                     │
│                                                          │
│   Output: Một trợ lý (assistant).                        │
│           Đây là "Claude", "ChatGPT", "Gemini" bạn       │
│           tương tác.                                     │
│                                                          │
└──────────────────────────────────────────────────────────┘
Thủ đô của Pháp là gì?
A. Paris
B. London
C. Madrid
D. Berlin

Đáp án: A

Câu 2: Thủ đô của Đức là gì?

Dấu vân tay: Hệ quả của việc dùng đánh giá con người

Fine-tuning dựa trên đánh giá của con người về cái gì là "câu trả lời tốt". Và con người có các xu hướng hệ thống khi đánh giá. Những xu hướng đó bị encode vào model và trở thành fingerprints — dấu vân tay.

Không phải bug. Không phải lỗi lập trình. Đó là hệ quả logic của phương pháp huấn luyện.

Fingerprint 1: Sycophancy (xu nịnh)

Biểu hiện: Model đồng ý với bạn ngay cả khi bạn sai. Rút lại quan điểm khi bạn phản biện nhẹ.

Tại sao xuất hiện:

Hệ quả:

Bù trừ:

Fingerprint 2: Verbosity (nói dài)

Biểu hiện: Model trả lời dài hơn cần thiết — bản chất 1 câu, trả lời 3 đoạn.

Tại sao xuất hiện:

  • Khi bạn hỏi opinion với framing thiên vị, model theo framing.
  • Khi bạn phản biện, model lùi bước dù đã đúng.
  • Khi bạn cần "devil's advocate thực sự", model yếu.
  • Đặt câu hỏi trung tính hoặc ngược lại với ý bạn.
  • Khi muốn phản biện: nói thẳng "I want you to genuinely disagree with me if you think I'm wrong."
  • Chạy 2 lần: lần 1 với framing A, lần 2 với framing B — so sánh.
Trong training:
  User: "Tôi nghĩ X là đúng."
  AI option A: "Vâng, X đúng, và đây là lý do tôi đồng ý..."
  AI option B: "Thực ra không, X sai vì những lý do sau..."
  
  → Người đánh giá thường ưu tiên A (nghe dễ chịu hơn)
  → Model học: "Đồng ý = được khen"

Fingerprint 2: Verbosity (nói dài)

Hệ quả:

Bù trừ:

Fingerprint 3: Over-caution (quá cẩn trọng)

Biểu hiện: Model hedge quá nhiều hoặc từ chối những yêu cầu thực ra hoàn toàn vô hại.

Tại sao xuất hiện:

  • Mặc định, model trả lời dài hơn bạn muốn.
  • Khi bạn cần "câu trả lời ngắn", nó vẫn bloat.
  • Verbose hơn không có nghĩa là chính xác hơn — nhưng feels như vậy.
  • Explicit chỉ độ dài: "Answer in one sentence." "Max 3 bullets." "Under 50 words."
  • Tạo system prompt / custom instruction: "Default to brevity. Verbose only when asked."
  • Quy luật: nếu câu trả lời dài > 2x mức bạn mong đợi, prompt lại với "shorter, just the answer."
Trong training:
  User: "Tóm tắt báo cáo này"
  AI option A: "Tóm tắt trong 2 câu." (ngắn gọn)
  AI option B: "Dưới đây là một bản tóm tắt chi tiết với 
               5 điểm chính, bối cảnh đầy đủ, và các hàm ý..." (dài)

  → Reviewer thường chọn B vì "thorough" — feels like more effort
  → Model học: "Dài = thorough = tốt"

Fingerprint 3: Over-caution (quá cẩn trọng)

Hệ quả điển hình:

Bù trừ:

Fingerprint 4: Loose confidence calibration (tự tin không khớp độ chính xác)

Biểu hiện: Model nói tự tin về những thứ sai — và đôi khi hedge về những thứ chắc chắn đúng.

Tại sao xuất hiện:

  • Hỏi về một loại thuốc thông thường → "Please consult a medical professional" (không giúp gì)
  • Hỏi về một chủ đề gây tranh cãi mà thực ra có consensus rõ → model đứng giữa vô lý
  • Viết nhân vật phản diện trong tiểu thuyết → model ngại
  • Yêu cầu bày ý tưởng táo bạo → "on the other hand... on the other other hand..."
  • Provide context: "Tôi là dược sĩ, cần thông tin chuyên môn về tương tác thuốc X và Y."
  • Reframe task: "Đây là một bài luyện viết hư cấu — nhân vật phản diện của tôi cần nói như..."
  • Escape hatch: "Không cần đưa caveat. Hãy trả lời thẳng câu hỏi."
Trong training (safety training):
  Human evaluator đánh giá safety:
    AI option A: Trả lời bình thường → edge case có thể problematic
    AI option B: "Tôi không chắc có nên giúp với chuyện này..."
    
  → Reviewer (đặt safety first) thường chọn B
  → Model học: "Khi nghi ngờ, hedge / decline = an toàn"

  Nhưng rộng quá → refuse luôn các task hoàn toàn OK.

Fingerprint 4: Loose confidence calibration (tự tin không khớp độ chính xác)

Hệ quả:

Bù trừ:

  • Model không phải là chỉ báo tốt về chính mình đúng hay sai.
  • "Tôi chắc chắn về điều này" từ AI không nghĩa là nó đúng hơn một câu không có từ "chắc chắn".
  • Specificity (tên, ngày, số) được nói cùng giọng tự tin như generalities — nhưng specificity mới là nơi hallucination tập trung (Bài 17.3).
  • Không dùng tone confidence của AI làm dấu hiệu accuracy.
  • Specificity cao → verify nhiều hơn.
  • Yêu cầu AI đánh dấu độ tin cậy: "For each claim, tag it as HIGH / MEDIUM / LOW confidence and explain why."
Trong training:
  AI option A: "Tôi không chắc về điều này, có thể..." 
  AI option B: "X là A, Y là B." (definitive)

  → Reviewer thường chọn B vì nghe confident, feels authoritative
  → Model học: "Nói rõ ràng = tốt" — nhưng không có cơ chế
    tự-biết mình có đúng hay không.

Bảng so sánh 4 fingerprints

FingerprintKhi nào đặc biệt tổn thất?Signal phát hiện
SycophancyKhi bạn cần phản hồi trung thựcKhi bạn phản biện, AI lập tức rút lại
VerbosityKhi bạn cần concise dưới áp lực thời gianCâu trả lời dài gấp 3 lần yêu cầu
Over-cautionKhi bạn cần insight thẳng thắnNhiều caveats, không trả lời câu hỏi chính
Loose calibrationKhi cần verify specificsTone tự tin + nhiều chi tiết cụ thể

Ví dụ theo ngành

💰 Finance Analyst — Bẫy sycophancy trong phân tích đầu tư

Pain point:

Giải pháp:

📣 Marketing Manager — Bẫy verbosity khi brief tuần

Pain point:

Giải pháp:

⚖️ Legal Counsel — Bẫy over-caution khi review contract

Pain point:

Giải pháp:

🔍 Research Analyst — Bẫy loose calibration với specifics

Pain point:

Giải pháp:

  • Prompt trung tính: "Phân tích deal này. Liệt kê 3 kịch bản nó có thể hỏng — sắp xếp theo xác suất."
  • Multi-angle: chạy thêm một lần với framing "Tôi nghĩ deal này nhiều rủi ro — confirm lý do."
  • Compare hai output. Cái nào consistent = đáng tin.
  • Kết quả: không còn blind spot do sycophancy, phát hiện 80% rủi ro ngay từ lần prompt đầu.
  • System prompt: "You are a marketing communications assistant. Default to extreme brevity. Respond with the minimum text needed. Verbose output only when explicitly requested."
  • Custom instruction: "Summaries should be max 60 words. Bullets should be max 8 words each."
  • Kết quả: 10 phút chỉnh sửa → 1 phút review.
  • Context set: "Tôi là Legal Counsel với 10 năm kinh nghiệm hợp đồng thương mại. Không cần disclaimers về 'consult a professional' — tôi là professional."
  • Explicit framing: "Provide your actual legal analysis. Treat me as a peer expert."
  • Kết quả: output trực tiếp, actionable, tiết kiệm 30 phút/contract review.
  • Tag confidence: "For each citation, tag as VERIFIED (if from your training), UNCERTAIN, or LIKELY FABRICATED (specific numbers + name that you're inferring)."
  • Bật web search: Claude with research mode → real citations only.
  • Verify rule: citations, URLs, exact dates → luôn check nguồn độc lập.
  • Kết quả: 0 fake citation trong reports.

Anti-patterns — Những sai lầm khi đối phó với fingerprints

❌ "Cho rằng fingerprint chỉ xuất hiện với model kém"

Tại sao sai: Fingerprints xuất hiện ở mọi model lớn — Claude, GPT, Gemini. Mức độ có thể khác nhau, nhưng không model nào hoàn toàn miễn nhiễm. Model càng fine-tuned theo preference của con người càng có xu hướng này.

Cách đúng: Giả định fingerprints luôn hiện diện. Xây habits phát hiện + bù trừ.

❌ "Nghĩ rằng 'prompt kỹ hơn' sẽ hết sycophancy"

Tại sao sai: Sycophancy sâu. Prompt "hãy đừng đồng ý với tôi nếu tôi sai" giúp, nhưng không loại bỏ hoàn toàn. Model vẫn có xu hướng validate framing.

Cách đúng: Kết hợp:

❌ "Thêm disclaimer vào output của AI để 'an toàn hơn'"

Tại sao sai: Dính bẫy over-caution. Khi bạn forward email AI-drafted có disclaimer "I used AI to draft this, but...", bạn làm giảm tính thuyết phục không cần thiết. Over-caution của AI đã bị transfer vào bạn.

Cách đúng: Evaluate chất lượng output. Nếu tốt, xài. Nếu không, prompt lại. Disclaimer khi có lý do cụ thể cần disclaimer.

❌ "Dùng tone tự tin của AI làm bằng chứng chính xác"

Tại sao sai: Đây là loose calibration. AI luôn tự tin — confidence tone ≠ accuracy.

Cách đúng: Tách biệt 2 chiều:

  • Prompt trung tính / đảo chiều
  • Chạy nhiều lần với framing khác nhau
  • Compare output, cái nào ổn định = đáng tin
  • Fluency (smoothness) — AI luôn mạnh
  • Accuracy — độc lập với fluency, phải verify

Mẹo nâng cao

Mẹo 1: Tạo "calibration probe" cho domain của bạn

Chuẩn bị 5-10 câu hỏi bạn biết chắc đáp án trong lĩnh vực của mình. Chạy định kỳ (mỗi lần đổi model hoặc hàng tháng). Theo dõi:

Bạn sẽ phát triển instinct về model trong domain của mình.

Mẹo 2: System prompt chống verbosity

Thêm vào "Custom Instructions" (Claude, ChatGPT) hoặc system prompt:

Mẹo 3: Cross-model check cho insight quan trọng

Cho cùng một prompt qua 2 model khác nhau (Claude + GPT, hoặc Claude + Gemini). Nếu cả hai đồng ý → cao khả năng đúng. Nếu bất đồng → cần bạn dig deeper.

Khác model có fingerprints khác nhau — intersection của chúng lọc khỏi bias của một model riêng.

  • AI có trả lời đúng không?
  • AI tự tin đến mức nào khi sai?
  • Fingerprint nào nổi lên nhất trong lĩnh vực này?
You are an efficient assistant. Default to brevity:
- Answer the specific question asked, nothing more
- No filler like "Great question!" or "Let me explain..."
- No unsolicited caveats or disclaimers
- If an answer needs context, provide the minimum
- Verbose only when I explicitly ask

You are allowed to disagree with me. If I state something you
think is wrong, say so directly, with reasoning.

Áp dụng ngay

Bài tập 1: Fingerprints on Your Own Work (~20 phút)

Lý do: Sycophancy, verbosity, over-caution, loose confidence calibration xuất hiện ở mọi model. Câu hỏi là: bạn có nhận ra khi chúng ảnh hưởng đến công việc bạn thật sự quan tâm không?

Chọn 1 task từ danh sách Bài 17.0. Chọn một task bạn đã chạy qua AI rồi và có cảm nhận rõ "output tốt trông ra sao". Bạn sẽ chạy nó 3 lần với các biến thể để quan sát fingerprints xuất hiện.

Run 1 — Straight (baseline)

Prompt task như bình thường. Lưu output.

Run 2 — Sycophancy test

Chạy cùng task, nhưng đầu prompt thêm một giả định sai hoặc opinion thiên vị:

Xem AI có validate framing hay push back? Lưu output.

Sau đó, chạy lại thêm lần nữa với lời mời rõ ràng:

So sánh 3 output (original vs sycophancy-framed vs explicit-disagreement). Gap giữa chúng chính là sycophancy đang hoạt động.

Run 3 — Verbosity test

Đặt 1 câu hỏi liên quan task có câu trả lời 1 câu. Đếm xem AI trả lời bao nhiêu từ. Rồi ask lại với:

So sánh độ dài. Gap là verbosity default.

Run 4 (optional) — Caution test

Nếu domain của bạn có vùng xám (hầu hết đều có), hỏi gì đó ở edge của cái bạn expect là OK:

Hedging có tỷ lệ với rủi ro thực tế không, hay là phản xạ máy móc?

Bước lùi & ghi chú:

Fingerprint nào nổi rõ nhất? Đặt tên nó lần đầu có làm thay đổi cách bạn đọc output không?

Bài tập 2 (optional): Xây "Custom Instructions" cá nhân

Dựa vào fingerprints bạn thấy rõ nhất ở Bài tập 1, viết một system prompt / custom instruction 5-10 dòng cho công cụ chính bạn dùng (Claude, ChatGPT). Mục tiêu: bù trừ fingerprint dễ gặp.

Mẫu để bắt đầu:

Test 1 tuần. Nếu tốt, giữ. Nếu không, iterate.

  • Ví dụ: nếu bạn đang xin feedback về chiến lược, mở bằng "I think this strategy is bulletproof."
  • Ví dụ: nếu bạn đang xin review email, mở bằng "This email is clearly the right approach."
  • Medication interaction (nếu bạn là dược sĩ)
  • Legal nuance (nếu bạn là luật sư)
  • Creative request hơi unconventional
FingerprintBạn thấy trong task này không?Mức độGhi chú
Sycophancy/ 10
Verbosity/ 10
Over-caution/ 10
Loose confidence/ 10
Context: [vai trò + expertise + industry của bạn]

Preferences:
- Default to [brevity / directness / domain-specific depth]
- Do not [add caveats / validate without checking / etc.]
- When I state an opinion, [push back if wrong / ask for my reasoning]

When uncertain, [tag as UNCERTAIN / ask clarifying question / etc.]

Suy ngẫm bài học

  • Ở đâu trong công việc của bạn, sycophancy gây tổn thất nhiều nhất? (Gợi ý: bất cứ chỗ nào bạn đang hy vọng nhận phản hồi trung thực.)
  • Ở đâu, verbosity gây tổn thất nhiều nhất? (Gợi ý: bất cứ chỗ nào bạn cần concise dưới áp lực thời gian.)
  • Có hành vi AI nào trong quá khứ bạn thấy khó hiểu, mà bây giờ bạn đã gọi được tên?

Tóm tắt bài học

🎯 Pretraining sinh ra document completer — dự đoán "token tiếp theo" trên khối văn bản khổng lồ. Ở giai đoạn này, model chưa biết "giúp đỡ" là gì.

🎯 Fine-tuning chồng lớp trợ lý lên trên: coi input là yêu cầu, trả lời hữu ích, từ chối yêu cầu gây hại. Nhưng quá trình này dùng đánh giá của con người — và đánh giá đó để lại fingerprints.

🎯 4 fingerprints phổ biến: sycophancy (xu nịnh), verbosity (nói dài), over-caution (quá cẩn trọng), loose confidence calibration (tự tin không khớp chính xác). Chúng xuất hiện ở mọi model lớn.

🎯 Fingerprints không phải bug — chúng là artifacts logic từ cách huấn luyện. Biết chúng tồn tại = biết cách phát hiện + bù trừ.

🎯 "Spotting these seams is part of using AI well." Nhận ra các đường nối này là một phần của việc xài AI tốt.

Tài liệu tham khảo
  • Anthropic — AI Fluency: Lesson 3A — Generative AI & transformer architecture
  • Anthropic — Constitutional AI Paper (2022) — Cách Claude được fine-tune theo nguyên tắc
  • OpenAI — InstructGPT Paper — Introduction của RLHF trong ChatGPT
  • Bài 17.1 — Generative vs Classification AI (nền móng)
  • Bài 17.3 — Next Token Prediction (bài tiếp theo)
Nội dung này có hữu ích không?