Bạn lái xe nhiều năm có thể không biết động cơ vận hành ra sao. Vẫn lái tốt.
- Định nghĩa Generative AI và phân biệt với các loại AI khác
- Giải thích 3 trụ cột công nghệ làm Gen AI khả thi: kiến trúc, dữ liệu, compute
- Mô tả cơ chế học của LLM qua 2 giai đoạn: pre-training và fine-tuning
- Hiểu khái niệm context window, knowledge cutoff, emergent capability
- Sử dụng kiến thức kỹ thuật này để strengthen Delegation và Diligence
Generative AI là gì?
Định nghĩa ngắn
Phân biệt với các loại AI khác
AI truyền thống làm 1 việc tốt (classification, prediction). Generative AI làm nhiều việc — vì nó "tạo" thay vì "phân tích".
LLM (Large Language Model) như Claude, GPT, Gemini là loại Gen AI chuyên về text (và bây giờ thêm image/audio/video qua multimodal).
┌─────────────────────────────────────────────────────────────┐ │ │ │ AI TRUYỀN THỐNG GENERATIVE AI │ │ ───────────────── ────────────── │ │ │ │ [+] Phân loại email [>] Viết email mới │ │ spam vs. không spam từ ý tưởng của bạn │ │ │ │ [+] Nhận diện ảnh có [>] Tạo ảnh mới │ │ con chó hay không theo description │ │ │ │ [+] Dự đoán giá nhà [>] Viết báo cáo phân tích │ │ dựa trên dataset bất động sản │ │ │ │ [+] Recommend movie [>] Viết kịch bản phim │ │ dựa trên history theo thể loại bạn chọn │ │ │ └─────────────────────────────────────────────────────────────┘
Vì sao Generative AI khả thi NGAY BÂY GIỜ (không phải 10 năm trước)?
3 trụ cột công nghệ đến cùng lúc ~2017-2022:
Trụ cột 1: Kiến trúc Transformer (2017)
Trước Transformer, model xử lý câu từng từ một — chậm, dễ quên context. Transformer cho phép xử lý toàn bộ câu cùng lúc, hiểu được "từ này liên quan từ nào trong câu" qua cơ chế attention.
Đây là breakthrough thuật toán quan trọng nhất 50 năm AI. Gần như mọi LLM hiện đại đều dựa Transformer.
Trụ cột 2: Dữ liệu khổng lồ
Internet đến 2020 đã có:
Không có "kho bài học" này, model không có gì để học. Hệ quả: AI hôm nay biết nhiều thứ vì nó đã "đọc" gần hết Internet.
Trụ cột 3: Compute power
Train một model như Claude 4 cần chục nghìn GPU chạy nhiều tháng. Cost: hàng trăm triệu đô. Chỉ vài công ty trên thế giới đủ tài nguyên (Anthropic, OpenAI, Google, Meta, vài lab Trung Quốc).
Không có chip Nvidia, AMD MI300, TPU... model lớn không train được trong thời gian thực tế.
- Wikipedia toàn bộ
- Hàng triệu sách số hóa
- Hàng tỷ trang web
- Hàng tỷ dòng code public
┌─────────────────────────────────────┐
│ GENERATIVE AI HÔM NAY │
└──────────────┬──────────────────────┘
│
┌──────────────┼──────────────┐
▼ ▼ ▼
┌────────┐ ┌────────┐ ┌────────┐
│ KIẾN │ │ DỮ │ │ COMPUTE│
│ TRÚC │ │ LIỆU │ │ POWER │
├────────┤ ├────────┤ ├────────┤
│Trans- │ │Toàn bộ │ │GPU lớn │
│former │ │Internet│ │ + chip │
│(2017) │ │+ books │ │AI mới │
└────────┘ └────────┘ └────────┘LLM học thế nào? — 2 giai đoạn
Pre-training: "Đọc cả Internet"
Model nhận hàng tỷ ví dụ text. Mỗi ví dụ, task đơn giản đến ngạc nhiên: dự đoán từ tiếp theo.
Ví dụ: "Mèo ngồi trên ___" → model học "thảm" có xác suất cao, "tủ lạnh" thấp.
Lặp lại hàng nghìn tỷ lần → model dần hiểu:
Quan trọng: Pre-training KHÔNG dạy model "đáp ứng human request". Nó chỉ dạy model "biết ngôn ngữ + biết thế giới". Phase 2 mới dạy nó "cộng tác".
Fine-tuning: "Học cách làm helpful"
Trainer (người thật) tạo hàng chục nghìn ví dụ:
Model học: "Khi gặp instruction kiểu này, response kiểu kia tốt".
Sau đó RLHF (Reinforcement Learning from Human Feedback): trainer rate response của model (good/bad). Model điều chỉnh để response được rate tốt hơn.
Kết quả: model bây giờ biết:
Ghi chú quan trọng: Fine-tuning là cách Anthropic, OpenAI khác biệt nhau. Cùng base model có thể có "tính cách" rất khác sau fine-tuning.
- Ngữ pháp (chủ ngữ, động từ, tính từ)
- Ý nghĩa (thảm là vật để đặt trên sàn)
- Logic ("nếu... thì...")
- Kiến thức thế giới (Paris là thủ đô Pháp)
- Style (formal vs. casual)
- Follow instruction
- Tone helpful, không thô lỗ
- Từ chối yêu cầu hại (bom, malware)
- Acknowledge khi không biết (thay vì bịa — lý tưởng)
┌──────────────────────────────────────────────────────────────┐
│ │
│ GIAI ĐOẠN 1: PRE-TRAINING (đào tạo cơ bản) │
│ ───────────────────────────────────────── │
│ │
│ 📚 Input: Hàng tỷ ví dụ text từ Internet, sách, code │
│ ↓ │
│ 🎯 Task: "Predict từ tiếp theo trong câu" │
│ ↓ │
│ 📊 Result: Model hiểu pattern ngôn ngữ + thế giới │
│ ⏰ Time: Vài tuần đến vài tháng │
│ 💰 Cost: $10M - $500M │
│ │
└──────────────────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────┐
│ │
│ GIAI ĐOẠN 2: FINE-TUNING (đào tạo chuyên biệt) │
│ ──────────────────────────────────────────── │
│ │
│ 📚 Input: Vài chục nghìn ví dụ "chất lượng cao" │
│ từ trainer con người │
│ ↓ │
│ 🎯 Task: "Học cách phản hồi như human helpful" │
│ + RLHF (Reinforcement Learning từ feedback) │
│ ↓ │
│ 📊 Result: Model biết follow instruction, từ chối điều │
│ hại, response giống cộng sự thật │
│ ⏰ Time: Vài ngày đến vài tuần │
│ │
└──────────────────────────────────────────────────────────────┘Human: "Viết email xin nghỉ ốm cho sếp"
Helpful response: [email professional, ngắn gọn, đầy đủ]Khái niệm cốt lõi cần nắm
1. Token — đơn vị "từ" của LLM
Model không xử lý "từ" như con người. Nó xử lý token:
Quy tắc thực dụng: 1 token ≈ 0.75 từ tiếng Anh, ≈ 0.5 từ tiếng Việt.
2. Context window — "bộ nhớ ngắn hạn"
Khi vượt context window:
Hệ quả thực tế:
3. Knowledge cutoff — "đi tu trên núi"
Model được train với data tới một thời điểm cụ thể, sau đó stop. Đây là knowledge cutoff date.
Ví dụ minh họa (số cụ thể thay đổi theo phiên bản):
Hệ quả:
Analogy hay: Hình dung người đi tu trên núi không Internet 2 năm. Họ rất giỏi, biết nhiều — nhưng không biết bóng đá quốc gia nào vô địch World Cup vừa rồi. Cần Internet → cần tool search.
4. Hallucination — "nói chắc nhưng sai"
LLM tạo response bằng cách predict pattern — không phải "tra database". Nó không có "fact checker" tự nhiên.
Khi model thiếu thông tin nhưng vẫn cần response → có thể bịa với confidence cao:
Tại sao xảy ra:
Lưu ý: Model mới (Claude 4.x, GPT-5) có hallucination rate thấp hơn nhiều, nhưng chưa zero. Discernment vẫn cần thiết.
5. Non-determinism — "mỗi lần khác nhau"
Khác phần mềm truyền thống (input giống → output giống), LLM không deterministic by default.
Hỏi cùng một câu 3 lần → có thể nhận 3 phiên bản hơi khác nhau.
Tại sao:
Hệ quả thực tế:
6. Emergent capabilities — "biết những thứ chưa được dạy thẳng"
Khi scale model lớn lên (nhiều parameter, nhiều data), khả năng mới xuất hiện mà chưa từng được train trực tiếp:
Quan trọng: Đây là một trong những điều khiến AI khó đoán. Model GPT-3 không thể giải toán phức tạp. GPT-4 đột nhiên giỏi. Không ai dự đoán chính xác emergent capability sẽ xuất hiện ở scale nào.
7. Tools / Function calling — "tay chân"
Model hiện đại có thể gọi tools ngoài text generation:
Đây là cách model vượt limit "knowledge cutoff" và "không có tay chân".
- "the" = 1 token
- "tokenization" = thường 2-3 token
- "phantasmagorical" = nhiều token hơn
- "你好" (Chinese hello) = 2-3 token
- Tiếng Việt: thường 2-4 token cho 1 từ
- Model "quên" phần cũ (first-in, first-out)
- Conversation dài → đầu chat bị quên
- File rất lớn → không upload được, hoặc bị truncate
- Nếu cần xử lý sách 500 trang → cần model có context window đủ lớn (Claude, Gemini)
- Conversation kéo dài tuần → quên context cũ, cần "summary handoff"
- Đính kèm folder → tổng size phải fit window
- Claude (Opus/Sonnet thế hệ 4.x) cutoff thường vài tháng đến năm trước ngày release
- GPT-4o family cutoff khác nhau theo bản (Oct 2023, April 2024, ...)
- Cách check chính xác: hỏi thẳng model "What's your knowledge cutoff?" hoặc xem model card vendor
- Hỏi sự kiện sau cutoff → model không biết (nên thừa nhận, nhưng đôi khi bịa)
- Cần thông tin mới → bắt buộc model dùng web search tool
- Bịa citation paper không tồn tại
- Bịa case law không có
- Bịa số liệu thống kê
- Bịa trang web URL
- Training data có pattern "khi câu hỏi kiểu này, response kiểu kia"
- Model ưu tiên response fluent hơn response "tôi không biết"
- Đặc biệt với task chuyên ngành — nơi training data thiếu
- Model predict next token bằng xác suất (ví dụ: 70% "thảm", 20% "ghế", 10% "sàn")
- Có "random seed" + setting temperature quyết định độ ngẫu nhiên
- Temperature cao → creative, đa dạng
- Temperature thấp (gần 0) → consistent, deterministic hơn
- Brainstorm: temperature cao (hữu ích — đa dạng ý tưởng)
- Code/math: temperature thấp (hữu ích — consistent)
- Production system: cần handle variability
- Multi-step reasoning
- Code generation
- Translation between languages chưa từng được pair lên cùng nhau
- Few-shot learning (học từ vài ví dụ)
- Web search
- Code execution
- File read/write
- Database query
- API calls
- MCP (Model Context Protocol) — chuẩn mở cho phép connect AI tới mọi system
┌─────────────────────────────────────────────────┐ │ │ │ CONTEXT WINDOW │ │ ┌───────────────────────────────────────────┐ │ │ │ │ │ │ │ System prompt + Conversation history │ │ │ │ + Files attached + Current message │ │ │ │ │ │ │ │ ◄────────── ALL FITS HERE ──────────► │ │ │ │ │ │ │ └───────────────────────────────────────────┘ │ │ │ │ Một số model: │ │ - GPT-3.5: ~4K token (~3K từ) │ │ - GPT-4: 8K-128K (6K-100K từ) │ │ - Claude 3: 200K (~150K từ) │ │ - Claude 4: 200K-1M (~750K từ) │ │ - Gemini 1.5: 1M-2M (~1.5M từ) │ │ │ └─────────────────────────────────────────────────┘
So sánh các loại model — minh họa metric
Quy tắc thực dụng: Đừng nhớ con số cụ thể. Nhớ dimension so sánh. Khi cần chọn model cho task mới, check 6-7 dimension này từ vendor docs hiện tại.
| Tiêu chí | Mô tả | Ví dụ giá trị thường gặp |
|---|---|---|
| Provider | Ai build model | Anthropic, OpenAI, Google, Meta, Mistral, xAI |
| Context window | Bộ nhớ ngắn hạn | 8K → 200K → 1M+ token |
| Knowledge cutoff | Ngày data train dừng | Vài tháng trước hoặc cũ hơn |
| Tool use | Hỗ trợ web/code/file | Excellent / Good / Variable |
| Multimodal | Vision/audio/video | Text-only hoặc full multimodal |
| Strength chính | Mạnh nhất ở đâu | Reasoning / Coding / Writing / Long-context |
| Cost | Pricing per token | $/1M token input/output |
| Privacy tier | Free vs Pro vs Enterprise | Data có dùng train không? |
Vì sao kiến thức này quan trọng cho 4D?
→ Cải thiện Delegation
Hiểu năng lực model → biết task nào nên giao:
→ Cải thiện Description
Hiểu tokenization → biết prompt dài tốn cost Hiểu context window → biết khi nào cần "summarize and start new chat"
→ Cải thiện Discernment
Hiểu hallucination → cross-check fact, đặc biệt với citation/số Hiểu non-determinism → không tin output đầu tiên là "best", thử lại 1-2 lần
→ Cải thiện Diligence
Hiểu cách model train (Internet data) → cẩn thận với bias inherent Hiểu data flow (input model có thể thành training data tương lai) → privacy decision
- Task cần kiến thức rất mới → giao model có web search
- Task cần xử lý 500 trang → chọn model context window lớn
- Task cần consistency cao → chọn temperature thấp
Ví dụ theo ngành — Kiến thức kỹ thuật giúp gì
💼 Marketing Analyst
Tình huống: Phân tích 200 review khách hàng trên Amazon.
Kiến thức kỹ thuật giúp:
🔍 Research Analyst (Pharma)
Tình huống: Tìm paper về drug interaction mới phát hiện 6 tháng qua.
Kiến thức:
💰 Finance Analyst
Tình huống: Build Excel dashboard từ 10 quarter data.
Kiến thức:
⚖️ Legal
Tình huống: Review 50-page contract.
Kiến thức:
- Tổng số ký tự ≈ 50K token → fit Claude/GPT/Gemini context window
- Vì là task pattern detection → temperature thấp (consistent)
- Vì có thể bias (Amazon review skew positive) → cần Discernment + cross-source
- Knowledge cutoff cũ hơn 6 tháng → bắt buộc dùng web search tool
- Citation cần verify thủ công (hallucination risk cao trong scientific domain)
- Có thể cần model có tool execute code (tính lại stats)
- Excel/spreadsheet → cần model có code execution (Claude với Python tools, GPT-4 Code Interpreter)
- Số liệu sensitive → cần model với data retention policy (Claude Enterprise, ChatGPT Enterprise)
- Real-time → cần MCP tích hợp với data source
- 50 page ≈ 30K token → fit hầu hết model
- Hallucination risk cao (bịa case law) → MUST verify mọi citation
- Confidentiality → KHÔNG dùng free tier (data có thể train); dùng enterprise
Anti-patterns
❌ "Model X tốt hơn Model Y, dùng X mọi lúc"
Sai vì: Model có strength khác nhau cho task khác nhau. Claude tốt code/reasoning, Gemini tốt long context multimodal, GPT tốt image gen.
Đúng: Maintain 2-3 tool, chọn theo task.
❌ "Tăng temperature lên cho creative hơn"
Sai vì: Temperature cao → creative nhưng cũng hallucinate nhiều hơn.
Đúng: Temperature high cho brainstorming task tolerate variability. Low cho code/fact/analysis.
❌ "Context window 1M nên upload mọi thứ"
Sai vì: Model attention không đều across context. Thông tin ở giữa long context dễ bị "lost in the middle". Cost cũng cao.
Đúng: Filter trước, chỉ upload cái relevant. Test xem model có "thấy" được thông tin sâu không.
❌ "Model bịa = model hỏng"
Sai vì: Hallucination là property fundamental của LLM. Sẽ luôn có rate > 0%.
Đúng: Build Discernment as standard practice. Dùng tool (web search, code exec) để ground response vào reality.
Mẹo nâng cao
💡 Mẹo 1: Test "knowledge cutoff" của model
Hỏi: "What's today's date and what's your knowledge cutoff?". Note câu trả lời. Khi cần thông tin sau cutoff, kích hoạt web search.
💡 Mẹo 2: Theo dõi anthropic.com/news + openai.com/blog
Model upgrade mỗi vài tháng. Không cần đọc paper — chỉ cần biết "model mới ra, có capability gì mới". 5 phút mỗi tuần đủ stay informed.
💡 Mẹo 3: Hiểu pricing tier
Free tier thường:
Paid tier:
Quyết định tier dựa trên: data sensitivity + task complexity + frequency.
- Cap số message/ngày
- Model nhỏ hơn (Haiku vs. Opus)
- Có thể dùng data train
- Model lớn nhất
- Tools (web, code, files)
- Privacy guarantees
Áp dụng ngay
Bài tập 1: Tự test capability của AI bạn dùng (15 phút)
Bước 1: Mở Claude (hoặc AI bạn dùng).
Bước 2: Test 5 capability:
Bước 3: Note kết quả. Đây là baseline understanding của tool bạn dùng.
Bài tập 2: Reflection (10 phút)
Trả lời (notebook hoặc note app):
- Hiểu biết kỹ thuật về Gen AI có thay đổi cách bạn nghĩ về dùng AI thế nào?
- Concept nào ngạc nhiên nhất với bạn? (Hallucination? Non-determinism? Token?)
- Ethical consideration nào nảy ra sau khi hiểu cách model train?
| Test | Prompt | Kết quả |
|---|---|---|
| Knowledge cutoff | "What's your knowledge cutoff date?" | ___ |
| Hallucination tendency | "Cite 3 academic papers about [chủ đề rất hẹp]" — search xem có thật không | ___ |
| Long context | Upload 1 file dài + hỏi về câu cuối file | ___ |
| Tool availability | "Can you search the web?" "Can you run Python?" | ___ |
| Non-determinism | Ask cùng câu 3 lần (start chat mới) — compare | ___ |
Tóm tắt bài học
🎯 Generative AI tạo nội dung mới, khác AI truyền thống chỉ phân tích — LLM (Claude, GPT, Gemini) là dạng Gen AI text
🎯 3 trụ cột: Transformer architecture (2017), dữ liệu Internet, compute power — đến cùng lúc → bùng nổ
🎯 2 giai đoạn học: Pre-training (đọc Internet) + Fine-tuning (học helpful từ trainer human + RLHF)
🎯 Khái niệm cốt lõi: token, context window, knowledge cutoff, hallucination, non-determinism, emergent capability, tools
🎯 Hiểu kỹ thuật giúp 4D mạnh hơn — chọn model đúng (Delegation), prompt hiệu quả (Description), nghi ngờ đúng chỗ (Discernment), bảo vệ data (Diligence)
- Overview of Generative AI handout
- Tracing the thoughts of a large language model — Anthropic Research — Đào sâu cách model "nghĩ"
- Attention is All You Need (2017) — Paper gốc về Transformer (cho ai muốn dive deep)