Cơ bản về Generative AI — Hiểu cái máy bạn đang dùng — AI Fluency: Khung & Nền tảng

Bạn lái xe nhiều năm có thể không biết động cơ vận hành ra sao. Vẫn lái tốt.

Bạn sẽ học được

Định nghĩa Generative AI và phân biệt với các loại AI khác
Giải thích 3 trụ cột công nghệ làm Gen AI khả thi: kiến trúc, dữ liệu, compute
Mô tả cơ chế học của LLM qua 2 giai đoạn: pre-training và fine-tuning
Hiểu khái niệm context window, knowledge cutoff, emergent capability
Sử dụng kiến thức kỹ thuật này để strengthen Delegation và Diligence

Generative AI là gì?

Định nghĩa ngắn

Phân biệt với các loại AI khác

AI truyền thống làm 1 việc tốt (classification, prediction). Generative AI làm nhiều việc — vì nó "tạo" thay vì "phân tích".

LLM (Large Language Model) như Claude, GPT, Gemini là loại Gen AI chuyên về text (và bây giờ thêm image/audio/video qua multimodal).

┌─────────────────────────────────────────────────────────────┐
│                                                             │
│   AI TRUYỀN THỐNG          GENERATIVE AI                    │
│   ─────────────────        ──────────────                   │
│                                                             │
│   [+] Phân loại email      [>] Viết email mới               │
│       spam vs. không spam      từ ý tưởng của bạn           │
│                                                             │
│   [+] Nhận diện ảnh có     [>] Tạo ảnh mới                  │
│       con chó hay không        theo description             │
│                                                             │
│   [+] Dự đoán giá nhà      [>] Viết báo cáo phân tích       │
│       dựa trên dataset         bất động sản                 │
│                                                             │
│   [+] Recommend movie      [>] Viết kịch bản phim           │
│       dựa trên history         theo thể loại bạn chọn       │
│                                                             │
└─────────────────────────────────────────────────────────────┘

Vì sao Generative AI khả thi NGAY BÂY GIỜ (không phải 10 năm trước)?

3 trụ cột công nghệ đến cùng lúc ~2017-2022:

Trụ cột 1: Kiến trúc Transformer (2017)

Trước Transformer, model xử lý câu từng từ một — chậm, dễ quên context. Transformer cho phép xử lý toàn bộ câu cùng lúc, hiểu được "từ này liên quan từ nào trong câu" qua cơ chế attention.

Đây là breakthrough thuật toán quan trọng nhất 50 năm AI. Gần như mọi LLM hiện đại đều dựa Transformer.

Trụ cột 2: Dữ liệu khổng lồ

Internet đến 2020 đã có:

Không có "kho bài học" này, model không có gì để học. Hệ quả: AI hôm nay biết nhiều thứ vì nó đã "đọc" gần hết Internet.

Trụ cột 3: Compute power

Train một model như Claude 4 cần chục nghìn GPU chạy nhiều tháng. Cost: hàng trăm triệu đô. Chỉ vài công ty trên thế giới đủ tài nguyên (Anthropic, OpenAI, Google, Meta, vài lab Trung Quốc).

Không có chip Nvidia, AMD MI300, TPU... model lớn không train được trong thời gian thực tế.

Wikipedia toàn bộ
Hàng triệu sách số hóa
Hàng tỷ trang web
Hàng tỷ dòng code public

            ┌─────────────────────────────────────┐
            │      GENERATIVE AI HÔM NAY          │
            └──────────────┬──────────────────────┘
                           │
            ┌──────────────┼──────────────┐
            ▼              ▼              ▼
        ┌────────┐    ┌────────┐    ┌────────┐
        │ KIẾN   │    │ DỮ     │    │ COMPUTE│
        │ TRÚC   │    │ LIỆU   │    │ POWER  │
        ├────────┤    ├────────┤    ├────────┤
        │Trans-  │    │Toàn bộ │    │GPU lớn │
        │former  │    │Internet│    │ + chip │
        │(2017)  │    │+ books │    │AI mới  │
        └────────┘    └────────┘    └────────┘

LLM học thế nào? — 2 giai đoạn

Pre-training: "Đọc cả Internet"

Model nhận hàng tỷ ví dụ text. Mỗi ví dụ, task đơn giản đến ngạc nhiên: dự đoán từ tiếp theo.

Ví dụ: "Mèo ngồi trên ___" → model học "thảm" có xác suất cao, "tủ lạnh" thấp.

Lặp lại hàng nghìn tỷ lần → model dần hiểu:

Quan trọng: Pre-training KHÔNG dạy model "đáp ứng human request". Nó chỉ dạy model "biết ngôn ngữ + biết thế giới". Phase 2 mới dạy nó "cộng tác".

Fine-tuning: "Học cách làm helpful"

Trainer (người thật) tạo hàng chục nghìn ví dụ:

Model học: "Khi gặp instruction kiểu này, response kiểu kia tốt".

Sau đó RLHF (Reinforcement Learning from Human Feedback): trainer rate response của model (good/bad). Model điều chỉnh để response được rate tốt hơn.

Kết quả: model bây giờ biết:

Ghi chú quan trọng: Fine-tuning là cách Anthropic, OpenAI khác biệt nhau. Cùng base model có thể có "tính cách" rất khác sau fine-tuning.

Ngữ pháp (chủ ngữ, động từ, tính từ)
Ý nghĩa (thảm là vật để đặt trên sàn)
Logic ("nếu... thì...")
Kiến thức thế giới (Paris là thủ đô Pháp)
Style (formal vs. casual)
Follow instruction
Tone helpful, không thô lỗ
Từ chối yêu cầu hại (bom, malware)
Acknowledge khi không biết (thay vì bịa — lý tưởng)

┌──────────────────────────────────────────────────────────────┐
│                                                              │
│   GIAI ĐOẠN 1: PRE-TRAINING (đào tạo cơ bản)                 │
│   ─────────────────────────────────────────                  │
│                                                              │
│   📚 Input:  Hàng tỷ ví dụ text từ Internet, sách, code      │
│              ↓                                               │
│   🎯 Task:   "Predict từ tiếp theo trong câu"                │
│              ↓                                               │
│   📊 Result: Model hiểu pattern ngôn ngữ + thế giới          │
│   ⏰ Time:    Vài tuần đến vài tháng                          │
│   💰 Cost:    $10M - $500M                                    │
│                                                              │
└──────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌──────────────────────────────────────────────────────────────┐
│                                                              │
│   GIAI ĐOẠN 2: FINE-TUNING (đào tạo chuyên biệt)             │
│   ────────────────────────────────────────────               │
│                                                              │
│   📚 Input:  Vài chục nghìn ví dụ "chất lượng cao"           │
│              từ trainer con người                            │
│              ↓                                               │
│   🎯 Task:   "Học cách phản hồi như human helpful"           │
│              + RLHF (Reinforcement Learning từ feedback)     │
│              ↓                                               │
│   📊 Result: Model biết follow instruction, từ chối điều      │
│              hại, response giống cộng sự thật                │
│   ⏰ Time:    Vài ngày đến vài tuần                           │
│                                                              │
└──────────────────────────────────────────────────────────────┘

Human: "Viết email xin nghỉ ốm cho sếp"
Helpful response: [email professional, ngắn gọn, đầy đủ]

Khái niệm cốt lõi cần nắm

1. Token — đơn vị "từ" của LLM

Model không xử lý "từ" như con người. Nó xử lý token:

Quy tắc thực dụng: 1 token ≈ 0.75 từ tiếng Anh, ≈ 0.5 từ tiếng Việt.

2. Context window — "bộ nhớ ngắn hạn"

Khi vượt context window:

Hệ quả thực tế:

3. Knowledge cutoff — "đi tu trên núi"

Model được train với data tới một thời điểm cụ thể, sau đó stop. Đây là knowledge cutoff date.

Ví dụ minh họa (số cụ thể thay đổi theo phiên bản):

Hệ quả:

Analogy hay: Hình dung người đi tu trên núi không Internet 2 năm. Họ rất giỏi, biết nhiều — nhưng không biết bóng đá quốc gia nào vô địch World Cup vừa rồi. Cần Internet → cần tool search.

4. Hallucination — "nói chắc nhưng sai"

LLM tạo response bằng cách predict pattern — không phải "tra database". Nó không có "fact checker" tự nhiên.

Khi model thiếu thông tin nhưng vẫn cần response → có thể bịa với confidence cao:

Tại sao xảy ra:

Lưu ý: Model mới (Claude 4.x, GPT-5) có hallucination rate thấp hơn nhiều, nhưng chưa zero. Discernment vẫn cần thiết.

5. Non-determinism — "mỗi lần khác nhau"

Khác phần mềm truyền thống (input giống → output giống), LLM không deterministic by default.

Hỏi cùng một câu 3 lần → có thể nhận 3 phiên bản hơi khác nhau.

Tại sao:

Hệ quả thực tế:

6. Emergent capabilities — "biết những thứ chưa được dạy thẳng"

Khi scale model lớn lên (nhiều parameter, nhiều data), khả năng mới xuất hiện mà chưa từng được train trực tiếp:

Quan trọng: Đây là một trong những điều khiến AI khó đoán. Model GPT-3 không thể giải toán phức tạp. GPT-4 đột nhiên giỏi. Không ai dự đoán chính xác emergent capability sẽ xuất hiện ở scale nào.

7. Tools / Function calling — "tay chân"

Model hiện đại có thể gọi tools ngoài text generation:

Đây là cách model vượt limit "knowledge cutoff" và "không có tay chân".

"the" = 1 token
"tokenization" = thường 2-3 token
"phantasmagorical" = nhiều token hơn
"你好" (Chinese hello) = 2-3 token
Tiếng Việt: thường 2-4 token cho 1 từ
Model "quên" phần cũ (first-in, first-out)
Conversation dài → đầu chat bị quên
File rất lớn → không upload được, hoặc bị truncate
Nếu cần xử lý sách 500 trang → cần model có context window đủ lớn (Claude, Gemini)
Conversation kéo dài tuần → quên context cũ, cần "summary handoff"
Đính kèm folder → tổng size phải fit window
Claude (Opus/Sonnet thế hệ 4.x) cutoff thường vài tháng đến năm trước ngày release
GPT-4o family cutoff khác nhau theo bản (Oct 2023, April 2024, ...)
Cách check chính xác: hỏi thẳng model "What's your knowledge cutoff?" hoặc xem model card vendor
Hỏi sự kiện sau cutoff → model không biết (nên thừa nhận, nhưng đôi khi bịa)
Cần thông tin mới → bắt buộc model dùng web search tool
Bịa citation paper không tồn tại
Bịa case law không có
Bịa số liệu thống kê
Bịa trang web URL
Training data có pattern "khi câu hỏi kiểu này, response kiểu kia"
Model ưu tiên response fluent hơn response "tôi không biết"
Đặc biệt với task chuyên ngành — nơi training data thiếu
Model predict next token bằng xác suất (ví dụ: 70% "thảm", 20% "ghế", 10% "sàn")
Có "random seed" + setting temperature quyết định độ ngẫu nhiên
Temperature cao → creative, đa dạng
Temperature thấp (gần 0) → consistent, deterministic hơn
Brainstorm: temperature cao (hữu ích — đa dạng ý tưởng)
Code/math: temperature thấp (hữu ích — consistent)
Production system: cần handle variability
Multi-step reasoning
Code generation
Translation between languages chưa từng được pair lên cùng nhau
Few-shot learning (học từ vài ví dụ)
Web search
Code execution
File read/write
Database query
API calls
MCP (Model Context Protocol) — chuẩn mở cho phép connect AI tới mọi system

┌─────────────────────────────────────────────────┐
│                                                 │
│              CONTEXT WINDOW                     │
│  ┌───────────────────────────────────────────┐  │
│  │                                           │  │
│  │   System prompt + Conversation history    │  │
│  │   + Files attached + Current message      │  │
│  │                                           │  │
│  │   ◄────────── ALL FITS HERE ──────────►   │  │
│  │                                           │  │
│  └───────────────────────────────────────────┘  │
│                                                 │
│   Một số model:                                 │
│   - GPT-3.5:    ~4K token    (~3K từ)          │
│   - GPT-4:      8K-128K      (6K-100K từ)      │
│   - Claude 3:   200K         (~150K từ)        │
│   - Claude 4:   200K-1M      (~750K từ)        │
│   - Gemini 1.5: 1M-2M        (~1.5M từ)        │
│                                                 │
└─────────────────────────────────────────────────┘

So sánh các loại model — minh họa metric

Quy tắc thực dụng: Đừng nhớ con số cụ thể. Nhớ dimension so sánh. Khi cần chọn model cho task mới, check 6-7 dimension này từ vendor docs hiện tại.

Tiêu chí	Mô tả	Ví dụ giá trị thường gặp
Provider	Ai build model	Anthropic, OpenAI, Google, Meta, Mistral, xAI
Context window	Bộ nhớ ngắn hạn	8K → 200K → 1M+ token
Knowledge cutoff	Ngày data train dừng	Vài tháng trước hoặc cũ hơn
Tool use	Hỗ trợ web/code/file	Excellent / Good / Variable
Multimodal	Vision/audio/video	Text-only hoặc full multimodal
Strength chính	Mạnh nhất ở đâu	Reasoning / Coding / Writing / Long-context
Cost	Pricing per token	$/1M token input/output
Privacy tier	Free vs Pro vs Enterprise	Data có dùng train không?

Vì sao kiến thức này quan trọng cho 4D?

→ Cải thiện Delegation

Hiểu năng lực model → biết task nào nên giao:

→ Cải thiện Description

Hiểu tokenization → biết prompt dài tốn cost Hiểu context window → biết khi nào cần "summarize and start new chat"

→ Cải thiện Discernment

Hiểu hallucination → cross-check fact, đặc biệt với citation/số Hiểu non-determinism → không tin output đầu tiên là "best", thử lại 1-2 lần

→ Cải thiện Diligence

Hiểu cách model train (Internet data) → cẩn thận với bias inherent Hiểu data flow (input model có thể thành training data tương lai) → privacy decision

Task cần kiến thức rất mới → giao model có web search
Task cần xử lý 500 trang → chọn model context window lớn
Task cần consistency cao → chọn temperature thấp

Ví dụ theo ngành — Kiến thức kỹ thuật giúp gì

💼 Marketing Analyst

Tình huống: Phân tích 200 review khách hàng trên Amazon.

Kiến thức kỹ thuật giúp:

🔍 Research Analyst (Pharma)

Tình huống: Tìm paper về drug interaction mới phát hiện 6 tháng qua.

Kiến thức:

💰 Finance Analyst

Tình huống: Build Excel dashboard từ 10 quarter data.

Kiến thức:

⚖️ Legal

Tình huống: Review 50-page contract.

Kiến thức:

Tổng số ký tự ≈ 50K token → fit Claude/GPT/Gemini context window
Vì là task pattern detection → temperature thấp (consistent)
Vì có thể bias (Amazon review skew positive) → cần Discernment + cross-source
Knowledge cutoff cũ hơn 6 tháng → bắt buộc dùng web search tool
Citation cần verify thủ công (hallucination risk cao trong scientific domain)
Có thể cần model có tool execute code (tính lại stats)
Excel/spreadsheet → cần model có code execution (Claude với Python tools, GPT-4 Code Interpreter)
Số liệu sensitive → cần model với data retention policy (Claude Enterprise, ChatGPT Enterprise)
Real-time → cần MCP tích hợp với data source
50 page ≈ 30K token → fit hầu hết model
Hallucination risk cao (bịa case law) → MUST verify mọi citation
Confidentiality → KHÔNG dùng free tier (data có thể train); dùng enterprise

Anti-patterns

❌ "Model X tốt hơn Model Y, dùng X mọi lúc"

Sai vì: Model có strength khác nhau cho task khác nhau. Claude tốt code/reasoning, Gemini tốt long context multimodal, GPT tốt image gen.

Đúng: Maintain 2-3 tool, chọn theo task.

❌ "Tăng temperature lên cho creative hơn"

Sai vì: Temperature cao → creative nhưng cũng hallucinate nhiều hơn.

Đúng: Temperature high cho brainstorming task tolerate variability. Low cho code/fact/analysis.

❌ "Context window 1M nên upload mọi thứ"

Sai vì: Model attention không đều across context. Thông tin ở giữa long context dễ bị "lost in the middle". Cost cũng cao.

Đúng: Filter trước, chỉ upload cái relevant. Test xem model có "thấy" được thông tin sâu không.

❌ "Model bịa = model hỏng"

Sai vì: Hallucination là property fundamental của LLM. Sẽ luôn có rate > 0%.

Đúng: Build Discernment as standard practice. Dùng tool (web search, code exec) để ground response vào reality.

Mẹo nâng cao

💡 Mẹo 1: Test "knowledge cutoff" của model

Hỏi: "What's today's date and what's your knowledge cutoff?". Note câu trả lời. Khi cần thông tin sau cutoff, kích hoạt web search.

💡 Mẹo 2: Theo dõi anthropic.com/news + openai.com/blog

Model upgrade mỗi vài tháng. Không cần đọc paper — chỉ cần biết "model mới ra, có capability gì mới". 5 phút mỗi tuần đủ stay informed.

💡 Mẹo 3: Hiểu pricing tier

Free tier thường:

Paid tier:

Quyết định tier dựa trên: data sensitivity + task complexity + frequency.

Cap số message/ngày
Model nhỏ hơn (Haiku vs. Opus)
Có thể dùng data train
Model lớn nhất
Tools (web, code, files)
Privacy guarantees

Áp dụng ngay

Bài tập 1: Tự test capability của AI bạn dùng (15 phút)

Bước 1: Mở Claude (hoặc AI bạn dùng).

Bước 2: Test 5 capability:

Bước 3: Note kết quả. Đây là baseline understanding của tool bạn dùng.

Bài tập 2: Reflection (10 phút)

Trả lời (notebook hoặc note app):

Hiểu biết kỹ thuật về Gen AI có thay đổi cách bạn nghĩ về dùng AI thế nào?
Concept nào ngạc nhiên nhất với bạn? (Hallucination? Non-determinism? Token?)
Ethical consideration nào nảy ra sau khi hiểu cách model train?

Test	Prompt	Kết quả
Knowledge cutoff	"What's your knowledge cutoff date?"	___
Hallucination tendency	"Cite 3 academic papers about [chủ đề rất hẹp]" — search xem có thật không	___
Long context	Upload 1 file dài + hỏi về câu cuối file	___
Tool availability	"Can you search the web?" "Can you run Python?"	___
Non-determinism	Ask cùng câu 3 lần (start chat mới) — compare	___

Tóm tắt bài học

🎯 Generative AI tạo nội dung mới, khác AI truyền thống chỉ phân tích — LLM (Claude, GPT, Gemini) là dạng Gen AI text

🎯 3 trụ cột: Transformer architecture (2017), dữ liệu Internet, compute power — đến cùng lúc → bùng nổ

🎯 2 giai đoạn học: Pre-training (đọc Internet) + Fine-tuning (học helpful từ trainer human + RLHF)

🎯 Khái niệm cốt lõi: token, context window, knowledge cutoff, hallucination, non-determinism, emergent capability, tools

🎯 Hiểu kỹ thuật giúp 4D mạnh hơn — chọn model đúng (Delegation), prompt hiệu quả (Description), nghi ngờ đúng chỗ (Discernment), bảo vệ data (Diligence)

Tài liệu tham khảo

Overview of Generative AI handout
Tracing the thoughts of a large language model — Anthropic Research — Đào sâu cách model "nghĩ"
Attention is All You Need (2017) — Paper gốc về Transformer (cho ai muốn dive deep)

Nội dung này có hữu ích không?