Từ chatbot đến agent tự vận hành: 6 nấc thang dùng AI mà 95% người Việt chưa biết

Ở bài trước, tôi kể chuyện mình thức đến 4 giờ sáng để bắt AI làm ra một sản phẩm thật, và cái kết luận tôi rút ra là: phần lớn chúng ta đang dậm chân ở nấc thấp nhất của việc dùng AI mà không biết.

Bài này tôi vẽ cả chiếc thang ra cho bạn nhìn.

Tôi gọi nó là các nấc thang dùng AI. Bản đồ này không phải tôi đọc đâu đó rồi chép lại. Nó là thứ tôi đúc ra từ chính công việc kỹ sư của mình, cộng với mấy năm theo dõi sát cộng đồng developer thế giới — họ thử cái gì, vấp ở đâu, rồi bước tiếp ra sao. Có một logic xuyên suốt mà tôi muốn bạn nắm trước khi đọc từng nấc: mỗi nấc thang sinh ra để gỡ đúng một chỗ tắc của nấc ngay dưới nó. Hiểu được chuỗi tắc nghẽn đó, bạn sẽ thôi vật lộn với câu hỏi quen thuộc “sao AI làm hoài mà chưa đúng ý”. Bạn biết mình đang kẹt ở đâu, và cần leo lên đâu.

Nấc 1 — Chatbot, mốc 2022

Khởi đầu của mọi thứ. Bạn gõ một câu, mô hình ngôn ngữ lớn trả lời. Xong.

Bản chất ở đây là hỏi đáp rời rạc. Mỗi câu hỏi là một vũ trụ tách biệt, không quá khứ, không dự án. Tra cứu thì tốt, viết nháp được, brainstorm cũng ổn. Nhưng nó không “làm” gì cho bạn cả, nó chỉ “nói”.

Bạn nhận ra mình đang ở đây nếu thói quen của bạn là: mở AI lên, hỏi, copy câu trả lời, tắt. Và cái đẩy bạn lên nấc sau chính là điểm yếu chí mạng của nó: hết phiên là quên sạch.

Nấc 2 — Memory, hay bộ nhớ phiên

Để gỡ chuyện “quên”, người ta gắn memory vào AI. Con chat bắt đầu nhớ những lần trò chuyện trước, tự gom lại thành một bộ ký ức về bạn, và bộ ký ức đó dày dần lên. Sáng nào bạn cũng không phải tự giới thiệu lại từ đầu nữa.

Đây là chỗ tôi dùng phép so sánh duy nhất trong cả bài, vì nó đắt: nấc 1 giống một người lạ tốt bụng trả lời giúp bạn một câu hỏi rồi đường ai nấy đi. Nấc 2 là một trợ lý đã làm cùng bạn được vài tháng, biết bạn hay cần gì, quen cách bạn nói.

Nhưng nó dừng ở đó. Nó hiểu con người bạn, mà chưa hiểu công việc cụ thể bạn đang phải xử lý hôm nay. Cho nên câu trả lời vẫn lệch. Bạn cần một cách chủ động hơn để nhồi bối cảnh vào.

Nấc 3 — Context Engineering, 2024 đến 2025

Đây là quãng cộng đồng kỹ sư sôi lên với một khái niệm: context engineering. Thay vì để AI đoán mò, bạn chủ động dựng sẵn một bộ ngữ cảnh và đưa cho nó: đang làm việc gì, quanh đó có dữ liệu và công cụ nào, ràng buộc ra sao, đầu ra muốn thế nào.

Đi kèm là một ý mà tôi thấy then chốt. Nếu coi AI là một bộ não, thì nó cần tay chân mới làm được việc. Tay chân đó hiện thực hoá bằng MCP server, một chuẩn giao tiếp giữa AI và công cụ bên ngoài, do Anthropic công bố năm 2024 và giờ đã nằm trong rất nhiều phần mềm. Nhờ MCP, AI thôi chỉ “nói”: nó đọc được file của bạn, gọi API, gửi tin nhắn, thao tác thẳng trên ứng dụng.

Ở nấc này bạn không còn chỉ chat. Bạn dựng bối cảnh trước, nối AI vào công cụ qua MCP, để nó thật sự làm. Cái tắc xuất hiện khi dự án phình to: lượng ngữ cảnh vượt quá sức chứa của AI.

Nấc 4 — Tổ chức context như một cuốn Wiki

Mô hình nào cũng có cửa sổ ngữ cảnh hữu hạn, tức là lượng dữ liệu tối đa bạn nạp được trong một lần. Hiện tại con số rơi vào khoảng 256 nghìn đến 1 triệu token tuỳ model. ChatGPT cỡ 256k; Opus 4.8 cỡ 1 triệu; Gemini Pro thì đã 1 triệu từ mấy năm trước. Nghe to, nhưng làm dự án thật bạn vẫn không nhét hết được vào một lần.

Lối ra là tổ chức ngữ cảnh có cấu trúc, đúng kiểu Wikipedia. Trên Wikipedia mỗi mẩu thông tin được tách thành một thực thể nhỏ nhất (ngọn núi này tên gì, dòng sông kia ở đâu, CPU là cái gì), rồi các thực thể link sang nhau. Giải thích “máy tính” thì nó dẫn sang RAM, ổ cứng, CPU; giải thích RAM lại dẫn tiếp sang chip nhớ. Thành một mạng lưới các nút và các cạnh nối.

Dữ liệu xếp kiểu đó thì khi cần xử lý một khái niệm, AI chỉ kéo đúng phần liên quan, không lôi theo cả đống thông tin vô can. Context bị gò lại trong sức chứa của AI, và nó làm việc gọn hơn hẳn. Tiện thể: đây cũng chính là nguyên lý “bộ não thứ 2” tôi đang dùng để quản trị tri thức cá nhân.

Vẫn còn một chỗ chưa ổn. Context đã gọn rồi, nhưng AI vẫn hay “làm một phát cho xong”, và sản phẩm ra thường hời hợt.

Nấc 5 — Harness, 2025

Đây là khúc ngoặt. Tôi sẽ để hẳn bài sau nói cho kỹ, ở đây tôi tóm: harness (Anthropic đưa ra cùng Claude Code) là một bộ khung cộng một bộ quy tắc, ép agent đi theo quy trình làm phần mềm tử tế. Thiết kế trước, làm từng phần, viết test, nghiệm thu. Thay vì nhảy cóc từ ý tưởng sang code lộn xộn.

Nói cho dễ hình dung: tới nấc 5 là lúc bạn ngừng giao việc cho một anh thợ làm ẩu một phát ăn ngay, và bắt đầu giao cho một đội kỹ sư có quy trình.

Chỗ chưa tới: con người vẫn phải đứng cạnh, vẫn phải nhúng tay vào khá nhiều.

Nấc 6 — Loops, giữa 2026

Nấc cao nhất tới lúc này. Câu hỏi của nó là: liệu con người có cần can thiệp liên tục không, hay ta chỉ đưa cho AI cái tiêu chí thế nào là đạt, thế nào là chưa, rồi để nó tự chạy vòng, tự học, tự sửa cho đến khi ra đúng sản phẩm? Đó là loops. Nó mạnh kinh khủng. Nhưng nó ngốn token gần như không đáy, nên hiện giờ chủ yếu vẫn là sân của mấy “tay to” trong các công ty lớn.

Bạn đang đứng ở nấc nào

Nấc	Bạn nhận ra mình nếu…
1 · Chatbot	Mở ra hỏi rồi tắt, mỗi lần một câu lẻ
2 · Memory	Để AI nhớ bạn, nhưng vẫn thấy “chưa đúng ý”
3 · Context Engineering	Chủ động dựng ngữ cảnh, nối công cụ qua MCP
4 · Wiki	Tổ chức tri thức có cấu trúc cho AI dùng
5 · Harness	Ép AI theo quy trình để ra sản phẩm thật
6 · Loops	Để AI tự hoàn thiện theo tiêu chí bạn đặt

Vì sao đa số mãi kẹt ở nấc 1 và 2

Không phải vì họ kém. Mà vì mỗi lần lên một nấc là phải nuốt thêm một khái niệm nghe rất “dân kỹ thuật”: context, MCP, harness, loop. Người ta nhìn vào, thấy rối, rồi rút về vùng an toàn quen thuộc là mở ra, hỏi, tắt. Họ dừng đúng ngay trước chỗ mà giá trị thật mới bắt đầu.

Phần tôi muốn bạn nhớ: cú nhảy giá trị lớn nhất nằm ở nấc 5, harness. Và bạn không bắt buộc phải là kỹ sư để bước lên đó, miễn có người dựng sẵn cái khung cho bạn. Còn agentic AI là gì, hỏi cho gọn, thì đó là khi AI không chỉ trả lời mà tự hành động để đạt một mục tiêu: tự lập kế hoạch, tự gọi công cụ, tự kiểm lại kết quả. Tức là AI từ nấc 3 trở lên trong chiếc thang này. Bạn cũng không nhất thiết phải leo tuần tự từng nấc; hiểu cả chiếc thang chỉ để biết mình đang thiếu mảnh nào.

Sáu nấc trên không phải lý thuyết tôi vẽ cho đẹp. Đó là con đường tôi đã thật sự leo qua khi xây sản phẩm bằng AI, mang theo cái nghề cũ là vận hành dòng dữ liệu petabyte cho hệ thống hàng chục triệu user. Có nấc tôi leo trơn tru, có nấc tôi loay hoay mãi mới qua.

Ở bài sau tôi sẽ mổ một câu hỏi mà ai vọc AI làm sản phẩm cũng đụng: vì sao AI không thể “one-shot” ra một website hoàn chỉnh, và cái khung bạn đang thiếu để nó làm được chính là harness ở nấc 5. Hẹn bạn ở đó.