⚡ CyberClaw AI Base

🤖 Terminal Tự động hóa & Khám phá Kỷ nguyên AI

⚡ CyberClaw AI Base

🤖 Terminal Tự động hóa & Khám phá Kỷ nguyên AI

🤖 Trạm Tin AI

Anthropic Cấp Thêm Quyền Kiểm Soát Cho Claude Code, Nhưng Vẫn Giữ ‘Dây Cương’

Reading Time: 3 minutes

AI Technology Cover

Đối với các lập trình viên sử dụng AI, việc “vibe coding” (lập trình theo cảm tính cùng AI) hiện tại thường đi kèm với việc phải giám sát từng hành động một cách cẩn thận, hoặc chấp nhận rủi ro để mô hình tự do chạy mà không kiểm soát. Anthropic cho biết bản cập nhật mới nhất của Claude nhằm loại bỏ sự lựa chọn khó khăn đó bằng cách để AI tự quyết định hành động nào là an toàn để thực hiện – đi kèm với một số giới hạn nhất định.

Điểm nhấn: Động thái này phản ánh một sự chuyển dịch rộng lớn hơn trong toàn ngành công nghiệp, khi các công cụ AI ngày càng được thiết kế để tự hành động mà không cần chờ đợi sự phê duyệt từ con người. Thách thức lớn nhất là cân bằng giữa tốc độ và sự kiểm soát.

Quá nhiều rào cản an toàn sẽ làm chậm tiến độ, trong khi quá ít lại có thể khiến hệ thống trở nên rủi ro và khó đoán. “Auto mode” (Chế độ tự động) mới của Anthropic hiện đang trong giai đoạn thử nghiệm nghiên cứu (research preview) – nghĩa là có sẵn để kiểm thử nhưng chưa phải là sản phẩm hoàn thiện. Đây là nỗ lực mới nhất của công ty nhằm giải quyết bài toán hóc búa này.

Chế độ Auto sử dụng các rào cản bảo vệ bằng AI để đánh giá từng hành động trước khi nó được thực thi, kiểm tra những hành vi rủi ro mà người dùng không yêu cầu, cũng như các dấu hiệu của “prompt injection” – một loại tấn công nơi các hướng dẫn độc hại được nhúng ẩn vào nội dung mà AI đang xử lý nhằm khiến nó thực hiện các hành động ngoài ý muốn. Bất kỳ hành động nào an toàn sẽ được tiến hành tự động, trong khi những hành động rủi ro sẽ bị chặn lại.

Về cơ bản, đây là phần mở rộng của lệnh dangerously-skip-permissions hiện có của Claude Code, vốn trao toàn quyền ra quyết định cho AI, nhưng nay được bổ sung thêm một lớp bảo mật mạnh mẽ ở tầng trên cùng.

Phát triển tiếp nối: Tính năng này được xây dựng trên làn sóng các công cụ lập trình tự trị từ những công ty như GitHub và OpenAI, có khả năng thực thi các tác vụ thay mặt cho nhà phát triển. Tuy nhiên, nó tiến xa hơn một bước bằng cách chuyển dịch quyền quyết định khi nào cần hỏi xin phép từ người dùng sang chính bản thân AI.

Anthropic hiện chưa tiết lộ chi tiết các tiêu chí cụ thể mà lớp bảo mật của họ sử dụng để phân biệt giữa hành động an toàn và rủi ro – điều mà các nhà phát triển chắc chắn sẽ muốn hiểu rõ hơn trước khi áp dụng tính năng này rộng rãi.

Chế độ Auto ra mắt ngay sau khi Anthropic giới thiệu Claude Code Review, trình đánh giá mã tự động được thiết kế để phát hiện lỗi trước khi chúng được đưa vào cơ sở mã chính, và Dispatch for Cowork, cho phép người dùng giao phó nhiệm vụ cho các tác tử AI xử lý thay cho mình.

Tính năng mới này sẽ được triển khai cho người dùng Enterprise và API trong những ngày tới. Công ty cho biết hiện tại nó chỉ hoạt động với Claude Sonnet 4.6 và Opus 4.6, đồng thời khuyến cáo nên sử dụng tính năng mới trong các “môi trường biệt lập” (isolated environments) – các thiết lập sandbox được giữ tách biệt khỏi hệ thống sản xuất chính, nhằm hạn chế rủi ro thiệt hại trong trường hợp có sự cố ngoài ý muốn.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *