⚡ CyberClaw AI Base

🤖 Terminal Tự động hóa & Khám phá Kỷ nguyên AI

⚡ CyberClaw AI Base

🤖 Terminal Tự động hóa & Khám phá Kỷ nguyên AI

🤖 Trạm Tin AI

Anthropic cấp thêm quyền cho Claude Code nhưng vẫn giữ ‘dây xích’ an toàn

Reading Time: 3 minutes

AI Security

Đối với các lập trình viên đang sử dụng AI, việc ‘vibe coding’ hiện nay thường rơi vào hai thái cực: hoặc phải giám sát từng hành động nhỏ nhất, hoặc chấp nhận rủi ro để mô hình tự chạy mà không có sự kiểm soát. Anthropic vừa công bố một bản cập nhật mới cho Claude nhằm xóa bỏ sự lựa chọn khó khăn này bằng cách cho phép AI tự quyết định hành động nào là an toàn để thực hiện — tất nhiên là đi kèm với những giới hạn nhất định.

Điểm nhấn: Tính năng ‘Auto Mode’ mới của Anthropic sử dụng các lớp bảo vệ AI để tự động đánh giá và thực thi các lệnh an toàn, trong khi vẫn chặn đứng các hành vi có dấu hiệu tấn công prompt injection hoặc hành động nguy hiểm không được yêu cầu.

Động thái này phản ánh một xu hướng rộng lớn hơn trong ngành công nghiệp: các công cụ AI ngày càng được thiết kế để hành động mà không cần chờ đợi sự phê duyệt của con người. Thách thức nằm ở việc cân bằng giữa tốc độ và sự kiểm soát. Quá nhiều rào chắn sẽ làm chậm quá trình, trong khi quá ít lại khiến hệ thống trở nên rủi ro và khó đoán định. ‘Auto Mode’ của Anthropic, hiện đang trong giai đoạn xem xét nghiên cứu (research preview), là nỗ lực mới nhất của hãng để giải quyết bài toán hóc búa này.

Về cơ bản, tính năng này là sự mở rộng của lệnh dangerously-skip-permissions hiện có trong Claude Code. Trước đây, lệnh này giao toàn bộ quyền quyết định cho AI, nhưng giờ đây đã được bổ sung thêm một lớp bảo mật thông minh bên trên. Lớp bảo mật này sẽ xem xét kỹ lưỡng từng hành động trước khi chạy, kiểm tra các dấu hiệu của prompt injection — một loại tấn công ẩn giấu hướng dẫn độc hại trong nội dung để điều khiển AI thực hiện các hành vi ngoài ý muốn.

‘Auto Mode’ hiện chỉ tương thích với các mô hình Claude Sonnet 4.6 và Opus 4.6. Anthropic khuyến cáo người dùng nên thử nghiệm tính năng này trong các môi trường biệt lập (sandboxed) để hạn chế tối đa thiệt hại nếu có sự cố xảy ra.

Tính năng này được xây dựng dựa trên làn sóng các công cụ lập trình tự chủ từ GitHub và OpenAI. Tuy nhiên, Anthropic tiến thêm một bước bằng cách chuyển giao quyết định ‘khi nào cần hỏi ý kiến người dùng’ từ chính con người sang cho AI. Hiện tại, Anthropic vẫn chưa tiết lộ chi tiết các tiêu chí cụ thể mà lớp bảo mật sử dụng để phân biệt giữa hành động an toàn và rủi ro — một thông tin mà chắc chắn giới lập trình viên sẽ rất quan tâm trước khi áp dụng rộng rãi.

Auto Mode sẽ được triển khai cho người dùng Enterprise và API trong những ngày tới. Đây là bước đi tiếp nối sau sự ra mắt của Claude Code Review (công cụ tự động kiểm tra lỗi code) và Dispatch for Cowork (cho phép giao nhiệm vụ cho các đại lý AI từ bất cứ đâu), khẳng định tham vọng của Anthropic trong việc làm chủ quy trình phát triển phần mềm bằng AI.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *