BrowseComp: OpenAI Ra Mắt Thử Thách Cực Đại Cho Các Agent Duyệt Web
Reading Time: 2 minutes
Tin nóng: OpenAI vừa chính thức mã nguồn mở BrowseComp (Browsing Competition) – bộ benchmark gồm 1.266 câu hỏi hóc búa được thiết kế riêng để thử thách khả năng tìm kiếm thông tin “siêu khó” của các AI Agent. Đây là công cụ đo lường sự kiên trì và sáng tạo của AI khi phải đối mặt với những dữ liệu bị ẩn sâu trên internet.
1. Khi tìm kiếm thông thường là không đủ
Khác với các bài test thực tế thông thường (SimpleQA), BrowseComp tập trung vào các câu hỏi “nghịch đảo”: dễ xác minh nhưng cực kỳ khó tìm.
- Ví dụ: Tìm tiêu đề một bài báo khoa học tại EMNLP 2018-2023 mà tác giả đầu tiên học tại Dartmouth và tác giả thứ tư học tại UPenn.
- Con người mất trung bình 2-3 giờ nghiên cứu mới có thể giải quyết được những câu hỏi này.
2. Sự trỗi dậy của “Deep Research”
Kết quả đánh giá cho thấy sự khác biệt rõ rệt giữa các mô hình:
- GPT-4o & GPT-4.5: Gần như thất bại hoàn toàn (độ chính xác < 1%).
- OpenAI o1: Đạt 9,9% nhờ khả năng suy luận nội tại mạnh mẽ dù không có công cụ duyệt web.
- Deep Research: Đạt tới 51,5%, minh chứng cho sức mạnh của các mô hình được huấn luyện chuyên biệt để duyệt web bền bỉ và thích ứng chiến lược tìm kiếm.
3. Scaling Law trong suy luận tìm kiếm
OpenAI xác nhận rằng hiệu suất trên BrowseComp tỉ lệ thuận với lượng điện toán (compute) được sử dụng tại thời điểm suy luận (test-time compute). Khi cho phép AI thử nghiệm nhiều lần và bỏ phiếu cho câu trả lời tự tin nhất, độ chính xác tăng thêm từ 15% đến 25%.
Nguồn tin: OpenAI Research