Grok vừa quét sạch các bảng xếp hạng trên nhiều nền tảng đánh giá AI.
Mô hình hiện đang đứng ở vị trí cao nhất trên tám bảng xếp hạng khác nhau: BlackBox AI, Terminal-Bench Hard, GPQA Diamond, SciCode, AAII Token Usage, Roo Code, KiloCode và Cline. Đó là một chiến thắng hoàn toàn trong một số bài kiểm tra kỹ thuật khá khắt khe.
Tại OpenRouter, mô hình này vẫn tiếp tục. Grok hiện là mô hình ngôn ngữ lớn phổ biến nhất cho các truy vấn tiếng Anh và dẫn đầu trong các chỉ số sử dụng token.
Các bảng xếp hạng này bao gồm mọi thứ từ các nhiệm vụ lập trình đến lý luận khoa học, cho thấy mô hình đang hoạt động một cách nhất quán trên nhiều trường hợp sử dụng khác nhau thay vì chỉ xuất sắc trong một lĩnh vực hẹp.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Grok vừa quét sạch các bảng xếp hạng trên nhiều nền tảng đánh giá AI.
Mô hình hiện đang đứng ở vị trí cao nhất trên tám bảng xếp hạng khác nhau: BlackBox AI, Terminal-Bench Hard, GPQA Diamond, SciCode, AAII Token Usage, Roo Code, KiloCode và Cline. Đó là một chiến thắng hoàn toàn trong một số bài kiểm tra kỹ thuật khá khắt khe.
Tại OpenRouter, mô hình này vẫn tiếp tục. Grok hiện là mô hình ngôn ngữ lớn phổ biến nhất cho các truy vấn tiếng Anh và dẫn đầu trong các chỉ số sử dụng token.
Các bảng xếp hạng này bao gồm mọi thứ từ các nhiệm vụ lập trình đến lý luận khoa học, cho thấy mô hình đang hoạt động một cách nhất quán trên nhiều trường hợp sử dụng khác nhau thay vì chỉ xuất sắc trong một lĩnh vực hẹp.