Gemini 3.1 Flash-Lite chính thức ra mắt: Giá đầu vào chỉ bằng một phần tư của Claude 4.5 Haiku, GPQA cao hơn gần 14 điểm phần trăm

Theo giám sát Beating, Google Gemini 3.1 Flash-Lite đã chuyển từ bản xem trước tháng 3 sang phiên bản chính thức (GA), đây là mô hình rẻ nhất và nhanh nhất trong dòng Gemini 3, đã sẵn sàng cho môi trường sản xuất có lưu lượng cao. Mô hình đi kèm với kiểm soát độ mạnh suy luận bốn cấp độ (minimal, low, medium, high), người dùng có thể điều chỉnh theo từng trường hợp giữa tốc độ và chất lượng.

Giá cả duy trì ở mức của bản xem trước: đầu vào 0.25 USD/triệu token, đầu ra 1.50 USD/triệu token. So với các đối thủ cùng phân khúc, giá đầu vào của Gemini 3.1 là một phần tư của Claude 4.5 Haiku (0.25 so với 1.00 USD), giá đầu ra chưa đến một phần ba (1.50 so với 5.00 USD); còn rẻ hơn cả thế hệ trước của chính nó là 2.5 Flash, đầu vào giảm từ 0.30 xuống 0.25, đầu ra giảm từ 2.50 xuống 1.50. Cửa sổ ngữ cảnh 1 triệu token.

Hiệu năng vượt cấp: GPQA Diamond (suy luận khoa học cấp cao sau đại học) đạt 86.9%, vượt Claude 4.5 Haiku với 73.0% và GPT-5 mini với 82.3%; MMMU-Pro (hiểu và suy luận đa phương thức) đạt 76.8%, cũng dẫn đầu các đối thủ cùng phân khúc. Tốc độ xuất ra 363 token/giây, nhanh hơn 2.5 Flash 45%, phản hồi token đầu tiên nhanh gấp 2.5 lần. Bảng xếp hạng Elo của Arena.ai đạt 1432 điểm.

Nhiều doanh nghiệp đã sử dụng trong môi trường sản xuất. Nền tảng dịch vụ khách hàng Gladly dùng Flash-Lite để điều khiển AI agent qua kênh văn bản, xử lý hàng triệu tương tác khách hàng mỗi tuần, chi phí thấp hơn khoảng 60% so với các mô hình cùng cấp suy nghĩ, độ trễ P95 khoảng 1.8 giây, tỷ lệ thành công 99.6%. JetBrains dùng nó để điều khiển trợ lý AI trong IDE và Junie agent. Nền tảng giao dịch tài chính Ramp sử dụng cho các trường hợp nhạy cảm về độ trễ và tần suất cao.

Lập trình là điểm yếu của Flash-Lite, LiveCodeBench đạt 72.0%, kém hơn GPT-5 mini với 80.4%.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim