Không chạm vào trọng số, tinh chỉnh API: Poetiq 「phần mềm bổ sung」 giúp Kimi tăng 29,9 điểm phần trăm, phiên bản nhẹ Gemini lật đổ Claude Opus

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, nhóm khởi nghiệp gồm 6 người do cựu nghiên cứu viên Google và DeepMind Shumeet Baluja cùng Ian Fischer sáng lập đã công bố rằng Hệ Thống Meta của họ đã đạt thành tích cao nhất trên chuẩn lập trình LiveCodeBench Pro. Hệ thống này là một phần mở rộng thông minh dựa hoàn toàn vào quyền truy cập API, thông qua tự cải tiến đệ quy để tự trích xuất kinh nghiệm nhiệm vụ. Các thử nghiệm chính thức cho thấy, mà không cần chạm vào trọng số mô hình hay tinh chỉnh, hệ thống này đã trực tiếp nâng cao khả năng mã hóa của các mô hình lớn phổ biến trên thị trường. Kết quả thử nghiệm cho thấy, phương pháp mở rộng tách rời khỏi mô hình này đặc biệt rõ rệt đối với các mô hình có khả năng yếu hơn. Sau khi tích hợp hệ thống Poetiq, độ chính xác của Kimi K2.6 tăng vọt từ 50,0% lên 79,9%, điểm số tuyệt đối tăng 29,9 điểm phần trăm; thành tích của Gemini 3.0 Flash nhẹ hơn tăng 10 điểm phần trăm, không chỉ vượt qua phiên bản lớn của chính nó là Gemini 3.1 Pro mà còn vượt xa các mô hình đắt hơn, được Poetiq gọi là "lớn hơn, đắt hơn" như Claude Opus 4.7 và GPT 5.2 High. Về giới hạn hiệu suất, GPT 5.5 High ban đầu đạt 89,6% đã đạt mức cao mới 93,9% nhờ có sự hỗ trợ của phần mở rộng; trong khi phiên bản cơ bản của Gemini 3.1 Pro kết hợp với phần mở rộng này đạt 90,9%, trực tiếp vượt qua mô hình suy luận mạnh nhất của Google chưa mở API là Gemini 3 Deep Think (88,8%). Nhóm Poetiq cho biết, tinh chỉnh truyền thống sẽ khóa hiệu quả cải tiến trên một mô hình duy nhất, còn hệ thống mở rộng không cần ghép nối này giúp doanh nghiệp không phải chịu chi phí cao để tinh chỉnh và triển khai mô hình toàn diện cho khả năng suy luận. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 1
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
On-ChainSoilAfterTheRain
· 3giờ trước
GPT5.5 Cao cấp trực tiếp đạt 93.9%, phần mềm gian lận này còn mạnh hơn cả cập nhật chính thức
Xem bản gốcTrả lời0
SlothSignal
· 3giờ trước
Chờ đã, Gemini3.1 Pro sau khi cài đặt phần mở rộng chỉ đạt 90.9, còn phiên bản gốc không thể vượt qua phần mở rộng của 3.0 Flash? So sánh này thật quá châm biếm
Xem bản gốcTrả lời0
ForkItAnyway
· 3giờ trước
Tự cải tiến đệ quy + plugin API thuần túy, ý tưởng này quá điên rồ, không động đến trọng số vẫn có thể khiến KimiK2.6 từ 50 tăng vọt lên 79.9, doanh nghiệp thực sự có thể tiết kiệm một khoản lớn tiền tinh chỉnh nhỏ
Xem bản gốcTrả lời0
VolatilityInATeacup
· 3giờ trước
Kimi lần này thắng lớn, sự tăng từ 50 lên 79.9 nhanh hơn nhiều so với chính họ tự cập nhật.
Xem bản gốcTrả lời0
PaperHandsPro
· 3giờ trước
Các kịch bản triển khai cho doanh nghiệp có lẽ rất phù hợp với bộ này, không cần tích trữ thẻ hay thực hiện RLHF, chỉ cần trên cấp độ API là có thể nâng cao hiệu quả.
Xem bản gốcTrả lời0
Post-RainReflectionsMarket
· 3giờ trước
Không chạm vào trọng số, không tinh chỉnh, chỉ dựa vào kinh nghiệm để trích xuất và cải tiến đệ quy, con đường này khá thông minh, tránh được nhiều vấn đề về tuân thủ và chi phí
Xem bản gốcTrả lời0
Frictionless
· 3giờ trước
Poetiq sáu người tạo ra hệ thống Meta này, có chút gì đó
Xem bản gốcTrả lời0
  • Đã ghim