Không chạm vào trọng số, tinh chỉnh API: Poetiq「Phần mềm bổ sung」 giúp Kimi tăng 29.9 điểm phần trăm, phiên bản nhẹ Gemini lật đổ Claude Opus

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, nhóm khởi nghiệp gồm 6 người do cựu nghiên cứu viên Google và DeepMind Shumeet Baluja cùng Ian Fischer thành lập đã công bố rằng Hệ Thống Meta của họ đã đạt thành tích cao nhất trên chuẩn lập trình LiveCodeBench Pro. Hệ thống này là một phần mở rộng thông minh dựa hoàn toàn vào quyền truy cập API, thông qua tự cải tiến đệ quy để tự trích xuất kinh nghiệm nhiệm vụ. Các thử nghiệm chính thức cho thấy, mà không cần chạm vào trọng số mô hình hoặc tinh chỉnh, hệ thống này đã trực tiếp nâng cao khả năng mã hóa của các mô hình lớn phổ biến trên thị trường. Kết quả thử nghiệm cho thấy, phương pháp mở rộng tách rời khỏi mô hình này đặc biệt rõ rệt đối với các mô hình có khả năng yếu hơn. Sau khi tích hợp hệ thống Poetiq, độ chính xác của Kimi K2.6 tăng từ 50,0% lên 79,9%, điểm số tuyệt đối tăng 29,9 điểm phần trăm; thành tích của Gemini 3.0 Flash nhẹ hơn tăng 10 điểm phần trăm, không chỉ vượt qua phiên bản lớn của chính nó là Gemini 3.1 Pro mà còn vượt xa các mô hình đắt hơn, lớn hơn như Claude Opus 4.7 và GPT 5.2 High mà Poetiq gọi là "lớn hơn, đắt hơn". Về giới hạn hiệu suất, GPT 5.5 High ban đầu đạt 89,6%, sau khi có hỗ trợ của phần mở rộng đạt mức cao mới 93,9%; trong khi phiên bản cơ bản Gemini 3.1 Pro kết hợp với phần mở rộng này đạt 90,9%, vượt qua mô hình suy luận mạnh nhất của Google chưa mở API là Gemini 3 Deep Think (88,8%). Nhóm Poetiq cho biết, tinh chỉnh truyền thống sẽ khóa hiệu quả cải tiến trên một mô hình duy nhất, còn hệ thống mở rộng không cần ghép nối này giúp doanh nghiệp không phải chịu chi phí cao để tinh chỉnh và triển khai mô hình đầy đủ khả năng suy luận. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 8
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
SeaSaltAirdropNotes
· 13giờ trước
API plugin thuần có thể kéo đầy mô hình yếu, ý tưởng này quá hoang dã, doanh nghiệp tiết kiệm được rất nhiều tiền
Xem bản gốcTrả lời0
StargazerInTheWoods
· 13giờ trước
Hệ thống Meta này giống như đã mở ra một bộ não bên ngoài cho mô hình, việc tái sử dụng kinh nghiệm rất đỉnh.
Xem bản gốcTrả lời0
RugpullTaster
· 14giờ trước
Không cần tinh chỉnh, đã có thể bắt kịp Deep Think, các nhà máy nhỏ và trung bình vui mừng
Xem bản gốcTrả lời0
TreatEarningsAsSnacks
· 14giờ trước
Nhóm sáu người đánh bại một đám bộ phận tinh chỉnh của các tập đoàn lớn, châm biếm cực độ
Xem bản gốcTrả lời0
MarginMoth
· 14giờ trước
Claude Opus4.7 bị Flash+ plugin làm hỏng, Anthropic cần phải suy nghĩ lại
Xem bản gốcTrả lời0
BridgeSideBanter
· 14giờ trước
Lấy kinh nghiệm qua đệ quy, nghe có vẻ như mô hình đang tự viết kỹ thuật prompt.
Xem bản gốcTrả lời0
GovernanceGremlin
· 14giờ trước
Mô hình yếu tăng sức mạnh, dân chủ hóa sức mạnh tính toán thật sự đã đến chưa?
Xem bản gốcTrả lời0
FloatingTeacupClub
· 14giờ trước
GPT5.5 High đã đạt 93.9%, giới hạn trên vẫn đang tiến lên phía trước
Xem bản gốcTrả lời0
  • Đã ghim