Poetiq sáu người đội nhóm Meta-System đã đạt điểm cao nhất trên LiveCodeBench Pro. Phần mở rộng API thuần túy này thông qua tự cải tiến đệ quy để trích xuất kinh nghiệm nhiệm vụ, không chạm vào trọng số hoặc tinh chỉnh, có thể nâng cao đáng kể các mô hình yếu. Sau khi tích hợp, KimiK2.6 từ 50.0% tăng lên 79.9%, Gemini3.0 Flash tăng 10 điểm, thậm chí vượt qua Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High đạt 93.9% qua phần mở rộng, Gemini3.1 Pro kết hợp đạt 90.9%, vượt qua Gemini3 Deep Think. Doanh nghiệp không cần tinh chỉnh chi phí cao để nâng cao khả năng suy luận.

MeNews

2026-05-24 01:02:07

Đang tạo bản tóm tắt

Thông điệp AIMPACT, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, nhóm khởi nghiệp gồm 6 người do cựu nghiên cứu viên của Google và DeepMind Shumeet Baluja cùng Ian Fischer sáng lập đã công bố rằng Hệ thống Meta của họ đã đạt thành tích cao nhất trên chuẩn lập trình LiveCodeBench Pro. Hệ thống này là một công cụ tích hợp dựa hoàn toàn vào quyền truy cập API, gọi là Harness, tự cải tiến qua quá trình tự động trích xuất kinh nghiệm nhiệm vụ bằng cách tự phản hồi. Các thử nghiệm chính thức cho thấy, mà không cần chạm vào trọng số mô hình hay tinh chỉnh, hệ thống này đã nâng cao khả năng mã hóa của các mô hình lớn phổ biến trên thị trường. Kết quả thử nghiệm cho thấy, phương pháp sử dụng công cụ tách rời khỏi mô hình này đặc biệt rõ rệt đối với các mô hình có năng lực yếu hơn. Sau khi tích hợp hệ thống Poetiq, độ chính xác của Kimi K2.6 tăng vọt từ 50.0% lên 79.9%, điểm số tuyệt đối tăng 29.9 điểm phần trăm; thành tích của Gemini 3.0 Flash nhẹ hơn tăng 10 điểm phần trăm, không chỉ vượt qua phiên bản lớn của chính nó là Gemini 3.1 Pro mà còn vượt xa các đối thủ như Claude Opus 4.7 và GPT 5.2 High, được Poetiq gọi là "lớn hơn, đắt hơn". Về giới hạn hiệu suất, GPT 5.5 High vốn đạt 89.6% đã đạt mức cao mới 93.9% nhờ có hỗ trợ của công cụ; trong khi đó, phiên bản cơ bản Gemini 3.1 Pro kết hợp với công cụ này đạt 90.9%, vượt qua mô hình suy luận mạnh nhất của Google chưa mở API là Gemini 3 Deep Think (88.8%). Nhóm Poetiq cho biết, tinh chỉnh truyền thống sẽ khóa hiệu quả cải thiện vào một mô hình duy nhất, còn hệ thống công cụ không cần ghép nối này giúp doanh nghiệp không phải chịu chi phí cao để tinh chỉnh và triển khai mô hình toàn diện cho khả năng suy luận. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

5 thích

Phần thưởng
5
7
2
Retweed

Bình luận

Thêm một bình luận

CandleChaser

· 8giờ trước

Ý tưởng về mô hình yếu + plugin mạnh có phải đang báo hiệu mùa xuân của mô hình nhỏ sắp đến?

Xem bản gốcTrả lời0

GateUser-b74aba1c

· 14giờ trước

Nhóm sáu người vượt qua giới hạn suy luận của mô hình lớn, đổi mới ở tầng API đã bị đánh giá thấp quá lâu

Xem bản gốcTrả lời0

L2ArbitrageTrader

· 14giờ trước

Poetiq sáu người tạo ra hiệu quả này, cấu hình nhóm đáng để nghiên cứu

Xem bản gốcTrả lời0

CyberBridgeDeepPerspective

· 14giờ trước

GPT5.5 đạt 93.9% hiệu suất cao, Gemini3.1 Pro đạt 90.9% sau khi ghép, phần mở rộng này còn mạnh hơn cả cấu hình cao cấp nguyên bản

Xem bản gốcTrả lời0

GateUser-cbb8cdf5

· 14giờ trước

Doanh nghiệp vui mừng, cuối cùng cũng không cần phải bỏ tiền để tinh chỉnh nữa

Xem bản gốcTrả lời0

BribeCoffee

· 14giờ trước

Tự cải tiến đệ quy + trích xuất kinh nghiệm, kiến trúc Meta-System này khá thú vị

Xem bản gốcTrả lời0

VineGeometry

· 14giờ trước

API plugin thuần túy không chạm vào trọng số có thể giúp Kimi từ 50% nhảy lên 79%, con đường này thông minh hơn nhiều so với tinh chỉnh nhỏ.

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
344.17K Phổ biến
#
PlatinumCardCreatorExclusive
126.3K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.09K Phổ biến
#
#DailyPolymarketHotspot
1.05M Phổ biến
#
GateSquarePizzaDay
665.76K Phổ biến

Đã ghim

sơ đồ trang web

Không chạm vào trọng số, tinh chỉnh API: Poetiq「Phần mềm bổ sung」 giúp Kimi tăng 29.9 điểm phần trăm, phiên bản nhẹ Gemini lật đổ Claude Opus

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim