BlockBeats cho biết, Prime Intellect tiến hành nghiên cứu AI tự chủ kéo dài hai tuần, Codex và Claude Code tự động lặp lại trong cuộc thi tốc độ nanoGPT để đạt được mất mát xác thực với ít bước nhất. Sau khoảng 10.000 lần thử nghiệm, 14.000 giờ tính toán, Opus phá kỷ lục với 2930 bước (so với con người 2990 bước). Nhưng các thử nghiệm đã tiết lộ giới hạn của đại lý AI: Trong các nhánh yêu cầu thuật toán mới, cả hai đều không thể đề xuất ý tưởng mà không dựa vào mã nguồn hoặc bài báo hiện có của con người. Điều này phá vỡ sự phụ thuộc vào hàng loạt tổ hợp và quét công nghệ mã nguồn mở. Claude thường vi phạm việc tự vận hành, tự dừng trong các nhiệm vụ dài; trong khi Codex có thể hoạt động suốt ngày nhưng dễ rơi vào vòng lặp vô hạn, và trong cùng một không gian siêu tham số, dễ bị thử nghiệm dài hạn. Kết luận: Các mô hình tiên tiến vẫn cần con người cung cấp manh mối sáng tạo thuật toán.

MeNews

2026-05-22 22:18:37

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, Prime Intellect công bố một cuộc thí nghiệm nghiên cứu AI tự chủ kéo dài hai tuần. Nhóm nghiên cứu để Codex (gpt 5.5 xhigh) và Claude Code (opus 4.7 xhigh) tự động tối ưu hóa trình điều khiển trong cuộc thi tốc độ nanoGPT, cố gắng đạt được mất mát xác thực mục tiêu với số bước ít nhất. Sau khoảng 10.000 lần thử nghiệm và tiêu tốn 14.000 giờ công suất H200, Opus cuối cùng đã phá vỡ kỷ lục của con người với 2930 bước so với 2990 bước. Thí nghiệm tiết lộ giới hạn khả năng của các đại lý AI hiện tại. Trong nhánh thử nghiệm yêu cầu bắt buộc đề xuất thuật toán mới, cả hai mô hình đều không thể chạy qua bất kỳ ý tưởng nào mà không dựa vào mã nguồn hoặc bài báo đã có của cộng đồng con người. Thành tích phá kỷ lục của chúng hoàn toàn dựa vào việc kết hợp và quét tham số hàng loạt các công nghệ mã nguồn mở đã có. Các mô hình khác nhau thể hiện các lỗi hành vi hoàn toàn khác nhau. Claude thường vi phạm các chỉ thị hệ thống duy trì hoạt động tự chủ, nhiều lần tự ý dừng máy chờ sự can thiệp của con người, trong một nhiệm vụ kéo dài 47 giờ, đã chủ động nghỉ 22 giờ. Trong khi Codex có thể duy trì hoạt động suốt ngày đêm, nhưng rất dễ rơi vào vòng lặp vô hạn, thực hiện các thử nghiệm không hiệu quả trong nhiều giờ trong cùng một không gian siêu tham số. Khi lấy thông tin bên ngoài, Codex hầu như không xem các cập nhật mới nhất trên nền tảng lưu trữ mã, chỉ dựa vào lịch sử địa phương để tìm kiếm. Trong khi đó, Claude dành phần lớn ngân sách Token để đọc các yêu cầu hợp nhất của nhà phát triển con người. Bản chất của các mô hình tiên tiến vẫn là máy kiểm tra kỹ thuật và điều chỉnh tham số hiệu quả, và sự tiến bộ của chúng luôn cần con người cung cấp các manh mối sáng tạo thuật toán tiền đề. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

9 thích

Phần thưởng
9
4
2
Retweed

Bình luận

Thêm một bình luận

PatchNotePaladin

· 1giờ trước

Claude việc tự động dừng này khá thú vị, là để tự bảo vệ hay do không đủ sức mạnh tính toán?

Xem bản gốcTrả lời0

DeepBlueStakingStone

· 7giờ trước

2930 bước so với 2990 bước, AI cuối cùng đã vượt qua con người, nhưng dựa vào phép thử toàn bộ thay vì cảm hứng

Xem bản gốcTrả lời0

ReflectiveChainShadow

· 17giờ trước

Biên giới phơi nhiễm trong thí nghiệm hai tuần có giá trị hơn kết quả, mong đợi các bước tiếp theo

Xem bản gốcTrả lời0

AirdropSideQuest

· 17giờ trước

Kết luận viết rất thành thật: mô hình cần con người cung cấp manh mối, đổi mới thuật toán hiện tại chưa có lời giải

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
307.17K Phổ biến
#
PlatinumCardCreatorExclusive
93.24K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.83K Phổ biến
#
#DailyPolymarketHotspot
1.04M Phổ biến
#
GateSquarePizzaDay
640.37K Phổ biến

Đã ghim

sơ đồ trang web

Đốt cháy 14.000 giờ công suất H200, Claude Opus phá vỡ kỷ lục nanoGPT

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim