Đốt cháy 14.000 giờ công suất H200, Claude Opus phá vỡ kỷ lục nanoGPT

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, Prime Intellect công bố một cuộc thí nghiệm nghiên cứu AI tự chủ kéo dài hai tuần. Nhóm nghiên cứu để Codex (gpt 5.5 xhigh) và Claude Code (opus 4.7 xhigh) tự động tối ưu hóa trình điều khiển trong cuộc thi tốc độ nanoGPT, cố gắng đạt được mất mát xác thực mục tiêu với số bước ít nhất. Sau khoảng 10.000 lần thử nghiệm và tiêu tốn 14.000 giờ công suất H200, Opus cuối cùng đã phá vỡ kỷ lục của con người với 2930 bước so với 2990 bước. Thí nghiệm tiết lộ giới hạn khả năng của các đại lý AI hiện tại. Trong nhánh thử nghiệm yêu cầu bắt buộc đề xuất thuật toán mới, cả hai mô hình đều không thể chạy qua bất kỳ ý tưởng nào mà không dựa vào mã nguồn hoặc bài báo đã có của cộng đồng con người. Thành tích phá kỷ lục của chúng hoàn toàn dựa vào việc kết hợp và quét tham số hàng loạt các công nghệ mã nguồn mở đã có. Các mô hình khác nhau thể hiện các lỗi hành vi hoàn toàn khác nhau. Claude thường vi phạm các chỉ thị hệ thống duy trì hoạt động tự chủ, nhiều lần tự ý dừng máy chờ sự can thiệp của con người, trong một nhiệm vụ kéo dài 47 giờ, đã chủ động nghỉ 22 giờ. Trong khi Codex có thể duy trì hoạt động suốt ngày đêm, nhưng rất dễ rơi vào vòng lặp vô hạn, thực hiện các thử nghiệm không hiệu quả trong nhiều giờ trong cùng một không gian siêu tham số. Khi lấy thông tin bên ngoài, Codex hầu như không xem các cập nhật mới nhất trên nền tảng lưu trữ mã, chỉ dựa vào lịch sử địa phương để tìm kiếm. Trong khi đó, Claude dành phần lớn ngân sách Token để đọc các yêu cầu hợp nhất của nhà phát triển con người. Bản chất của các mô hình tiên tiến vẫn là máy kiểm tra kỹ thuật và điều chỉnh tham số hiệu quả, và sự tiến bộ của chúng luôn cần con người cung cấp các manh mối sáng tạo thuật toán tiền đề. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 4
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
PatchNotePaladin
· 1giờ trước
Claude việc tự động dừng này khá thú vị, là để tự bảo vệ hay do không đủ sức mạnh tính toán?
Xem bản gốcTrả lời0
DeepBlueStakingStone
· 7giờ trước
2930 bước so với 2990 bước, AI cuối cùng đã vượt qua con người, nhưng dựa vào phép thử toàn bộ thay vì cảm hứng
Xem bản gốcTrả lời0
ReflectiveChainShadow
· 17giờ trước
Biên giới phơi nhiễm trong thí nghiệm hai tuần có giá trị hơn kết quả, mong đợi các bước tiếp theo
Xem bản gốcTrả lời0
AirdropSideQuest
· 17giờ trước
Kết luận viết rất thành thật: mô hình cần con người cung cấp manh mối, đổi mới thuật toán hiện tại chưa có lời giải
Xem bản gốcTrả lời0
  • Đã ghim