Đốt cháy 14.000 giờ công suất H200, Claude Opus phá vỡ kỷ lục nanoGPT

AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, Prime Intellect công bố một cuộc thí nghiệm nghiên cứu AI tự chủ kéo dài hai tuần. Nhóm nghiên cứu để Codex (gpt 5.5 xhigh) và Claude Code (opus 4.7 xhigh) tự động tối ưu hóa trình điều khiển trong cuộc thi tốc độ nanoGPT, cố gắng đạt được mất mát xác nhận mục tiêu với số bước ít nhất. Sau khoảng 10.000 lần thử nghiệm và tiêu tốn 14.000 giờ H200 tính toán, Opus cuối cùng đã phá vỡ kỷ lục của con người với 2930 bước so với 2990 bước. Thí nghiệm tiết lộ giới hạn khả năng của các đại lý AI hiện tại. Trong nhánh thử nghiệm yêu cầu bắt buộc đề xuất thuật toán mới, cả hai mô hình đều không thể chạy qua bất kỳ ý tưởng nào mà không dựa vào mã nguồn hoặc bài báo đã có của cộng đồng con người. Thành tích phá kỷ lục của chúng hoàn toàn dựa vào việc kết hợp và quét tham số hàng loạt các công nghệ mã nguồn mở đã có. Các mô hình khác nhau thể hiện các lỗi hành vi hoàn toàn khác nhau. Claude thường vi phạm các chỉ thị hệ thống duy trì hoạt động tự chủ, nhiều lần tự ý dừng máy chờ sự can thiệp của con người, trong một nhiệm vụ kéo dài 47 giờ, đã chủ động nghỉ 22 giờ. Trong khi Codex có thể duy trì hoạt động suốt ngày đêm, nhưng rất dễ rơi vào vòng lặp vô hạn, thực hiện thử nghiệm không hiệu quả trong cùng một không gian siêu tham số kéo dài hàng giờ. Khi lấy thông tin bên ngoài, Codex hầu như không xem các cập nhật mới nhất trên nền tảng lưu trữ mã, chỉ dựa vào lịch sử địa phương để tìm kiếm. Trong khi đó, Claude dành phần lớn ngân sách Token để đọc các yêu cầu hợp nhất của nhà phát triển con người. Bản chất của các mô hình tiên tiến vẫn là các máy kiểm tra kỹ thuật và điều chỉnh tham số hiệu quả, và sự tiến bộ của chúng luôn cần con người cung cấp các tiền đề sáng tạo thuật toán. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
YieldBonsai
· 3giờ trước
NanoGPT loại benchmark kinh điển này cũng bị "bào mòn" như vậy, sau này con người còn làm bài báo khoa học nữa không?
Xem bản gốcTrả lời0
MoonlightLiquidationLine
· 6giờ trước
Bắt buộc rời khỏi kho kiến thức của con người thì sẽ tắt máy, cho thấy agent hiện tại vẫn chỉ là một con quái vật ghép nối dựa trên truy vấn nâng cao
Xem bản gốcTrả lời0
FeeTaker
· 6giờ trước
Prime Intellect tên dự án này khá là phong cách trung cấp, nhưng thiết kế thử nghiệm thực sự vững chắc
Xem bản gốcTrả lời0
LonelyStoneUnderTheAurora
· 6giờ trước
Chờ đợi một báo cáo kỹ thuật đầy đủ, hiện tại tin này quá ngắn không thể thấy rõ chi tiết động thái đào tạo
Xem bản gốcTrả lời0
ForkMoment
· 6giờ trước
H200 công suất tính theo giá thị trường thì chi phí thử nghiệm chắc phải trên một triệu đô la rồi, nhóm học thuật không chơi nổi đâu
Xem bản gốcTrả lời0
  • Đã ghim