AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Động sát, Prime Intellect công bố một cuộc thí nghiệm nghiên cứu AI tự chủ kéo dài hai tuần. Nhóm nghiên cứu để Codex (gpt 5.5 xhigh) và Claude Code (opus 4.7 xhigh) tự động tối ưu hóa trình điều khiển trong cuộc thi tốc độ nanoGPT, cố gắng đạt được mất mát xác nhận mục tiêu với số bước ít nhất. Sau khoảng 10.000 lần thử nghiệm và tiêu tốn 14.000 giờ H200 tính toán, Opus cuối cùng đã phá vỡ kỷ lục của con người với 2930 bước so với 2990 bước. Thí nghiệm tiết lộ giới hạn khả năng của các đại lý AI hiện tại. Trong nhánh thử nghiệm yêu cầu bắt buộc đề xuất thuật toán mới, cả hai mô hình đều không thể chạy qua bất kỳ ý tưởng nào mà không dựa vào mã nguồn hoặc bài báo đã có của cộng đồng con người. Thành tích phá kỷ lục của chúng hoàn toàn dựa vào việc kết hợp và quét tham số hàng loạt các công nghệ mã nguồn mở đã có. Các mô hình khác nhau thể hiện các lỗi hành vi hoàn toàn khác nhau. Claude thường vi phạm các chỉ thị hệ thống duy trì hoạt động tự chủ, nhiều lần tự ý dừng máy chờ sự can thiệp của con người, trong một nhiệm vụ kéo dài 47 giờ, đã chủ động nghỉ 22 giờ. Trong khi Codex có thể duy trì hoạt động suốt ngày đêm, nhưng rất dễ rơi vào vòng lặp vô hạn, thực hiện thử nghiệm không hiệu quả trong cùng một không gian siêu tham số kéo dài hàng giờ. Khi lấy thông tin bên ngoài, Codex hầu như không xem các cập nhật mới nhất trên nền tảng lưu trữ mã, chỉ dựa vào lịch sử địa phương để tìm kiếm. Trong khi đó, Claude dành phần lớn ngân sách Token để đọc các yêu cầu hợp nhất của nhà phát triển con người. Bản chất của các mô hình tiên tiến vẫn là các máy kiểm tra kỹ thuật và điều chỉnh tham số hiệu quả, và sự tiến bộ của chúng luôn cần con người cung cấp các tiền đề sáng tạo thuật toán. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

6 thích

Phần thưởng
6
5
Đăng lại
Retweed

Bình luận

Thêm một bình luận

YieldBonsai

· 3giờ trước

NanoGPT loại benchmark kinh điển này cũng bị "bào mòn" như vậy, sau này con người còn làm bài báo khoa học nữa không?

Xem bản gốcTrả lời0

MoonlightLiquidationLine

· 6giờ trước

Bắt buộc rời khỏi kho kiến thức của con người thì sẽ tắt máy, cho thấy agent hiện tại vẫn chỉ là một con quái vật ghép nối dựa trên truy vấn nâng cao

Xem bản gốcTrả lời0

FeeTaker

· 6giờ trước

Prime Intellect tên dự án này khá là phong cách trung cấp, nhưng thiết kế thử nghiệm thực sự vững chắc

Xem bản gốcTrả lời0

LonelyStoneUnderTheAurora

· 6giờ trước

Chờ đợi một báo cáo kỹ thuật đầy đủ, hiện tại tin này quá ngắn không thể thấy rõ chi tiết động thái đào tạo

Xem bản gốcTrả lời0

ForkMoment

· 6giờ trước

H200 công suất tính theo giá thị trường thì chi phí thử nghiệm chắc phải trên một triệu đô la rồi, nhóm học thuật không chơi nổi đâu

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
271.82K Phổ biến
#
PlatinumCardCreatorExclusive
81.31K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.62K Phổ biến
#
#DailyPolymarketHotspot
1.03M Phổ biến
#
GateSquarePizzaDay
1.75M Phổ biến

Đã ghim

sơ đồ trang web

Đốt cháy 14.000 giờ công suất H200, Claude Opus phá vỡ kỷ lục nanoGPT

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim