AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), nhóm NLP của Stanford đã trình bày một công trình nghiên cứu AI tự động mới tại hội nghị ICML 2026, thông qua việc xây dựng bộ thực thi tự động hóa, chuyển đổi việc huấn luyện trước và sau của LLM thành môi trường thực thi, và sử dụng phản hồi thực thi để nâng cao hiệu quả nghiên cứu.
Nghiên cứu phân tích hai phương pháp: tìm kiếm tiến hóa có hiệu quả mẫu cao, các phương pháp tìm thấy trong nhiệm vụ hậu huấn luyện vượt trội so với cơ sở GRPO (69.4% so với 48.0%), các công thức tìm thấy trong nhiệm vụ tiền huấn luyện vượt trội so với cơ sở nanoGPT (19.7 phút so với 35.9 phút), đều hoàn thành trong mười chu kỳ tìm kiếm;
Trong khi đó, học tăng cường dựa trên phần thưởng thực thi đối mặt với vấn đề sụp đổ mẫu, mặc dù tăng phần thưởng trung bình nhưng không nâng cao giới hạn.
Công trình này cung cấp hướng đi cho nghiên cứu AI tự động hướng theo thực thi.
(Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

11 thích

Phần thưởng
11
7
8
Retweed

Bình luận

Thêm một bình luận

MintColdBrew

· 2giờ trước

Công việc của ICML 2026 đã trở nên cực kỳ khắt khe như vậy

Xem bản gốcTrả lời0

QuietRugAlarm

· 3giờ trước

19 phút so với 36 phút, nanoGPT bị đánh bại hoàn toàn

Xem bản gốcTrả lời0

Half-MeltedIceCreamPosition

· 3giờ trước

Tiến hóa tìm kiếm đánh bại GRPO, tốc độ cải thiện thật là phi thường

Xem bản gốcTrả lời0

AirdropOnTheDune

· 3giờ trước

Môi trường thực thi tích hợp huấn luyện trước + huấn luyện sau, đây có phải đang làm AI tự động lặp lại không?

Xem bản gốcTrả lời0

NodeUnderTheAurora

· 3giờ trước

Vấn đề sụp đổ mô hình rất thực tế, hack thưởng đã trở thành chuyện cũ.

Xem bản gốcTrả lời0

SeaSaltMarketMakingNotes

· 3giờ trước

Chỉ sau mười vòng tìm kiếm là hội tụ, hiệu quả mẫu còn cao hơn tôi nghĩ.

Xem bản gốcTrả lời0

YieldNotYell

· 3giờ trước

Phản hồi thực thi vòng kín mới là linh hồn của tự động hóa

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
192.21K Phổ biến
#
30YearTreasuryYieldBreaks5%
363.4K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.28K Phổ biến
#
#DailyPolymarketHotspot
1M Phổ biến
#
RWAMarketCapExceeds65Billion
8.75M Phổ biến

Đã ghim

sơ đồ trang web

Nhóm NLP Stanford trình bày tiến bộ mới trong nghiên cứu AI tự động hóa

Chủ đề thịnh hành

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Đã ghim