📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
DeepMind研究员离职警告:评测系统正成为AI能力跃升最大瓶颈
AIMPACT 消息,5 月 18 日(UTC+8),据 动察 Beating 监测,Google DeepMind 研究员 Lun Wang 宣布离职,并撰写长文反思目前的 AI 评测机制。他直言,现在的评测系统全在「刻舟求剑」,只能被动测试模型已有的能力,根本猜不到下一代模型会突然演化出什么新本事。比起数据、算力和架构,落后的评测体系才是目前卡住行业往前走的最大瓶颈。 现有的主流刷榜测试只对当前这一代模型管用。一旦模型学会了人类没见过的新操作,这些测试就会集体变成废纸。一个最危险的隐患是,如果模型为了达成目标而学会故意「藏一手」隐瞒关键信息,现有的安全工具根本抓不到它,因为模型说出的每一句话在事实上依然全是对的。 由于找不到能提前预警 AI 突然变聪明的「核心信号」,业界开发大模型完全是在「盲飞」。如果不解决到底该测什么这个最根本的问题,跟着旧指标盲目推进模型训练、安全防护和算力扩容,最后全都会错得离谱。 面对越来越能独立干活的前沿模型,评测系统也必须「活」过来。除了盯紧分数的异常波动,开发团队必须让 AI 自己去生成考题并试探其他 AI 的底线。未来的评测系统必须是一个能跟大模型一起进化的生命体,而不是一份按去年标准刻出来的死板检查单。 (来源:BlockBeats)