Kevin Simback

vip
币龄 1.5 年
最高 VIP 等级 0
用户暂无简介
PTSD引发的,懂的都懂。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
GLM 5.2 vs Opus 4.8 vs GPT 5.5
在Delphi,我们是AI的重度用户,并设有一个非常活跃的群聊来讨论所有模型和趋势。
普遍共识:
> 三者各有优缺点,没有决定性赢家
> GLM相当不错,正如许多时间线上的人所建议的那样
> Opus在设计和可视化方面仍然最佳
> GPT是日常事务和代理最常用的工作模型
通过补贴编码计划同时拥有这三者,才是最优策略
查看原文
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
刚刚离开意大利,正值热浪来袭,我真不明白为什么空调还会成为争议话题
每个人——包括当地人在内——都在抱怨
闷热的室内只会让人烦躁,快装空调吧
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
如果你不是美国或中国,我不知道你怎么能坐视不管,依赖他们获取将定义未来的情报
你会认为制定一个战略是国家的优先事项
当然,说起来容易做起来难——你需要大量资金和人才来与前沿实验室竞争
最简单的第一步是建立主权数据中心,托管开源权重模型或后训练版本——至少你拥有某种形式的情报
阿联酋和沙特阿拉伯似乎在走这条路,并在朝训练方向迈进
下一步最具影响力的是专注于去中心化训练
如果你无法建立一个能够训练出强大模型的集群,去中心化训练可能是一个可行的选择
不是今天,但作为一种对冲被排除在美国和中国模型之外或被抬价的风险的选项,如果那一天真的到来
我们即将发布一份关于去中心化训练的深度报告
如果你有任何想要了解的项目,告诉我,我已经有一个相当不错的清单,但如果它们是真正的项目,我也愿意加入其他的
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
如果你正在对一家新创业公司进行尽职调查,你现在需要在评估团队、产品和市场的同时,审视他们的“AI 原生性”。
为什么?如果他们没有走在使用 AI 的最前沿,就有可能面临执行速度不够快的风险。
这不是一个硬性筛掉标准,但这是个信号——下面是一些早期迹象:
1. 他们有没有给你一个 .md 文件,同时还给一套幻灯片,让你可以把它喂给你的 LLM?
2. 他们是做了一个交互式的 HTML 幻灯片,还是只是发来一个 PDF/docsend?
3. 他们是否会谈论他们用来构建产品的专有技能、数据、评估(evals)或方法?
4. 他们是否会在会议之间发布重大的产品更新?
这不是一个详尽的清单,只是我注意到的一些轶事性迹象。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
如果你正在评估一家新创业公司,你现在需要同时考虑他们的“AI 原生性”、团队、产品和市场
为什么?如果他们没有走在使用AI的前沿,就有可能无法足够快地执行
这不是一个硬性通过的筛选标准,但它是一个信号——这里有一些早期的迹象:
1. 他们是否给你一个 .md 文件,配合一个演示文稿,你可以输入到你的LLM中?
2. 他们是否构建了一个交互式HTML演示文稿,还是只是发送了一个PDF/文档?
3. 他们是否谈论专有技能、数据、评估或他们用来构建产品的方法?
4. 他们是否在会议之间发布了重要的产品更新?
这不是一个详尽的列表,只是我注意到的一些轶事性迹象
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
猜猜我这个:
当GLM-6发布并具备Fable/Mythos能力时会发生什么?
这不是“是否”的问题,而是“何时”的问题
理解这些场景和影响非常重要
GLM5.83%
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
刚刚注册了Sakana Fugu的子计划——让我们看看我多快用完它
这些分数让人难以不试试
查看原文
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
目前加密货币的一个大问题是你必须假设每个新代币项目都可能会跑路,无论是故意还是无意的
但为了让去中心化的人工智能运作,你需要一些协调机制,而代币最为合理
我们如何调和这个问题?
TOKEN0.77%
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
B200 以每小时4.37美元 - 我会在这里成为买家
H100的下降是有道理的 - 它们对于大型模型或具有大量缓存的代理工作负载并不那么适用
然而,B200 是一台强大的机器,那是你想运行GLM-5.2和最先进的开源模型的地方
我会看好那部分需求的多头行情
查看原文
post-image
  • 赞赏
  • 评论
  • 转发
  • 分享
Meta 开始看起来像是 AI 时代最大的自摆乌龙
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
Fable 来了又走——它好吗?
GLM 5.2 刚刚发布——它好吗?
大多数人会凭经验回答,但我们都应该自己创建个人评估
选择一些你常用的结构化工作流程,建立一个评估集,然后用任何新模型作为第一个任务来运行它们
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
消费者推理难题:
我看到许多以消费者为导向的推理项目,旨在解决前沿API的高成本
方法各异,但前提是提供比OpenRouter等聚合器更便宜的推理
这里的挑战在于时机
今天,消费者可以获得高度补贴的前沿AI
有很多选择,消费者可以以10美元起的价格获得SOTA推理计划,而每月200美元的计划提供了大量的使用量
考虑到这些子计划的存在,API按使用付费的推理需求并不那么强烈
*企业则是另一回事
因此,这些面向消费者的项目的关键假设是补贴总有一天会消失
许多人预期子计划会变得更贵,或者实验室会减少限制,最终迫使大多数人转向API计费
经典的诱饵和转换
但这些变化何时发生,完全未知
因此,如果你是开发者,你可能在前提上是正确的,但时机太早了
在这个领域表现最好的项目需要在高容量消费者API推理之外找到市场契合点,同时建立能力,在诱饵和转换发生时成为低成本提供者
这不是一件容易的事
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
目前整个AI行业的首要任务应该是推进美国本土的开源模型
美国没有理由无法与中国推出的开源模型保持同步,甚至超越它们
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
你通过Max计划剩下12天的Fable访问时间,让每一天都变得有意义:
> 复习你正在维护的每一个现有代码库
> 一次性实现你一直坚持的想法
> 压力测试你所依据的每一个论点
> 在喧嚣中找到那个Alpha
你会怎么做?
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
在短短6个月的时间里,我们从:
vibecoders
到代理工程师
再到循环设计师
每一次演进,都消耗越来越多的令牌
一直专注于任何与推理相关的内容
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
我们都知道人工智能尚未拥有出色的品味,至少在大多数领域如此
因此,这项技能仍然完全集中在人类手中
但另一项强大的人类技能是拥有一个好的AI牛$shit 检测试器——你需要知道何时质疑输出与何时将其视为理所当然
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享