🤖 AI 日报

2026年05月02日 · 星期六
💥 重磅新闻
美国国防部宣布与 Nvidia、Microsoft、AWS、OpenAI、Google 达成协议,在机密网络上部署 AI 能力。Anthropic 明显缺席——此前 CEO Dario Amodei 多次公开反对把模型用于大规模监控。一纸合同画出了两种立场:愿意进五角大楼的,和不愿意的。
来源:The Verge · TechCrunch
Meta 宣布收购一家机器人初创公司,以强化其人形机器人和具身 AI 的布局。扎克伯格已经把 AR/VR 烧光一大半钱,现在要从 Reality Labs 转向"有身体的 AI"——这次押注能不能回血,就看硬件+大模型这条线能不能接上。
来源:TechCrunch
Cursor 以 600 亿美元卖给 xAI 之后,所有人都在看 Replit 会不会跟。CEO Amjad Masad 专访中明确:不打算卖。他更在意和 Apple 的对抗——在 AI 编程这个赛道,Replit 要做"独立第三极",和 Cursor(已并入 xAI)、GitHub Copilot(在微软)形成三足之势。
来源:TechCrunch
🛠️ 技术动态
Grok 4.3 相比 4.20 在 Intelligence Index 上得分更高,基准全套跑下来成本反而更低。在同智能区间里,它是目前跑一轮最便宜的模型之一,指令跟随和 agentic 客服任务表现突出。xAI 在"性价比"这条线上已经打到了 OpenAI 和 Anthropic 的腹地。
来源:TLDR AI · xAI
Anthropic 面向 Claude Enterprise 客户开放 Claude Security 公开测试,基于 Opus 4.7 识别并修复代码漏洞。已与 Microsoft Security、Palo Alto Networks 等集成,无需自己搭 API,直接接入扫描。安全工具链里塞进一个"会改代码"的模型,比之前那堆静态分析器的价值高一个量级。
来源:Anthropic Blog
OpenAI 宣布为 ChatGPT 账户加推硬件级安全选项,和 Yubico 合作支持 YubiKey。付费账户越来越像"关键基础设施"——OpenAI 在把账户安全的等级从"邮箱+密码"往"金融级"推。
来源:TechCrunch
Perplexity 上线 workflows、企业数据连接器,并集成 Microsoft Teams 和 Excel,瞄准结构化业务任务和持续自动化。从"问答搜索"升级到"企业级 AI 助理"——Perplexity 开始正面硬怼 Copilot 和 Gemini for Workspace。
来源:Perplexity Blog
Stripe 更新数字钱包 Link,支持自主 AI agent 使用钱包完成结账。Agentic commerce 不是概念了——支付层已经开始给机器发许可证。下一步拼的是谁先建立 agent-友好的商家网络。
来源:TechCrunch
Google 宣布 Gemini 开始大规模推向内置 Google Built-in 的汽车,第一批覆盖数百万辆。语音助理的战场从音箱挪到仪表盘——座舱是下一个"每天 1+ 小时高粘性"的场景。
来源:TechCrunch · The Verge
💡 深度分析
Cursor 被誉为 AI 时代运营最成功的软件公司。创始人算过到 1000 亿的路径后,决定不再自己扛——以 600 亿卖给 xAI。文章认为这是"各方都赢"的交易:xAI 拿到上市前可展示的应用层,Cursor 拿到算力和一个不和自己抢模型的金主。AI 应用层"上限天花板"正在被重新定价。
来源:Ethan Ding(Thread)
同一批 GPU、同一个模型、同量的流量,吞吐和延迟可能差出几倍——差别就在哪个 GPU 处理了哪个请求。负载均衡器如果不懂 token 本地性,会把本可以命中的 KV 缓存全冲掉。文章从"均衡 ≠ 高效"切入,讨论如何用 token-aware routing 实实在在降本。做推理平台的产品经理和基础架构工程师应该都读一下。
来源:Ranvier Systems
Latch Bio 用 SpatialBench 实测:GPT-5.5 跑得比 GPT-5.4 快近一半,但准确率几乎没变。Opus 4.7 和 4.6 同样打平。在专业科学场景里,"推理能力的通用提升"已经撞墙——再往上走必须显式训练统计设计、平台特定分析流程、重复实验敏感测试等专业知识。通用模型吃到天花板,垂直模型开始有机会。
来源:Latch Bio Blog
OpenAI 公开分析:GPT-5.1 异常频繁使用 "goblin" 式比喻,根源是人格化微调阶段的奖励信号设置。一个看似无害的风格偏好,在 RLHF 的放大下变成了显性的语言癖。这个案例再次说明:模型行为 ≈ reward shape × 数据,小信号能放得很大。
来源:OpenAI Blog
📜 论文推荐
当前 agent benchmark 普遍在发布时冻结任务集,几周就被模型熟背。Claw-Eval-Live 提出一套"持续演化"的评测方法——任务随真实软件、业务服务、本地工作区一起变。这种"会老化"的基准对长期跟踪 agent 的真实能力更靠谱。
来源:arXiv · cs.AI
自主 agent 跑在沙箱容器和 microVM 里,状态横跨文件系统、进程、运行时。文章提出 Crab——让 checkpoint/restore 对这些异构状态都可以做"语义级"快照和恢复,为 agent 的容错和可复现提供基础设施。Agent infra 这条赛道正在从"会跑"走向"可以救"。
来源:arXiv
真实长流程的办公任务高度依赖用户的电脑环境——文件夹结构、内容、历史全都是上下文。这篇论文批量生成"合成电脑"用来训练和评测长时程 productivity agent。下一代 agent 训练数据的新形态:不是更多对话,是更多"环境"。
来源:arXiv
GLM-5V-Turbo 把多模态感知直接融入推理与工具使用链路,代码、视觉任务、agent 工作流在异构输入下表现均有提升。国产多模态这次把"工具使用"和"视觉感知"拧在一起,路线上和 Anthropic Computer Use、OpenAI 视觉 agent 差不多,但开源权重更可控。
来源:arXiv
⚡ 快讯
TechCrunch 援引消息人士:Anthropic 正推进一轮约 500 亿美元融资,估值可能达 9000 亿甚至更高,营收已逼近 400 亿年化跑率。投资人需求很猛。
来源:TechCrunch
Musk vs Altman 庭审中,Musk 亲口确认 xAI 早期曾使用 OpenAI 的模型蒸馏训练 Grok。这段自我蒸馏的历史将给后续 IP 诉讼埋下隐患。
来源:The Verge
微软最新季报披露:Copilot 付费用户超 2000 万,且日活/留存数据健康。Office 侧 AI 订阅终于跑出正向闭环。
来源:TechCrunch
Legal AI 赛道再添新巨子——Legora 完成新一轮融资估值 56 亿美元,和行业老大 Harvey 正面对抗。律所场景的钱袋子还在继续开。
来源:TechCrunch
AI 拉爆内存芯片需求,三星一季度净利折合 300 亿美元以上,超过其历史单季最高记录,几乎追平过去全年利润高点。供应紧张预计明年还会更紧。
来源:WSJ
孙正义再押大注:新公司主攻机器人与数据中心建设,目标 1000 亿美元 IPO。这次是"AI 基建"和"具身 AI"一体化的赌局。
来源:TechCrunch
Meta 披露:旗下面向商家的 AI 助手每周促成约 1000 万次商家-消费者对话。WhatsApp/Messenger 上的商务 AI 正在变成真实流量入口。
来源:TechCrunch