💥 重磅新闻
DeepSeek 推出下一代模型 V4 预览,官方称其开源模型可直接与 Anthropic、Google、OpenAI 的闭源旗舰竞争。V4 相比前代在编码能力上有重大改进——这一能力已成为当前模型竞争的核心指标。Bloomberg 报道称,距离 DeepSeek 去年底的 AI 突破仅一年,此次发布标志着其冲击更高性能区间。
Google 宣布将向 Anthropic 投资最多 400 亿美元,包含现金和云算力支持。这是 Google 在 AI 领域最大的单笔投资之一,也标志着与 OpenAI 的竞争进一步升级。Yahoo Finance 报道称,Anthropic 在此消息后市值一度超越 OpenAI。
Anthropic 推广 Claude Mythos 时称其「太危险而无法公开」,但随后该模型却遭到泄露,被非授权人员获取。The Verge 称这是一次「极度尴尬」的安全事故——它暴露了 Anthropic 在「宣称安全」和「实际安全」之间的差距,也引发对「限制级模型」管控模式是否只是营销话术的质疑。
Meta 与 Amazon 签署协议,采购数百万颗 Amazon 自研 AI 芯片用于数据中心。这是 Meta 在 AI 基础设施领域的最新布局,此前 Meta 一直依赖 Nvidia GPU,此次合作意味着 Meta 正在多元化其硬件供应链,降低对单一厂商的依赖。
Anthropic 将 Claude 的应用生态扩展到个人生活场景,新增连接器支持 Spotify(音乐)、Uber Eats(外卖)、TurboTax(税务)等应用。此前 Claude 已支持 Microsoft 等工作类应用集成,此次扩展意味着用户可以通过 Claude 直接操作日常消费类应用。这是 Anthropic 继续对抗 OpenAI「超级应用」战略的差异化动作。
🛠️ 技术动态
微软在 Word、Excel、PowerPoint 中上线 Agent Mode,官方此前称之为「vibe working」——让 AI 以更主动的方式协作修改文档、生成报表和构建幻灯片。相比早期 Copilot 的「建议式」交互,Agent Mode 允许 AI 跨单元格/跨页面/跨文件连续操作,最接近「我让它做完一整份活」。
OpenAI 发布 ChatGPT Workspace Agents,允许企业用户在 ChatGPT 内构建可跨系统操作的智能体,直接读取日历、邮件、内部文档等数据并执行操作。配合 GPT-5.5 的发布,OpenAI 正全面加速从聊天机器人向「能干活的 Agent 平台」的转型。
Google 把 Gmail 的 AI Overviews 功能开放给 Workspace 商业账户,企业用户在收件箱顶部可看到 AI 自动生成的邮件摘要、行动建议和后续提醒。这是 Google 把 Gemini 嵌入日常工作流的关键节点之一,对标 Microsoft Copilot 在 Outlook 的同类能力。
Anthropic 工程团队公开发布 4 月 23 日生产事故的详细 postmortem,涵盖 Claude Code 近期不稳定的多起事故、根本原因分析与修复措施。报告承认在快速迭代中忽视了部分稳定性测试,并承诺加强自动化测试、灰度发布和监控告警能力。这是 Anthropic 第一次以公开 postmortem 形式直面工具质量问题。
Amazon Science 在 GitHub 开源 Expert Upcycling,一种把已训练稠密 Transformer「升级」为 Mixture-of-Experts(MoE)模型的方法。技术核心是从稠密 FFN 中复制并差异化初始化多个 expert,避免从零训练 MoE 的高昂成本。论文与代码同步释出,开发者可在自有模型上直接验证。
Allen AI 推出 OLMo Earth Embeddings,针对卫星影像、遥感数据训练的开源嵌入模型,支持土地覆盖分类、农业监测、灾害评估等地球观测下游任务。模型权重和训练代码完全开源,是「开放科学」AI 在地球科学领域的延伸。
TechCrunch 报道称,由于 AI 行业对高带宽内存(HBM)的疯狂需求,全球 DRAM 供应紧张,连消费级产品如 Mac mini 都开始在 eBay 上溢价交易。这是 AI 算力争夺战「外溢」到普通消费者的一个缩影——AI 不再只是云端的事,已开始影响每个人的钱包。
💡 深度分析
The Verge 深度分析指出,以 Anthropic、OpenAI 为代表的 AI 实验室开始大幅收紧免费/低价额度、提高企业定价,这背后是 Token 经济学难以为继的现实——推理成本高昂、用户粘性不足、商业化进展缓慢。文章认为,未来几个月用户将明显感受到「AI 变贵了」,这是行业从「增长优先」转向「盈利优先」的必然结果。
美国参议员 Warren 在活动演讲中直指 AI 行业存在典型的「泡沫」特征:估值虚高、依赖持续输血、监管不足。她认为一旦多家 AI 公司同时陷入困境,将波及供应链、云计算、风投等关联环节,重演 2008 式的系统性风险。这标志着美国政界对「AI 泡沫」的公开质疑正在从边缘声音走向主流话语。
The Verge 长文讨论 AI 时代下的阶层流动问题。作者指出,AI 工具门槛看似降低,但真正能用 AI 提升十倍生产力的,仍是已掌握资源、知识和资本的群体;底层劳动者反而最容易被「代替」而非「赋能」。文章呼吁社会层面的制度调整——单纯指望市场会自然平衡是天真的。
Inference.sh 团队提出新观点:用于约束、引导 LLM Agent 的「harness」(脚手架)本质上是一种新型 Shell——它不是写代码的地方,而是定义「Agent 能做什么、怎么做、在哪做」的运行时环境。文章认为未来 AI 工程的核心竞争力,就在于 harness 设计的优雅程度,而不是模型本身。
Google 内部数据显示,目前 75% 的新提交代码由 AI 工具生成或辅助完成。这一比例在过去半年内迅速上升,标志着大型科技公司内部已经完成了从「试用 AI」到「依赖 AI」的根本转变。但 Google 同时强调,AI 生成的代码必须经过工程师 review,「写代码的人」并未消失,而是变成「监督代码的人」。
⚡ 快讯
📜 研究与论文
Amazon Science 开源的 Expert Upcycling 方法提供了一条从稠密模型低成本迁移到 MoE 架构的路径。其核心思路是在 FFN 层复制并差异化初始化多个 expert,保留原模型已学习的表征能力,避免昂贵的从头预训练。论文展示了 7B→47B 规模上的性能提升与训练成本对比。
Allen AI 发布的 OLMo Earth Embeddings 是面向地球观测与遥感的专用嵌入模型,基于大规模卫星影像和多模态遥感数据训练。在土地分类、农业监测、灾害识别等下游任务上,相比通用视觉模型有显著提升。完整权重与训练流程开源,降低了地球科学研究者使用深度学习的门槛。
Agent 架构
Harness is a Shell:Agent 运行时的抽象模型
Inference.sh 团队提出的「harness 即 Shell」观点,从系统设计视角重新定义了 Agent 运行时:harness 不是单纯的 prompt 模版,而是定义 Agent 边界、工具调用、权限与状态管理的执行环境。文章对比了当前主流 harness 设计(如 LangGraph、Claude MCP、ReAct),并讨论可能的统一抽象层设计方向。