💥 重磅新闻
Anthropic 官方宣布美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口限制,公司将于明日开始恢复服务访问。这是此前 Mythos 5 被禁风波的重大转折,标志着 Anthropic 与特朗普政府数周谈判取得突破。
Anthropic 推出新一代中端模型 Claude Sonnet 5,在规划、工具使用、编码和知识工作等 Agent 任务上表现显著增强。官方称其能力已接近 Opus 4.8,但成本大幅降低。模型具备更强的自主运行能力,可独立完成此前需要更大模型才能完成的复杂任务。
Google 推出 Nano Banana 2 Lite,号称最快、最具成本效益的 Gemini 图像生成模型,同时发布 Gemini Omni Flash 用于视频生成和对话式编辑。这些模型已通过 AI Studio、Gemini API 及 Google 企业/消费级产品向用户开放。
Anthropic 发布 Claude Science 测试版,这是一款专为科学家设计的 AI 工作台应用,面向 Pro/Max/Team/Enterprise 用户。工作台整合碎片化科学工具,原生支持 3D 蛋白质结构、基因组浏览器轨道和化学结构渲染,初期聚焦生物学领域。
AI 芯片创业公司 Etched 估值已达 50 亿美元,已签订价值 10 亿美元的芯片系统订单。作为 NVIDIA 的直接竞争者,Etched 的快速增长反映出 AI 算力市场的旺盛需求及投资者对替代性芯片方案的信心。
Anthropic 宣布启动内部药物发现项目,开发面向制药商的 AI 工具。公司将专注于发现传统生物制药公司认为「不够吸引」的被忽视疾病治疗方案,这是科技巨头布局医疗 AI 领域的又一重要举措。
🛠️ 技术动态
美团正式发布 LongCat-2.0,这是一个拥有 1.6 万亿参数的 Mixture-of-Experts 模型,专门针对 Agent 编码、多步工作流和长上下文处理优化。该模型被揭露正是 OpenRouter 上排名前三的神秘模型「Owl Alpha」的真身。
GeneBench-Pro 是一个评估 AI Agent 在计算生物学中处理模糊性、修正假设和选择分析路径能力的基准。涵盖基因组学、定量生物学和转化医学的研究级任务,为科学 AI Agent 的能力评估提供了新的行业标准。
Miles 是 PyTorch 原生的大规模 LLM 强化学习后训练框架,旨在让前沿规模的 LLM RL 更易构建、复现和运营。随着模型规模增长,RL 后训练已成为分布式系统问题,Miles 让大规模训练更可组合、可复现且易于扩展。
OpenAI 最新研究展示了 LLM 解决数学前沿理论问题的能力。研究者设计了「证明者-验证者」工作流,使用 GPT-5.5 Pro 作为求解器、Claude Opus 4.7 作为验证器,在多个开放数学问题上取得惊人成果,成功解决了一系列未解难题。
Google 将 Spark AI Agent 推出至 Gemini macOS 应用,意味着 Agent 可以访问和操作用户电脑上的文件。同时新增 Tasks 和 Keep 连接、Canva/Instacart 集成以及实时话题追踪等功能。
OpenAI 与配件公司 Work Louder 合作推出 Codex Micro 键盘,专为「加速 Codex 使用」设计。该硬件在 AI Engineer World Fair 展出,是 OpenAI 硬件生态布局的最新进展。
💡 深度分析
AI 模型通常逐个生成 token,GPU 在等待 CPU 完成工作时会出现「气泡」空闲。本文介绍流水线解码技术:在 CPU 完成上一个 token 时,GPU 就开始计算下一个 token,从而隐藏延迟、提升吞吐量。
文章论证领域专用 AI 模型在资源约束下必然超越通用模型。这一模式在优化数学、生物进化、市场竞争和机器学习中反复出现,证明「通用性」在资源有限时结构性低效,专用化是 AI 发展的必然趋势。
Thinking Machines Lab 认为真正的工作需要持续协作——人类在 AI 执行过程中进行澄清、重定向和反馈。他们的交互模型将「交互性」内建于模型本身,而非把人类当作交完任务就离开的旁观者。实验室计划年内开放研究预览。
在 Dwarkesh Patel 的播客中,3Blue1Brown 创作者 Grant Sanderson 讨论了 AI 在数学领域不均衡但快速的进步如何为整个经济转型提供路线图。他指出 AI 在几何等领域可暴力破解,但在需要深度概念创造力的组合数学问题上仍有困难。
文章指出 Claude Code 在模型上下文中对自定义 API 路由进行指纹识别。虽然 Anthropic 有理由关注非官方 Claude 路由,但实现方式缺乏透明度——技术让一行上下文看起来语义中性,实则用标点符号携带路由元数据,被质疑接近间谍软件边界。
⚡ 快讯
据报道 OpenAI 已将对访客 ChatGPT 用户的响应成本削减超过一半。但访客用户功能受限,目前尚不清楚性能提升是否会延续到完整产品。
Base44 宣布推出自己的 AI 模型,目标是最终超越前沿模型。这反映出 AI 创业公司寻求差异化竞争力的趋势——从单纯使用第三方模型走向自研。
格莱美获奖音乐人 Weird Al Yankovic 在采访中表示「不喜欢」生成式 AI,并透露曾拒绝「一大笔钱」的商业软件广告,因为发现是 AI 相关。「一周前才发现是 AI,我想我不能成为 AI 的代言人,算了。」
AI 音频平台 ElevenLabs 采用 Google 的隐形水印技术 SynthID,帮助识别网络上的 AI 生成内容。免费用户的文本转语音已包含水印,未来几周将覆盖所有音频生成。
📜 论文推荐
HuggingFace Papers API 今日不可用(已知 404);以下论文来自 TLDR AI Engineering & Research 板块
该基准评估 AI Agent 如何处理模糊性、修正假设和在计算生物学中选择分析路径,涵盖基因组学、定量生物学和转化医学的研究级任务。
论文介绍了 Miles 框架如何让前沿规模的 LLM 强化学习后训练更易构建、复现和运营,解决分布式系统和专用硬件带来的工程挑战。
通过让 GPU 在 CPU 完成上一 token 时就开始计算下一 token,流水线解码技术有效隐藏了推理延迟,提升了自回归生成的整体吞吐量。