💥 重磅新闻
Anthropic 宣布与 Google、Broadcom 达成多 GW 级下一代 TPU 算力合作,预计 2027 年开始上线,绝大多数部署在美国。该算力将服务于 Claude 前沿模型训练。Anthropic 同时透露其运营收入已突破 300 亿美元。
OpenAI 在上月底完成 1220 亿美元融资轮,投后估值达 8520 亿美元。其中 Amazon、Nvidia、SoftBank 占 1100 亿美元,其余 120 亿来自机构和个人投资者。此外,OpenAI 正与多家私募股权公司谈判成立合资企业,估值约 100 亿美元,保证最低回报 17.5%,并提供模型抢先体验权。
基于 100+ 访谈、笔记和备忘录,《纽约客》发布长文质疑 Sam Altman 的诚信问题,称其"不受真相约束"(unconstrained by truth),并指出其长期存在的欺骗模式。文章称,越来越多的问题不在于计算机是否智能,而在于 OpenAI 领导层是否可信。
🛠️ 技术动态
OpenAI 正在 ChatGPT 和 LM Arena 上测试三个 Image V2 变体,早期测试显示在 UI 设计渲染、提示词遵循和组合理解方面有显著提升,可能增强与 Google 竞争力。
Google 正在开发 Jules V2(代号 Jitro)编码 Agent,能够自主管理高层开发目标而非具体任务。通过候补名单发布,该 Agent 旨在将重点从基于任务的命令转向 KPI 驱动的结果,但面临不可预测变更和信任问题挑战。
Google 在 iOS 上发布了基于设备端 ASR 模型的听写应用,提供实时转录、过滤填充词功能,可选基于云端的 Gemini 模型编辑。完全免费,无使用限制。
Google 将 Gemma 4 开源模型的许可证从此前被批评过于限制的自定义许可证,改为更宽松且被广泛使用的 Apache 2.0 许可证。新版本还提升了性能表现。
Meta 将"最终"提供其新 AI 模型的开源版本,但会先保留部分专有功能并确保不会增加新的安全风险。此举延续 Meta 此前在 Llama 系列上的开源策略,采用专有 + 开源混合路线。
国内团队发布 GLM-5.1 模型,聚焦长时序任务处理能力,在 Hacker News 获得 537 点赞和 221 条讨论,显示国际关注。
💡 深度分析
GitHub issue 反映 2 月更新后 Claude Code 在复杂工程任务中表现不佳,引发 722 条评论和 1309 个点赞,凸显 AI 代码助手在真实场景中的挑战。
开发者 Bram Cohen 批评"氛围编程"(vibe coding)文化,指出盲目依赖 AI 生成代码而不理解其逻辑的风险。文章在 HN 获得 607 点赞和 505 条讨论。
《纽约时报》调查发现,青少年大量使用 Character.ai 等角色扮演聊天机器人,包括"有趣的暴力"、复杂故事线和"不良行为",这类平台比主流模型更宽松,引发对青少年心理健康影响的关注。
⚡ 快讯
Spotify 为 Premium 用户推出 AI 播客播放列表生成器更新,可创建个性化的每周播客发现列表。
Google Vids AI 视频编辑器新增 Veo 3.1 和 Lyria 3 模型支持,可定制 AI 生成虚拟形象,并推出 Chrome 屏幕录制扩展,支持直接上传至 YouTube。
Anthropic 向"防御性安全"合作伙伴发布 Project Glasswing,旨在保护 AI 时代的关键软件。项目在 HN 获得 1306 点赞和 649 条讨论。
AI 训练数据供应商 Mercor 遭遇数据泄露,Meta 暂停与其合作,OpenAI 正在调查事件。Mercor 声称是"恶意数据渗出"的目标攻击。
在 4 月开庭前,OpenAI 敦促加州和特拉华州调查 Elon Musk 涉嫌的反竞争行为。
集体诉讼指控 Perplexity 在其 AI 搜索引擎中植入 Meta 和 Google 追踪器,即使付费用户开启隐身模式也会共享对话内容和电子邮件地址。
Kyle Kozic 将在 Jeff Bezos 领导的 Project Prometheus 专注于基础设施工作,该初创公司使用 AI 改进制造业。
AI 合规初创公司 Delve 从 YC 名录中移除,此前匿名报告指控其"伪造合规"并泄露审计报告。Delve 回应称遭遇"恶意数据渗出"和"协同定向网络攻击"。
美国编剧工会与制片厂达成为期四年的新协议,包含更强的 AI 使用保护条款。
📜 论文推荐
北京大学提出 Context-Value-Action (CVA) 架构,通过解耦行动生成与认知推理来解决 LLM 行为刚性问题。使用基于真实人类数据训练的 Value Verifier 明确建模动态价值激活,有效缓解极化现象,提供更优的行为保真度和可解释性。
提出以内存为中心的系统 MegaTrain,在单 GPU 上全精度训练 100B+ 参数大语言模型。将参数和优化器状态存储在主机内存(CPU 内存),GPU 作为瞬态计算引擎。在单个 H200 GPU 配合 1.5TB 主机内存上可靠训练最多 120B 参数模型,训练吞吐量达 DeepSpeed ZeRO-3(CPU 卸载)的 1.84 倍。
首次全面研究在逐步挑战的真实场景下技能(skills)效用,Agent 必须从 34k 真实技能集合中检索。发现技能收益非常脆弱:随着场景变得更真实,性能增益持续下降。查询特定的精炼策略可实质性恢复丢失的性能。在 Terminal-Bench 2.0 上将 Claude Opus 4.6 通过率从 57.7% 提升至 65.5%。
Nature and AI Lab 提出 VidGround,解决视频理解基准测试中的文本偏差问题。发现常见的长视频理解基准中 40-60% 的问题仅靠文本线索就能回答。VidGround 仅使用真正需要视觉基底的问题进行后训练,配合基于 RL 的后训练算法,相比使用完整数据集提升最多 6.2 个点,同时仅使用 69.1% 的原始数据。
复旦大学提出 DARE,首个扩散大语言模型(dLLMs)的开源后训练框架。统一监督微调、参数高效微调、偏好优化和 dLLM 特定的强化学习,支持掩码和块扩散语言模型。在 LLaDA、Dream、SDAR 和 LLaDA2.x 模型家族上提供广泛的算法覆盖、可复现的基准评估和实际加速。
提出 PRepair 框架缓解程序修复中的过度编辑问题。包含两个组件:Self-Breaking(通过受控 bug 注入和 min-max 采样生成多样化的有 bug 程序)和 Self-Repairing(使用 Edit-Aware Group Relative Policy Optimization 训练模型)。在 fix_1@1 指标下将修复精度提升最多 31.4%,并显著提升解码吞吐量。
提出 Game Benchmark for Quality Assurance (GBQA),包含 30 个游戏和 124 个人工验证的 bug,评估 LLMs 是否能自主检测软件 bug。最佳模型 Claude-4.6-Opus(思考模式)仅识别出 48.39% 的已验证 bug,突显自主软件工程中的挑战。
首尔国立大学提出 TABLeT(Two-dimensionally Autoencoded Brain Latent Transformer),使用预训练 2D 自然图像自编码器对 fMRI 体积进行 token 化。将每个 3D fMRI 体积压缩为一组紧凑的连续 token,使用简单 Transformer 编码器在有限 VRAM 下进行长序列建模。在 UK-Biobank、Human Connectome Project 和 ADHD-200 数据集上优于现有模型,同时在计算和内存效率上显著优于最先进的基于体素的方法。