💥 重磅新闻
美国商务部向 Anthropic 发出出口管制指令,要求其禁用最强模型 Claude Fable 5 和 Mythos 5 的所有外国访问权限。特朗普政府声称原因是模型存在"越狱漏洞"——但随后被发现所谓的越狱只是用户输入"fix this code"。Anthropic 表示这一要求技术上无法实现,目前已暂停部署超过一周,引发业界对 AI 监管合理性的广泛质疑。
AlphaFold 团队联合负责人、2024 年诺贝尔化学奖得主 John Jumper 在效力九年后离开 Google DeepMind,转投竞争对手 Anthropic。Jumper 因开发预测蛋白质结构的 AlphaFold 而闻名。此次离职正值 DeepMind 在企业级编码工具市场推广遇阻之际,反映出顶尖 AI 人才正加速向应用落地能力更强的公司流动。
🛠️ 技术动态
Sakana Fugu 是一个创新性的多智能体系统,能够自主决定是直接处理用户请求,还是协调多个专家模型共同完成任务。系统自动管理模型选择、任务委派、结果验证和综合输出,用户只需调用一个统一的 OpenAI 兼容 API 即可获得多模型协同的能力。Fugu 和更强的 Fugu Ultra 现已开放使用。
Mercury 2 采用类似 Stable Diffusion 的扩散技术,以约 1000 token/秒的速度生成文本,远超传统自回归模型。该模型适用于对速度敏感的高吞吐量工作流,而非最困难的前沿推理任务。目前仅通过 API 和云端提供服务,标志着非自回归架构在语言模型领域的实用化突破。
NVIDIA 发布 ENPIRE(Evolving Neural Policies with Intelligent Reset and Evaluation)闭环框架,使编码智能体能够通过自动重置、评估、验证和优化,迭代改进真实世界中的机器人策略。该系统将代码生成与物理世界反馈结合,为具身智能的发展提供了新范式。
Morph LLM 通过针对代码输出训练专用 drafter(而非通用互联网数据),实现更快的投机解码,达到 3.07 倍加速。相关研究还包括:通过自动化内核调优在消费级 NVIDIA/AMD GPU 上达到 162 token/秒;通过 PCIe 互联替代昂贵 NVLink,利用 TCP 共享缓存,将首 token 时间缩短 84%。
Apertus 是一个新发布的开源基础模型项目,专注于为组织提供可自主部署、不受外部控制的 AI 能力。该项目强调数据主权和本地运行,满足企业对 AI 自主可控的日益增长需求。在 Claude 等闭源模型面临监管不确定性的背景下,开源方案正获得更多关注。
💡 深度分析
AI 编码工作流正经历范式转变:从精心设计的单次提示工程,转向构建可循环迭代的智能体系统。开发者现在构建的系统会反复提示、评估、再提示智能体,直到达成可量化的目标。这种模式更适应复杂任务,但也对系统设计和评估能力提出更高要求。
行业观察
切换至开源模型几乎没有 downside
随着近期模型安全措施的加强,在本地机器上运行开源模型的吸引力大幅提升。文章作者分享了从 Claude 迁移到开源方案的经验,指出现代开源模型在能力上已接近闭源模型,同时提供更好的隐私保护和可控性。HN 讨论热烈,279 条评论反映了社区对开源 AI 的高度关注。
一项透明度审计发现,尽管采用扩散架构,DiffusionGemma 仍保持了与 Gemma 相当的可监控性。研究揭示了变量透明度与算法透明度之间的差距,并探索了非时间顺序推理、token 模糊和中间上下文推理等现象,为理解扩散语言模型的内部工作机制提供了新视角。
⚡ 快讯
Deno 推出桌面运行时,为 JavaScript/TypeScript 应用提供跨平台桌面开发能力。
Anthropic 开始要求部分用户完成身份验证才能继续使用 Claude,引发用户对隐私和数据安全的讨论。
用户发现 Codex 代理存在日志记录问题,可能在短时间内向本地 SSD 写入数 TB 数据,影响设备寿命。
政策
挪威限制学校使用 AI
挪威政府宣布从 8 月起实施 AI 使用限制:1-7 年级原则上禁止使用,8-10 年级在教师监督下谨慎使用,高中阶段学习适当使用以备战升学和工作。
一个新网站呼吁用户拒绝向科技公司提供面部数据,警告面部识别数据库带来的隐私风险。
📜 论文推荐
Anthropic 提出宪法分类器框架,用于系统性地测试 AI 模型的安全边界。该方法通过定义明确的安全准则和自动化测试流程,帮助识别模型的潜在风险点,为 AI 安全评估提供了标准化工具。
论文系统梳理了从原始 Transformer 到现代大语言模型的架构演进,分析了各种注意力机制变体的设计动机和效果,为理解当前 LLM 的复杂性提供了清晰的技术图谱。
对稀疏 MoE 模型的 scaling law 进行实证研究,给出最优 expert 数量与参数量的关系,为设计高效的大规模模型提供了理论指导。