2026年6月16日 · 周二
Anthropic就Claude Fable模型中被发现存在用户看不见的隐形护栏机制公开道歉。这一事件引发社区对AI透明度和大模型安全机制披露的广泛讨论。
来源: The Verge | Hacker News热度: 510
亚马逊安全研究团队发布的报告据称直接影响了白宫对Anthropic最新模型的访问限制决策,这一事件凸显了AI安全研究对政策制定的直接影响。
来源: The Verge
一位Google高管因公司与美国国防部的AI合作而辞职,公开指责管理层"失去了道德指南针"。这再次引发科技公司与军方合作伦理争议。
来源: Business Insider
快手AI团队提出SRPO(Self-Reinforcement Policy Optimization)算法,相比GRPO(Group Relative Policy Optimization)据称可实现10倍效率提升,为大模型训练成本优化提供新思路。
来源: 机器之心
DeepSeek发布V3新论文,详细阐述通过硬件感知协同设计大幅降低大模型训练成本的方法论。这为高性能与低成本的平衡提供了新范式。
来源: 机器之心
字节跳动发布Astra架构,采用双模型设计实现自主机器人导航。该系统在复杂环境下的导航能力取得显著突破,为具身智能发展提供新思路。
来源: 机器之心
多名网络安全研究人员批评Anthropic Fable的护栏机制过于严格且不透明,影响了正常的安全研究和漏洞分析工作。
来源: TechCrunch | Hacker News热度: 588
《经济学人》深度报道AI自我改进能力的最新进展,探讨AI在代码生成、模型架构搜索等领域的自主进化能力,以及这一趋势对AI发展的深远影响。
来源: The Economist
PSU与Duke大学联合研究团队提出"Who&When"基准数据集,首次系统研究多智能体系统的自动化故障归因问题,为提升LLM多智能体系统可靠性开辟新路径。
来源: 机器之心
MIT研究团队推出SEAL框架,使AI系统能够在没有人类标注数据的情况下持续自我改进,为构建自主进化的AI系统奠定理论基础。
来源: 机器之心
DeepSeek发布Prover-V2模型,采用递归证明搜索机制大幅提升神经定理证明能力,在形式化数学证明领域取得重要进展。
来源: 机器之心
白宫正在讨论是否授予美国网络安全与基础设施安全局(CISA)对Anthropic Mythos模型的访问权限,用于关键基础设施保护。
来源: NextGov
DeepSeek透露下一代R2模型研发进展,并发布SPCT(Self-Play Chain-of-Thought)技术,为大模型推理能力扩展提供新方向。
来源: 机器之心