🤖 AI日报

2026年5月26日 · 周二

💥 重磅新闻

重磅

Anthropic Mythos 1即将发布，将用于Claude Code和Claude Security

Anthropic正准备将Claude Mythos推向更广泛的市场，该模型已在Google Cloud和AWS的漏洞发现项目中出现踪迹。同时Claude Opus 4.8也在开发中。

来源：Testing Catalog

重磅

Anthropic Q2收入预计达109亿美元，有望实现盈利

Anthropic预计Q2收入将从Q1的48亿美元增至109亿美元。Claude Code单月收入已达25亿美元，公司预计在10月IPO前实现5.59亿美元利润。这标志着"AI实验室永远烧钱"的故事终于出现转机。

来源：Contrary Research

🛠️ 技术动态

技术

MCP协议发布2026-07-28规范候选版本，引入无状态核心

Model Context Protocol发布史上最大修订的候选版本，引入无状态核心、HTTP基础设施扩展、OAuth/OpenID Connect授权对齐、正式弃用政策等。最终规范将于7月28日发布。

来源：MCP官方博客

技术

字节跳动推出Lance：轻量级原生统一多模态模型

Lance是一个仅30亿活跃参数的轻量级多模态模型，支持图像和视频理解、生成与编辑。该模型在图像生成、编辑和视频生成基准测试中表现出色，仅用128块A100 GPU完成训练。

来源：Hugging Face

技术

MIT研究者推出SEAL：自我改进AI的新突破

MIT发布"Self-Adapting Language Models"论文，提出SEAL框架让大语言模型能够通过"自我编辑"生成训练数据并更新自身权重。实验显示在少样本学习中成功率达72.5%，远超基线方法。

来源：Synced

技术

OpenAI发布大规模多智能体系统评估方法论

OpenAI提出针对智能体系统的宏观评估流程，通过分析整个轨迹群体的模式而非孤立失败来进行评估，为多智能体系统的大规模评估提供了新思路。

来源：OpenAI Cookbook

技术

字节跳动推出Astra双模型架构用于自主机器人导航

Astra采用System 1/System 2范式，包含Astra-Global（处理全局定位）和Astra-Local（处理局部路径规划）两个子模型。在未见过的家庭环境中实现99.9%的定位精度。

来源：Synced

💡 深度分析

观点

David Sacks最后时刻游说导致特朗普推迟AI行政令签署

风险投资家David Sacks警告特朗普，关于AI风险的行政令可能导致强制性监管，在与中国的AI竞争中拖慢行业发展。特朗普随后推迟签署并表示不会签署该命令，显示出Sacks在AI政策方面的影响力。

来源：WSJ

观点

Google AI搜索出现严重问题，可能"无视"用户搜索内容

测试显示Google的AI Overviews在某些搜索词下会给出空白答案，即使用户明确搜索特定内容也会被忽略，引发对AI搜索可靠性的质疑。

来源：The Verge

📰 行业新闻

商业

Anthropic正在洽谈使用微软AI芯片

尽管已有SpaceX每年150亿美元的大单，Anthropic仍在与微软洽谈租用搭载Maia 200芯片的Azure服务器，显示出其对算力的持续需求。

来源：The Verge

产品

ChatGPT for PowerPoint正式上线

OpenAI推出PowerPoint版ChatGPT插件，用户可通过侧边栏使用提示词创建和编辑演示文稿，支持文档、图片等多种素材。已向Business、Enterprise、Edu、Plus等用户开放测试。

来源：The Verge

研究

PSU和杜克大学研究者探索多智能体系统自动故障归因

研究人员提出"Automated failure attribution"方法，可将多智能体系统中"出了什么问题、谁该负责"的挑战从困惑的谜团转化为可量化分析的问题。

来源：Synced

⚡ 快讯

快讯

Perplexity开源Bumblebee安全扫描工具

Bumblebee是一个只读安全扫描器，可识别开发者机器上的风险包、扩展和AI工具配置。

来源：Perplexity

快讯

Anthropic计划推出Claude Memory Files功能

新的Memory Files将把笔记分布在多个按主题、项目或上下文组织的结构化文档中。

来源：Testing Catalog

快讯

Gemini 3.5 Flash (Low)版本在SWE任务上表现优于Flash (High)

Gemini 3.5 Flash (Low)比Medium版本生成token数减少45%，在SWE任务上表现甚至优于High版本。

来源：X