🛠️ 技术动态
Google 发布 Gemini「换乘工具」,用户可将其他 AI 聊天机器人的记忆(偏好、关系、个人上下文)和完整聊天记录直接导入 Gemini。记忆迁移通过 Gemini 生成提示词→用户在旧 chatbot 执行→复制结果回 Gemini 的方式完成;聊天记录则支持 zip 文件直接上传。ChatGPT 周活用户 9 亿 vs Gemini 月活 7.5 亿——这是 Google 追赶用户心智份额的攻势之举。
在 OpenAI 关闭 Sora 应用后,字节跳动确认 Dreamina Seedance 2.0 正式在 CapCut 上线。该模型支持纯文字描述生成视频,无需参考图像,可渲染逼真纹理、运动和光影。首批覆盖巴西、印尼、马来等 7 个市场(此前因好莱坞版权争议暂停全球推出)。支持最长 15 秒视频,6 种画面比例。安全限制:禁止使用含真实人脸的素材。
法国 AI 公司 Mistral 发布开源文本转语音模型 Voxtral TTS,基于 Ministral 3B 架构。支持 9 种语言,仅需不到 5 秒音频样本即可克隆声音,保留口音、语调、语流特征。TTFA(首次音频时间)90ms,RTF(实时因子)6 倍——意味着 10 秒音频仅需 1.6 秒生成。体积小到可在智能手表运行,直接对标 ElevenLabs、Deepgram 和 OpenAI。
企业 AI 公司 Cohere 发布首个语音模型 Transcribe,仅 20 亿参数,支持 14 种语言。在 HuggingFace Open ASR 排行榜上以 5.42 的平均词错率(WER)居首。处理速度达每分钟 525 分钟音频。开源且可通过 API 免费使用。Cohere 计划将其整合到企业 Agent 编排平台 North 中,同时也在 Model Vault 上提供托管推理。
Google 发布 TurboQuant 压缩算法,通过缩小 KV Cache 数据大小,在保持精度的同时实现 LLM 内存占用降低 6 倍、性能提升 8 倍。这类压缩技术可以显著改善边缘设备上的模型推理质量,减少对云端的依赖。TechCrunch 标题称其为「现实版 Pied Piper」——《硅谷》粉丝狂喜。
Wikipedia 以 40:2 的投票结果通过新政策,明确禁止使用 LLM 生成或改写文章内容。此前的模糊措辞仅表示「不应使用 LLM 从头生成新文章」。新政策仍允许编辑使用 AI 进行基本语法修正,但要求 AI 不得引入自己的内容。政策明确警告:LLM 可能会超出要求范围并改变文本含义。
OpenAI 推出公开的安全漏洞赏金计划,将范围从传统安全漏洞扩展到 AI 滥用和安全风险领域。这标志着 AI 安全从内部审计向社区协作的转变——但赏金能否覆盖 AI 特有的复杂滥用场景(如越狱、间接注入等),还有待观察。