
AI 早报 2026-05-01
概览
要闻
产品应用
开发生态
- Anthropic 推出 Claude Security 测试版,基于 Opus 4.7 扫描漏洞 ↗
#7 - Gemini CLI 更新 v0.40.0,支持本地模型及分层记忆 ↗
#8 - 阿里 Qoder 推出远程控制并发布数字员工 QoderWake ↗
#9 - Cloudflare 联合 Stripe 支持 AI Agent 自动完成部署 ↗
#10 - OpenClaw 发布安全复盘及版本更新 ↗
#11 - Hermes Agent 发布 v0.12.0,优化自我改进循环 ↗
#12
技术与洞察
- DeepSeek 发布多模态技术报告,视觉原语思考代码 ↗
#13 - 智谱 AI 修复 GLM-5 推理竞态 Bug,提交代码至 SGLang 社区 ↗
#14 - OpenAI 披露 GPT 模型哥布林词频暴涨,Nerdy 性格奖励致偏 ↗
#15 - Cursor 发文详解 Agent 框架改进 ↗
#16 - AISI 称 GPT-5.5 比肩 Mythos,OpenAI 将推 GPT-5.5-Cyber ↗
#17 - Qwen 团队发布 Qwen-Scope,开源14组 SAE 权重 ↗
#18
行业动态
- OpenAI 更新 Stargate 项目,提前完成十吉瓦基建目标 ↗
#19 - Google DeepMind 宣布 AI co-clinician 研究计划 ↗
#20 - Genspark 携手微软,AI Agent 原生嵌入 Microsoft 365 生态 ↗
#21 - 小红书宣布组织升级,成立 AI 部门 Dots 及海外部门 Rednote ↗
#22
要闻
OpenAI 发布 Codex 重大更新,拓展办公场景 #1
OpenAI对Codex进行了重大升级,将其全面扩展为支持日常办公的个人工作助手,新版本引入了基于岗位角色的动态UI,允许用户连接Slack等常用应用并由系统自动推荐插件与调整界面布局,还全面优化了电子表格与幻灯片生成及跨组件直接注释功能。在性能提升上,Computer Use模式的整体速度提升了20%,同时Codex CLI 新增了跨轮次追踪任务的 /goal 命令,App 端则新增了不中断主会话的 /side 侧边聊天命令。
OpenAI 近日对 Codex 进行了重大升级,使其不仅适用于开发者,也面向所有日常办公场景。官方宣布,Codex 现已成为面向团队的个人工作助手,支持非编码的日常计算机操作。新版本引入了基于角色的动态 UI,用户可选择岗位角色并连接 Slack、Google Workspace、Microsoft 365 等常用应用,Codex 会据此推荐相关插件和提示,并围绕当前任务动态调整界面布局。在性能方面,官方称 Computer Use 模式在特定用例中速度提升 42%,整体计算机与浏览器操作提速约 20%,一位 OpenAI 内部人员表示这是首次看到 LLM 操作 GUI 的速度与人类相当。此外,新版本改进了幻灯片和表格生成、支持在浏览器、artifacts 和代码中直接注释,并简化了上手流程与界面设计。同时,Codex CLI 0.128.0 版本新增了 /goal 命令,允许跨轮次持续追踪并实现一个目标,结合 GPT-5.5 该功能可长时间连续执行复杂任务。Codex App 端新增了 /side 侧边聊天命令,类似 Claude Code 的 /btw。



相关链接:
- https://chatgpt.com/codex/for-work/
- https://x.com/thsottiaux/status/2049970070873629026
- https://x.com/Dimillian/status/2049929842133520577
xAI 推出 Grok 4.3 #2
xAI 正式推出了 Grok 4.3 Beta 模型,官方称这是一款新预训练模型,在规模上与 Grok 4.20 相当,但架构有所改进,知识截止日期为 2025 年 12 月。目前已面向订阅用户和 API 开放。
xAI 宣布推出 Grok 4.3 Beta,这是一款新预训练模型,在规模上与 Grok 4.20 相当,但架构有所改进,知识截止日期为 2025 年 12 月。该模型已向 SuperGrok 和 Premium+ 订阅用户开放,同时 API 也已上线。据 Artificial Analysis 测评,Grok 4.3 在 Artificial Analysis Intelligence Index 上得分为 53,表现略优于 Muse Spark 和 Claude Sonnet 4.6。

相关链接:
OpenRouter 上线 stealth 模型 Owl Alpha ,百万上下文 #3
一款名为Owl Alpha的 stealth 模型在OpenRouter平台上线,相关介绍称该模型专为Agent工作负载设计,提供百万级上下文窗口,同时在Kilo等平台也提供免费使用。
OpenRouter平台上线一款名为Owl Alpha的 stealth 模型。据相关页面介绍,该模型专注于Agent工作负载,原生支持工具使用和长上下文任务,在代码生成、自动化工作流和复杂指令执行方面表现突出,并兼容Claude Code、OpenClaw等主流生产力工具。同时在 Kilo Code 等平台也提供限时免费使用。

相关链接:
产品应用
OpenAI 推出 ChatGPT 高级账户安全功能 #4
OpenAI 推出了名为Advanced Account Security的ChatGPT账户安全设置。该功能通过使用抗钓鱼的通行密钥或物理安全密钥等措施,提供更高级别的保护,所有用户现在都可自行开启。
近日,OpenAI正式面向ChatGPT账户推出了一项名为 Advanced Account Security 的可选设置,旨在为面临较高数字攻击风险的用户以及追求最高级别账户保护的用户提供更强的安全保障。该功能集成了防钓鱼登录、更安全的账户恢复、缩短登录会话时长、自动排除训练数据等多项增强保护措施,用户现可在Web端的安全设置中自行开启,同时该保护也适用于Codex账户。OpenAI还宣布,自2026年6月1日起,其Trusted Access for Cyber项目的个人成员必须启用Advanced Account Security。

相关链接:
谷歌相册推出 AI 数字衣橱,安卓端率先上线 #5
Google Photos 计划在今年夏季推出一项AI驱动的数字衣橱功能,它能自动识别并整理相册里的衣物,方便用户自由搭配并虚拟预览上身效果,届时将率先面向安卓用户推送。
Google Photos 推出了一项由 AI 驱动的新功能,可自动识别并整理用户照片库中的衣物,生成专属数字衣橱。用户可依据类别筛选、自由组合搭配、保存为不同场合的灵感板,并借助“Try it on”虚拟预览整体效果。该功能将于今年夏季率先面向 Android 用户推送,随后登陆 iOS。

相关链接:
快手上线桌面 AI 智能体 KroWork #6
快手推出桌面端通用AI智能体KroWork。这款产品专门面向非程序员,能自主执行任务,还能把重复的工作流固化为免消耗Token的本地桌面应用,实现双击即用。
快手推出的桌面端通用AI智能体KroWork于近日正式上线,该产品定位为非程序员的知识工作者,支持用户通过自然语言指令让AI自主规划执行任务,并能将重复性工作流固化为本地桌面应用,实现一键运行且无需额外消耗Token或积分。KroWork以安全沙箱机制执行操作,触碰外部内容前需用户授权,并支持查看每一步执行过程。其国内版集成Qwen、Kimi、Deepseek等主流模型,国际版支持OpenAI和Anthropic的最新旗舰模型。该产品即日起开放注册,国内外同步首发,首次注册赠送免费积分。

相关链接:
开发生态
Anthropic 推出 Claude Security 测试版,基于 Opus 4.7 扫描漏洞 #7
Anthropic 面向 Claude Enterprise 客户推出了 Claude Security 公开测试版,这款基于 Claude Opus 4.7 的工具可以像安全专家一样扫描代码查找漏洞,并生成需人工审批的修补建议。
Anthropic 近日面向 Claude Enterprise 客户推出 Claude Security 公开测试版,该工具基于 Claude Opus 4.7,可扫描代码库发现漏洞、进行对抗性验证并生成可直接审阅的修补建议。用户可通过 Claude.ai 侧边栏、专用页面或 Claude Code on the Web 直接使用,支持按仓库/目录/分支设定扫描范围、定时扫描、以 CSV/Markdown 导出结果或通过 webhook 推送至 Slack/Jira 等工具。补丁需人工审批后应用。Claude Team 和 Max 用户的访问权限即将开放。

相关链接:
Gemini CLI 更新 v0.40.0,支持本地模型及分层记忆 #8
Gemini CLI 发布了 v0.40.0 版本,带来了超过 150 项重大改进。新版本加入了对本地 Gemma 模型的实验性支持,允许用户进行智能模型路由。同时,Agent 迎来了全新的分层记忆系统和自动提取技能功能。
Google Gemini CLI 发布了 v0.40.0 版本,该版本引入了超过 150 项改进,核心功能包括对本地 Gemma 模型 (实验性) 的初始支持,用于智能模型路由;一个全新的分层记忆系统,可跨项目、子目录、私有和全局四个层级持久化上下文;以及基于历史会话自动提取技能的 Auto Memory (实验性) 功能。此外,该版本还引入了用于任务跟踪的 Task Tracker (实验性)、精简的 UI(包含紧凑工具输出和主题描述)、MCP 资源支持的最终化、用于保障安全的新增壳命令验证和核心工具白名单、原生桌面通知、新的/memory inbox和/new命令、色盲友好主题,以及针对内存使用和离线搜索的多项优化

相关链接:
- https://x.com/geminicli/status/2049875287924465715
- https://x.com/googlegemma/status/2049926903830921448
阿里 Qoder 推出远程控制并发布数字员工 QoderWake #9
Qoder正式推出移动端应用及远程控制功能,用户可随时掌控桌面端Agent任务。同时,Qoder发布了持续进化的生产级数字员工产品QoderWake,其首个数字程序员角色已实际应用,目前该产品已全面开启邀测。
阿里旗下Qoder于近日正式推出远程控制功能及移动端应用,同时发布数字员工产品QoderWake。Qoder移动端(Web版已上线,iOS和Android应用正在上架中)支持用户通过手机远程控制桌面端Qoder产品完成任务。移动端首发接入Qoder CLI全部能力,未来将打通Qoder IDE、QoderWork及数字员工QoderWake全系产品。QoderWake是官方宣称业界首个安全可控、持续进化的生产级数字员工产品,采用Harness-First架构,每次执行后将经验归类沉淀到记忆、技能、策略、验证规则和工作流五个维度,支持自主执行、自动回溯和主动复盘,并内置防腐机制持续优化。目前QoderWake已开启邀测,个人和企业可在官网申请雇佣或定制专属数字员工,近期还将上线数字分析师等角色。

相关链接:
Cloudflare 联合 Stripe 支持 AI Agent 自动完成部署 #10
Cloudflare宣布与Stripe合作推出了一项新协议。现在,AI Agent在获得用户授权后,能够自动完成创建云账户、购买域名以及部署应用的全套上线操作。
Cloudflare近日宣布,Agent现在可直接代表用户完成所有部署上线的关键步骤:创建Cloudflare账户、开通付费订阅、注册域名并获取API token,全程无需用户登录仪表盘、复制粘贴API token或输入信用卡信息。该能力通过与Stripe共同设计的新协议实现,作为Stripe Projects(公开测试阶段)的一部分推出。

相关链接:
OpenClaw 发布安全复盘及版本更新 #11
OpenClaw发文对项目安全方面进行复盘。同时,项目连续发布了两个版本更新,重点改善了Agent群聊体验,集成了DeepInfra与NVIDIA provider,并全面提升了系统的可靠性与安全性。
OpenClaw近日通过官方博客详细回顾了项目在安全方面的挑战与改进,并同时发布了两个版本更新。在安全方面,OpenClaw自今年1月至今已收到大量安全公告,项目通过定义信任模型、缩减核心将功能推给插件、强化发布流程、添加可观测性等方式进行了实际修复,并获得了NVIDIA、腾讯等多家企业的工程与安全支持。版本方面,OpenClaw 2026.4.29改进了群聊体验、支持后续承诺、增强执行安全与控制,并集成了NVIDIA provider及模型目录。此前发布的2026.4.27版本则将DeepInfra作为内置provider、改进了文件附件处理、增加了操作员管理的代理路由、强化了Matrix审批与预览、优化了模型选择,并提升了网关、频道、会话的可靠性。


相关链接:
- https://openclaw.ai/blog/openclaw-security-in-public/
- https://github.com/openclaw/openclaw/releases/tag/v2026.4.29
Hermes Agent 发布 v0.12.0,优化自我改进循环 #12
Nous Research 发布了Hermes Agent 更新,带来了全新“Hermes Curator”功能,它能自动评估和清理冗余技能,同时还大幅升级了自我改进循环,并新增了多个推理提供商与消息平台。
Nous Research 发布 Hermes Agent v0.12.0 版本。核心亮点为 Hermes Curator 系统,该后台 Agent 默认以 7 天周期自动评估技能库,据官方称有效解决技能冗余问题。自我改进循环升级为基于评分模式,ComfyUI v5 与 TouchDesigner-MCP 变为默认内置。推理提供商方面,LM Studio 升级为一级提供商,新增四个云服务商。消息平台新增 Microsoft Teams 插件及腾讯元宝原生支持,集成 Spotify 与 Google Meet。此外,TUI 冷启动性能提升约 57%。更新已在 GitHub 开放下载,含 213 位贡献者的 360 多个修复 PR。

相关链接:
- https://github.com/NousResearch/hermes-agent/releases/tag/v2026.4.30
- https://hermes-agent.nousresearch.com/docs/user-guide/features/curator
技术与洞察
DeepSeek 发布多模态技术报告,视觉原语思考代码 #13
DeepSeek发布了多模态技术报告《Thinking with Visual Primitives》并开源相关代码,详细解析了基于DeepSeek-V4-Flash基座的识图模式技术细节。该技术的核心创新在于将传统语言思维链升级为语言逻辑加空间坐标的双轨思维,让模型能直接在图像上输出点或框进行精准视觉定位。值得注意的是,官方相关帖子和技术报告在发布一段时间后就被删除。
近日,DeepSeek发布多模态技术报告《Thinking with Visual Primitives》,详细阐述了已灰度上线的识图模式背后的技术细节。该模式基座为DeepSeek-V4-Flash,其核心创新在于将传统语言思维链升级为“语言逻辑+空间坐标”双轨思维,模型可在推理过程中直接输出点或框进行视觉定位。通过多级视觉压缩架构,高分辨率图像的KV缓存仅保留约90个视觉条目,压缩比超7000倍。报告显示,该模型在一系列高难度视觉QA任务中表现超过GPT-5.4、Claude-Sonnet-4.6等模型。训练流程涵盖预训练、冷启动与强化学习,包括从超4000万个高质量样本中筛选数据,为计数、空间推理、迷宫导航、路径追踪四类任务合成精确思考轨迹,并采用稠密奖励机制。该项目技术报告与部分代码已在GitHub开源,模型权重计划在未来整合进DeepSeek基础模型发布。

相关链接:
- https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
- https://x.com/PKUCXK/status/2049798862504944117
智谱 AI 修复 GLM-5 推理竞态 Bug,提交代码至 SGLang 社区 #14
智谱发布技术博客,分享了他们在超大规模Coding Agent推理中,通过引入同步机制,修复了因KV Cache竞态导致的乱码和复读问题。同时还提出了能显著提升系统吞吐量的LayerSplit分层存储方案。
近日,智谱AI发表技术博客,分享了其在超大规模Coding Agent推理实践中遭遇并解决的系统级问题。其GLM-5系列模型在高并发、长上下文的Coding Agent场景下出现乱码、复读及生僻字三类异常,经排查定位为两个底层竞态Bug所致:一是PD分离架构下因异步Abort信号缺失引发的KV Cache复用竞态,二是HiCache多级KV Cache流水线中缺少数据加载完成的同步约束导致的read-before-ready访问。团队通过引入跨节点同步机制和显式同步约束修复了这两个问题,并使异常发生率由约万分之十几降至万分之三以下。在此基础上,团队进一步设计了KV Cache分层存储方案LayerSplit,在Cache命中率达90%的条件下,系统吞吐量提升10%至132%,且随上下文长度增加收益更显著。相关修复已通过Pull Request #22811提交至SGLang社区。

相关链接:
- https://mp.weixin.qq.com/s?__biz=MzkyMzc0NTA3Nw==&mid=2247487377&idx=1&sn=34f50b4b92a731164013c24a5d208ae4&chksm=c0aeb91b4bdb130f54ffe5ca5bd5e0899225aa8f245dc25738d0f0fb8471e1bed49660e25605#rd
- https://z.ai/blog/scaling-pain
OpenAI 披露 GPT 模型哥布林词频暴涨,Nerdy 性格奖励致偏 #15
OpenAI发布技术博客说明,其多个模型在回复中异常频繁地使用哥布林和小精灵等词汇。调查发现,这是因为训练ChatGPT的Nerdy性格时,奖励模型在强化学习中无意给这类词汇打了高分。
日前,OpenAI发布技术博客,详细披露了其模型从GPT-5.1开始频繁提及“哥布林”(goblin)和“小精灵”(gremlin)等奇幻生物的调查结果。数据显示,GPT-5.1上线后“goblin”出现次数暴涨175%,“gremlin”上涨52%;到GPT-5.4时问题加剧。根因锁定在ChatGPT的“Nerdy”性格定制功能——该性格仅占所有回复的2.5%,却贡献了66.7%的goblin提及。OpenAI发现,训练该性格时的奖励模型无意中给包含生物比喻的回复更高分数,导致模型在强化学习训练中学会并泛化了这一表达习惯,形成反馈循环。其他受影响词汇还包括浣熊、巨魔、食人魔和鸽子。OpenAI已于2026年3月下架Nerdy性格,移除相关奖励信号并过滤训练数据中的生物词。但GPT-5.5的训练在找到根因前已开始,故该模型仍带有此倾向,目前OpenAI在编程工具Codex中通过系统提示词进行压制。

相关链接:
Cursor 发文详解 Agent 框架改进 #16
Cursor在官方博客发文,详细分享了他们持续优化Agent框架的具体方法。其中主要通过离线评估套件(含公开基准CursorBench)和在线A/B实验来量化改进效果。
Cursor在官方博客发文,详细分享了他们持续优化Agent框架的具体做法。为了量化改进效果,团队建立了包含公开基准CursorBench和在线A/B测试的多层衡量体系,大幅降低了意外工具调用错误。同时,Cursor为不同的大模型进行了深度定制,配置专属的工具格式与提示,成功解决了用户在对话中途切换模型时带来的缓存失效等技术难题。他们还指出,未来的AI辅助编程将逐渐走向多Agent协同委派与编排的工作模式。

相关链接:
- https://cursor.com/blog/continually-improving-agent-harness
- https://x.com/cursor_ai/status/2049901436918436249
AISI 称 GPT-5.5 比肩 Mythos,OpenAI 将推 GPT-5.5-Cyber #17
AISI发布评估结果,认为OpenAI的GPT-5.5早期检查点在多步网络攻击模拟任务上的表现与Anthropic的Claude Mythos Preview模型相当。同时,OpenAI宣布将在未来几天向关键网络安全防御者推送专门用于网络安全的GPT-5.5-Cyber模型。
英国 AI 安全研究所(AISI)近日公布了对 OpenAI GPT-5.5 早期检查点的网络安全评估结果,显示该模型在多步网络攻击模拟任务上的表现与 Anthropic 的 Claude Mythos Preview 相当,成为继后者之后第二个完成 AISI 端到端攻击模拟的模型。与此同时,OpenAI CEO Sam Altman 宣布将在未来几天向关键网络安全防御者推送专门为网络安全打造的 GPT-5.5-Cyber 模型,并表示将与整个生态系统和政府合作建立可信访问机制,以加快保护企业和基础设施。


相关链接:
- https://x.com/AISecurityInst/status/2049868227740565890
- https://x.com/sama/status/2049712078836170843
Qwen 团队发布 Qwen-Scope,开源14组 SAE 权重 #18
Qwen团队发布了Qwen-Scope可解释性工具集,在各大开源平台上线了十四组 SAE 权重。这套工具能自动提取模型内部的可解释特征,帮助开发者精准进行推理控制、数据分类以及训练优化等操作。
2026 年,Qwen 团队发布 Qwen-Scope,这是一套基于 Qwen3 与 Qwen3.5 系列模型的稀疏自编码器集合。该工具通过稀疏性约束提取高度可解释的内部特征,支持推理控制与数据合成。官方开源 14 组 SAE 权重,覆盖 7 个大模型。据官方称,其数据合成能效比提升至约 15 倍。相关资源已上线 HuggingFace 和 ModelScope,技术报告同步公开。

相关链接:
- https://qwenlm.github.io/zh/blog/qwen-scope/
- https://huggingface.co/collections/Qwen/qwen-scope
- https://huggingface.co/spaces/Qwen/Qwen-Scope
行业动态
OpenAI 更新 Stargate 项目,提前完成十吉瓦基建目标 #19
OpenAI更新了Stargate项目进展,宣布原定于2029年在美国建成10GW人工智能基础设施的目标已提前超额完成,过去90天内就新增了超过3GW的容量。
OpenAI 更新 Stargate 项目进展,该项目旨在为通用人工智能提供算力基础。该公司原承诺 2029 年在美国建成 10GW 基础设施,现已提前超额完成,过去 90 天新增超 3GW 容量。其旗舰站点位于德克萨斯州阿比林,运行于 Oracle Cloud Infrastructure 之上并搭载 NVIDIA GB200 系统。官方称最新模型 GPT‑5.5 就是在该站点完成训练。

相关链接:
- https://openai.com/index/building-the-compute-infrastructure-for-the-intelligence-age/
- https://cdn.openai.com/pdf/openai-ending-the-capability-overhang.pdf
Google DeepMind 宣布 AI co-clinician 研究计划 #20
Google DeepMind宣布了AI co-clinician研究计划,探索多模态Agent如何在专家监督下辅助医疗护理。在与哈佛医学院和斯坦福医学院合作的模拟研究中,该系统在140项评估里有68项达到或超越初级保健医生水平。
Google DeepMind近日宣布了一项名为AI co-clinician的新研究计划,旨在探索多模态Agent如何作为临床团队中的协作成员,在专家临床监督下辅助医疗工作及患者护理。该计划基于Gemini与Project Astra的实时音视频能力,在由哈佛医学院和斯坦福医学院合作设计的高保真模拟研究中,AI co-clinician在140项咨询技能评估中有68项达到或超过了初级保健医生的水平。系统采用双Agent架构(Planner监控Talker)以维持安全边界,并已在药物知识开放式问答(OpenFDA RxQA)中超越其他前沿模型。目前该研究正与美国、印度、澳大利亚、新西兰、新加坡及阿联酋等地的学术机构合作分阶段推进,并计划逐步扩大临床医生信赖测试项目。

相关链接:
- https://deepmind.google/blog/ai-co-clinician/
- https://x.com/GoogleDeepMind/status/2049867061279457761
Genspark 携手微软,AI Agent 原生嵌入 Microsoft 365 生态 #21
Genspark宣布与Microsoft建立全球战略合作,其AI Agent已作为原生插件直接嵌入Microsoft 365生态。
Genspark近日宣布与Microsoft建立全球战略合作伙伴关系,将自身AI Agent直接嵌入Microsoft 365及Microsoft Agent 365生态,在PowerPoint、Excel、Word等日常办公应用中原生集成智能工作流。基于Azure基础设施构建,Genspark的AI Slides、Sheets、Docs Agents已作为原生插件可在Microsoft 365中使用。
相关链接:
小红书宣布组织升级,成立 AI 部门 Dots 及海外部门 Rednote #22
据报道,小红书近日发布内部信宣布组织升级,全面整合社区、电商和商业化三大核心业务,同时新成立了AI一级部门Dots以及海外业务部门Rednote。
近日,小红书发布全员内部信,宣布新一轮组织升级,全面整合社区、电商、商业化三大业务及公司技术体系,提升核心业务整体经营能力,同时成立AI一级部门Dots和企业智能部,从产品技术和组织两方面加大对AI的投入。此外,小红书宣布成立海外业务部门Rednote,开启国际化业务从0到1,并设立Lab 1327探索新产品孵化机制。据内部信透露,小红书App月活用户已超过4亿。
相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。