
AI 早报 2026-05-06
概览
要闻
- OpenAI 推出 GPT-5.5 Instant,ChatGPT 增强记忆功能 ↗
#1
产品应用
- Claude 推出系列金融 Agent 模板,多家机构已落地采用 ↗
#2 - Google NotebookLM 更新 Mind Maps,移动端开发计划确认 ↗
#3 - Google Finance 推出 AI 关键瞬间功能解析股价波动 ↗
#4 - Google 推出 Pomelli Catalog,免费向全球用户开放体验 ↗
#5
模型发布
- Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter ↗
#6 - Subquadratic 推出 SubQ,上下文窗口达 1200 万 token ↗
#7 - Inworld AI 发布 Realtime TTS-2,支持跨语言实时对话 ↗
#8 - Luma 开放 UNI-1.1 系列模型 API,Image Arena 排名全球实验室第三 ↗
#9
开发生态
- AI Studio 更新 Build 模块,集成 Nano Banana 与编辑模式 ↗
#10 - 字节跳动 TRAE 上线 SOLO 移动端,支持跨设备协同 ↗
#11 - Augment Code 发布 Augment Cosmos 公开预览 ↗
#12 - 谷歌更新 Gemini API 文件搜索,支持多模态检索与精确引用 ↗
#13 - OpenClaw 发布 2026.5.4 版,优化启动插件,传将发长期支持版 ↗
#14
技术与洞察
行业动态
前瞻与传闻
要闻
OpenAI 推出 GPT-5.5 Instant,ChatGPT 增强记忆功能 #1
OpenAI宣布向所有ChatGPT用户推出GPT-5.5 Instant作为新默认模型。它在提升智能与图像分析能力的同时大幅减少幻觉,写作风格也更简洁直白。ChatGPT还增强了记忆功能的效果,并上线了记忆源功能,用户可直接查看和管理个性化回复的具体上下文来源。
OpenAI从近日起开始向所有ChatGPT用户推出GPT-5.5 Instant,将其作为新的默认模型并替代GPT-5.3 Instant,同时在API中以gpt-5.5-chat-latest提供。官方称这是一次重大升级,该模型在通用智能、事实准确性、图像分析、STEM问题解答以及何时使用网络搜索方面均有提升,写作风格更加简洁直白,减少了冗余和表情符号;其内部评估显示,在医学、法律、金融等高风险领域,GPT-5.5 Instant相比前代模型减少了52.5%的幻觉声明,并将用户标记的事实错误对话中的不准确声明降低了37.3%。与此同时,ChatGPT的记忆与个性化功能得到加强,能够更有效地利用保存的记忆、历史对话、文件和已连接的Gmail账户上下文来提供个性化回答,并新推出记忆源功能,让用户可查看、更新或删除用于个性化回复的具体上下文来源。个性化改进已向Plus和Pro网页端用户推出,移动端即将上线,未来数周内将推广至Free、Go、Business和Enterprise用户;记忆源功能则覆盖所有消费者套餐的网页端。对于付费用户,GPT-5.3 Instant将保留三个月后淘汰。


相关链接:
产品应用
Claude 推出系列金融 Agent 模板,多家机构已落地采用 #2
Claude面向金融行业推出投行推介、月终结账及KYC筛查等预构建Agent模板。这些模板内嵌连接器与子Agent,可作为插件安装到Claude Cowork或Claude Code,也能在Managed Agents中直接投产运行。
Claude近日面向金融服务行业推出了一系列预构建Agent模板,覆盖投行推介材料制作、估值复核、月终结账、信用承保、KYC筛查及对账等关键任务,这些模板可作为插件安装于Claude Cowork和Claude Code,或通过官方Cookbooks在Managed Agents中生产化运行,每个模板均内嵌所需的连接器、技能与子Agent,支持直接使用或按机构标准定制。与此同时,Anthropic官方在金融服务解决方案页面展示了Claude在银、保险、资管及金融科技领域的广泛采用,包括Coinbase、Citadel、FIS、BNY、Carlyle、Walleye Capital、Citi等多家机构已将其用于工程加速、投资分析、合规流程自动化等场景,该平台具备原生Excel与PowerPoint集成、预构建接入LSEG及FactSet等数据源、满足SOC 2与FedRAMP合规要求等企业级能力,且在金融推理基准上表现领先。

相关链接:
Google NotebookLM 更新 Mind Maps,移动端开发计划确认 #3
NotebookLM的Mind Maps功能已推送重大更新。用户现在能通过输入提示词来定制生成思维导图,还能即时重命名与分享导图,节点导航动画也变得更加丝滑。
Google NotebookLM的Mind Maps功能正在迎来一次重大更新,近日已向用户推出。此次更新引入了三项核心改进:定制化(Customization)能力,让用户可以使用特定提示“驾驶”思维导图的生成,并能将导图范围限定至特定主题或来源;组织(Organization)功能,支持即时重命名和分享已创建的思维导图;导航(Navigation)方面的提升,为节点之间的切换带来丝滑的过渡动画。NotebookLM官方称移动版本正在推进中。

相关链接:
Google Finance 推出 AI 关键瞬间功能解析股价波动 #4
Google Finance的beta版上线了AI驱动的“关键瞬间”功能。用户查看一个月及以上的股票走势图时,AI会自动标记并解释股价波动原因。
Google近日在Google Finance测试版中上线了AI驱动的“关键瞬间”功能。用户在查看1个月及以上股票走势图时,AI会自动标注并解释导致股价显著波动的关键事件。用户可点击相关文章链接或利用内置工具进行深入追问。此外,该功能还支持直接跳转至公司财报电话会议的核心段落,免去了手动检索的繁琐。

相关链接:
Google 推出 Pomelli Catalog,免费向全球用户开放体验 #5
Google为Pomelli项目推出了免费的Pomelli Catalog新功能。全球用户只需在官网添加并编辑产品或服务信息,该Agent就会基于品牌DNA自动生成产品集合,持续产出个性化的营销活动与摄影棚级高质量图片。
Google宣布为Pomelli营销Agent实验项目推出Pomelli Catalog新功能,该功能免费向全球用户开放,用户可通过Google Labs官网labs.google.com/pomelli进行体验。Pomelli Catalog支持添加产品或服务信息,并允许对产品描述进行编辑,随后该智能体将基于品牌DNA生成一系列产品集合,用于持续产出个性化的营销活动与高质量摄影棚级图片。

相关链接:
模型发布
Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter #6
Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter。它通过推测解码和共享 KV cache 并行预测多个 token,在不降低输出质量的前提下,将推理速度最高提升至原来的三倍。
Google DeepMind 为 Gemma 4 全系列模型发布 Multi-Token Prediction (MTP) drafter。该草稿模型基于推测解码,通过共享主模型 KV cache,单次前向并行预测并验证多个 token。官方明确,在不牺牲输出质量和推理逻辑前提下,推理速度最高提升至原来的 3 倍;26B MoE 模型在 Apple Silicon 上可实现约 2.2 倍本地加速。MTP drafter 均以 Apache 2.0 协议开源,首日即获 Hugging Face、Kaggle、vLLM 等主流框架支持,并可通过 Google AI Edge Gallery 在 Android 和 iOS 端体验。

相关链接:
- https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
- https://huggingface.co/collections/google/gemma-4
Subquadratic 推出 SubQ,上下文窗口达 1200 万 token #7
Subquadratic公司宣布推出基于Subquadratic Sparse Attention架构的大语言模型 SubQ。该模型具备1200万token上下文窗口,在百万token任务中实现最高52倍预填充加速,现已开放早期访问,提供API与编码Agent两种使用方式。
Subquadratic推出基于亚二次方稀疏注意力(Subquadratic Sparse Attention)架构的SubQ,已开放早期访问。官方称,SubQ具备1200万token上下文窗口,1M长度较FlashAttention-2实现52.2倍预填充加速,成本据称为其他领先模型的1/5。测试中,SubQ在RULER(128K)得95.0%,SWE-Bench Verified为81.8%。模型提供API与编码Agent。团队预告将发布模型卡。

相关链接:
Inworld AI 发布 Realtime TTS-2,支持跨语言实时对话 #8
Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型能听取完整对话音频,提供对话感知等核心能力,支持在超100种语言中维持同一音色。
Inworld AI发布新一代语音模型Realtime TTS-2。该模型能在完整对话中听取音频、捕捉语气,接受自然语言指令,并在超100种语言中保持同一说话人身份。
其具备语音方向、对话感知、跨语言和高级语音设计四大核心能力,支持5-15秒语音克隆。该模型串联STT、LLM路由与TTS实现端到端连接,TTS层中位首音频延迟低于200毫秒。
相关链接:
Luma 开放 UNI-1.1 系列模型 API,Image Arena 排名全球实验室第三 #9
Luma正式开放UNI-1.1与UNI-1.1-Max的API。相关模型采用decoder-only自动回归transformer架构。在 Arena.ai 评测中,Luma 凭借该系列模型位列全球实验室第三名。
Luma宣布正式开放“统一智能”推理模型UNI-1.1-Max与UNI-1.1的API访问权限,标志其进入生产环境。该模型采用decoder-only架构,同步处理文本与图像token,具备推理能力,在RISEBench测试中领先。API提供图像生成(支持至多9张参考图)与自然语言修改两大端点。
在Arena.ai评测中,Luma位列全球实验室第三,UNI-1.1-Max以1193分排Text-to-Image榜单第六。官方称其成本与延迟不到同类模型一半。定


相关链接:
开发生态
AI Studio 更新 Build 模块,集成 Nano Banana 与编辑模式 #10
Google AI Studio的Vibe Coding功能上线了编辑模式,并集成了Nano Banana图像生成能力。用户可以直接在界面上批注、快速编辑组件,在生成应用时自动创建并替换自定义图像资产。
近日,Google AI Studio 为 Vibe Coding 推出系列更新,核心为上线编辑模式并集成 Nano Banana 图像生成能力。据官方社交账号,此次更新主要包括:一是集成 Nano Banana,支持在应用生成时自动创建自定义图像资产;二是推出重新设计的编辑模式,用户可直接在 UI 界面用笔注释、绘制与选择元素,以快速编辑组件并替换图像资产;三是显著简化了图像上传操作。此外,据透露后续还将有更多更新。

相关链接:
字节跳动 TRAE 上线 SOLO 移动端,支持跨设备协同 #11
字节跳动旗下AI编程产品“TRAE SOLO”移动端现已正式上线,支持跨设备同步与手机端向电脑派发任务。同时,官方联合星巴克推出限时咖啡兑换活动。
字节跳动旗下AI编程产品TRAE宣布TRAE SOLO移动端正式上线,支持跨设备同步,实现“移动端派发、桌面端执行”的协同工作,已开放下载。配合发布,TRAE与星巴克推限时福利:2026年5月5日8:00至8日12:00,用户下载APP并下达一次指令,可领限量美式咖啡券。该券限5月8日11:00-12:00在北上深杭广蓉六城指定门店兑换。此外,官方将于5月6日至6月15日每周末在北京嘉里中心主题店举办“SOLO COFFEE TALK”AI线下分享会,首场5月9日开启。

相关链接:
Augment Code 发布 Augment Cosmos 公开预览 #12
Augment Code 宣布推出Augment Cosmos公开预览版。该产品支持多模型运行,通过引入 Prism 路由技术与专业 Agent,让人类在软件开发生命周期中专注关键节点引导,现已向 Max 计划用户开放。
Augment Code 近日宣布将其面向 Agent 软件开发的操作系统 Augment Cosmos 推向公开预览版。该系统专为团队协作设计,支持 Agent 在本地环境或云端运行,并全面覆盖整个软件开发生命周期(SDLC)。目前,该系统已向 MAX 计划用户开放,旨在通过模型路由技术(如 Prism)和专业化智能体(如 Milo),帮助企业在模型能力飞速迭代的背景下,实现组织级的效能转化。

相关链接:
谷歌更新 Gemini API 文件搜索,支持多模态检索与精确引用 #13
Google宣布更新Gemini API的File Search工具。该工具现支持基于Gemini Embedding 2的图文跨模态检索、自定义元数据过滤和精确到页码的引用功能。
Google近日更新Gemini API的File Search工具,推三项功能助开发者构建高效多模态RAG系统。一是基于Gemini Embedding 2模型引入多模态支持,实现图文跨模态检索;二是新增自定义元数据过滤,允许附加键值标签限定搜索范围,提升检索速度与准确性;三是支持精确引用,将回答关联至原始文档具体页码,增强结果可验证性。据早期测试者反馈,新功能在混合模态语料库上无需预处理即表现优异。Google现已在AI Studio提供示例应用及API文档。

相关链接:
OpenClaw 发布 2026.5.4 版,优化启动插件,传将发长期支持版 #14
OpenClaw发布了2026.5.4版本,重点优化了插件安装体验与Gateway启动速度,并修复了Windows和Discord的稳定性问题。同时,官方计划在五月下旬推出StableClaw长期支持版本。
近日,OpenClaw发布2026.5.4版本,重点优化插件安装与更新流程,加速Gateway启动路径,改进诊断提示,并修复了Windows与Discord的可靠性问题。同时,该版本新增了Twilio实时Gemini语音桥及模型认证查看功能。 此外,据报道,为回应此前更新导致的性能下降,OpenClaw计划在五月下旬推出长期支持版本。

相关链接:
技术与洞察
OpenAI 重构 WebRTC,实现语音 AI 低延迟传输 #15
为了让语音AI跟上自然语速,OpenAI发文介绍其重建了WebRTC堆栈,引入薄中继与有状态收发器架构,为ChatGPT语音和Realtime API实现了大规模低延迟的实时媒体传输。
OpenAI近日发布技术博文,阐述其如何为ChatGPT语音和Realtime API等产品提供大规模、低延迟的语音AI能力。为使语音AI对话跟上自然语速,OpenAI重新设计了WebRTC技术栈。该团队未采用厚重的传统媒体服务器,而是构建了“薄中继结合有状态收发器”的系统架构。

相关链接:
OpenRouter 分析 GPT-5.5 涨价,用户成本增 49% 至 92%。 #16
OpenRouter发布成本分析指出,由于token价格翻倍,用户从GPT-5.4切换到GPT-5.5后,实际支出成本大幅增加了49%到92%。
OpenRouter 近期发布的一项成本分析显示,在 OpenAI 推出 GPT-5.5 模型后,从 GPT-5.4 切换至该新模型的用户实际支出成本增加了 49% 到 92%。OpenRouter 的分析证实,对于超过 1 万 token 的较长提示,GPT-5.5 的输出长度确实减少了 19% 至 34%,在一定程度上抵消了价格上涨的影响;但在较短提示的场景下,成本增幅更为显著。该研究选取了在 GPT-5.5 发布前后主要使用模型发生切换的用户群体作为样本。

相关链接:
行业动态
OpenAI 升级 ChatGPT 广告,开放自助管理及 CPC 竞价 #17
OpenAI宣布扩展ChatGPT广告功能,面向美国广告主推出测试版自助Ads Manager,并新增单次点击付费的CPC竞价模式。平台还上线了Conversions API等工具,在保障对话隐私的前提下提供聚合转化洞察。
OpenAI近日宣布,正进一步扩展ChatGPT广告功能,推出新的购买和管理方式。同时,OpenAI新增了按点击付费(CPC)竞价模式,与此前仅有的CPM千次展示付费形成互补。针对广告主对更强大效果衡量的需求,该公司推出了Conversions API和像素级测量工具,可提供聚合转化洞察(如购买、线索、注册等),同时强调对话隐私,确保广告与ChatGPT回答分离,广告主无法获取个人对话数据。

相关链接:
OpenAI 与普华永道合作,以 AI Agent 重构财务职能 #18
OpenAI与普华永道合作,帮企业CFO利用AI Agent自动化财务工作流并强化风控。双方已在OpenAI内部验证,通过Codex把合同处理量提升五倍,正将这些经验转化为企业部署路径,让财务团队能在既有工具中规模化应用AI Agent。
OpenAI与普华永道(PwC)近期宣布合作,共同帮助企业的CFO部门利用AI Agent自动化财务工作流、增强预测能力、强化风险控制,从而重构财务职能。该合作以实际生产环境为先导,双方围绕规划、预测、报告、采购、支付、资金、税务及会计关账等核心财务节奏构建AI Agent,并率先在OpenAI内部财务组织落地验证:其团队借助Codex工具,在人员规模不变的情况下将合同处理量提升至原来的5倍,并利用IR-GPT在近期的一轮融资中管理了超过200次投资者互动。

相关链接:
前瞻与传闻
消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio #19
多名用户发现,模型标识为Gemini 3.2 Flash的模型曾现身Gemini app iOS端及Google AI Studio,但很快又消失。有体验到该模型的用户反馈,其性能接近Gemini 3.1 Pro。
近日,据多名非官方社区用户报告及截图显示,Google未发布的Gemini 3.2 Flash模型已现身部分用户的iOS版Gemini应用及AI Studio中。因并非全员可见,社区推测这可能是早期灰度测试或UI泄露。据一名自称参与测试的用户称,该模型实测性能惊人地接近Gemini 3.1 Pro。


相关链接:
- https://x.com/Waguri_Kaoruko8/status/2051488074589167704
- https://x.com/Xplo8E/status/2051573739200901315
传 OpenAI 首款 AI 手机 2027 上半年量产 联发科独供 #20
分析师郭明錤透露,OpenAI计划最早于2027年上半年量产首款AI Agent手机。该设备预计独家采用联发科定制版天玑9600处理器。
OpenAI 正在加速其首款 AI Agent 手机的推进工作,据行业分析师郭明錤称,该设备目标最早于 2027 年上半年量产,预计将采用联发科的天玑 9600 定制版处理器作为唯一供应方案。

相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。