2026-05-06 · Markdown

AI 早报 2026-05-06

视频版：哔哩哔哩｜ YouTube

概览

要闻

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 ↗ #1

产品应用

Claude 推出系列金融 Agent 模板，多家机构已落地采用 ↗ #2
Google NotebookLM 更新 Mind Maps，移动端开发计划确认 ↗ #3
Google Finance 推出 AI 关键瞬间功能解析股价波动 ↗ #4
Google 推出 Pomelli Catalog，免费向全球用户开放体验 ↗ #5

模型发布

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter ↗ #6
Subquadratic 推出 SubQ，上下文窗口达 1200 万 token ↗ #7
Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 ↗ #8
Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 ↗ #9

开发生态

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 ↗ #10
字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 ↗ #11
Augment Code 发布 Augment Cosmos 公开预览 ↗ #12
谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 ↗ #13
OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 ↗ #14

技术与洞察

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 ↗ #15
OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 ↗ #16

行业动态

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 ↗ #17
OpenAI 与普华永道合作，以 AI Agent 重构财务职能 ↗ #18

前瞻与传闻

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio ↗ #19
传 OpenAI 首款 AI 手机 2027 上半年量产联发科独供 ↗ #20

要闻

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 `#1`

OpenAI宣布向所有ChatGPT用户推出GPT-5.5 Instant作为新默认模型。它在提升智能与图像分析能力的同时大幅减少幻觉，写作风格也更简洁直白。ChatGPT还增强了记忆功能的效果，并上线了记忆源功能，用户可直接查看和管理个性化回复的具体上下文来源。

OpenAI从近日起开始向所有ChatGPT用户推出GPT-5.5 Instant，将其作为新的默认模型并替代GPT-5.3 Instant，同时在API中以gpt-5.5-chat-latest提供。官方称这是一次重大升级，该模型在通用智能、事实准确性、图像分析、STEM问题解答以及何时使用网络搜索方面均有提升，写作风格更加简洁直白，减少了冗余和表情符号；其内部评估显示，在医学、法律、金融等高风险领域，GPT-5.5 Instant相比前代模型减少了52.5%的幻觉声明，并将用户标记的事实错误对话中的不准确声明降低了37.3%。与此同时，ChatGPT的记忆与个性化功能得到加强，能够更有效地利用保存的记忆、历史对话、文件和已连接的Gmail账户上下文来提供个性化回答，并新推出记忆源功能，让用户可查看、更新或删除用于个性化回复的具体上下文来源。个性化改进已向Plus和Pro网页端用户推出，移动端即将上线，未来数周内将推广至Free、Go、Business和Enterprise用户；记忆源功能则覆盖所有消费者套餐的网页端。对于付费用户，GPT-5.3 Instant将保留三个月后淘汰。

相关链接：

https://openai.com/index/gpt-5-5-instant/

产品应用

Claude 推出系列金融 Agent 模板，多家机构已落地采用 `#2`

Claude面向金融行业推出投行推介、月终结账及KYC筛查等预构建Agent模板。这些模板内嵌连接器与子Agent，可作为插件安装到Claude Cowork或Claude Code，也能在Managed Agents中直接投产运行。

Claude近日面向金融服务行业推出了一系列预构建Agent模板，覆盖投行推介材料制作、估值复核、月终结账、信用承保、KYC筛查及对账等关键任务，这些模板可作为插件安装于Claude Cowork和Claude Code，或通过官方Cookbooks在Managed Agents中生产化运行，每个模板均内嵌所需的连接器、技能与子Agent，支持直接使用或按机构标准定制。与此同时，Anthropic官方在金融服务解决方案页面展示了Claude在银、保险、资管及金融科技领域的广泛采用，包括Coinbase、Citadel、FIS、BNY、Carlyle、Walleye Capital、Citi等多家机构已将其用于工程加速、投资分析、合规流程自动化等场景，该平台具备原生Excel与PowerPoint集成、预构建接入LSEG及FactSet等数据源、满足SOC 2与FedRAMP合规要求等企业级能力，且在金融推理基准上表现领先。

相关链接：

https://claude.com/solutions/financial-services

Google NotebookLM 更新 Mind Maps，移动端开发计划确认 `#3`

NotebookLM的Mind Maps功能已推送重大更新。用户现在能通过输入提示词来定制生成思维导图，还能即时重命名与分享导图，节点导航动画也变得更加丝滑。

Google NotebookLM的Mind Maps功能正在迎来一次重大更新，近日已向用户推出。此次更新引入了三项核心改进：定制化（Customization）能力，让用户可以使用特定提示“驾驶”思维导图的生成，并能将导图范围限定至特定主题或来源；组织（Organization）功能，支持即时重命名和分享已创建的思维导图；导航（Navigation）方面的提升，为节点之间的切换带来丝滑的过渡动画。NotebookLM官方称移动版本正在推进中。

相关链接：

https://x.com/NotebookLM/status/2051715594697977870

Google Finance 推出 AI 关键瞬间功能解析股价波动 `#4`

Google Finance的beta版上线了AI驱动的“关键瞬间”功能。用户查看一个月及以上的股票走势图时，AI会自动标记并解释股价波动原因。

Google近日在Google Finance测试版中上线了AI驱动的“关键瞬间”功能。用户在查看1个月及以上股票走势图时，AI会自动标注并解释导致股价显著波动的关键事件。用户可点击相关文章链接或利用内置工具进行深入追问。此外，该功能还支持直接跳转至公司财报电话会议的核心段落，免去了手动检索的繁琐。

相关链接：

http://finance.google.com/beta

Google 推出 Pomelli Catalog，免费向全球用户开放体验 `#5`

Google为Pomelli项目推出了免费的Pomelli Catalog新功能。全球用户只需在官网添加并编辑产品或服务信息，该Agent就会基于品牌DNA自动生成产品集合，持续产出个性化的营销活动与摄影棚级高质量图片。

Google宣布为Pomelli营销Agent实验项目推出Pomelli Catalog新功能，该功能免费向全球用户开放，用户可通过Google Labs官网labs.google.com/pomelli进行体验。Pomelli Catalog支持添加产品或服务信息，并允许对产品描述进行编辑，随后该智能体将基于品牌DNA生成一系列产品集合，用于持续产出个性化的营销活动与高质量摄影棚级图片。

相关链接：

模型发布

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter `#6`

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter。它通过推测解码和共享 KV cache 并行预测多个 token，在不降低输出质量的前提下，将推理速度最高提升至原来的三倍。

Google DeepMind 为 Gemma 4 全系列模型发布 Multi-Token Prediction (MTP) drafter。该草稿模型基于推测解码，通过共享主模型 KV cache，单次前向并行预测并验证多个 token。官方明确，在不牺牲输出质量和推理逻辑前提下，推理速度最高提升至原来的 3 倍；26B MoE 模型在 Apple Silicon 上可实现约 2.2 倍本地加速。MTP drafter 均以 Apache 2.0 协议开源，首日即获 Hugging Face、Kaggle、vLLM 等主流框架支持，并可通过 Google AI Edge Gallery 在 Android 和 iOS 端体验。

相关链接：

Subquadratic 推出 SubQ，上下文窗口达 1200 万 token `#7`

Subquadratic公司宣布推出基于Subquadratic Sparse Attention架构的大语言模型 SubQ。该模型具备1200万token上下文窗口，在百万token任务中实现最高52倍预填充加速，现已开放早期访问，提供API与编码Agent两种使用方式。

Subquadratic推出基于亚二次方稀疏注意力（Subquadratic Sparse Attention）架构的SubQ，已开放早期访问。官方称，SubQ具备1200万token上下文窗口，1M长度较FlashAttention-2实现52.2倍预填充加速，成本据称为其他领先模型的1/5。测试中，SubQ在RULER（128K）得95.0%，SWE-Bench Verified为81.8%。模型提供API与编码Agent。团队预告将发布模型卡。

相关链接：

https://subq.ai/how-ssa-makes-long-context-practical

Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 `#8`

Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型能听取完整对话音频，提供对话感知等核心能力，支持在超100种语言中维持同一音色。

Inworld AI发布新一代语音模型Realtime TTS-2。该模型能在完整对话中听取音频、捕捉语气，接受自然语言指令，并在超100种语言中保持同一说话人身份。

其具备语音方向、对话感知、跨语言和高级语音设计四大核心能力，支持5-15秒语音克隆。该模型串联STT、LLM路由与TTS实现端到端连接，TTS层中位首音频延迟低于200毫秒。

相关链接：

https://inworld.ai/blog/realtime-tts-2

Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 `#9`

Luma正式开放UNI-1.1与UNI-1.1-Max的API。相关模型采用decoder-only自动回归transformer架构。在 Arena.ai 评测中，Luma 凭借该系列模型位列全球实验室第三名。

Luma宣布正式开放“统一智能”推理模型UNI-1.1-Max与UNI-1.1的API访问权限，标志其进入生产环境。该模型采用decoder-only架构，同步处理文本与图像token，具备推理能力，在RISEBench测试中领先。API提供图像生成（支持至多9张参考图）与自然语言修改两大端点。

在Arena.ai评测中，Luma位列全球实验室第三，UNI-1.1-Max以1193分排Text-to-Image榜单第六。官方称其成本与延迟不到同类模型一半。定

相关链接：

开发生态

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 `#10`

Google AI Studio的Vibe Coding功能上线了编辑模式，并集成了Nano Banana图像生成能力。用户可以直接在界面上批注、快速编辑组件，在生成应用时自动创建并替换自定义图像资产。

近日，Google AI Studio 为 Vibe Coding 推出系列更新，核心为上线编辑模式并集成 Nano Banana 图像生成能力。据官方社交账号，此次更新主要包括：一是集成 Nano Banana，支持在应用生成时自动创建自定义图像资产；二是推出重新设计的编辑模式，用户可直接在 UI 界面用笔注释、绘制与选择元素，以快速编辑组件并替换图像资产；三是显著简化了图像上传操作。此外，据透露后续还将有更多更新。

相关链接：

https://x.com/GoogleAIStudio/status/2051679127824998762

字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 `#11`

字节跳动旗下AI编程产品“TRAE SOLO”移动端现已正式上线，支持跨设备同步与手机端向电脑派发任务。同时，官方联合星巴克推出限时咖啡兑换活动。

字节跳动旗下AI编程产品TRAE宣布TRAE SOLO移动端正式上线，支持跨设备同步，实现“移动端派发、桌面端执行”的协同工作，已开放下载。配合发布，TRAE与星巴克推限时福利：2026年5月5日8:00至8日12:00，用户下载APP并下达一次指令，可领限量美式咖啡券。该券限5月8日11:00-12:00在北上深杭广蓉六城指定门店兑换。此外，官方将于5月6日至6月15日每周末在北京嘉里中心主题店举办“SOLO COFFEE TALK”AI线下分享会，首场5月9日开启。

相关链接：

Augment Code 发布 Augment Cosmos 公开预览 `#12`

Augment Code 宣布推出Augment Cosmos公开预览版。该产品支持多模型运行，通过引入 Prism 路由技术与专业 Agent，让人类在软件开发生命周期中专注关键节点引导，现已向 Max 计划用户开放。

Augment Code 近日宣布将其面向 Agent 软件开发的操作系统 Augment Cosmos 推向公开预览版。该系统专为团队协作设计，支持 Agent 在本地环境或云端运行，并全面覆盖整个软件开发生命周期（SDLC）。目前，该系统已向 MAX 计划用户开放，旨在通过模型路由技术（如 Prism）和专业化智能体（如 Milo），帮助企业在模型能力飞速迭代的背景下，实现组织级的效能转化。

相关链接：

谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 `#13`

Google宣布更新Gemini API的File Search工具。该工具现支持基于Gemini Embedding 2的图文跨模态检索、自定义元数据过滤和精确到页码的引用功能。

Google近日更新Gemini API的File Search工具，推三项功能助开发者构建高效多模态RAG系统。一是基于Gemini Embedding 2模型引入多模态支持，实现图文跨模态检索；二是新增自定义元数据过滤，允许附加键值标签限定搜索范围，提升检索速度与准确性；三是支持精确引用，将回答关联至原始文档具体页码，增强结果可验证性。据早期测试者反馈，新功能在混合模态语料库上无需预处理即表现优异。Google现已在AI Studio提供示例应用及API文档。

相关链接：

https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag

OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 `#14`

OpenClaw发布了2026.5.4版本，重点优化了插件安装体验与Gateway启动速度，并修复了Windows和Discord的稳定性问题。同时，官方计划在五月下旬推出StableClaw长期支持版本。

近日，OpenClaw发布2026.5.4版本，重点优化插件安装与更新流程，加速Gateway启动路径，改进诊断提示，并修复了Windows与Discord的可靠性问题。同时，该版本新增了Twilio实时Gemini语音桥及模型认证查看功能。此外，据报道，为回应此前更新导致的性能下降，OpenClaw计划在五月下旬推出长期支持版本。

相关链接：

技术与洞察

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 `#15`

为了让语音AI跟上自然语速，OpenAI发文介绍其重建了WebRTC堆栈，引入薄中继与有状态收发器架构，为ChatGPT语音和Realtime API实现了大规模低延迟的实时媒体传输。

OpenAI近日发布技术博文，阐述其如何为ChatGPT语音和Realtime API等产品提供大规模、低延迟的语音AI能力。为使语音AI对话跟上自然语速，OpenAI重新设计了WebRTC技术栈。该团队未采用厚重的传统媒体服务器，而是构建了“薄中继结合有状态收发器”的系统架构。

相关链接：

https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 `#16`

OpenRouter发布成本分析指出，由于token价格翻倍，用户从GPT-5.4切换到GPT-5.5后，实际支出成本大幅增加了49%到92%。

OpenRouter 近期发布的一项成本分析显示，在 OpenAI 推出 GPT-5.5 模型后，从 GPT-5.4 切换至该新模型的用户实际支出成本增加了 49% 到 92%。OpenRouter 的分析证实，对于超过 1 万 token 的较长提示，GPT-5.5 的输出长度确实减少了 19% 至 34%，在一定程度上抵消了价格上涨的影响；但在较短提示的场景下，成本增幅更为显著。该研究选取了在 GPT-5.5 发布前后主要使用模型发生切换的用户群体作为样本。

相关链接：

https://openrouter.ai/announcements/gpt55-cost-analysis

行业动态

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 `#17`

OpenAI宣布扩展ChatGPT广告功能，面向美国广告主推出测试版自助Ads Manager，并新增单次点击付费的CPC竞价模式。平台还上线了Conversions API等工具，在保障对话隐私的前提下提供聚合转化洞察。

OpenAI近日宣布，正进一步扩展ChatGPT广告功能，推出新的购买和管理方式。同时，OpenAI新增了按点击付费（CPC）竞价模式，与此前仅有的CPM千次展示付费形成互补。针对广告主对更强大效果衡量的需求，该公司推出了Conversions API和像素级测量工具，可提供聚合转化洞察（如购买、线索、注册等），同时强调对话隐私，确保广告与ChatGPT回答分离，广告主无法获取个人对话数据。

相关链接：

https://openai.com/index/new-ways-to-buy-chatgpt-ads/

OpenAI 与普华永道合作，以 AI Agent 重构财务职能 `#18`

OpenAI与普华永道合作，帮企业CFO利用AI Agent自动化财务工作流并强化风控。双方已在OpenAI内部验证，通过Codex把合同处理量提升五倍，正将这些经验转化为企业部署路径，让财务团队能在既有工具中规模化应用AI Agent。

OpenAI与普华永道（PwC）近期宣布合作，共同帮助企业的CFO部门利用AI Agent自动化财务工作流、增强预测能力、强化风险控制，从而重构财务职能。该合作以实际生产环境为先导，双方围绕规划、预测、报告、采购、支付、资金、税务及会计关账等核心财务节奏构建AI Agent，并率先在OpenAI内部财务组织落地验证：其团队借助Codex工具，在人员规模不变的情况下将合同处理量提升至原来的5倍，并利用IR-GPT在近期的一轮融资中管理了超过200次投资者互动。

相关链接：

https://openai.com/index/openai-pwc-finance-collaboration/

前瞻与传闻

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio `#19`

多名用户发现，模型标识为Gemini 3.2 Flash的模型曾现身Gemini app iOS端及Google AI Studio，但很快又消失。有体验到该模型的用户反馈，其性能接近Gemini 3.1 Pro。

近日，据多名非官方社区用户报告及截图显示，Google未发布的Gemini 3.2 Flash模型已现身部分用户的iOS版Gemini应用及AI Studio中。因并非全员可见，社区推测这可能是早期灰度测试或UI泄露。据一名自称参与测试的用户称，该模型实测性能惊人地接近Gemini 3.1 Pro。

相关链接：

传 OpenAI 首款 AI 手机 2027 上半年量产联发科独供 `#20`

分析师郭明錤透露，OpenAI计划最早于2027年上半年量产首款AI Agent手机。该设备预计独家采用联发科定制版天玑9600处理器。

OpenAI 正在加速其首款 AI Agent 手机的推进工作，据行业分析师郭明錤称，该设备目标最早于 2027 年上半年量产，预计将采用联发科的天玑 9600 定制版处理器作为唯一供应方案。

相关链接：

https://x.com/mingchikuo/status/2051523855286776034

提示：内容由AI辅助创作，可能存在幻觉和错误。

AI 早报 2026-05-06

概览

要闻

产品应用

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻

要闻

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 #1

产品应用

Claude 推出系列金融 Agent 模板，多家机构已落地采用 #2

Google NotebookLM 更新 Mind Maps，移动端开发计划确认 #3

Google Finance 推出 AI 关键瞬间功能解析股价波动 #4

Google 推出 Pomelli Catalog，免费向全球用户开放体验 #5

模型发布

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter #6

Subquadratic 推出 SubQ，上下文窗口达 1200 万 token #7

Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 #8

Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 #9

开发生态

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 #10

字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 #11

Augment Code 发布 Augment Cosmos 公开预览 #12

谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 #13

OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 #14

技术与洞察

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 #15

OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 #16

行业动态

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 #17

OpenAI 与普华永道合作，以 AI Agent 重构财务职能 #18

前瞻与传闻

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio #19

传 OpenAI 首款 AI 手机 2027 上半年量产 联发科独供 #20

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 `#1`

Claude 推出系列金融 Agent 模板，多家机构已落地采用 `#2`

Google NotebookLM 更新 Mind Maps，移动端开发计划确认 `#3`

Google Finance 推出 AI 关键瞬间功能解析股价波动 `#4`

Google 推出 Pomelli Catalog，免费向全球用户开放体验 `#5`

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter `#6`

Subquadratic 推出 SubQ，上下文窗口达 1200 万 token `#7`

Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 `#8`

Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 `#9`

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 `#10`

字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 `#11`

Augment Code 发布 Augment Cosmos 公开预览 `#12`

谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 `#13`

OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 `#14`

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 `#15`

OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 `#16`

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 `#17`

OpenAI 与普华永道合作，以 AI Agent 重构财务职能 `#18`

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio `#19`

传 OpenAI 首款 AI 手机 2027 上半年量产联发科独供 `#20`