2026-05-20 · Markdown

AI 早报 2026-05-20

视频版哔哩哔哩YouTube

概览

要闻

模型发布

行业动态

Google I/O


要闻

Google 发布 Gemini 3.5 Flash 模型 #1

Google正式发布Gemini 3.5 Flash模型。官方称该模型在编码和Agent任务上超越前代,并且速度快四倍。它能自主规划工作流并部署协作子Agent,已成为Gemini和AI Mode的默认模型。同时Google宣布下个月将发布Gemini 3.5 Pro。

Google正式发布最新AI模型系列Gemini 3.5,并率先推出专为复杂任务设计的Gemini 3.5 Flash。官方称,该模型在编码和Agent任务上超越了前代3.1 Pro,输出速度比其他前沿模型快4倍,且运行成本通常不到后者的一半。该模型现已通过Antigravity 2.0平台及Gemini API向开发者普遍开放,并成为Gemini应用和Google搜索AI Mode的全球默认模型。此外,Google官方确认计划于下个月发布3.5 Pro模型,未来该模型将作为主控调度3.5 Flash执行具体的Agent任务。

相关链接:


Google 发布 Gemini App 重大更新 #2

Google 宣布对 Gemini App 进行全面升级,推出全新的 Neural Expressive 设计语言,并发布了个性化早间摘要Agent Daily Brief 以及 24/7 全天候个人 Agent Gemini Spark。其中,Daily Brief 今日起面向美国地区的部分订阅者推出,而 Gemini Spark 计划下周向美国的 AI Ultra 订阅者开启 Beta 测试,同时官方还启用了基于运算量的新额度系统。

Google 官方宣布对 Gemini App 进行重大更新,推出了全新的设计语言、多款 Agent 以及 AI 视频模型。官方推出的个性化早间摘要 Agent Daily Brief 能够综合用户的 Gmail、日历和任务信息并提供优先级排序和下一步行动建议,目前已开始面向美国地区年满 18 岁的 Google AI Plus、Pro 和 Ultra 订阅者推出。此外,全新的 24/7 全天候云端 Agent Gemini Spark 和视频模型 Gemini Omni 也同步登场,前者将于下周面向美国的 AI Ultra 订阅者开启 Beta 测试,后者已面向全球订阅者推出。伴随新功能上线,官方启用了基于复杂程度的新额度系统,将额度重置周期设定为 5 小时,并明确了各订阅层级的倍数关系。

相关链接:


Google AI Ultra降价至200美元并新增100美元月费档位 #3

Google 宣布,AI Ultra订阅新增每月100美元档位,并将顶级档位从250美元降至200美元。新档位提供5倍Gemini使用限制、20TB云存储和YouTube Premium,即日上线。

谷歌在Google I/O 2026大会期间对AI Ultra订阅计划做出调整:原每月250美元的顶级档位正式降至200美元,并推出面向开发者、技术负责人和高级创作者的每月100美元新档位。100美元档位提供5倍于Pro计划的Gemini app与Google Antigravity使用限额、20TB云端存储、YouTube Premium个人版以及优先体验新功能;200美元档位则保留20倍使用限额及原有全部权益。即日起全球上线,AI Plus和Pro计划也同步获得多项权益升级,部分功能仅限美国,计费模式亦转向按计算量动态分配的新机制。

相关链接:


Google发布Antigravity 2.0并推出CLI工具,要求Gemini CLI用户迁移 #4

Google发布Antigravity 2.0,同步推出Antigravity CLI、独立桌面应用与SDK。即日起,Gemini CLI个人及免费用户须迁移至Antigravity CLI。

Google在近日的Google I/O大会上正式发布Antigravity 2.0开发平台,并同步推出Antigravity CLI、独立桌面应用与SDK,它们共享统一的agent harness,为开发者提供多端一致的agent-first体验。桌面应用支持原生语音交互、多Agent并行与后台任务编排;CLI采用Go语言重构以提升异步工作流执行速度,两者还同步用户的常用设置。目前新平台已面向全球开放,但官方已要求所有通过Google AI Pro/Ultra或免费Gemini Code Assist使用Gemini CLI的个人消费者在约30天内迁移至Antigravity CLI,该旧服务将于约30天后关停;持企业许可的用户及通过Google Cloud的使用者不受影响,可继续使用或选择迁移。

相关链接:


DeepSeek 官方回应特定字符触发异常 #5

针对输入特定特殊字符触发模型异常回复的现象,DeepSeek 官方发布说明确认,该现象属于模型幻觉,明确表示不存在安全漏洞或隐私泄露风险,后续将通过针对性训练修复该问题。

DeepSeek 官方发布说明,回应了用户反馈的输入特定特殊字符触发模型异常回复的现象。官方技术团队经排查后确认,该异常属于特殊字符引发的模型幻觉,明确表示不涉及安全漏洞或用户隐私泄露。后续官方将通过针对性训练增强模型对此类字符的识别与处理能力,以修复已知问题并优化模型表现。


模型发布

NVIDIA 开源 Nemotron-Labs-Diffusion 系列模型 #6

NVIDIA 发布 Nemotron-Labs-Diffusion 模型系列。该系列支持通过切换注意力模式在自回归、并行扩散及自推测解码三种模式间转换。

NVIDIA 于近期开源了 Nemotron-Labs-Diffusion 系列模型,包括 3B、8B、14B 的 Base 和 Instruct 版本,以及一款 9B 参数规模的视觉语言模型(VLM-8B)。该系列架构的核心特点是支持三模式解码,用户仅需在推理时切换注意力模式,即可在传统的自回归(AR)解码、基于扩散的并行解码,以及结合两者的自推测解码模式间无缝切换。根据官方提供的数据,相较于使用 MTP 方案的 Qwen3-8B-Eagle3,其自推测模式在接受长度上实现约 3 倍提升;在 GB200 平台运行 8B 模型时,配合定制 CUDA 内核,推理速度可达 1015 tok/sec。该系列模型采用 BF16 精度,依赖 transformers>=5.0.0 环境,并已在 Hugging Face 上基于不同的官方许可协议开放下载。

相关链接:


Skywork发布Agent模型SkyClaw-v1.0及轻量版 #7

Skywork 官方发布了专为 Agent 环境优化的 SkyClaw 模型及其轻量版变体,目前正通过 APIFree 平台提供免费 API 访问。

Skywork 正式推出 Agent 模型 SkyClaw-v1.0 与主打低延迟、低成本的变体 SkyClaw-v1.0-lite。官方称这两个模型在基于真实用户模式构建的 PinchBench 和 Claw-Eval 等基准测试中表现优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen。SkyClaw-v1.0 原生支持 MCP、函数调用及包含流式输出的多种思考模式,重点强化了多步规划与工具调用能力。用户现可通过 APIFree 平台获取 API Key 进行免费调用。

相关链接:


行业动态

Andrej Karpathy 宣布加入 Anthropic 回归大模型研发 #8

知名 AI 研究员 Andrej Karpathy 宣布已加入 Anthropic,将回归大语言模型前沿研发,并计划未来适时恢复教育工作。

Andrej Karpathy 通过个人社交账号宣布已加入 Anthropic。他表示,LLM 前沿领域未来几年将"尤为关键",自己很高兴回归研发工作,同时仍对教育保持热情,计划适时恢复相关项目。Karpathy 此前曾任 OpenAI 核心团队成员及 Tesla Autopilot 架构师。据媒体报道,他此次选择 Anthropic 而非重返 OpenAI,被外界视为前东家的明显损失。

相关链接:


Google I/O

Google 搜索发布 AI Mode 重大更新 #9

Google宣布升级AI Mode,推出了支持多模态输入与长对话的智能搜索框。并将推出能根据提问实时生成定制交互界面的 Generative UI,以及能全天候监控数据的Information Agents等功能。

Google 在 2026 年 I/O 大会上宣布了 25 年来最大规模的搜索升级,推出了支持多模态输入与长对话的智能搜索框,并将全球 AI Mode 默认模型升级为 Gemini 3.5 Flash。通过整合 Google Antigravity 平台,官方计划今年夏季向所有用户免费推出 Generative UI,使搜索能根据提问实时生成定制化的交互界面与模拟。同时,能在后台 24 小时监控全网并汇总更新的 Information Agents,以及构建个性化 Mini Apps 的能力,将在夏季优先面向美国的 Google AI Pro 与 Ultra 订阅者推出。此外,Agentic Booking 服务与免订阅的 Personal Intelligence 功能也将陆续向全球更多市场扩展。

相关链接:


Google 发布智能购物车Universal Cart并扩展UCP与AP2 #10

Google 发布智能购物车Universal Cart,计划今夏在美国Search和Gemini应用中上线;此外,UCP协议将扩展至酒店预订和本地外卖,AP2支付协议也将整合至Gemini Spark等产品。

Google 在I/O 2026上发布了智能购物车Universal Cart,并宣布对通用商务协议UCP和代理支付协议AP2的更新。Universal Cart可跨多个Google服务使用,在后台自动寻找优惠和降价,利用Gemini模型主动标记产品不兼容问题,并基于用户的支付方式和忠诚度计划推荐最优结账选择;该购物车定于今夏在美国Search和Gemini应用中上线,YouTube和Gmail将随后支持。此外,UCP协议将扩展至酒店预订和本地外卖等垂直场景,其结账体验也将在未来几个月内进入加拿大、澳大利亚和英国市场;AP2支付协议则计划于未来几个月整合至Gemini Spark等产品,用户可设定花费上限和品牌偏好,代理仅在满足条件时完成交易,全程隐私保护并留存数字凭证。

相关链接:


谷歌推出 Gemini for Science 科研工具集 #11

谷歌宣布推出 Gemini for Science 实验工具集。该系列包含 Literature Insights 等三大科研原型,旨在加速科学发现,现已逐步开放访问与注册。

谷歌正式宣布推出 Gemini for Science,这是一系列旨在扩展科学探索规模与精确度的实验性工具与技能集合。该系列包含三个核心原型:基于 NotebookLM 构建的 Literature Insights,用于合成文献并生成报告;基于 Co-Scientist 构建的 Hypothesis Generation,利用多 Agent 模拟科学方法生成与评估假设;以及基于 AlphaEvolve 和 ERA 构建的 Computational Discovery,可并行生成并评估数千个代码变体。目前相关实验已通过 Google Labs 逐步开放,企业级解决方案也正处于私有预览阶段。

相关链接:


Google 推出 Project Genie 与 Street View 整合功能 #12

Google 宣布在 Project Genie 中接入 Street View,允许用户基于真实街景生成可交互世界。该功能现逐步面向全球符合条件的 Google AI Ultra 订阅者开放,目前仅限美国地点。

Google DeepMind 宣布在通用世界模型 Project Genie 中接入 Google Street View,使其能够基于真实街景数据生成虚拟环境。用户现可选择美国境内的真实地点作为基础,配合特定视觉风格与自定义角色创建交互式世界。这项整合了 Maps Imagery Grounding 技术的新功能正逐步向全球年满 18 岁且支付 200 美元月费的 Google AI Ultra 订阅用户开放;官方同时提醒,Project Genie 仍处于实验性研究原型阶段。

相关链接:


Google Flow 引入全新 Agent 与 Gemini Omni 模型 #13

Google 为 Google Flow 推出全新 Agent 与 Gemini Omni 模型。Agent 已面向所有用户开放,高级模型与工具创建仅限订阅者,相关移动端应用已陆续推出。

Google 近期为其 AI 创意工作室 Google Flow 及音乐工具 Google Flow Music 发布多项重大更新,引入了全新的 Gemini Omni 模型、Google Flow Agent 以及 Google Flow Tools。全新的 Gemini Omni Flash 模型结合了 Gemini 的理解能力与生成式媒体模型,官方称其为视频版的 Nano Banana,提升了多模态、精确视频编辑和角色一致性,目前已面向全球的 Google AI 订阅者开放。定位为“创意伙伴”的 Google Flow Agent 能够规划并推理复杂任务,支持同时执行多项操作和批量编辑,现已向全球所有 Flow 用户开放。此外,用户可以通过 Google Flow Tools 使用自然语言“vibe code”无需代码即可创建自定义工作流,所有用户均可使用现有工具,但创建和重混功能仅限 Google AI 订阅者。同时,这两款工具的移动端应用也已在 Android 和 iOS 平台逐步上线。

相关链接:


Pomelli 推出 AI Agent 及品牌手册与建站功能 #14

Google Labs 旗下 Pomelli 官方引入 AI Agent,协助中小企业构建品牌身份,并推出自动生成品牌手册与一键建站的新功能。

Google Labs 旗下的 Pomelli 官方宣布引入 AI Agent 能力,协助中小企业构建品牌身份并制作相关内容。用户可通过上传素材或与 Pomelli Agent 对话来生成“Business DNA”,并据此创建包含定制图像与字体的综合指南。此外,该产品新增了网站设计功能,支持用户在几次点击内设计并上线完整网站。目前,上述新功能已面向用户开放体验。

相关链接:


谷歌发布 Wear OS 7:最高提升 10% 续航,将引入 Gemini Intelligence #15

谷歌在 I/O 开发者大会发布 Wear OS 7。官方称该系统较 Wear OS 6 最高提升 10% 续航,并计划在今年晚些时候为部分手表新增 Gemini Intelligence 支持。

谷歌在 2026 年 I/O 开发者大会上正式发布了全新的智能手表平台 Wear OS 7。新系统带来了更优的电源管理,官方表示从 Wear OS 6 升级后最高可提升 10% 的电池续航;同时引入了灵活的 Wear Widgets、Live Updates 以及全新的系统媒体控制与训练追踪功能。在智能化方面,谷歌计划在今年晚些时候为部分设备推送 Gemini Intelligence,并提供 AppFunctions API 支持 Agent 语音执行任务。目前,基于 Android 17 的 Wear OS 7 Canary 模拟器已面向开发者开放测试。

相关链接:


谷歌发布 Ask YouTube 对话式搜索功能 #16

Youtube 发布了 Ask YouTube 对话式搜索功能,支持用完整句子与连续追问检索长视频及 Shorts。

谷歌在 2026 年 I/O 大会上正式推出对话式搜索体验 Ask YouTube,将传统的关键词搜索升级为意图理解模式。用户可输入复杂长句描述需求,并通过连续追问缩小范围,系统会自动整理全平台的长视频和 Shorts 并生成互动式结构化回应。该功能目前通过特定页面面向美国 18 岁及以上的 YouTube Premium 会员开放,官方计划未来向全体用户推广。同期,谷歌还将 Gemini Omni 引入 YouTube Shorts Remix 和 YouTube Create 应用,允许创作者通过文本指令重塑视频场景与风格,并确保生成内容带有数字水印及原始视频链接。

相关链接:


Chrome 148 推出稳定版 Prompt API,WebMCP 源试用即将开启 #17

Chrome团队发布了面向开发者的WebMCP实验性标准、Modern Web Guidance早期预览及Chrome DevTools for agents和 Prompt API 稳定版。

谷歌宣布了构建“Agentic Web”的系列工具更新,其中 Prompt API 和 Chrome DevTools for agents 已正式进入 Stable 状态。Prompt API 现已于 Chrome 148 中可用,允许开发者利用内置的 Gemini Nano 模型处理多模态输入(图像和音频)及输出结构化 JSON 数据,。面向未来,谷歌提出了 WebMCP 提议标准,旨在通过命令式与声明式 API 让网站向 Agent 暴露结构化工具,该功能预计将在 Chrome 149 开启源试用;同步进入早期预览的 Modern Web Guidance 则集成了 Baseline,旨在指导 AI 编程 Agent 遵循最佳实践构建现代化 Web 体验。此外,面向日常用户的 Gemini in Chrome 即将登陆 Android 平台,提供自动浏览、图像生成及全局语音输入等新交互方式。

相关链接:


Gemini API 引入 Managed Agents 一键启动云端沙箱 Agent #18

Google 宣布在 Gemini API 推出预览版 Managed Agents。开发者可通过底层 Antigravity agent 在隔离沙箱内启动具备代码执行等能力的完整 Agent。

Google 宣布在 Gemini API 中推出预览版的 Managed Agents 功能。开发者只需一次 API 调用,即可通过基于 Gemini 3.5 Flash 的 Antigravity agent,在隔离的云端 Linux 沙箱中启动能够执行代码、浏览网页和管理文件的自定义 Agent。该功能抽象了底层基础设施的复杂性,支持使用 Markdown 文件定义技能,目前已面向开发者在 Gemini API 和 Google AI Studio 中提供,并针对企业用户开启了私下预览。

相关链接:


Google 升级端侧 AI 工具栈,AI Edge Gallery 支持 MCP 并扩充平台生态 #19

Google 发布多项端侧 AI 更新,AI Edge Gallery 应用引入 MCP 集成等功能;LiteRT-LM 扩展至 Apple 与 Web 平台,Tensor ML SDK 进入 Beta 并面向 Pixel 10 设备开放超百种 TPU 优化模型。

Google 发布了一系列针对端侧 AI 的更新,涵盖应用层、推理引擎及特定硬件 SDK。AI Edge Gallery 应用在 Android 端以实验性质支持开源 MCP 协议进行外部工具调用,并加入主动通知提醒与持久聊天记录功能。底层引擎 LiteRT-LM 针对 Gemma 4 引入最高 2.2 倍加速的 Multi-Token Prediction 机制,并新增面向 Apple 生态的 Swift API 和面向 Web 端的 WebGPU JavaScript API。面向 Pixel 10 系列设备的 Google Tensor ML SDK 正式进入 Beta 阶段,通过与 LiteRT 集成,提供包含 100 多个 TPU 优化模型在内的统一开发工作流。

相关链接:


Google 预告 Agent 状态栏追踪功能 Android Halo #20

Google 今日预告了 Android Halo 功能。该功能计划于今年晚些时候推出,支持在屏幕顶部实时查看 Agent 的运行状态。

Google 官方今日预览了 Android Halo 功能,这是 Android 设备上专为 Agent 设立的新空间。该功能将于今年晚些时候推出,届时用户无需中断当前操作,即可在屏幕顶部的状态栏直接查看 Agent 的任务进度、实时模式或消息通知。Android Halo 将兼容 Gemini Spark 及其他受支持的 Agent,且在搭载 Gemini Intelligence 的最先进设备上将提供额外的进阶能力。

相关链接:


Google预告Gemini智能音频眼镜 #21

Google预告了将于今秋推出的Gemini智能音频眼镜。该产品由三星及Warby Parker等品牌合作打造,提供拍照、导航和实时音频翻译等系列功能,并同时兼容Android和iOS设备。

Google官方预览了其全新的智能音频眼镜。该产品集成了Gemini,旨在提供全天候免提帮助,支持拍照、导航和实时音频翻译。这些设备由Google联合三星、Gentle Monster和Warby Parker共同打造,并提前展示了秋季的部分设计。这款眼镜计划于今年秋季率先上市,且将同时适配Android和iOS手机。

相关链接:


Google 宣布Workspace多项AI更新 #22

Google宣布,今夏将面向Workspace的订阅用户推出多项基于Gemini的AI新功能,包括可语音问答的Gmail Live、辅助起草文档的Docs Live、自动整理笔记的Keep,以及精准图像编辑工具Pics和更多AI Inbox管理能力。

Google在I/O 2026大会宣布了一系列Workspace AI更新,包括Gmail、Docs、Keep的语音交互功能、新图像工具Google Pics、升级版AI Inbox,以及24/7个人AI Agent Gemini Spark,预计今夏向部分用户推出。其中Gmail Live可用自然语言问答收件箱内容,Docs Live能充当写作搭档并调用Gmail等数据辅助创作,Keep可自动将口述转为结构化笔记;Pics支持精准对象编辑、文字翻译和协作编辑;AI Inbox新增个性化草稿、文件直达和任务管理功能;Gemini Spark则可在用户指示下代为执行操作并与Workspace集成。这些功能今夏将面向Google AI Pro和Ultra订阅者及商业客户推出。

相关链接:


Google与OpenAI深化SynthID合作并扩展内容验证工具 #23

Google宣布在多平台扩展内容验证工具,联合OpenAI等推广SynthID水印;OpenAI同步采用该技术,并推出图像公开验证工具预览版。

Google与OpenAI相继宣布推进AI内容来源透明度,双方通过整合C2PA标准与SynthID数字水印技术,帮助用户识别和验证生成式媒体。Google正将SynthID及C2PA验证能力扩展至Search、Chrome和Gemini,并联合OpenAI、Nvidia、Kakao与ElevenLabs等合作伙伴将SynthID应用于更多生成内容。OpenAI已成为C2PA符合规范的生成器,开始在通过ChatGPT、Codex及API生成的图像中嵌入SynthID,并发布了可检测图像是否由其生成的公开验证工具预览版。OpenAI提示该验证工具在未检测到相关信号时无法得出明确结论,且在上线之初仅限于检测OpenAI自家产品生成的图像内容。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误