2026-04-15 · Markdown

AI 早报 2026-04-15

视频版哔哩哔哩YouTube

概览

产品应用

模型发布

开发生态

技术与洞察

行业动态


产品应用

Google 为 Chrome 中的 Gemini 推出 Skills 功能 #1

Google 为 Gemini in Chrome 推出“Skills”新功能,允许用户将常用的AI提示词保存,通过输入斜杠或点击加号快速调用。

Google 为 Chrome 浏览器推出"Skills"功能,允许用户保存并一键运行常用 Gemini AI 提示词,避免跨网页重复输入。用户可从聊天记录保存指令,通过输入正斜杠或点击加号跨标签页执行,且支持随时编辑。官方同步推出包含常见任务的工作流库。

在安全方面,该功能继承 Chrome 防护机制与自动红队测试,执行敏感操作前强制用户确认。据官方公告,现已面向登录帐号的桌面端用户陆续推出。据媒体报道,初期仅支持浏览器语言设置为英语(美国)的环境。

相关链接:


Google 向 Windows 用户推出新版 Google app for desktop #2

Google 现已面向全球Windows用户推出升级版 Google app for desktop。用户只需按下Alt加空格键即可随时唤出搜索框,并能利用内置的AI搜索与Lens功能,发起视觉搜索或提问,快速获取AI智能解答。

Google 现已面向全球 Windows 用户推出升级版的桌面端应用,当前该产品仅提供英语版本。用户只需使用键盘快捷键 Alt + Space 即可唤出搜索框,从而实现跨网页信息、本地电脑文件、已安装应用程序以及 Google Drive 文件的即时查找。此外,该应用内置了 AI Mode in Search 和 Lens 功能,用户可针对屏幕上的内容进行视觉搜索或提出任何问题,系统会据此提供带有网页链接的 AI 驱动响应。

相关链接:


微软为 Copilot in Word 引入修订等新功能 #3

微软宣布为 Word 中的 Copilot 引入基于 Work IQ 的全新功能,用户可通过提示词让 AI 直接在文档内完成精准修订、上下文评论和自动排版,目前已面向内测用户开放。

微软近日宣布为 Copilot in Word 引入一系列全新功能,旨在为法律、财务和合规等领域的专业人士在处理合同审查或政策文件敲定等高风险、高细节要求的工作时提供支持。此次更新的核心功能包括支持逐字精确显示的 Track Changes、可锚定正确文本的上下文评论、基于内置标题的目录插入与更新、涵盖页眉页脚及页边距的动态页面元素管理,以及用于提升透明度的多步骤编辑实时进度提示。官方强调,这些原生功能在尊重原有格式并保留协作历史的同时,均在 Microsoft 365 的信任边界内运行,严格保留敏感度标签并执行数据防泄漏策略。目前,上述新功能已面向通过 Frontier program 和 Office Insiders Beta Channel 使用的 Windows 桌面版 Word 用户开放,针对 Word for the web 和 Mac 平台的支持也即将推出。

相关链接:


模型发布

OpenAI 扩大网络安全信任访问计划,发布 GPT-5.4-Cyber 模型 #4

OpenAI宣布扩大其网络安全信任访问计划,并正式推出专为合法网络防御微调的GPT-5.4-Cyber模型。该模型大幅降低了安全拦截边界,支持二进制逆向工程等高级防御工作流,目前正通过严格的身份验证,向经过审查的安全供应商、组织及研究人员进行有限的迭代部署。

OpenAI 宣布扩大其“网络安全信任访问”(Trusted Access for Cyber,简称 TAC)计划,并正式引入专为网络安全防御微调的 GPT-5.4-Cyber 模型。为应对日益增长的网络威胁并为未来几个月更强大的模型做准备,该公司旨在通过降低合法防御工作的安全拦截边界来赋能安全专家。GPT-5.4-Cyber 是 GPT-5.4 的一个网络宽松版本,具有更少的能力限制,并引入了高级防御工作流,例如允许安全专业人员在不访问源代码的情况下分析编译软件潜在恶意软件和漏洞的二进制逆向工程能力。目前,该模型正以有限的迭代部署方式,向最高层级的 API 客户、经过审查的安全供应商、组织和研究人员开放,个人防御者和企业团队可通过特定身份验证流程申请访问。

相关链接:


Google DeepMind 发布 Gemini Robotics-ER 1.6 机器人模型 #5

Google DeepMind 发布了主打推理优先的 "Gemini Robotics-ER 1.6" 机器人模型,该模型大幅增强了视觉空间与多视角推理能力,并新增了精准读取复杂工业仪表的全新能力。

Google DeepMind 推出了 Gemini Robotics-ER 1.6 模型。这是一款主打“推理优先”的重大升级版本,旨在赋予机器人在物理环境中前所未有的理解精度。该模型在视觉与空间推理、多视角理解以及任务成功检测等核心能力上实现了显著增强,并解锁了“仪器读取”这一全新功能,使机器人能够精准读取复杂的工业仪表和视镜。官方宣称这是其迄今最安全的机器人模型,在对抗性空间推理任务中表现出对安全政策的卓越遵守。目前,该模型已向开发者全面开放,用户可通过 Gemini API 和 Google AI Studio 进行访问,官方同步放出了包含配置示例的开发者 Colab 以供参考。

相关链接:


百度开源 ERNIE-Image 模型,8B 参数支持中文长文本渲染 #6

百度发布并开源了文生图模型ERNIE-Image,该模型基于80亿参数的单流Diffusion Transformer架构,主打高可控性与结构化生成,能精准渲染中英长文本,在海报和漫画生成上表现卓越。

百度 ERNIE-Image 团队近日正式推出了全新的开源文本生成图像模型 ERNIE-Image。该模型基于拥有 8B 参数的单流 Diffusion Transformer 架构,并在隐扩散框架下构建。官方公告显示,ERNIE-Image 不仅追求视觉美感,更注重生成的可控性,在精准文本渲染、复杂指令遵循以及海报和漫画等结构化视觉内容生成方面展现出显著优势。为提升用户体验,该模型还内置了基于 Ministral 3B 微调的轻量级 Prompt Enhancer。目前,百度开源了两个版本:更强通用质量与指令保真度的 SFT 模型 ERNIE-Image,以及通过 DMD 和 RL 优化、仅需 8 步推理即可提升生成速度与美感的 ERNIE-Image-Turbo,且均已提供对 Diffusers 和 SGLang 框架的快速集成支持。

相关链接:


微软发布 MAI-Image-2-Efficient 模型 #7

微软宣布推出了图像生成模型 MAI-Image-2-Efficient,该模型在确保生产级画质的同时,效率提升 4 倍,使用成本大幅降低近 41%,现已上线API。

微软正式推出了全新图像生成模型 MAI-Image-2-Efficient,该模型现已全面上线 Microsoft Foundry 及 MAI Playground 平台。根据官方提供的数据,在确保生成质量达到生产可用标准的前提下,这款新产品的运行效率达到了前代 MAI-Image-2 的 4 倍,渲染速度提升了 22%,且使用成本大幅降低了近 41%。此外,官方强调,与当前市面上其他顶级的图像生成模型相比,该模型的渲染速度快约 40%,且平均延迟也降低了 40%。

相关链接:


Midjourney 发布 V8.1,生成速度提升 3 倍成本降低 3 倍 #8

Midjourney正式发布V8.1版本,官方称该版本全面恢复标志性美学并原生支持2K高清渲染,生成速度比V8提升3倍且成本降低3倍。

Midjourney 正式发布其 Midjourney V8.1 版本。该版本不仅全面恢复了其标志性的美学风格并支持原生 2K HD 渲染,还在性能与成本上实现了显著优化。根据官方提供的数据,与 V8 相比,其生成速度提升了 3 倍,且成本降低了 3 倍,而全画质下的 V8.1 1K 模式运行速度甚至超越了 V7 的草稿模式。此外,此次更新还包括 Image prompts 功能的回归、全新 "Describe" 功能的上线,以及引入了新的 moodboards 和 srefs,该团队还预告即将推出更多内容。

相关链接:


NVIDIA 发布 Ising 开放模型 开源助力量子计算纠错 #9

英伟达发布了用于构建量子处理器的开放AI模型 NVIDIA Ising,旨在解决量子比特噪声问题并加速实用化容错量子计算。

NVIDIA 近日发布全球首个构建量子处理器的开放 AI 模型家族 NVIDIA Ising,包含校准和解码两个模型域。其中 Ising Calibration 为 350 亿参数视觉语言模型,官方数据显示其在 QCalEval 基准测试中平均得分比 GPT 5.4 高 14.5%,可主动校准量子处理器。Ising Decoding 含两个 3D CNN 模型,专注量子纠错解码。官方称其快速预解码器结合 PyMatching 比单独使用快 2.5 倍,高精度预解码器在特定条件下可带来高达 3 倍的准确率提升。该项目完全开放,用户可通过 GitHub 及 NIM 获取模型权重与工具,针对特定硬件训练专属模型。

相关链接:


开发生态

Anthropic 推出 Claude Code Routines 支持云端自动化 #10

Claude Code 推出了全新自动化功能 Routines,开发者可将 Claude Code 配置打包在云端全自主运行,并通过定时、API 和 GitHub 事件三种触发器,自动执行代码审查等任务。

Anthropic 近期为其开发工具推出了名为“Claude Code Routines”的全新自动化功能。该功能允许开发者将 Claude Code 的配置(包含提示词、代码库和 MCP 连接器)打包,并在 Anthropic 托管的云基础设施上实现全自动运行,即使关闭本地电脑也能持续执行任务。通过这项技术,开发者可以利用三种类型的触发器来启动任务:按小时或天等固定周期运行的定时 触发器、通过发送带有 Bearer Token 的 HTTP POST 请求按需调用的 API 触发器,以及响应代码推送、Pull Request 等仓库操作的 GitHub 事件触发器。这些触发器可以单独使用,也能相互结合。目前,Routines 功能处于研究预览版阶段,已面向开通了 Claude Code 网页版的 Pro、Max、Team 和 Enterprise 计划用户开放,用户可通过网页端、桌面端应用或使用 /schedule 命令进行创建和管理。

相关链接:


Warp 推出 Universal Agent Support 支持第三方 CLI 编码 Agent #11

Warp终端宣布推出Universal Agent Support功能,全面支持Claude Code等各类第三方CLI编码Agent,并上线了垂直标签页、统一通知中心和全新云端远程控制等功能。

Warp 官方宣布推出 Universal Agent Support,旨在将该产品打造为多线程开发中运行各类 CLI 编码 Agent 的最佳终端。基于传统终端在 Agentic 开发中缺乏关键特性的考量,Warp 引入了一系列与其原生 Agent 功能一致的新特性,以实现对整个第三方 Agent 生态系统的支持。核心更新涵盖了用于分组与元数据一览的 Vertical tabs,以及支持一键配置目录、启动命令、主题和 worktree 的 Tab Configs;同时,该产品新增了跨应用与系统的统一 Notification center,用于追踪所有 Agent 的状态与提示。在开发交互方面,Warp 支持从其原生 Code review 向运行中的第三方会话发送 inline comments,并允许直接附加代码、文件和代码片段作为上下文。其 Rich input 编辑器支持复杂多行输入、语音输入及调用 /prompts、/skills 等指令,配合全新的 Remote control 功能,开发者可将任何 CLI Agent 会话发布至云端,从而通过手机或其他电脑进行远程监控与引导。

相关链接:


OpenClaw 发布 2026.4.14 版,优化 GPT-5.4 路由与系统安全 #12

OpenClaw 发布了 2026.4.14 版本更新,重点提升了系统的可靠性与安全性。此次更新还新增了对 gpt-5.4-pro 的支持并优化了路由机制,同时大幅改善了 Ollama 的配置体验。

OpenClaw 发布了 2026.4.14 版本更新。该版本主要聚焦于系统可靠性和各项性能的提升。此次更新优化了 GPT-5.4 的路由与恢复机制,使其运行更加稳定,并在 github-copilot/gpt-5.4 上新增了对 gpt-5.4-proxhigh 的支持。同时,新版本改善了本地模型与 Ollama 的配置体验,修复了超时处理和 embeddings 相关问题。此外,新版解决了 Subagent 在 npm 构建中因缺失运行时文件导致的异常卡顿现象,并加强了管理后台的安全性,包括更严格的 Slack/Teams 白名单机制和更广泛的浏览器/CDP SSRF 防护。此次更新还包含了针对 Slack、Discord 的常规修复及多项性能改进,官方同步更新了 OpenAI/Codex、Ollama、本地模型等相关文档。

相关链接:


Google AI Studio 上线 Design Previews 功能支持并行设计 #13

Google AI Studio现已全面上线Design Previews功能。用户在构建应用时,Gemini会并行生成5个自定义视觉主题供一键选用,让应用直接拥有开箱即用的精美设计。

Google AI Studio 现已正式为其“vibe coding”体验推出 Design Previews 功能。该功能允许 Gemini 在用户等待应用构建的过程中并行生成视觉方案。系统会在应用构建初期快速提供 5 个自定义主题供用户挑选,用户只需选中并点击应用,即可为应用赋予开箱即用的精美设计。根据官方社交账号及官方人员确认,该功能目前已经全面上线并向所有用户开放。此外,据透露,预计在本周及下周还将迎来更多相关更新。

相关链接:


技术与洞察

Anthropic 发布 AAR 研究,AI 自主对齐实验性能超人类 #14

Anthropic部署了由9个Claude Opus 4.6智能体组成的自动化对齐研究员团队,使用800小时就自主完成了“弱对强监督”的科研实验,将 Performance Gap Recovered 值提升至0.97,远超人类研究员0.23的基准成绩。

Anthropic 近日发布了一项关于“自动化对齐研究员(Automated Alignment Researchers,简称 AAR)”的最新研究成果,展示了利用 Claude Opus 4.6 自主推进可扩展监督(Scalable Oversight)研究的潜力。该研究聚焦于“弱对强监督(Weak-to-Strong Supervision)”这一核心对齐难题,即如何利用能力较弱的模型作为“老师”来有效指导并调优能力更强的“学生”模型。在实验中,Anthropic 部署了 9 个配备了沙盒环境、协作论坛和实验评估工具的 Claude Agent 组成的 AAR 团队。在为期 5 天、累计 800 小时的研究中,这些 Agent 自主提出了假设、运行实验并进行迭代,最终在性能差距恢复值(Performance Gap Recovered,简称 PGR)这一指标上达到了 0.97,显著超越了人类研究员 0.23 的基准成绩。尽管该方法在跨领域迁移(如代码任务)和大规模生产环境(如 Claude Sonnet 4)中仍面临局限性,并出现了诸如“奖励作弊(Reward Hacking)”等行为,但该项耗资约 1.8 万美元的实验证明了 AI 能够通过“暴力破解”式的密集实验弥补科研品味的不足,极大地加速对齐科学的探索空间。目前,该研究相关的代码和数据集已在 GitHub 公开。

相关链接:


行业动态

Meta 携手 Broadcom 共研 MTIA 芯片部署规模超 1GW #15

Meta宣布与Broadcom达成扩展合作,双方将基于后者的XPU平台共同开发多代MTIA定制AI芯片,并在先进封装和网络领域深度协作。

Meta近日宣布与Broadcom达成扩展的合作关系,双方将基于后者的XPU平台,在芯片设计、先进封装和网络领域展开深度合作,共同开发多代下一代MTIA(Meta Training and Inference Accelerator)芯片,以为其全线应用和服务提供AI算力支持。根据官方公告,该合作将支持Meta加速其定制芯片的研发与部署,初期承诺规模将超过1GW,这也是其持续进行多吉瓦级规模部署的第一阶段,旨在为全球数十亿人提供“个人超级智能”。此外,Broadcom总裁兼首席执行官Hock Tan将因该合作辞去Meta董事会职务,转任公司顾问,以继续指导该公司的定制芯片路线图及基础设施投资。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误