2026-05-19 · Markdown

AI 早报 2026-05-19

视频版哔哩哔哩YouTube

概览

要闻

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻


要闻

千问上线 Qwen3.7 Max Preview 和 Qwen3.7 Plus Preview #1

千问团队在 Qwen Studio 上线了 Qwen3.7 Max 及 Qwen3.7 Plus 两款模型的 Preview 版。同步公开了 Arena 分数和排名,该系列模型或于近期的阿里云峰会正式发布。

阿里通义千问团队日前在 Qwen Studio 及评测平台 Arena 上线了 Qwen3.7 的预览版模型,包含 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 两个版本。根据 Arena 公布的数据,Max 版在 Text 赛道总排名第 13 且在数学、编程等分项均跻身前十,Plus 版在 Vision 赛道总排名第 16。其正式发布活动预计在即将到来的阿里云峰会上进行。

相关链接:


模型发布

Cursor 发布 Composer 2.5 并携手 SpaceXAI 合训新模型 #2

Cursor 宣布推出 Composer 2.5,官方称其复杂指令跟随能力更强,效率最高可比同类提升十倍,首周额度翻倍。同时,其宣布将与 SpaceXAI 联手,使用十倍算力从零训练一个更大模型。

Cursor 发布了最新的编程模型 Composer 2.5,该模型基于 Moonshot 的 Kimi K2.5 训练,强化了长时间运行任务中的持续工作能力和复杂指令遵循表现,官方称其效率最高可比同等能力模型提升十倍。模型现已上线,提供标准版和更快的快速版本,后者为默认选项,且首周将提供双倍使用额度;训练中引入了基于文本反馈的强化学习等方法,有效解决了长轨迹中的信用分配难题。同时,Cursor 同步宣布正与 SpaceXAI 合作,使用十倍总计算资源在百万 H100 等效的 Colossus 2 集群上从零训练一个更大模型,预计将带来重大能力飞跃。

相关链接:


开发生态

Claude Code 上线基于 Opus 4.7 的 /fast 模式 #3

Claude Code 官方宣布 Fast 模式已默认切换为 Opus 4.7,官方称其响应速度约为标准模式的 2.5 倍,但按更高 token 费率计费。

ClaudeDevs 官方社交账号宣布,Claude Code 的 Fast 模式现已默认使用 Opus 4.7 模型。官方称该模式提供与标准 Opus 相同的质量,响应速度约为标准模式的 2.5 倍,但按更高的 token 费率计费,适用于快速迭代、实时调试等对延迟敏感的场景。用户可通过 /fast 命令启用。

相关链接:


GitHub 发布多项 Copilot 更新 一键修复 Actions 上线 #4

GitHub发布多项 Copilot更新,推出可一键修复Actions 的云Agent,并将 Spaces API 与 CLI 远程控制正式开放。

GitHub 官方近日针对 Business 和 Enterprise 用户推出多项 Copilot 更新。核心全新能力是云 Agent 现可一键修复失败的 GitHub Actions,自动完成代码调查、修复推送并标记审查,同时新增用于审计该 Agent 配置的 REST API。此前处于测试阶段的 Spaces 编程管理 API,以及 Copilot CLI 和 VS Code 会话的远程控制功能均已在本次正式全面可用,此外 Copilot Chat 也通过同页面面板和上下文自动附加改善了交互体验。

相关链接:


OpenRouter 发布长周期 Agent 构建原语与 SDK #5

OpenRouter 推出用于构建长程 AI Agent 的 SDK 与开发原语。该工具包支持运行多小时的复杂任务循环,内置成本上限控制、状态可恢复等功能。

OpenRouter 官方宣布发布用于构建长程、持久运行 AI Agent 的开发工具包与原语。通过该 Agent SDK,开发者可以运行高步骤数、长超时的多步任务循环,并利用 maxCoststepCountIs 等条件组合来限制最高成本与执行步数。该工具支持持久化对话消息、工具结果和共享上下文,允许在系统崩溃、重新部署或人工审查后重放或恢复长程任务。此外,SDK 原生集成了 /api/v1/audio/transcriptions 等端点以支持语音输入与输出,开发者目前可通过获取 API 密钥直接部署相关智能体。

相关链接:


Browserbase 推出 Browse.sh 技能目录 #6

Browserbase 推出并开源名为 Browse.sh 的 Agent 技能生态系统,为 Agent 提供数百家网站预设指南。仅特定功能需 API 密钥。

Browserbase 官宣推出并开源名为 Browse.sh 的 Agent 技能生态系统,旨在帮助其可靠执行复杂的端到端浏览器任务。官方称该生态为最大的开源技能集合,已研究数百家网站并提供了预设指南,同时与 Ramp、Lovable 等平台合作创建了认证技能。该目录及其配套 CLI 工具对所有人免费开放,支持社区提交技能或由系统按需生成,但官方澄清,涉及调用 Browserbase 平台特定底层功能的技能仍需使用带有免费额度的 API 密钥。

相关链接:


技术与洞察

腾讯混元等机构发布古文字评测基准 Chronicles-OCR #7

腾讯混元等机构发布古文字评测基准 Chronicles-OCR。官方称其能覆盖汉字“七体之变”,测试显示当前主流多模态大模型对古文字的识别与转写能力近乎失效。

腾讯混元、SSV数字文化实验室等团队联合多家高校与中科院正式推出中国古文字感知评测基准 Chronicles-OCR。官方称该基准是业界首个覆盖甲骨、金文、篆、隶、楷、行、草“七体之变”的评测数据集,包含2800张专家标注图像,目前已公开于 GitHub。研究团队对28个主流多模态大模型进行的测试显示,GPT-5、Gemini 2.5 Pro 等模型在跨时代字符检测任务上的得分接近零,且开启思维链推理模式反而会导致识别表现下降。

相关链接:


行业动态

Anthropic 收编 SDK 供应商 Stainless,将关停其托管产品 #8

Anthropic 收购 SDK 及 MCP 工具平台 Stainless 以提升 Agent 连接能力,后续将关停该公司所有托管版产品。

Anthropic 宣布收购 SDK 和 MCP 服务器工具平台 Stainless,后者自 API 早期起便为 Anthropic 生成所有官方 SDK。官方虽未披露交易金额,但据媒体报道,此次收购作价超过 3 亿美元。收购完成后,Anthropic 将逐步关停所有托管版 Stainless 产品,但现有客户仍可保留并修改已生成的 SDK。官方称此举旨在进一步推进 Claude 平台的开发者体验及 Agent 外部连接能力。

相关链接:


前瞻与传闻

DeepSeek 调研 DeepSeek-V4 角色扮演及情感陪伴体验 #9

DeepSeek 官方工作人员发帖向用户收集 DeepSeek-V4 模型使用反馈,调研角色扮演与情感陪伴体验,相关意见将用于指导下一次更新。

DeepSeek 工作人员在小红书平台发布调研贴,向用户收集关于 DeepSeek-V4 模型的使用反馈。该模型上线已大半个月,此次调研重点聚焦于角色扮演与情感陪伴场景的体验,同时也接受关于小说、公文、幻觉、搜索和代码等其他领域的反馈。用户可以通过小红书评论区、私信,或将长篇资料发送至指定邮箱进行提交,这些收集到的意见将被用于指导模型的下次更新。

相关链接:


SpaceXAI 将提高 Grok Imagine 速率限制并改进生成准确度 #10

Elon Musk 称,Grok的图像与视频生成准确度即将大幅提升,并承诺将放宽 Grok Imagine 的使用频率限制。

Elon Musk 近期在社交平台上针对 SpaceXAI 的相关功能做出了两项明确表态。他首先确认 Grok 在图像与视频生成的准确度方面即将迎来重大改进,同时针对用户反馈的 Grok Imagine 频率限制过严问题,他承诺将会提高使用额度,但目前官方尚未公布具体的生效时间与详细额度。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误