2026-01-27 · Markdown

AI 早报 2026-01-27

概览

要闻

产品应用

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻


要闻

通义千问发布Qwen3-Max-Thinking模型正式版 #1

通义千问推出旗舰推理模型Qwen3-Max-Thinking正式版,性能媲美GPT-5.2、Claude-Opus-4.5等顶尖模型。该模型支持自适应工具调用与多轮迭代推理扩展,已在Qwen Chat上线并开放API调用。

千问Qwen正式推出其最新的旗舰推理模型Qwen3-Max-Thinking,该模型通过大幅增加参数规模并投入大量强化学习训练算力,在事实知识、复杂推理、指令遵循、人类偏好对齐及Agent能力等多个关键维度上实现显著提升。根据官方发布的19项权威基准测试数据,Qwen3-Max-Thinking的性能可媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型。该模型现已上线Qwen Chat并开放API调用,核心创新包括自适应工具调用能力,可自主选择并调用内置的搜索引擎、记忆和代码解释器功能,以及一项经验累积式、多轮迭代的测试时扩展技术,能在推理阶段分配额外计算资源以显著提升性能,并在GPQA、HLE、LiveCodeBench v6、IMO-AnswerBench等多项关键推理基准上超越了Gemini 3 Pro。

相关链接:


产品应用

Anthropic推出Claude互动工具功能 #2

Anthropie 宣布 Claude 新增互动工具功能,支持与多款应用实时协作。该功能基于 MCP Apps 标准,已在 Claude.ai 的 Pro 及以上版本上线。同时,免费用户已获得包括创建和编辑文档在内的skills和其他功能的访问权限。

Anthropic宣布Claude新增互动工具功能,可直接在对话界面内实时交互。首批支持9款工具:Amplitude(构建分析图表)、Asana(管理项目任务)、Box(搜索预览文档)、Canva(定制演示文稿)、Clay(研究公司及起草邮件)、Figma(生成流程图等视觉图表)、Hex(生成交互式数据回答)、monday.com(管理看板)、Slack(搜索对话及发布消息)。

该功能基于Model Context Protocol(MCP)开放标准,已在Claude.ai网页及桌面端上线,支持Pro、Max、Team和Enterprise计划。官方预告Salesforce即将通过Agentforce 360接入,功能未来还将登陆Claude Cowork。

同时,Claude 针对免费用户开放功能,现在已支持创建和编辑 Excel 表格、演示文稿、Word 文档及 PDF 文件,并可用技能(skills)和压缩(compaction)技术以处理复杂任务。

相关链接:


腾讯元宝推出社交AI应用元宝派内测 #3

腾讯AI助手“元宝”上线社交功能“元宝派”,支持多人在线互动,打通微信QQ关系链,提供群聊、观影、听歌、共享屏幕等玩法,目前处于测试阶段。

腾讯旗下AI助手“元宝”近期开启全新社交场景“元宝派”的内测,旨在探索AI技术在多人社交环境下的深度融合。与传统的单一对话机器人不同,“元宝派”被定位为一个多人在线社交空间,用户可以创建或加入特定的“派”,并邀请AI参与群聊、调节氛围及执行任务。该功能深度打通了微信与QQ的社交关系链,支持通过分享派号或链接一键邀请好友,并集成了基于腾讯会议底层技术的“一起看电影”、“一起听音乐”及“共享屏幕”等沉浸式互动玩法。此外,元宝派还提供群聊总结、兴趣打卡及图片二创等功能。目前,相关玩法已进入灰度测试阶段,计划于近期陆续上线。


模型发布

腾讯发布混元图生图3.0模型 #4

腾讯混元发布图像模型HunyuanImage 3.0,采用MoE架构,支持图生图、编辑与多图融合。模型已上线腾讯元宝与官网,官方称该模型视觉质量与指令对齐性能达SOTA,媲美领先闭源模型。

腾讯混元近日正式发布 80B 参数规模的混元图像 3.0 图生图(HunyuanImage 3.0-Instruct)模型,该模型采用 MoE 架构(激活参数约 13B),集成了视觉理解与精准图像合成能力,支持图片编辑与多图融合。基于原生思维链(Native CoT)与自研 MixGRPO 算法,模型能够先理解图像内容并进行推理,随后生成详细的编辑指令,实现包括元素增删、风格变换、文字修改、老照片修复及多图合成在内的多种功能,并确保非编辑区域的一致性。目前,该模型已同步上线腾讯元宝全端及腾讯混元官网,官方数据显示其生成速度明显提升,且在视觉质量与指令对齐性能上达到了 SOTA 级别,可与领先的闭源模型媲美。

https://hunyuan.tencent.com/chat/HunyuanDefault?

相关链接:


英伟达发布开源AI气象模型Earth-2 #5

NVIDIA在AMS年会上发布全球首个全开放AI气象软件栈Earth-2,涵盖天气预测全流程,支持15天全球预报与局部风暴预测,已上线Medium Range与Nowcasting模型,精度超越现有开源方案。

NVIDIA在近期举办的美国气象学会(AMS)年会上,正式推出了Earth-2系列开放AI气象模型、库和框架。该系列被官方称为全球首个全开放且加速的AI天气预报软件栈,旨在使全球科学家、初创公司及政府机构能够更便捷地进行气象与气候预测。Earth-2涵盖了从初始观测数据处理到生成15天全球预报或局部风暴预测的各个阶段,包含基于Atlas架构的Medium Range模型、基于StormScope架构的Nowcasting模型以及基于HealDA架构的Global Data Assimilation模型。相比传统依赖超算运行的物理模型,Earth-2不仅大幅降低了计算时间和成本,其精度在多项标准基准测试中也超越了Google的GenCast等顶尖开源模型。目前,Medium Range和Nowcasting模型已在GitHub、Hugging Face及NVIDIA Earth2Studio上线,Global Data Assimilation预计于今年晚些时候发布。

相关链接:


开发生态

MCP Apps官方扩展上线支持多媒体交互 #6

MCP 维护团队宣布 MCP Apps 拓展正式上线,支持在对话中渲染仪表盘、表单等交互式 UI。Claude、Goose 已支持,ChatGPT 本周上线。

MCP 核心维护者正式宣布 MCP Apps 作为官方 MCP 扩展上线并进入生产就绪阶段。该扩展允许 Tool 返回交互式 UI 组件,直接在对话中渲染仪表盘、表单、可视化图表及多步工作流,从而将 Agent 的能力从纯文本交互扩展到富媒体界面。目前,Claude(Web 与桌面版)和 Goose 已支持该功能,Visual Studio Code Insiders 现已可用,ChatGPT 也将于本周开始支持。开发者可以通过官方发布的 @modelcontextprotocol/ext-apps SDK 构建应用,实现 UI 与主机之间的双向通信。该标准由 Anthropic、OpenAI 及 Block 等公司合作创建,并得到了微软、JetBrains、AWS 和 Google DeepMind 等行业伙伴的支持。

相关链接:


OpenAI默默升级ChatGPT代码执行功能 #7

有开发者发现OpenAI 默默升级了 ChatGPT 的代码执行功能,支持 Bash 和多门编程语言。可下载公网文件,且免费用户可用。

近期,开发者 Simon Willison 发现 OpenAI 对 ChatGPT 的代码执行容器进行了一次重大但未公开文档的升级。据其体验和测试,ChatGPT 的代码执行功能(曾用名 Code Interpreter,后更名为 Advanced Data Analysis)现在可以直接运行 Bash 命令,并原生支持包括 Node.js、Ruby、Perl、PHP、Go、Java、Swift、Kotlin、C 和 C++ 在内的多种编程语言。通过一个名为 container.download 的新工具,ChatGPT 能够将公网上的文件下载到沙箱容器内进行处理,尽管容器本身仍无法发起任意的出站网络请求。此外,容器内部署了自定义代理机制,允许通过 pipnpm 安装所需的 Python 和 JavaScript 包。这些新功能在免费版 ChatGPT 中也已可用。Willison 指出,container.download 工具具备安全限制,仅允许下载在对话中由用户明确提供或通过搜索结果获得的 URL,以防止潜在的数据泄露风险。而 OpenAI 尚未在其官方发布笔记中对此进行说明。

相关链接:


技术与洞察

研究团队发布InFi-Check事实核查框架 #8

研究团队推出了InFi-Check框架,实现对大语言模型输出的细粒度事实核查。该框架生成高质量训练数据,构建了InFi-Check-FG基准,并开发出InFi-Checker模型,可识别六类错误、提供证据、理由与修正建议。

研究团队提出了InFi-Check框架,该框架旨在对大语言模型(LLM)的输出进行可解释的、细粒度的事实核查,超越了传统的二元判断。InFi-Check通过一个受控的数据合成管线生成高质量数据,这些数据包含明确的证据、细粒度的错误类型标签、理由说明以及修正建议。基于这些数据,研究团队构建了大规模训练数据和一个名为InFi-Check-FG的人工验证基准。在此基础上,他们开发了InFi-Checker模型,该模型能够联合提供支持性证据、对细粒度的错误类型进行分类,并给出理由和修正。实验表明,InFi-Checker在InFi-Check-FG基准上取得了最先进的性能,并在多个下游任务中表现出强大的泛化能力,其运行成本约为GPT-4o和Claude-3.5等模型的三分之一。InFi-Check能够区分六种具体的错误类型(如实体错误、逻辑反转等),提供证据、理由和修正,从而将事实核查从一个简单的分类任务转变为一个完整的“诊断与修正”循环。该项目由清华大学OpenBMB团队、DeepLang AI及复旦大学合作完成,相关论文、代码及数据集已公开发布。

相关链接:


VIGA发布:逆向图形学多模态Agent #9

VIGA是一个多模态Agent,通过逆向图形学实现视觉重建。它采用生成、渲染、验证的迭代流程,由具备自我反思能力的单一Agent完成,交替扮演生成器和验证器角色,支持3D编辑、2D布局、单视图重建及动态场景等多种任务。

VIGA是一个名为Vision-as-Inverse-Graphics Agent的多模态Agent,旨在通过程序化视觉重建实现逆向图形学。它采用一种分析-综合的代码Agent方法,通过生成、渲染和验证场景与目标图像的迭代循环来处理视觉问题。该Agent由一个具备自我反思能力的单一Agent构成,其在Generator和Verifier两个角色间交替:Generator负责使用规划、代码执行、资产检索和场景查询等工具编写并执行场景程序;Verifier则检查多视角渲染输出,识别视觉差异,并为下一次迭代提供反馈。VIGA的整个流程是自我修正的,无需微调,并维护一个包含计划、代码差异和渲染历史的不断演进的上下文记忆。VIGA支持多种领域,包括用于多步3D图形编辑的BlenderBench、用于单步3D图形编辑的BlenderGym、用于2D幻灯片/文档布局合成的SlideBench、用于单视图3D重建的自定义静态场景,以及用于带有物理效果的4D动态场景的自定义动态场景。

相关链接:


行业动态

OpenAI或以CPM约60美元的高价兜售ChatGPT广告位 #10

据报道,OpenAI正以每千次展示60美元的高价推出ChatGPT广告,费率对标高端电视时段,采用按展示计费模式。

据媒体报道,OpenAI正以每千次展示约60美元(CPM)的高价推出ChatGPT广告,这一费率被视为与高端电视广告时段,如周日橄榄球之夜NFL直播等优质广告资源相当,而非典型的在线广告价格。报道称,OpenAI采用按展示计费(CPM)的模式而非按点击计费(CPC),后者通常对广告商更具吸引力。

相关链接:


微软推出Maia 200 AI推理加速器 #11

微软发布AI推理芯片Maia 200,采用台积电3nm工艺,FP4性能达10 PFLOPS,已部署于美国中部数据中心,并将扩展至西部3号区域,支持GPT-5.2等模型及Microsoft 365 Copilot。

微软推出专为AI推理设计的Maia 200加速器,称其FP4性能为第三代亚马逊Trainium的三倍,FP8性能高于谷歌第七代TPPU,且每美元性能比微软现有最新硬件高30%。该芯片基于台积电3nm工艺,集成超140亿个晶体管,配备原生FP8/FP4张量核心、216GB HBM3e内存(7 TB/s带宽)、272MB片上SRAM,在750W SoC TDP下可提供超过10 PFLOPS的FP4算力和约5 PFLOPS的FP8算力。Maia 200已部署于美国中部数据中心,并将扩展至美国西部3号等未来区域,同时微软开放Maia SDK预览版以支持开发者进行模型优化。该芯片将服务于OpenAI的GPT-5.2等模型,支持Microsoft Foundry和Microsoft 365 Copilot,微软Superintelligence团队也已率先使用其进行合成数据生成及强化学习。

相关链接:


英伟达投资CoreWeave建设AI工厂 #12

Nvidia向数据中心公司CoreWeave投资20亿美元,收购其A类股票。双方将合作建设采用Nvidia技术的AI工厂,整合新Rubin芯片在内的产品。

Nvidia宣布向数据中心公司CoreWeave投资20亿美元,以加速其到2030年前新增超过5吉瓦AI计算能力的计划。根据协议,Nvidia以每股87.20美元的价格收购了CoreWeave的A类股票,双方将合作建设采用Nvidia产品的“AI工厂”,即数据中心。作为交易的一部分,CoreWeave将在其平台全线整合Nvidia的产品,包括即将取代当前Blackwell架构的新Rubin芯片架构、Bluefield存储系统以及Nvidia新的CPU产品线Vera。Nvidia还将协助CoreWeave为数据中心购买土地和电力,并与CoreWeave合作,将其AI软件和架构纳入Nvidia的参考架构,以销售给云业务和企业。

相关链接:


阶跃星辰B+轮融资超50亿,印奇出任董事长 #13

近期,阶跃星辰完成了超50亿元B+轮融资,刷新国内大模型单笔融资纪录。投资方包括上国投先导基金、国寿股权等,腾讯、五源资本跟投。旷视科技创始人印奇出任董事长。

阶跃星辰宣布完成超50亿元人民币的B+轮融资,该轮融资刷新了近一年来国内大模型赛道的单笔融资纪录。投资方包括上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等机构,腾讯、五源资本等老股东也继续跟投。与此同时,旷视科技创始人、千里科技董事长印奇正式出任阶跃星辰董事长,将与CEO姜大昕、首席科学家张祥雨、CTO朱亦博共同组成核心管理团队。印奇将主要负责整体战略节奏、技术方向的制定以及终端商业化。

相关链接:


前瞻与传闻

月之暗面上线Kimi K2.5多模态模型 #14

月之暗面已在Kimi应用及网页端上线Kimi K2.5版本。用户选择Kimi K2 Thinking即可体验,移动端需更新至2.5.6版本,新版本支持多模态功能。

月之暗面已在kimi 应用端和网页端默默上线 Kimi K2.5。据多个非官方社交媒体上的用户确认,选择Kimi K2 Thinking 即可体验 Kimi K2.5。移动端用户需将应用更新至最新版本2.5.6才能体验该版本,据用户发现,K2.5 具备多模态功能。


国星宇航披露“星算”计划太空算力网络路线图 #15

国星宇航发布“星算”计划,拟建2800颗计算卫星组成的太空算力网,2035年前完成组网,提供十万P推理与百万P训练算力,已成功在轨部署通义千问Qwen3大模型。

商业航天企业国星宇航披露了其“星算”计划的最新进展与路线图,该计划旨在构建一个由2800颗计算卫星组成的太空算力网络,作为全球首个服务硅基智能体的太空算力网,专注于为自动驾驶、无人机、智能机器人等陆海空天领域的硅基智能体及AI模型提供推理和训练服务。网络由2400颗推理计算卫星和400颗训练计算卫星构成,部署在500-1000公里的晨昏轨道、太阳同步轨道和低倾角轨道,目标是在2035年前完成全部组网,实现十万P级的推理算力和百万P级的训练算力。国星宇航已完成关键技术验证,并于近期成功将通义千问Qwen3大模型部署至其01组太空计算中心,完成了全球首次通用大模型在轨部署与推理任务。


提示:内容由AI辅助创作,可能存在幻觉错误