2026-02-04 · Markdown

AI 早报 2026-02-04

概览

要闻

产品应用

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻


要闻

通义千问发布开源编程模型 Qwen3-Coder-Next #1

Qwen 团队发布开源编程模型 Qwen3-Coder-Next,采用混合注意力与稀疏 MoE 设计,基于 800 亿参数架构,每 token 仅激活 30 亿。该模型在 SWE-Bench Verified 基准上得分超 70%,性能媲美激活参数量高十倍的模型。

Qwen团队发布了开源权重语言模型Qwen3-Coder-Next,专为编程Agent与本地开发设计。该模型基于Qwen3-Next-80B-A3B-Base构建,采用混合注意力与稀疏MoE架构,总计800亿参数,但每个token仅激活30亿参数,旨在显著降低推理成本。

据官方介绍,该模型的核心突破在于“大规模智能体训练”,而非单纯依赖参数扩展。其训练包含持续预训练、监督微调、领域专精的专家训练及能力蒸馏等阶段,利用约80万个可验证任务与可执行环境,让模型从反馈中学习,重点强化了长程推理、工具使用与失败恢复能力。

在性能表现上,官方数据显示,该模型在使用SWE-Agent框架时,在SWE-Bench Verified基准上得分达70.6%,在更具挑战性的SWE-Bench-Pro上得分为44.3%。官方称这一表现可与激活参数量高10到20倍的模型相当,优于DeepSeek-V3.2(671B)和GLM-4.7(358B)等更大模型。

相关链接:


OpenAI 宣布 GPT-5.2 系列模型提速 40% #2

OpenAI 宣布 GPT-5.2 与 GPT-5.2-Codex 模型提速 40%,通过优化推理堆栈实现,已面向所有 API 用户开放,延迟降低,模型权重未变。

OpenAI 宣布其 GPT-5.2 与 GPT-5.2-Codex 模型提速 40%。此次更新通过优化推理堆栈实现,已面向所有 API 客户开放。在不改变模型与权重的前提下,该改进显著降低了请求延迟,提升了开发者体验。

相关链接:


产品应用

NotebookLM移动应用推出视频概要功能 #3

NotebookLM移动应用上线Video Overview功能,支持用户在手机上生成并全屏观看视频概要,方便随时随地学习。

NotebookLM移动应用推出Video Overview视频概要生成功能,用户可在手机上直接创建、生成并全屏观看,便于随时随地学习。

相关链接:


ima上线混元图像3.0图生图功能 #4

ima接入混元图像3.0图生图功能,用户升级后可用,支持娱乐、设计等场景。

ima已接入混元图像3.0图生图模型,用户升级至最新版本即可使用。该功能支持基于上传图片和指令生成新图,应用场景包括娱乐玩梗、定制家庭写真、设计海报、医疗科普配图、家装效果预览及四格漫画创作等。

相关链接:


Claude推出Slack连接实现对话内操作 #5

Claude 已上线 Slack 连接功能,Pro 和 Max 用户可在对话中搜索频道、筹备会议并发送消息,无需切换应用。

Claude已为Pro和Max订阅用户推出Slack连接功能,支持在对话中直接搜索Slack工作区频道、筹备会议并发送消息,无需切换应用即可推进工作。该功能旨在提升工作流连贯性与效率,目前仅限Pro和Max订阅用户使用。

相关链接:


Gemini App增强科学文献引用能力 #6

Google 正在为 Gemini App 推出科学引用功能,支持生成 APA 格式文内引用和参考文献。该功能目前处于逐步上线阶段,仅在用户提出明确科学问题时触发。

Gemini App推出增强的科学引用功能。该功能可在用户提出明确科学性质问题并要求提供来源时,自动生成符合APA格式的文内引用及详细参考文献部分。此功能主要面向学生与研究者群体,旨在提升学术资料获取与引用的便捷性。目前功能目前处于逐步上线阶段,且仅在特定科学查询场景下触发,尚未全面覆盖所有交互场景。

相关链接:


模型发布

OpenBMB发布多模态模型MiniCPM-o 4.5 #7

OpenBMB发布并开源了90亿参数的多模态模型MiniCPM-o 4.5,支持视觉、语音、文本实时交互。官方称视觉能力超越GPT-4o,支持全双工实时交互。

OpenBMB发布了9亿(9B)参数的多模态大语言模型MiniCPM-o 4.5。该模型支持全双工多模态实时交互,能够同步处理视觉、语音和文本输入并生成输出。官方数据显示,模型在OpenCompass基准测试中平均得分77.6,其视觉语言能力超越了GPT-4o和Gemini 2.0 Pro,接近Gemini 2.5 Flash水平。

MiniCPM-o 4.5引入全双工多模态直播能力,可端到端并行处理视频、音频输入流与文本、语音输出流,实现流畅的实时对话,并支持基于理解的主动交互。语音方面,它支持中英双语实时对话和语音克隆,官方数据显示其语音性能优于CosyVoice2等工具,中文测试CER为0.86%,英文WER为2.38%。

视觉理解方面,模型在MathVista和MMBench英文版测试中得分分别为80.1和87.6,能高效处理高达180万像素的图像与高帧率视频,并在OmniDocBench文档解析任务中取得最佳性能。文本能力上,模型在多项基准中平均得分82.1,数学解题(GSM8K)得分94.5。

该模型基于SigLip-2、Whisper-medium、Qwen3-8B等构建,采用Apache-2.0许可证开源。模型支持通过llama.cpp、Ollama等框架在本地设备部署。

相关链接:


ACE Studio 与 StepFun 联合发布开源音乐模型ACE-Step 1.5 #8

ACE Studio 与 StepFun 联合发布开源音乐模型 ACE-Step 1.5,支持本地运行与商业用途。该模型支持多语言歌词、多轨生成与 LoRA 风格训练。

ACE Studio 与 StepFun 联合团队近日发布了开源音乐生成基础模型 ACE-Step 1.5。该模型采用 MIT 许可证,支持本地运行与商业用途。

官方数据显示,该模型在 A100 上生成一首完整歌曲快至 2 秒,在 RTX 3090 上快至 10 秒,运行 VRAM 少于 4GB。其核心为一种新颖的混合架构,语言模型 (LM) 作为“全能规划器”,通过思维链生成完整歌曲蓝图以指导 Diffusion Transformer (DiT) 进行音乐创作。据官方博客,其生成质量超越多数商业模型,介于 Suno v4.5 与 v5 之间。

ACE-Step 1.5 功能全面,支持 10 秒至 10 分钟的灵活时长生成、参考音频引导、翻唱、音频编辑、音轨分离及多轨生成,并兼容 50 多种语言歌词与千余种乐器风格。用户可利用内置的 LoRA 技术,仅需几首歌曲即可训练个人风格。模型能根据 GPU VRAM 容量自动选择最优 LM 模型。

相关链接:


Ai2发布轻量级开源编码模型SERA-14B #9

Allen Institute 发布开源编码模型 SERA-14B,参数量 140 亿,在 SWE-bench 测试中得分 41.7%。

艾伦人工智能研究院(Ai2)发布140亿参数开源编码模型SERA-14B,在SWE-bench Verified基准测试中获41.7%得分(±0.5%)。模型基于Qwen 3-14B,采用GLM-4.6为教师模型,通过Soft Verified Generation方法在32K上下文、25000条合成轨迹上训练,数据源自121个Python代码库。训练数据集已更新为通用格式并新增验证阈值和元数据。模型采用Apache 2.0许可证在Hugging Face开源。

相关链接:


开发生态

Claude Code新增对话共享 #10

Claude Code 新增对话共享功能,支持用户通过链接分享完整会话,适用于代码审查与协作调试。不同用户类型权限不同。

Claude Code在最新版本中推出了对话共享功能,允许用户通过链接分享完整会话,以适用于代码审查、协作调试等专业场景。该功能覆盖网页、桌面及移动端。

相关链接:


OpenRouter推出免费模型路由 #11

OpenRouter上线免费模型路由功能,根据请求智能筛选支持图像理解、工具调用等能力的模型,通过API为用户提供便捷的免费推理服务。

OpenRouter发布了“免费模型路由”功能。该服务并非随机选择模型,而是根据用户的请求需求,从平台可用模型中智能筛选并自动选择最合适的免费模型进行推理。其筛选机制支持包括图像理解、工具调用、结构化输出等特定能力的模型。开发者可通过API便捷调用此路由服务,以获取免费模型推理能力。

相关链接:


苹果发布Xcode 26.3集成Claude #12

苹果发布 Xcode 26.3,原生集成 Claude Agent SDK 与 OpenAI Codex,支持开发者通过自然语言指令让 AI 自主完成编码任务。

Apple 发布 Xcode 26.3,原生集成 Claude Agent SDK 引入"agentic coding",支持 Anthropic Claude Agent 和 OpenAI Codex 在 IDE 内执行复杂自主编码任务。该版本新增视觉验证可捕获 Xcode Previews 迭代界面。开发者用自然语言描述目标后,Agent 自主分解任务、探索项目结构、调用文档并编写代码。Release Candidate 已向 Apple Developer Program 成员开放。

相关链接:


编码Agent生态推动技能目录统一 #13

Codex 团队成员倡议开发者统一使用 .agents/skills 目录管理技能,Codex、Copilot CLI 、Gemini CLI、OpenCode 及 Cursor 等已陆续支持。

Codex 团队成员 Alexander Embiricos在X上呼吁Agent开发者统一采用.agents/skills目录管理技能,以简化用户跨Agent维护技能的复杂度。Codex已率先支持该目录并计划废弃.codex/skills。Copilot CLI 新版本已实现从该目录自动加载技能。Gemini CLI已合并相关支持代码并计划下周发布,Cursor也将在下个版本加入支持。社区生态积极响应,已有工具实现技能文件的统一管理和自动同步。

相关链接:


Hugging Face为AI编程助手集成CLI功能 #14

Hugging Face官方宣布为 huggingface_hub 库新增功能,用户可通过命令创建技能,为 AI 助手接入 Hugging Face CLI,使其支持搜索 Hub、下载模型和管理仓库等操作。

Hugging Face官方宣布为huggingface_hub库新增AI编程助手集成功能。用户执行hf skills add --claude命令,即可为Claude Code、Codex和@opencode接入Hugging Face CLI,实现搜索Hub、下载模型、管理仓库等操作。

相关链接:


技术与洞察

腾讯混元新研究揭示大模型上下文学习短板 #15

腾讯混元团队联合复旦大学发布CL-bench基准,评测显示当前大模型从上下文学习新知识的能力普遍不足,研究指出,模型常忽略或误用上下文,而非信息缺失。

腾讯混元团队联合复旦大学发布CL-bench基准测试,系统评估大语言模型从上下文学习新知识的能力。该测试包含500个专家构建的复杂上下文、1899个任务及31607个验证标准,强制模型学习预训练中不存在的新知识。评测显示,当前最先进模型平均任务解决率仅17.2%,表现最佳的GPT-5.1 (High)也仅达23.7%。研究发现,模型失败主因是忽略或误用上下文信息,而非信息缺失;归纳推理比应用明确规则更具挑战性。研究团队指出,上下文学习能力作为基础能力此前被严重忽视,未来需重点提升该能力并实现知识持久化,这或将成为2026年核心研究方向。

相关链接:


Anthropic研究:AI错误随难度增加而不连贯 #16

Anthropic研究发现,随着任务变难和推理变长,AI错误更多表现为不连贯行为,且增加推理预算改善有限。这表明AI故障或更像“工业事故”,而非系统性目标偏离,需调整对齐研究方向。

Anthropic最新研究揭示,前沿AI模型在复杂任务和长推理过程中,错误更多呈现为不可预测的"不连贯"行为而非系统性追求错误目标。研究采用偏差-方差分解法,将模型错误分为系统性"偏差"与不连贯"方差",在GPQA、MMLU、SWE-Bench等任务及Claude Sonnet 4、o3-mini、o4-mini、Qwen3等模型上验证发现:推理时间越长(更多token、智能体行动或优化步数),错误中不连贯成分(方差)占比显著上升。模型规模的影响取决于任务难度——简单任务中更大模型更连贯,但在困难任务中,更大模型反而更"不连贯"或不连贯性保持不变。合成优化任务的实验进一步表明,更多优化步数会增强不连贯性,且更大模型学习"正确目标"(减少偏差)的速度远快于学习"可靠追求该目标"(降低方差)。研究指出,LLMs本质是动态系统而非优化器,将其约束为连贯优化器极其困难。未来AI故障可能更像"工业事故"而非系统性追求错误目标,但不连贯行为仍可能造成严重伤害,应调整对齐研究优先次序。

相关链接:


Kimi团队发布WorldVQA基准 #17

Kimi团队发布WorldVQA基准,评估多模态模型视觉知识掌握能力。该基准包含3500个图像-问题对,覆盖9类知识,区分常见与长尾信息。

Kimi团队发布WorldVQA基准,通过3500个跨9类别的问答对评估多模态大语言模型的原子视觉世界知识,严格区分知识检索与推理能力。数据集遵循三大原则:事实无歧义、分类丰富、明确区分头部与尾部知识,含36%中文和64%英文样本,涵盖地理、文化等领域,分简单、中等、困难三级。

评测显示,顶尖模型在长尾视觉知识上准确率常低于50%,Kimi K2.5以46.3%整体准确率领先。所有模型普遍过度自信,K2.5校准度最佳(ECE 37.9%)但仍距理想状态甚远。团队已开源数据集、评估脚本和论文,认为提升该性能是发展下一代AI Agent的关键。

相关链接:


多模型集成方案刷新ARC-AGI基准SOTA #18

一个多模型方案在ARC-AGI基准刷新SOTA纪录。该方案通过并行调用GPT-5.2、Gemini-3和Claude Opus 4.5,并结合多种提示策略,实现V1版本94.5%准确率,V2版本72.9%准确率。

ARC Prize官方宣布,开发者@LandJohan提交的GPT-5.2多模型集成方案创造ARC-AGI新SOTA纪录。V1版本准确率达94.5%,单任务成本11.4美元;V2准确率72.9%,成本38.9美元。

技术实现上,系统并行运行GPT-5.2、Gemini-3与Claude Opus 4.5,并采用标准、深度思考及图像等多种提示策略。这是第二个超越单模型性能的多模型系统,标志着ARC-AGI-2基准在10个月内突破75%,引发社区对技术进展速度及V2版本成本效益的广泛讨论。

相关链接:


行业动态

微软构建内容授权市场应对AI版权问题 #19

Microsoft 正与多家出版商合作,推出名为 Publisher Content Marketplace 的 AI 内容授权平台。该平台允许 AI 公司付费获取内容用于训练模型,内容方则可获得使用报告并据此定价。

微软正在构建一个名为“Publisher Content Marketplace (PCM)”的AI内容授权中心,旨在让AI公司浏览并授权在线内容用于“grounding”其模型,同时内容所有者可获得基于使用情况的报告以帮助定价。该项目是与包括Vox Media、美联社、Condé Nast和People在内的多家出版商共同设计的,目前已启动试点项目,并开始引入雅虎等合作伙伴。

微软称,该模式旨在为AI时代构建新的价值交换,让出版商根据交付价值获得报酬。公司指出,传统搜索引擎的流量模式无法干净地转换到以AI对话提供答案的世界。PCM计划支持包括大型组织和独立出版物在内的各种规模的出版商。

相关链接:


OpenAI任命新负责人应对强模型相关风险 #20

OpenAI首席执行官Sam Altman宣布,任命Dylan Scandinaro为新设的“Head of Preparedness”一职,以应对未来强大AI模型带来的风险。

OpenAI CEO Sam Altman在其社交账号上宣布,任命Dylan Scandinaro为新设立的Head of Preparedness,领导公司为即将出现的极强大模型所带来的严重风险做准备并加以缓解。Altman对此表示"极度兴奋",称AI技术将变得非常快速,OpenAI将很快处理极其强大的模型,需建立相称的安全保障以确保持续带来巨大益处。

相关链接:


软银英特尔合作开发下一代AI内存ZAM #21

软银旗下SAIMEMORY与英特尔合作开发新一代内存技术ZAM,目标2029财年商业化。

软银全资子公司SAIMEMORY与英特尔签署合作协议,共同推进下一代内存技术"Z-Angle Memory"(ZAM)商业化,以满足AI和高性能计算需求。根据协议,原型产品将于2028财年结束前推出,2029财年实现商业化。该技术重点提升DRAM性能与能效,实现高容量、高带宽、低功耗数据处理。SAIMEMORY成立于2024年12月,将依托英特尔NGDB项目技术积淀。英特尔CTO Joshua Fryman表示新架构能同时降低功耗与生产成本。据媒体报道,合作公布后软银和英特尔股价均上涨;有分析认为,此次合作正值AI存储需求激增、市场短缺时期。

相关链接:


媒体曝OpenAI不满英伟达,促成Cerebras交易 #22

据媒体报道,OpenAI因不满Nvidia芯片性能而寻求替代方案。从而促成了其与芯片初创公司Cerebras达成交易。

据报道,大型语言模型 ChatGPT 的开发者 OpenAI 因对特定 Nvidia 芯片的运行速度不满,近期正与提供替代方案的初创公司进行谈判。相关讨论已促成了 OpenAI 与芯片公司 Cerebras 的一笔交易。

据媒体 The Decoder 报道,ChatGPT 的开发者 OpenAI 对某些 Nvidia 芯片的速度感到不满。为寻求替代方案,OpenAI 正在与相关初创公司进行谈判。报道称,正是这种对 Nvidia 芯片的不满,最终促成了 OpenAI 与芯片公司 Cerebras 达成一项交易。

https://the-decoder.com/wp-content/uploads/2026/02/openai_nvidia-3.jpeg https://the-decoder.com/openais-dissatisfaction-with-nvidia-chips-sparked-cerebras-deal/

相关链接:


Lotus Health AI医生获3500万美元A轮融资 #23

AI医疗公司Lotus Health完成3500万美元A轮融资。该公司于2024年5月上线,提供24小时、50种语言的免费AI初诊服务,涵盖诊断、处方与转诊。平台已获全美50州运营许可。

AI医疗初创Lotus Health完成3500万美元A轮融资,CRV与Kleiner Perkins共同领投,总融资达4100万美元。该公司2024年5月推出24/7免费AI初级诊疗服务,支持50种语言,覆盖诊断、处方和专家转介。所有医疗结果需经Stanford、Harvard等顶尖机构认证医生审核。公司已获全美50州运营许可,配备医疗事故保险及HIPAA合规系统。创始人KJ Dhaliwal表示,当前重心为产品开发与用户增长,未来或探索赞助内容或订阅模式,但基础服务保持免费。据称在15分钟问诊限制下,其接诊效率达传统医疗实践的10倍。

相关链接:


前瞻与传闻

OpenAI本周或发布企业Agent平台 #24

据社交媒体上的讨论,OpenAI计划本周发布企业级Agent平台,支持部署不同模型驱动的智能体。

据社交媒体上的讨论,OpenAI计划于本周内发布一个企业级Agent平台。该平台旨在帮助企业客户构建和部署由不同模型驱动的智能体。

相关链接:


Anthropic被曝开发图像生成模型 #25

据社区观察,Anthropic 正在开发图像生成模型,有用户在Claude前端代码中
发现 create_image 等关键词。

据社区观察,Anthropic或将开发图像生成模型。主要线索包括:Claude前端代码中出现create_imageedit_image等关键字及系统提示;LMArena平台近期上线名为"sonata"的隐形测试模型,该模型在交互中时而声称来自Google,时而称来自Anthropic,表现异常。目前以上信息均未获官方证实。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误