2026-02-05 · Markdown

AI 早报 2026-02-05

概览

产品应用

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻


产品应用

Claude Cowork整合GSuite与Slack服务 #1

Claude Cowork 推出 GSuite 连接器,支持 Gmail、日历和云端文件操作。同时,其 Slack MCP 功能已对所有付费用户开放。

Claude Cowork 推出了 GSuite 连接器,同时 Slack MCP 功能已向所有付费计划用户开放。GSuite 连接器允许用户授权 Claude 处理其 Gmail、Google Calendar 和 Google Drive 中的内容。Slack MCP 的具体功能包括帮助用户回顾错过的消息、标记重要信息、草拟回复以及根据讨论内容生成文档初稿。

相关链接:


Arena.ai推出基于投票的智能路由模型 #2

Arena.ai 推出智能路由模型 Max,基于超500万次社区投票数据,可为每个提示智能匹配最优模型,已在 Direct chat 上线。

Arena.ai推出智能路由模型Max,已在Direct chat上线。Max基于500万次社区投票,可智能路由用户提示至最适合的AI模型,兼顾能力与延迟,协调各模型在代码、数学等领域优势。

相关链接:


Amazon向全美用户推出AI助手Alexa+ #3

亚马逊在美国正式推出升级版AI助手Alexa+,支持自然对话与复杂任务处理。用户可通过网站和App免费体验,但有使用限制。

Amazon正式向全美推出升级版AI助手Alexa+。Prime会员可免费无限制使用,非Prime会员月费19.99美元;通过Alexa网站和移动应用,所有用户均可免费使用但设有限制。

该助手支持自然对话与复杂任务处理,在保留智能家居控制等原有功能基础上,新增旅行规划、日历管理、食谱推荐等通用AI功能,并集成Ticketmaster、Uber等服务。技术采用模型无关架构,结合Amazon自研与第三方模型。

相关链接:


Perplexity AI发布Deep Research升级版 #4

Perplexity AI升级其Deep Research功能,在Google DeepMind和自研DRACO基准测试中表现领先。该功能面向Max用户开放,即将扩展至Pro用户。

Perplexity AI发布了Deep Research功能的升级版本,目前在Max订阅等级开放,计划近日扩展至Pro用户。该升级结合了Opus 4.5模型与Perplexity专有的搜索引擎,在Google DeepMind Deep Research QA基准测试中获得79%的得分。

Perplexity AI同步推出了开源的DRACO基准测试,用于评估深度研究代理。该基准测试包含100个跨领域任务,基于真实用户场景构建,涵盖10个领域,数据集与论文已公开。

相关链接:


昆仑万维发布天工Skywork桌面版 #5

昆仑万维发布“天工Skywork桌面版”,定位为Windows系统级AI协同工具。该应用支持本地化处理,保障数据安全,可理解并操作文档、表格、图片、视频等多种文件。

昆仑万维与昆仑天工发布桌面AI应用"天工Skywork桌面版",该产品定位Windows系统的"Claude Cowork",通过本地虚拟机隔离环境处理文档、表格、PPT、图片及视频等文件,数据无需上传云端,保障隐私安全。

相关链接:


模型发布

上海AI实验室推出万亿参数多模态科学推理模型Intern-S1-Pro #6

上海AI实验室发布并开源了万亿参数多模态科学推理模型Intern-S1-Pro,支持AI4Science任务,兼容OpenAI API,可通过Hugging Face获取。

上海AI实验室发布Intern-S1-Pro,一个1万亿参数MoE多模态科学推理模型(512专家,激活22B),专注AI4Science领域。模型在化学、材料、生命科学等基准测试中达到领先水平,可媲美国际闭源模型。技术架构采用STE路由、分组路由机制及Fourier Position Encoding,支持10^0至10^6点的长异构时间序列。模型兼容OpenAI API,具备Tool Calling能力,thinking模式可动态配置。支持LMDeploy、vLLM、SGLang框架部署。权重已上传Hugging Face,代码和技术报告(arXiv:2508.15763)同步发布。

相关链接:


Mistral AI开源40亿参数实时语音模型Voxtral Mini 4B Realtime 2602 #7

Mistral AI 发布了开源多语言实时语音转录模型 Voxtral Mini 4B Realtime 2602,支持中文在内的 13 种语言,可在设备端部署。

Mistral AI 发布了名为 Voxtral Mini 4B Realtime 2602 的多语言实时语音转录模型,该模型以低于 500 毫秒的延迟实现了接近离线系统的转录准确率,并采用 Apache 2.0 许可证开源。这个拥有 40 亿参数的模型采用原生流式架构,针对语音助手、实时字幕等场景及设备端部署进行了优化。

此外,Mistral AI 还介绍了用于批量转录的 Voxtral Transcribe 2 模型系列。据官方说明,该模型在 FLEURS 数据集上实现了 4% 的 WER,定价为每分钟 0.003 美元,并具备说话人日志、上下文偏置等功能。

相关链接:


快手可灵发布可灵3.0 #8

快手可灵发布可灵3.0模型,支持视频生成最长15秒,新增主体参考与多语音画功能。图片与视频均支持2K/4K输出,黑金会员可网页端抢先体验。

快手可灵正式发布3.0版本产品套件,包含视频3.0、图片3.0及其对应的Omni增强版。核心升级包括视频生成时长延长至15秒、强化主体一致性、支持原生2K/4K图像输出,旨在覆盖从生成到编辑的全链路创作流程。目前该版本为黑金会员提供网页端抢先体验,后续将全量开放。

视频3.0系列支持3至15秒的灵活时长。其智能分镜功能可深度理解剧本,自动调度景别与机位以生成电影感叙事。在图生视频基础上新增的主体参考能力,允许用户添加图片或视频,二次锚定主角、道具与场景。全能音画功能支持中、英、日、韩、西等多语种及地道方言,实现多语混合对话时的口型与神态匹配。增强版视频3.0 Omni的全能主体3.0分为两部分:一是支持上传3至8秒角色视频创建主体,二是支持“多图+音频”为角色绑定专属声线。分镜叙事3.0则新增了原生自定义分镜能力与像素级画面修改。

图片3.0 Omni版聚焦专业级视觉输出。深度叙事功能可解构提示词中的视听元素,生成包含特定光影、色调的影视级画面。组图创作支持批量生成系列组图,并可统一优化风格或根据单张图片预测剧情生成分镜。原生超清功能允许直接输出2K或4K图像。标准版图片3.0的强化主要围绕一致性与编辑灵活性,支持用户使用最多10张参考图锁定核心元素与色调,并整合多来源参考能力于同一界面,提升了人像真实感和电影级色调。

相关链接:


开发生态

Claude Code推出/insights分析功能 #9

Claude Code 推出新命令 /insights,可读取用户过去一个月的消息记录,总结项目、分析使用方式,并提供优化建议。

Claude Code推出/insights命令,可读取并分析用户过去一个月消息历史,功能包括总结项目、分析使用方式并提供工作流程优化建议。

相关链接:


ChatGPT全面支持MCP Apps开放标准 #10

ChatGPT 现已全面支持 MCP Apps 开放标准,开发者可基于 iframe 和 JSON-RPC 协议构建跨平台应用。原有 Apps SDK 仍受支持,但推荐优先采用 MCP 标准接口。

ChatGPT引入了对MCP Apps开放标准的全面支持。该标准基于ChatGPT Apps SDK制定,旨在实现应用的“一次构建,多平台运行”,其UI通过在iframe内利用标准桥与主机通信。原有的Apps SDK仍将获得持续支持,官方建议开发者优先采用MCP Apps标准以确保应用的可移植性,仅在需要ChatGPT特有功能时,才使用OpenAI扩展。

相关链接:


Gemini CLI更新引入扩展并增强MCP控制 #11

Gemini CLI 发布 v0.27.0 版本,优化了终端界面,支持 MCP 服务器动态控制,并引入 CrowdStrike 和 Replit 官方扩展。

Gemini CLI v0.27.0发布,界面更简洁且功能增强。输入提示框移除边框,粘贴大段文本自动转为可折叠占位符,按Ctrl-O可展开查看工具审批详情。

新增官方扩展:集成CrowdStrike Falcon实现自动化安全分析,集成Replit支持自然语言创建应用,通过gemini extensions install命令安装。

底层能力升级:支持会话期间或永久启用/禁用MCP服务器(/mcp enable/disable),系统提示支持${AgentSkills}等动态变量,AfterAgent Hooks新增clearContext功能。

相关链接:


VS Code 1.109发布:演进为多代理平台 #12

Microsoft 发布 Visual Studio Code 1.109,将编辑器升级为多代理开发平台。新版本支持本地、后台和云端代理并行运行,引入统一会话管理与 Agent Skills 定制化功能,增强对 Claude Agent 和 MCP Apps 的扩展支持。

Microsoft 发布 Visual Studio Code 1.109 版本,宣布将编辑器演进为多代理开发平台。此版本核心是引入统一的代理会话管理视图,支持本地、后台和云端代理的并行运行与切换。Agent Skills 已正式发布(GA)并默认启用,用于定制化工作流。平台还增加了对 Claude Agent(Preview)和 MCP Apps 的扩展性支持,并通过 Copilot Memory(Preview)与外部索引优化代理能力。

Chat UX 方面获得显著提升。Anthropic 的 Claude 模型支持显示思考过程,并能通过新工具渲染交互式 Mermaid 图表。内置的 Plan agent 遵循四阶段迭代工作流,可通过在聊天中输入 /plan 调用。Inline chat 也经历了改版(Preview),提供了更易触发的交互方式和更轻量的上下文渲染。

平台定制化能力增强,Agent Skills 通过管理 prompt 文件进行配置,并支持组织级自定义指令。自定义代理的配置选项更加丰富,例如可控制其调用方式和指定模型备选项。代理优化方面,除了 Copilot Memory,还新增了为非 GitHub 托管工作区提供代码语义搜索的外部索引功能,并优化了大型聊天会话的性能。

安全与信任是企业级关注的重点。新版本引入了实验性的终端沙箱功能(仅限 macOS 和 Linux),用于限制代理执行的终端命令对文件系统和网络的访问。此外,一个重要的生产力工具是集成浏览器(Preview)的引入,它替代了 Simple Browser,支持持久化存储、完整的 DevTools 及将元素发送至代理等功能。

其他重要更新包括:GitHub Copilot 扩展已被弃用,其功能完全整合到 GitHub Copilot Chat 扩展中;Windows 安装布局重新设计以提高更新可靠性;以及多项编辑器和编码体验的改进。

相关链接:


GitHub更新Copilot支持第三方Agent #13

GitHub 更新 Agent HQ,向 Copilot Pro+ 和 Enterprise 用户开放第三方编码 Agent 支持,集成 Claude 与 Codex,可在 GitHub、VS Code 等平台统一调用。

GitHub更新Agent HQ,为Copilot Pro+和Enterprise用户集成Anthropic Claude与OpenAI Codex,现以Public Preview形式在GitHub、GitHub Mobile及VS Code中提供。该集线器支持在同一项目上下文运行多个Agent执行任务,如提交代码或PR评论,并允许指派多Agent比较不同解决方案。企业管理员可通过集中策略管控组织访问权限,Code Quality功能扩展安全检查,Copilot指标仪表板追踪使用情况,审计日志确保合规。目前仅限Pro+和Enterprise订阅,未来将扩展至更多类型并支持Copilot CLI,GitHub正与Google、Cognition、xAI等合作集成更多Agent。

相关链接:


Kilo推出 Kilo CLI 1.0 #14

Kilo 推出基于OpenCode的开源命令行AI编程工具 Kilo CLI 1.0,本周内免费提供 MiniMax M2.1 模型。

Kilo发布Kilo CLI 1.0,一个基于OpenCode、采用MIT许可证的开源智能体工程命令行工具。Kilo CLI 1.0实现终端原生体验,可在VS Code、JetBrains、手机及远程服务器间无缝切换,并自动同步设置与会话。安装仅需运行npm install -g @kilocode/cli。作为发布优惠,MiniMax M2.1模型本周内完全免费。Kilo承诺将向上游社区贡献改进,并计划深化Cloud Agents集成、增强跨工具会话共享能力。

相关链接:


Windsurf推出Tab v2可调节预测模型 #15

Windsurf 推出代码补全模型 Tab v2,新版本支持可调 aggression 级别,用户可在编辑器右下角自定义预测积极性。

Windsurf 推出 Tab v2,一款经过完全重写和重新训练的代码补全模型。在保持与 v1 相同接受率的基础上,新模型实现了平均54%的预测字符数增长,最高可达100%。

此次更新的核心是引入业界首个可变 aggression 调节功能。该功能源于用户测试发现的偏好差异,旨在让用户根据个人习惯调整模型预测的积极性,目标从追求高接受率转向最大化帮助用户编写代码的总量。

相关链接:


Zed引入多提供商编辑预测 #16

Zed 编辑器更新了编辑预测功能,支持切换 Zeta、Mercury Coder、Sweep、Ollama、Codestral、GitHub Copilot 等多个模型。用户可在设置中选择提供商。

Zed编辑器更新编辑预测功能,采用可插拔架构支持Zeta、Mercury Coder、Sweep、Ollama、Codestral及GitHub Copilot等多模型切换。该架构将状态管理等核心工作交由Zed统一处理,简化新模型集成。

相关链接:


v0发布重大更新整合开发全流程 #17

v0 发布重大更新,新增Git集成,支持导入GitHub仓库并完成拉取请求。引入项目与文件夹组织结构,内置VS Code风格编辑器,整合AI、预览与配置工具,全面模拟生产环境。

v0 宣布发布重大更新,旨在将开发流程整合至单一环境。核心更新包括:新增Git集成,用户可导入GitHub仓库,并直接在平台内完成分支创建、代码提交及拉取请求的合并;引入“项目”和“文件夹”两种组织结构,“项目”用于关联部署、环境变量等应用配置,允许多个聊天会话共同贡献,而“文件夹”仅用于整理会话;内置完整的VS Code风格编辑器,将编辑器、AI agent、预览与配置工具整合于同一界面;代码预览功能得到升级,能更精确地模拟生产环境,支持更大规模项目,并兼容API路由、数据库等服务端功能。

相关链接:


技术与洞察

Meta AI发布EB-JEPA开源库 #18

Meta AI 发布开源库 EB-JEPA,支持图像、视频及动作条件视频的表示学习与规划。

Meta AI Research发布EB-JEPA开源库,为社区提供Joint Embedding Predictive Architectures示例。库包含三个核心模块:Image JEPA用于CIFAR-10图像自监督学习,Video JEPA预测视频序列下一帧表示,Action-Conditioned Video JEPA支持动作条件世界建模与规划。配套论文显示,CIFAR-10探测准确率达91%,Two Rooms导航任务规划成功率97%。库支持单GPU训练,集成Weights & Biases跟踪实验,使用uv包管理,需用autoflake、isort和black格式化代码。项目采用Apache-2.0许可证,论文作者包括Yann LeCun等。

相关链接:


阿里Qwen构建SWE-Universe训练框架 #19

阿里巴巴Qwen团队联合浙大推出SWE-Universe框架,从GitHub PR自动构建百万级可执行编程训练环境。该框架解决依赖复杂、测试作弊和成本高等问题,构建成功率提升至94%。

阿里巴巴Qwen团队与浙江大学合作提出SWE-Universe框架,旨在从GitHub Pull Requests (PRs)中自动构建百万级可执行的软件工程训练环境,以解决AI编程助手训练数据缺乏真实可验证场景的问题。该框架通过构建智能体实现自动化,已成功构建807,693个环境,并助力Qwen3-Max-Thinking模型在SWE-Bench Verified测试集上达到75.3%的准确率。

相关链接:


腾讯混元推出HPC-Ops推理算子库 #20

腾讯混元AI团队开源高性能LLM推理算子库HPC-Ops,基于CUDA和CuTe构建,支持BF16、FP8等多精度。

腾讯混元AI Infra团队推出开源生产级高性能LLM推理核心算子库HPC-Ops。该算子库基于CUDA和CuTe从零构建,通过微架构深度适配与指令级优化,旨在降低开发门槛并逼近硬件性能峰值。HPC-Ops包含FusedMoE、Attention等核心融合算子,已在腾讯大规模生产环境验证,提供API以无缝对接vLLM、SGLang等主流框架,并原生支持BF16、FP8等多精度方案。项目已在GitHub开源。

相关链接:


字节跳动开源AI Agent上下文数据库 #21

字节跳动火山引擎开源了 AI Agent 上下文数据库 OpenViking,采用文件系统范式统一管理记忆与资源,支持分层加载和递归检索,已发布于 GitHub,采用 Apache 2.0 协议。

字节跳动火山引擎Viking团队近日开源OpenViking,一个专为AI Agent设计的上下文数据库。该项目摒弃传统RAG平铺式向量存储,创新采用"文件系统范式",将Agent的记忆、资源与技能统一组织在viking://虚拟文件系统中,通过ls、find等指令管理。核心特性包括:L0摘要/L1概述/L2详情三层结构实现按需加载,降低Token成本;目录递归检索融合意图分析与递归下探,提升检索全局性与准确性;提供可视化轨迹与自动会话管理实现上下文自迭代。项目采用Apache License 2.0协议。

相关链接:


行业动态

Google财报披露AI业务推动营收创新高 #22

Google 2025年收入首破4000亿美元,AI生态持续扩张。Gemini App月活达7.5亿,自研模型API调用超每分钟100亿token。Cloud业务收入同比增长48%,年化运营收入超700亿。Google Antigravity平台拥有150万周活用户。

Google在其2025年财报中披露,年度年收入首次突破4000亿美元。其AI生态系统核心产品Gemini App月活跃用户达7.5亿,自研模型在云平台上的API调用量已达每分钟处理超过100亿个token。Google Cloud业务收入同比增长48%,年化运营收入超700亿美元。新兴的AI Agent开发平台Google Antigravity已拥有150万周活跃用户。为支持AI基础设施建设与需求增长,公司2026年资本支出预计在1750亿至1850亿美元之间。

相关链接:


Anthropic宣布Claude保持无广告 #23

Anthropic宣布其AI助手Claude将保持无广告,其强调Claude应专注帮助用户,广告可能干扰对话真实性,尤其在处理敏感或复杂任务时。Anthropic还指出,Claude商业模式依赖企业合同与订阅,不售卖用户数据或注意力。

Anthropic明确其AI聊天机器人Claude将维持无广告模式,与OpenAI已确认的在ChatGPT中引入广告的计划形成对比。Anthropic在其博客中将Claude定位为“明确为用户利益服务”的深度思考与工作助手,嘲讽未具名的竞争对手在AI助手中添加广告的行为。

Anthropic详细阐述了其无广告政策:用户对话旁无“赞助”链接,回答不受广告商影响,且不含用户未要求的第三方产品植入。其认为,AI对话本质开放,用户常分享敏感背景信息或处理复杂任务,广告的出现会破坏信任且显得不协调。Anthropic指出,广告驱动的激励机制与其“规章”中的“乐于助人”核心原则相冲突。例如,一个受广告影响的助手在回答睡眠问题时,可能优先考虑促成交易而非提供真实分析,使用户难以辨别建议的真实性。

Anthropic的商业模式基于企业合同和付费订阅,并将收入再投资于改进Claude。其正持续投资小型模型以保持免费版的前沿水平,并可能在有明确需求时考虑更低成本的订阅层级或区域性定价。

相关链接:


Mozilla赋能用户AI拒绝权 #24

Mozilla 将于 Firefox 148 桌面版中上线 AI controls 功能,允许用户一键屏蔽 AI 功能。

Mozilla将于2月24日在Firefox 148桌面版推出AI controls功能,用户可一键屏蔽所有AI增强功能或单独管理翻译、PDF替代文本、AI标签页分组、链接预览及侧边栏聊天机器人等五项功能。该功能将率先在Nightly版提供,且用户偏好可在更新后保持不变。据媒体引述,Firefox负责人Ajit Varma称此举旨在赋予用户"AI拒绝权",延续隐私至上承诺。Mozilla AI产品负责人重申开发遵循严格隐私原则。Firefox目前拥有约2亿月活跃用户,未来将逐步扩展该功能至移动平台。

相关链接:


Cerebras完成逾十亿美元融资 #25

据报道,Cerebras 完成超十亿美元融资,估值达230亿美元。

据报道,AI芯片初创公司Cerebras已完成一轮超十亿美元的融资,公司估值随之达到约230亿美元。此项融资前,该公司已与OpenAI达成一项价值100亿美元的协议。

相关链接:


ElevenLabs完成由红杉领投5亿美元融资 #26

语音AI公司ElevenLabs完成5亿美元融资,估值达110亿美元。资金将用于研发及在印度、日本等市场扩张。

语音AI公司ElevenLabs获Sequoia Capital领投的5亿美元融资,估值达110亿美元,为上一轮三倍余,总融资额超7.81亿美元。Sequoia合伙人Andrew Reed将加入董事会。资金将用于研发及印度、日本、新加坡、巴西、墨西哥市场扩张。公司或开发超越语音的Agents并整合视频功能。现有投资者a16z增持4倍,ICONIQ增持3倍,新投资者包括Lightspeed等。年末ARR达3.3亿美元,从2亿增至3亿用时5个月。

相关链接:


Positron完成2.3亿美元B轮融资 #27

半导体初创公司 Positron 完成 2.3 亿美元 B 轮融资,由卡塔尔投资局领投。资金将用于加速部署其 AI 推理芯片 Atlas。

据报道,半导体初创公司 Positron 在其 B 轮融资中募集了 2.3 亿美元,此轮融资由卡塔尔投资局 (QIA) 参与投资,使公司总融资金额达到略高于 3 亿美元。该公司计划利用这笔资金,加速部署其第一代 AI 推理芯片 Atlas。Positron 声称,这款在亚利桑那州制造的芯片性能可与 Nvidia 的 H100 GPU 媲美,但功耗不到三分之一,其专注于 AI 推理而非模型训练,旨在满足企业大规模部署 AI 模型的需求。

相关链接:


前瞻与传闻

谷歌内测Gemini屏幕自动化功能 #28

Google正在测试Gemini的“bonobo”屏幕自动化功能,可代用户完成下单等任务,该功能目前仅在开发中,是否发布尚未确定。

Google应用17.4 beta正测试Gemini Labs两项实验功能。代号"bonobo"的屏幕自动化可让Gemini借助Android 16 QPR3技术,在特定应用中自动执行下单、预订出行等任务。Google警告该功能可能出错,用户需对其操作负责并密切监督,随时可中断手动接管。隐私方面,若开启"Keep Activity",交互截图将由审核人员审查以改进服务,建议避免输入登录、支付等敏感信息,且不用于紧急情况。

这些功能均源自代码逆向工程分析,Google可能发布也可能永不发布。

相关链接:


传英伟达准备投资OpenAI 200亿美元 #29

据报道,Nvidia正准备向OpenAI投资200亿美元,这笔交易尚未最终敲定,条款仍可能调整。

据彭博社等媒体援引知情人士消息,芯片制造商英伟达正接近达成一项交易,拟在OpenAI最新一轮融资中投资200亿美元。这笔投资将是英伟达对ChatGPT开发商的最大单笔投资。知情人士强调,交易尚未最终敲定,条款仍可能变动。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误