2026-02-11 · Markdown

AI 早报 2026-02-11

概览

要闻

产品应用

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻


要闻

千问推出Qwen-Image-2.0统一图像模型 #1

千问大模型团队发布新一代图像生成模型 Qwen-Image-2.0,该模型统一生成与编辑能力,具备专业文字渲染、真实质感表现等优势,已在阿里云百炼平台开放 API,用户可通过 Qwen Chat 免费体验,即将上线千问 App。

千问大模型团队推出新一代图像生成基础模型Qwen-Image-2.0。该模型统一了图像生成与编辑能力,支持2K分辨率输出与1k token超长指令输入。目前已在阿里云百炼平台开放API,并可通过Qwen Chat免费体验。

Qwen-Image-2.0的核心能力集中在专业文字渲染、真实质感表现与语义遵循。文字渲染方面,可精准处理中英双语信息图,并支持1k token复杂指令。模型原生支持2048×2048分辨率,可刻画超23种绿色植被的材质与光影,并在多介质上维持文字真实感。同时,模型可生成多子图漫画,保持角色一致性。

作为统一的Omni模型,其编辑功能支持在图片上添加书法题词、生成九宫格多姿势组图与双人自然合成,还可在保持真实照片主体的前提下添加卡通形象,并支持指定等效镜头与光圈等参数。

技术架构上,Qwen-Image-2.0由8B Qwen3-VL编码器与7B扩散解码器组成,体积较前代20B模型显著减小,推理更快。团队通过提升VAE重构能力与增强密集小字建模,解决了文字渲染崩坏问题,而生图与编辑的训练也相互促进。

据AI Arena盲测基准,Qwen-Image-2.0文生图得分1029排名第三,图片编辑得分1034排名第二。对比测试显示,其在长指令遵循与文字渲染上优于部分竞品,但在超现实场景的真实感上略逊一筹。

模型当前仅通过API提供,权重未开源,有传言称或于春节后开源。

相关链接:


产品应用

Anthropic发布Windows版Claude Cowork #2

Anthropic 推出适用于 Windows 的 Claude Cowork,功能与 macOS 版本一致,支持文件访问、多步骤任务、插件及 MCP 连接器等功能。

Anthropic正式发布Windows版Claude Cowork,功能与macOS版本完全对等。核心能力包括:文件访问(读写本地文件)、多步骤任务执行(处理复杂连贯任务)、插件支持(扩展Agent能力)及MCP连接器(集成外部工具与数据源)。新增全局和文件夹级指令功能,将在每个会话中自动生效。该版本目前处于research preview阶段,已向所有付费Claude计划订阅用户开放访问权限,可通过官方网站获取。

相关链接:


Claude App更新交互回复,开放语音模式 #3

Claude 应用更新,新增交互式回复功能,用户可点击地图组件和选择器与内容互动,同时有报道称语音模式正分阶段向更多用户开放。

Claude app近日更新,引入全新交互式回复功能,允许用户通过点击方式与生成内容进行互动。该功能突破了此前的纯文本输出限制,在保留传统文本交互的同时,新增了地图组件和新选择器等交互元素,用于特定场景下的直接操作。

此外,据社媒转述,一个全新的语音模式正处于分阶段推广中,正向更多用户开放。另有社媒消息称,部分设计细节是直接通过代码实现的。

相关链接:


OpenAI更新ChatGPT Deep Research至GPT-5.2 #4

OpenAI 已将 ChatGPT 的 Deep Research 功能基础模型升级至 GPT-5.2 模型,并支持用户连接应用、搜索特定网站,实时追踪与干预研究过程。该功能正分阶段推出。

OpenAI 为 ChatGPT 的 Deep Research 功能推出更新,将其底层模型升级至 GPT-5.2,并增强了交互与报告能力,目前该功能正分阶段向用户推出。

本次更新新增多项核心能力:用户可连接 ChatGPT 内部应用,并指定搜索特定网站或域名,以实现精准的信息源定位;界面支持对研究进度的实时可视化跟踪,并允许用户在过程中输入追问或提供新信息来中断及调整研究方向;最终生成的研究报告新增全屏查看模式以优化阅读。

相关链接:


Google Stitch推出Figma设计导出功能 #5

Google Stitch 推出新功能,支持将设计直接导出为 Figma 可编辑图层。用户可通过 Export 或右键 Copy to Figma 实现无缝迁移。

Google Stitch 推出Figma导出功能,可将agent生成设计转为可编辑图层。用户可通过Export→Figma或右键Copy to Figma后粘贴实现。Redesign Agent(由Nano Banana Pro驱动)生成的设计需先Convert to Code再导出。

相关链接:


Obsidian发布Obsidian CLI #6

Obsidian 推出 Obsidian CLI 命令行工具,支持脚本化控制与自动化。支持单命令与交互式终端模式。可执行搜索、创建笔记、管理任务等操作,并提供开发者调试命令。

Obsidian 推出名为 Obsidian CLI 的Early Access命令行工具,需Catalyst license和1.12+版本。支持单命令执行和交互式终端界面(TUI)两种模式,可实现文件管理、搜索、任务、标签、每日笔记等几乎所有应用功能。含开发者专用命令:插件重载、执行JavaScript、截图、调试等。

相关链接:


模型发布

MOSI.AI与OpenMOSS发布MOSS-TTS家族 #7

MOSI.AI 与 OpenMOSS 团队联合发布开源语音模型家族 MOSS-TTS,包含五个生产级模型,支持高保真语音生成、多说话人对话、音色设计与环境音效,采用 Apache-2.0 许可证。

MOSI.AI 与 OpenMOSS 团队将于2026年2月10日发布开源语音与声音生成模型家族MOSS-TTS,采用Apache-2.0许可证。该家族设计面向高保真、高表现力及复杂真实世界场景,包含五个可独立或组合使用的生产级模型。

该家族由五大核心模型构成:旗舰MOSS-TTS提供8B参数的MossTTSDelay(侧重长上下文稳定与速度)和1.7B参数的MossTTSLocal(侧重轻量化)两种架构,支持高保真零样本克隆与长文本生成;MOSS-TTSD v1.0专用于生成高表现力的多说话人超长连续对话;MOSS-VoiceGenerator可直接从文本指令生成多样化音色;MOSS-TTS-Realtime是为实时语音智能体设计的多轮上下文感知模型;MOSS-SoundEffect则专用于内容创作的可控音效生成。

整个家族的性能基于统一的1.6B参数MOSS-Audio-Tokenizer。该组件基于Cat架构,在300万小时音频数据上训练,能将24kHz音频高效压缩至12.5Hz,其重建质量在可比较比特率范围内据评测领先于其他开源方案。

性能方面,在开源基准Seed-TTS-eval上,MossTTSLocal的英文词错误率(WER)与中文相似度(SIM)分别为1.85%和78.82%。MOSS-TTSD v1.0的中文说话人相似度(SIM)达0.7949,切换准确率(ACC)为0.9587,主观评测中其综合表现优于Doubao及Gemini 2.5-pro等部分闭源模型。

相关链接:


蚂蚁集团发布LLaDA2.1扩散大语言模型 #8

蚂蚁集团发布 LLaDA2.1 扩散大语言模型,含 16B 与 100B 两个版本,采用 Token-to-Token 编辑机制,支持实时纠错。LLaDA2.1-Flash 推理速度达 892 tokens/sec,性能优于同类模型。

蚂蚁集团推出名为 LLaDA2.1 的扩散大语言模型,提供 16B 参数的 Mini 和 100B 参数的 Flash 两个版本。该模型核心是集成 Error-Correcting Editable (ECE) 引擎的 Token-to-Token 编辑机制,区别于传统自回归方式。该机制允许模型在生成中实时修正 token。

LLaDA2.1-Flash 为 100B 参数的语言扩散 MoE 模型,根据官方信息,这是首个应用于 100B 参数量级扩散模型的大规模强化学习 (RL) 框架。性能方面,在复杂编码任务中,LLaDA2.1-Flash 推理速度可达 892 tokens/sec。

目前,LLaDA2.1 的模型权重、技术报告与源代码已发布在 HuggingFace 和 GitHub 上。

相关链接:


腾讯混元发布HY-1.8B-2Bit端侧量化模型 #9

腾讯混元推出HY-1.8B-2Bit模型,基于Hunyuan-1.8B-Instruct采用2比特量化感知训练,生成速度提升2至3倍,并保留了思维链推理能力。

腾讯混元推出面向消费级硬件的HY-1.8B-2Bit模型,该方案基于产业级2Bit端侧量化技术。模型通过对Hunyuan-1.8B-Instruct进行量化感知训练(QAT)产出,等效参数量为0.3B,内存占用600MB,文件大小仅300MB。在真实端侧设备上,其生成速度相较原始精度模型提升2至3倍,并完整保留了其全思维链推理能力及Dual-CoT策略。该模型目前已开源,适配支持Arm SME2技术的计算平台。

技术上,为避免传统后量化(PTQ)在低比特量化下的严重精度损失,混元团队采用了量化感知训练(QAT),并结合数据优化、弹性拉伸量化及训练策略创新提升模型能力。基准测试显示,与全精度1.8B教师模型相比,HY-1.8B-2Bit在八个主流数据集上的平均性能下降3.97%;与INT4量化版本相比,准确率差距仅0.13%。在与空间相当的0.5B模型对比中,该模型在GSM8K和LiveCodeBench数据集上分别高出22.29%和20.62%。

在真实设备测试中,HY-1.8B-2Bit在MacBook M4上,对比fp16及Q4格式,首字时延实现3至8倍加速,生成速度稳定提升超2倍。在天玑9500芯片上,对比Q4格式,首字时延与生成速度均实现约1.5倍的加速。

该模型当前部署存在明确限制,仅支持配备Arm SME2技术的设备,如Apple M4、vivo x300等,其依赖于llama.cpp的特定分支运行。模型能力亦受限于其监督微调(SFT)的训练流程与基础模型自身性能。项目代码及权重已开源,采用License for AngelSlim。未来团队将重点发展强化学习与模型蒸馏,以缩小低比特模型与全精度模型的能力差距。

相关链接:


OpenResearcher开源:离线研究Agent模型 #10

OpenResearcher 是一个全开源的深度研究大模型项目,核心模型在 BrowseComp-Plus 基准上达到 54.8% 准确率,超越多个主流模型。

OpenResearcher 项目发布了面向长视野深度研究场景的全开源 Agent 大型语言模型技术栈。该项目旨在构建完全离线、低成本且可复现的研究系统。其核心模型 OpenResearcher-30B-A3BBrowseComp-Plus 基准测试中取得 54.8% 的准确率,显著优于基础模型。项目的模型、数据集、训练方法论和评估框架等资源已在 Hugging Face 和 GitHub 等平台开源。

相关链接:


开发生态

OpenAI 将高风险 GPT-5.3-Codex 请求路由至 GPT-5.2 #11

OpenAI 被发现将部分 GPT-5.3-Codex 请求路由至 GPT-5.2,工作人员称滥用风险升高时会部分请求将自动转至 GPT-5.2 模型,正优化检测模型,并计划增加路由状态通知。

OpenAI 被发现将部分 GPT-5.3-Codex 请求路由至 GPT-5.2,Codex 工作人员称这是作为降低网络滥用风险的措施。当系统检测到滥用风险升高时,用户发起的部分请求可能会被自动路由至模型 GPT-5.2。

Codex 工作人员表示正在对检测系统进行持续调优,并计划在未来版本中增加清晰的路由状态通知。对于被误判的防御性研究用户,可申请恢复访问。

相关链接:


OpenAI更新Responses API支持Agent任务 #12

OpenAI 更新 Responses API,新增服务端压缩以延长运行时长,支持网络访问的托管容器,并原生集成 Agent Skills 标准,首发 spreadsheets skill。

OpenAI在Responses API中新增三项功能,支持长时间agentic任务:1)服务端压缩功能,可扩展运行时长至数小时;2)为托管容器提供受控网络访问,支持安装库和运行脚本;3)原生支持Agent Skills标准,并推出首个预构建的spreadsheets skill。

相关链接:


Claude Code Desktop引入YOLO模式 #13

Claude Code Desktop 新增 --dangerously-skip-permissions 参数,该功能需谨慎使用,存在数据丢失等风险。

Claude Code Desktop 引入了参数 --dangerously-skip-permissions,允许在可信环境中跳过所有权限提示,以实现完全自主、无中断的工作流。该参数使用时需保持谨慎。其风险真实存在,可能导致数据丢失。

相关链接:


Warp推出Oz云原生Agent编排平台 #14

Warp 推出云原生平台 Oz,支持大规模运行和编排编码Agent。用户可通过 CLI、API、SDK 或 Web 界面启动Agent,支持自动化任务和 Skill 调用。

Warp推出名为Oz的云原生平台,用于大规模运行、管理和编排编码Agent。该平台支持用户并行启动云代理处理复杂开发任务、自动化如功能标志清理和文档更新等重复性工作,并构建基于Agent的应用程序,如错误分类和事件响应系统。Oz提供Agent自动追踪与审计功能,并支持通过CLI和API控制。

相关链接:


Antigravity 向 Pro 账户提供 Claude Opus 4.6 #15

Google AI Pro 用户现已可在Antigravity中使用 Claude Opus 4.6 模型。

Google AI Pro 用户现已可在Antigravity中使用 Claude Opus 4.6 模型。

相关链接:


Gemini 发布 Gemini API skills #16

Google Gemini 在 GitHub 开源了名为 gemini-skills 的技能库,用于增强 Gemini API 与 SDK 的交互能力。

Google 在 GitHub 发布了一个名为 gemini-skills 的开源代码库,采用 Apache-2.0 许可证。该技能库旨在为开发者提供与 Gemini API、SDK 及模型交互的实践指南,其中包含的 gemini-api-dev 技能为构建 Gemini 驱动型应用提供了最佳实践。项目声明明确指出,这并非 Google 官方支持的产品。

相关链接:


Entire成立并获6000万美元种子融资 #17

前GitHub CEO Thomas Dohmke创立Entire公司,获6000万美元种子融资,估值3亿美元。其首款产品是一款开源CLI工具,核心功能是将AI Agent会话集成至Git工作流。

前GitHub CEO Thomas Dohmke创立的新开发者平台公司Entire宣布成立,并完成由Felicis领投的6000万美元种子轮融资,估值达3亿美元。其平台旨在为AI agents与人类提供开放、可扩展的协作环境。

首款产品为开源CLI工具Checkpoints,它通过钩入Git工作流,在代码提交时捕获AI agent的会话内容、上下文及推理过程,形成可搜索记录。该工具目前支持Anthropic的Claude Code和Google的Gemini CLI。

Entire CLI的核心在于将AI会话作为版本化数据集成到Git中。它通过独立分支存储会话元数据,保持代码历史的整洁,并允许用户通过如rewindresume等命令管理会话状态。

工具的核心概念是Session(一次完整的AI交互)和Checkpoint(Session内的快照),提供manual-commit(在git commit时创建)和auto-commit(在agent响应后自动创建)两种策略。它兼容Git worktrees,并能独立跟踪同一提交上的多个并发AI会话。Entire CLI采用MIT许可证开源。

相关链接:


draw.io发布官方MCP服务器 #18

draw.io 发布了官方 MCP 服务器 @drawio/mcp,支持 LLM 在编辑器中创建和打开图表。

draw.io发布官方MCP服务器@drawio/mcp,使LLM能直接生成图表。

核心功能包括三大工具:open_drawio_xml处理原生XML格式,open_drawio_csv转换表格数据,open_drawio_mermaid支持Mermaid语法,均支持URL读取。

相关链接:


技术与洞察

Anthropic发布2026 Agent编程趋势报告 #19

Anthropie发布《2026 Agent编程趋势报告》,预测软件开发将经历重大变革。工程师角色将转向Agent编排者,多Agent协同与长时间自主运行成主流。

Anthropic 发布了一份《2026 Agent 编程趋势报告》,该报告提出了八项预测。报告的核心观点指出,软件开发生命周期将发生巨变,工程师的角色将从编码者转型为 Agent 编排者,多 Agent 协同和长时间自主运行将成为重要趋势。报告同时回顾了 2025 年编程 Agent 从实验性工具演进为可交付功能的生产系统的过程,AI 已能处理包括编写测试、调试、生成文档及在复杂代码库中导航在内的完整开发工作流。

相关链接:


Unsloth发布MoE训练优化 #20

Unsloth 更新代码库,通过自定义 Triton 内核与 torch._grouped_mm 优化,实现 MoE 模型训练速度提升 12 倍以上,VRAM 节省超 35%,上下文长度扩展约 6 倍。

Unsloth 更新代码仓库,为 Mixture of Experts (MoE) 模型训练引入优化,实现相比 transformers v4 约 12 倍的训练速度、超过 35% 的 VRAM 节省以及约 6 倍的上下文长度扩展,且不损失精度。

相关链接:


Chrome 146 推出 WebMCP 早期预览 #21

Chrome 146 推出 WebMCP 早期预览,这是一种开放标准,允许 AI Agent 直接调用网站服务,无需模拟用户操作。开发者可通过 API 或表单声明功能,目前需启用 flag 使用。

Chrome 146 版本引入了对 WebMCP(Model Context Protocol for Web)的早期预览支持,这是一个使 AI Agent 能够直接查询和执行网站服务,而无需模拟用户浏览的开放标准。该功能目前处于实验阶段,用户需通过启用浏览器 flag 才能访问。

WebMCP 允许网站服务主动、预先地声明其能力,使 AI Agent 可绕过用户界面直接访问站点函数,从而提升效率和可靠性。

相关链接:


行业动态

豆包上线与央视春晚联名新年活动 #22

豆包携手央视春晚推出“豆包过年”活动,2月16日除夕当晚将派发超10万份含豆包大模型的科技好礼及最高8888元现金红包。

豆包与春晚合作,推出“豆包过年”新春活动。活动已在App上线,提供AI生成新春写真、拜年视频等玩法。用户自2月13日晚8点起可参与抽奖,除夕当晚(2月16日)将派发超10万份接入豆包大模型的科技好礼及最高8888元现金红包。

本次派发的科技好礼共计17种,均为接入豆包大模型的前沿智能产品,包括机器人、无人机、3D打印机、智能手表及两款电车的使用权。

相关链接:


Runway完成3.15亿美元E轮融资 #23

AI视频生成公司Runway完成3.15亿美元E轮融资,估值达53亿美元。资金将用于开发下一代世界模型和新产品。

AI视频生成初创公司Runway完成了一轮3.15亿美元的E系列融资,估值近乎翻倍至53亿美元。据一位知情人士透露,此笔资金将遵循公司规划,重点用于预训练下一代世界模型,并将其引入新产品及行业应用中。

相关链接:


Nebius收购Tavily #24

AI云公司Nebius宣布收购agentic搜索提供商Tavily,以增强其AI平台的实时网络验证能力。交易预计几周内完成。

Nebius已达成协议收购agentic search提供商Tavily,将其功能整合至AI云平台。交易预计数周内完成,金额未披露,Tavily团队将加入Nebius并继续独立运营。此次收购结合Nebius Token Factory的高性能推理与Tavily的实时网络验证,为autonomous AI agents构建核心基础设施。

相关链接:


前瞻与传闻

Gemini 正开发 Premium Content 功能 #25

Google 正在开发名为 “Premium Content” 的功能,让 Gemini 优先使用用户付费订阅的内容生成答案。用户可通过界面控制是否启用《华尔街日报》《经济学人》等来源,目前该功能仍在开发中。

Google 正在为其 AI 模型 Gemini 开发一项名为“Premium Content”的新功能。该功能旨在优先利用用户已付费订阅的内容来生成更高质量的回答。根据功能界面展示,用户将能通过总开关启用或禁用此功能,并可对《纽约时报》、《华尔街日报》等特定订阅源进行精细化控制,精确调整 Gemini 生成回应时所引用的内容来源。目前,该功能仍处于开发阶段。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误