2026-02-13 · Markdown

AI 早报 2026-02-13

概览

要闻

产品应用

模型发布

开发生态

行业动态

前瞻与传闻


要闻

Google 发布 Gemini 3 Deep Think 重大更新 #1

Google 推出 Gemini 3 Deep Think 重大更新,专为科研与工程设计,支持复杂问题推理,更新后的 Gemini 3 Deep Think 在多项严格的学术基准上取得了新高度。该模式已上线 Gemini 应用,面向 Google AI Ultra 用户,并通过早期访问计划向研究者与企业开放 API 接入。

Google 发布了专为科学研究设计的专业推理模式 Gemini 3 Deep Think 的重大更新。该模型旨在解决缺乏明确边界或单一正确解的复杂研究问题,通过结合深厚科学与工程知识,将理论应用于复杂数据解读、物理系统建模等实际场景。

新功能已在多领域展现应用潜力。Rutgers University 的研究者利用其发现了人类评审未能识别的数学论文缺陷;Duke University 的实验室则成功优化了复杂晶体生长制造方法,设计了生长大于 100 μm 薄膜的配方。一项面向工程应用的新功能,还能直接将草图分析并构建为可用于3D打印的复杂3D实体文件。

在核心性能上,更新后的模型在多项学术基准取得突破。在 Humanity’s Last Exam 上设置 48.4%(无工具)的新标准;在 ARC-AGI-2 基准上获得 84.6% 的成绩;在基于 Codeforces 的竞争性编程基准中取得 3455 的 Elo 等级分。其在 International Math Olympiad 2025 及物理、化学奥林匹克竞赛的笔试部分均达到金牌水平。

新版 Gemini 3 Deep Think 现已向 Google AI Ultra 订阅用户在 Gemini 应用内提供,并首次通过 Early Access Program 将其 API 提供给选定的研究人员、工程师和企业。

相关链接:


MiniMax正式发布MiniMax M2.5模型 #2

MiniMax正式发布MiniMax M2.5模型,强化编程、搜索与办公等任务表现,在SWE-Bench等测试中表现优异。模型提供M2.5与M2.5-Lightning两个版本,推理速度达最高达每秒100 token,支持缓存,模型已集成至MiniMax Agent与Coding Plan。

MiniMax推出M2.5模型,在编程、工具调用及办公等生产力场景达到或刷新行业SOTA(State-of-the-Art)水平。该模型经数十万真实复杂环境中的大规模强化学习训练,优化了复杂任务拆解能力与思考过程的token消耗,可更快完成复杂的Agentic任务。

性能方面,M2.5在编程核心测试中,SWE-Bench Verified得分80.2%,Multi-SWE-Bench得分51.3%,达到与Claude Opus系列相当的水平。该模型在超过10种编程语言和数十万真实环境中训练,覆盖从系统设计到测试的全流程,支持多平台全栈项目,并演化出在写代码前主动拆解设计的原生行为。

为平衡速度与成本,M2.5提供两个版本。M2.5-Lightning版本推理速度约100 TPS,输出价格为每百万token 8.4元;M2.5版本为50 TPS,输出价格为每百万token 16.8元。相较于M2.1,M2.5处理复杂任务时轮次消耗节省约20%,端到端速度提升37%。

M2.5已在MiniMax Agent中全量上线。其模型权重将在HuggingFace开源,支持本地部署。

相关链接:


OpenAI发布GPT-5.3-Codex-Spark #3

OpenAI 推出 GPT-5.3-Codex-Spark,一款与 Cerebras 合作开发的小型模型。该模型支持每秒超 1000 token 的生成速度,支持文本输入与 128k 上下文窗口。目前通过 Codex 向 ChatGPT Pro 用户提供。

OpenAI推出与Cerebras合作的首个成果——实时编码模型GPT-5.3-Codex-Spark,以研究预览形式向ChatGPT Pro用户开放。该模型在Cerebras超低延迟硬件上运行,旨在提供超千token/秒的生成速度,支持用户进行实时协作编码。其设计为交互式工作,支持用户中断与重定向,并以近瞬时响应快速迭代。工作风格默认为轻量级、有针对性的编辑,与擅长长时自主运行的GPT-5.3-Codex模型形成互补,专注于处理日常编码任务。

在性能基准测试中,GPT-5.3-Codex-Spark在SWE-Bench Pro上达到51%准确率需时2.3分钟;GPT-5.3-Codex达到同水平需时3分钟,达到57%则需时16分钟。在Terminal-Bench 2.0中,Spark得分58.4%,GPT-5.3-Codex为77.3%,其上代小模型为46.1%。

目前,GPT-5.3-Codex-Spark为ChatGPT Pro用户在Codex应用、CLI及VS Code扩展中提供研究预览。该模型仅支持文本,拥有128k上下文窗口,在独立速率限制下运行。官方规划显示,此模型是迈向融合长时深度推理与实时迭代双模式Codex的第一步,未来计划引入更大模型、更长上下文及多模态输入。

相关链接:


产品应用

即梦上线多模态视频与图片生成模型 #4

即梦已上线多模态视频模型Seedance 2.0 fast与图片模型Seedream 5.0 Lite。前者定价为满血版三分之二;后者由图片5.0 preview更名而来。同时即梦宣布即日起至2月28日,2K图片生成全免费。

即梦上线多模态视频模型Seedance 2.0 fast与图片模型Seedream 5.0 Lite(原"图片5.0 preview"更名)。Seedance 2.0 fast支持图像、视频、音频、文本四模态输入,价格为满血版三分之二,会员享同等折扣。Seedream 5.0 Lite具备联网实时检索、编辑精准可控、智能逻辑推理能力,推出限时福利:截至2月28日,2K分辨率图片生成对所有用户免费,4K对会员免费。

相关链接:


小红书开源FireRed-OpenStoryline视频创作Agent #5

小红书开源视频创作智能体FireRed-OpenStoryline,支持自然语言交互,实现从素材管理到剪辑、生成、精修的全流程自动化。

小红书开源视频智能创作智能体 FireRed-OpenStoryline 。该系统通过对话式交互,覆盖从素材管理、智能剪辑到多模态内容生成的全流程,并支持将剪辑逻辑沉淀为可复用的“Editing Skill”。

其核心功能包括:根据语义搜索整理素材;自动构建故事线与旁白,并通过 Few-shot 能力仿写指定风格文案,实现音画同步;同时能根据情绪目标匹配卡点音乐、配音与字体。系统采用 Human-in-the-loop 模式,支持通过自然语言指令对视频、字幕及视觉元素进行全链路精修,实现非破坏性微调。

相关链接:


QoderWork for Mac全面开放 #6

QoderWork for Mac 已全面开放,取消等候名单和邀请码限制,Mac 用户可直接下载使用。

QoderWork for Mac取消等候名单和邀请码限制,正式向所有用户开放下载。目前仅支持Mac平台,Windows版本已进入开发后期。

相关链接:


网易有道推出桌面级Agent有道龙虾 #7

网易有道推出桌面级AI助手有道龙虾“LobsterAI”,支持自然语言指令执行,覆盖资讯、日程、数据分析等场景。目前开放内测申请。

网易有道正式推出桌面级Agent“LobsterAI”(有道龙虾),定位为具备从“对话”到“执行”能力的全场景个人助理。用户通过自然语言下达指令,经授权后,LobsterAI可在本地计算机自动执行跨应用的复杂任务,覆盖资讯获取、日程管理等场景。目前产品处于内测阶段,官网已开放申请。

相关链接:


Meta推出Dear Algo AI算法定制功能 #8

Meta在Threads推出AI功能Dear Algo,用户可发帖告诉算法想看或不想看的内容,系统将据此调整信息流三天。

Meta在其社交平台Threads上测试一项名为“Dear Algo”的AI功能,允许用户通过自然语言指令个性化定制其内容推荐算法。用户需发布以“Dear Algo”开头的公开帖子,明确告知系统希望看到更多或更少的内容类型,方式类似于与聊天机器人交互。AI将据此对用户信息流进行调整,效果持续三天。该功能已在美国、英国、澳大利亚和新西兰上线,并支持用户转帖采纳他人的偏好设置。

相关链接:


Exa AI发布AI专用200毫秒搜索引擎 #9

Exa AI 推出 Exa Instant 搜索引擎,延迟低于 200 毫秒,专为 AI 聊天和语音应用设计。

Exa AI推出面向AI Agent的搜索引擎Exa Instant,搜索延迟低于200毫秒(P50为178毫秒),是首个实现该性能的搜索产品。基准测试显示,Exa Instant比Tavily Ultra Fast、Brave等竞品快15倍,网络延迟约50毫秒。该产品专为低延迟AI应用设计,适用于深度研究、编码Agent及对延迟敏感的聊天和语音应用。技术实现上,通过优化数十亿页面规模的检索技术栈,避免封装Google SERP以突破700毫秒延迟限制。用户可通过控制台选择Search Type进行测试。

相关链接:


模型发布

蚂蚁集团开源 Ring-2.5-1T #10

蚂蚁集团百灵团队开源了万亿参数推理模型 Ring-2.5-1T,采用混合线性注意力架构,在长文本处理中内存开销降低超10倍,吞吐量提升超3倍。该模型支持256K上下文长度,在数学、代码与Agent任务中表现领先。

蚂蚁集团百灵团队发布了开源的万亿参数推理模型 Ring-2.5-1T,该模型基于混合线性注意力架构,旨在提升长上下文推理效率。通过架构升级,其在超过 32K token 的序列推理中实现了超 10 倍的内存访问开销降低和超 3 倍的生成吞吐量提升。此次调整后,模型的激活参数增至 63B,上下文长度通过 YaRN 技术从 128K 扩展到 256K。

在多个基准测试中,该模型表现突出。据团队自测结果,它在国际数学奥林匹克竞赛(IMO 2025)中获得 35/42 的得分,在中国数学奥林匹克竞赛(CMO 2025)中获得 105/126 的得分,均达金牌水平。此外,在 LiveCodeBench 和 SWE-Bench Verified 等代码与 Agent 任务上,该模型取得了开源领先成绩,并支持扩展思考过程的“重度思考模式”。

为增强长周期任务执行能力,Ring-2.5-1T 通过大规模全异步 Agent 强化学习(ASystem 引擎)进行训练。目前模型在 token 效率和指令遵循等方面仍有不足,训练仍在进行中。该模型采用 MIT 许可证开源,计划后续提供 API 服务与聊天体验页面。

相关链接:


字节跳动正式发布视频创作模型Seedance 2.0 #11

字节跳动 Seed 团队正式发布新一代视频模型 Seedance 2.0,支持图文音视频多模态输入,可生成15秒高质量多镜头音视频,具备双声道音频与视频编辑能力,已在即梦AI、豆包、火山方舟上线体验。

字节跳动Seed团队发布视频创作模型Seedance 2.0,采用多模态音视频联合架构,支持文字、图片、音频、视频四种输入,可混合输入9张图片、3段视频、3段音频及指令。模型具备视频编辑与延长功能,支持15秒高质量多镜头音视频输出及双声道立体声音频。在即梦AI、豆包、火山方舟等平台已上线。

技术上,模型基于海量世界知识、稀疏架构及多模态联合训练。评测显示其在运动稳定性、指令遵循、画面美感及多模态参考理解方面表现突出,音频层次丰富,视听协同性增强。

当前局限包括:视频细节稳定性、拟真度待提升;音频多人口型匹配偶现失真;多主体一致性、复杂编辑效果需优化。使用真人形象需本人验证或授权。豆包平台暂不支持上传真人图片作为主体参考,生成时长为5秒或10秒。

相关链接:


小米 MiMo 发布 MiMo-V2-Flash-0204 #12

小米 MiMo 团队更新 MiMo-V2-Flash 模型至 0204 版,重点优化 Thinking 模式。代码生成能力提升,SWE-Bench 评分达 78.6;工具调用准确率、指令遵循与抗幻觉能力增强。同时,通过缩短思维链,Token 消耗有显著减少。

Xiaomi MiMo 更新了 MiMo-V2-Flash 模型至 0204 版本,核心围绕 Thinking 模式进行性能和效率升级。在代码能力上,模型于 SWE-Bench Verified 基准的评分提升至 78.6。工具调用准确率从 64% 大幅跃升至 97.0%,解决了稳定性问题。指令遵循与抗幻觉能力也得到加强,AA-Omniscience 基准下的非幻觉率提升至 52%,而 Arena-Hard (Hard Prompt) 评分提升至 60.6。

此次更新通过优化思维链策略降低了 Token 消耗。在 AIME25、HMMT 等基准测试中,平均生成长度缩减了 13% 至 30%,旨在保持模型效果的同时控制使用成本。

相关链接:


阿里AIDC-AI开源多模态大模型Ovis2.6-30B-A3B #13

阿里AIDC-AI团队开源Ovis2.6多模态大模型Ovis2.6-30B-A3B,采用MoE架构,支持文本和图像输入,引入了“Think with Image”能力提升表现。

阿里国际AI团队(AIDC-AI)发布并开源多模态大模型Ovis2.6-30B-A3B,总参数30B,推理仅激活3B,支持64K上下文窗口与2880×2880图像分辨率。新功能"Think with Image"使模型能在推理中主动调用视觉工具进行多轮自我反思式分析,重点强化OCR与文档理解能力。权重托管于Hugging Face,采用Apache 2.0许可证。

相关链接:


小红书开源FireRed-Image-Edit模型 #14

小红书开源了图像编辑模型 FireRed-Image-Edit-1.0,支持复杂指令、文字编辑与风格转换,在多个基准测试中表现领先。权重即将开放。

小红书开源通用图像编辑模型FireRed-Image-Edit-1.0,模型包含四大核心能力:1)指令遵循:随机指令对齐机制提升语义理解;2)文字编辑:Layout-Aware OCR-based Reward机制强化学习,惩罚错别字与布局异常;3)创意生成:支持多参考图、风格迁移与融合;4)画质修复:集成超分、去模糊、去噪等功能。

项目同步推出REDEdit-Bench评测基准,含15个子任务、1673个中英编辑对。项目采用Apache-2.0许可证,后续将开源蒸馏版本与评测基准。

相关链接:


小红书开源语音识别FireRedASR2S系统 #15

小红书发布了工业级一体化语音识别系统 FireRedASR2S,集成 ASR、VAD、LID 和标点预测四大模块,支持中英文、方言、语码切换与歌词识别。模型权重已在相关平台上线。

小红书FireRedTeam于2026年2月12日发布工业级一体化ASR系统FireRedASR2S,集成ASR、VAD、LID、标点预测四模块,支持普通话、20+方言、英文、语码转换和歌词识别,性能达SOTA。

ASR模块FireRedASR2提供LLM版(CER 2.89%)和AED版(CER 3.05%),在普通话与方言测试中均优于Doubao-ASR、Qwen3-ASR等竞品。VAD模块F1达97.57%,支持102种语言;LID多语言识别准确率97.18%;标点预测F1为78.90%。

模型权重与推理代码已发布至Hugging Face和Modelscope,技术报告与微调代码将发布。VAD和LID后续将独立开源。

相关链接:


开发生态

智谱向GLM Coding Pro用户开放GLM-5 #16

智谱宣布为GLM Coding Pro用户接入GLM-5模型,官方称正联合国产芯片伙伴加速扩容算力,未来将逐步扩大可用范围。

智谱已向 GLM Coding Pro 用户开放 GLM-5。为应对上线后流量压力,官方正与国产芯片伙伴合作加速算力扩容,并计划逐步扩大可用范围,但尚未公布具体时间表。

相关链接:


Cursor调整个人订阅方案配额 #17

Cursor 更新个人订阅配额,为 Auto 和自研模型 Composer 1.5 设立独立用量池。Composer 1.5 截至 2 月 16 日临时提升至六倍。

Cursor更新了所有个人订阅方案的用量模型,通过引入“Auto + Composer”和“API”两个独立的用量池进行管理。新的“Auto + Composer”池为Auto功能及自研模型Composer 1.5提供了大幅增加的额度,而“API”池则维持按模型API单价计费规则不变。

在基准用量上,Composer 1.5的额度是Composer 1的3倍。为推广新模型,从发布之日起至2月16日的有限时间内,该额度临时提升至6倍。

相关链接:


Cursor开放长时间运行Agent研究预览功能 #18

Cursor 已向 Ultra、Teams 和企业用户开放其长时间运行 Agent 的研究预览功能。该功能基于自定义执行框架,支持 Agent 自主规划并通过长时间执行完成复杂开发任务。

Cursor扩展其长时间运行Agent研究预览,已向Ultra、Teams和企业用户开放。该框架遵循"执行前先规划"与"把任务真正做完"原则,通过多Agent互检机制确保复杂任务完整执行。 Preview数据显示,其生成PR规模显著更大,合并率与其他Agent相当。研究预览中,Agent成功完成36小时构建聊天平台、30小时构建移动应用、25小时重构认证系统等任务,有案例在52小时内生成151k行代码PR。Cursor内部已将其用于生产任务,包括将视频渲染器迁移至Rust、创建万行代码网络访问模块等。

相关链接:


Gemini CLI发布每周更新 #19

Gemini CLI 发布 v0.28.0 版本,支持扩展设置与自定义主题,新增 Miro 和 Apiiro 官方扩展,优化命令行交互体验,修复目录持久化问题。

Gemini CLI v0.28.0发布,引入扩展设置与自定义主题支持。用户安装扩展时可配置API密钥、base URL等参数;扩展开发者可在gemini-extension.json中定义主题,列于/theme对话框供选用。新版本支持Ctrl+B后台运行shell命令,优化撤销/重做键绑定为Cmd+Z/Alt+Z和Shift+Cmd+Z/Shift+Alt+Z,并新增.agents/skills目录别名简化Agent Skills管理。同步推出Miro和Apiiro官方扩展,分别集成白板与代码安全功能。此外,修复目录持久化问题并支持--resume恢复会话,文件夹信任功能默认启用,启动时显示身份信息,CLI参考文档也全面改进。

相关链接:


行业动态

Anthropic完成G轮融资,估值3800亿美元 #20

Anthropic完成300亿美元G轮融资,投后估值3800亿美元,微软、英伟达等参投。年收入达140亿美元,客户增长显著。

Anthropic宣布完成300亿美元G轮融资,投后估值达3800亿美元。本轮融资由GIC和Coatue领投,并有包括微软、英伟达在内的众多知名投资方参与。该笔资金将用于支持前沿研究、产品开发与基础设施扩展。

公司业务增长迅猛,年化收入达140亿美元,过去三年每年增长均超过10倍。企业客户显著增加,年消费额超10万美元的客户过去一年增长7倍,年消费额超100万美元的客户从两年前的12家增至500余家。财富10强企业中有8家已成为其客户。

Claude是目前唯一可在亚马逊AWS、谷歌云和微软Azure三大主要云平台使用的前沿AI模型。Anthropic通过在AWS Trainium、谷歌TPU和英伟达GPU等多样化硬件上训练和运行模型,为企业客户提供更优性能与弹性。

相关链接:


Arena.ai推出AI评估研究资助计划 #21

Arena 推出学术合作伙伴计划,资助AI评估与测量领域的独立研究,单个项目最高获5万美元支持。

Arena.ai推出学术合作伙伴计划,资助人工智能评估与测量领域的独立学术研究。每个项目最高提供5万美元,首季申请截止日期为2026年3月31日。

相关链接:


Simile推出AI模拟平台获1亿美元融资 #22

Simile 推出 AI 社会模拟平台,获 1 亿美元融资,由 Index Ventures 领投。该平台通过 AI 驱动的 Agent 模拟人类行为,用于预测政策、产品等决策结果。

定位为“The Simulation Company”的Simile推出其AI模拟平台,并获得1亿美元融资。该平台旨在构建首个由AI驱动的社会模拟,其内部充满基于真实人类的Agent,用以在产品、政策等影响深远的决策生效前,模拟并预测其结果。

据其官方说明,Simile的研究开创了一个新领域,正开发能在任何情境下、以任何规模预测人类行为的基础模型。其技术理念源于大型语言模型(LLM)作为通过互联网文本训练、模拟多样化人群的引擎。

此轮融资由Index Ventures领投,参与者还包括Hanabi、A*、Bain Capital Ventures。个人投资者包括Andrej Karpathy与Fei-Fei Li等。

相关链接:


Spotify称内部顶尖开发者不再手写代码 #23

Spotify透露,其顶尖开发者自去年12月起不再手动写代码,转而使用内部系统Honk,结合Claude Code实现AI远程实时部署。

Spotify在Q4财报会上披露,自去年12月起其顶尖开发者通过内部Honk系统整合Claude Code实现远程实时代码部署,不再亲手编写代码。该系统支持工程师用手机Slack指示AI修复bug或添加功能,完成后即时测试并合并至生产环境。联合CEO Gustav Söderström称此举带来"巨大"效率提升,2025年已推出超50项新功能。

相关链接:


前瞻与传闻

Qwen Chat将上线AI Slides功能 #24

Qwen Chat 宣布即将推出 AI Slides 功能,支持将文档、论文、产品资料等转换为会议、教学、销售等多种场景的演示文稿,基于 Qwen Agent 和 Qwen-Image 2.0 构建,实现信息到幻灯片的自动化生成。

Qwen Chat 宣布即将上线名为 AI Slides 的功能,旨在通过自动化流程,将项目文档、学术论文、产品资料等多种信息源转换为演示文稿。该功能还支持利用 search agent 处理非结构化信息,可将其整理成指定风格的文稿。AI Slides 构建于 Qwen Agent 和 Qwen-Image 2.0 之上,整合了检索、结构化与视觉生成能力,旨在简化信息到演示文稿的转换流程。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误