2026-02-03 · Markdown

AI 早报 2026-02-03

概览

要闻

模型发布

技术与洞察

行业动态

前瞻与传闻


要闻

OpenAI 发布 Codex App #1

OpenAI 发布了 Codex 桌面应用,该应用支持多 Agent 并行开发与协作,集成代码对比、终端视图和自动化功能,付费用户已可使用,免费及 Go 用户限时一个月可使用,目前仅限Mac OS可用,其他系统适配正在进行中。同时,OpenAI宣布所有付费计划的 Codex 速率限制翻倍,持续两个月。

OpenAI正式发布 Codex App 桌面应用,作为AI编码与软件开发的指挥中心,用于管理多个Agent、运行并行工作流并协作处理长耗时任务。该App已向所有ChatGPT付费订阅用户开放,并为免费版和Go版用户提供为期一个月的访问权限。为庆祝发布,OpenAI宣布付费用户的Codex速率限制将翻倍,持续两个月。

Codex App的核心功能是Agent协作管理,支持按项目组织独立线程,开发者可无缝切换上下文并审查代码差异。其内置对Worktree的支持,允许多个Agent在同一仓库的隔离环境中协同工作。通过Skill系统,Codex的能力从代码生成扩展至信息搜集与问题解决。用户还可设置后台Automation任务,以执行定时工作流。其沿用了开源可配置的系统级沙箱,Agent执行高权限操作需获用户许可。

官方示例中,Codex仅凭一条提示词便自主开发了3D赛车游戏《Voxel Velocity》,承担了设计、开发与测试角色,消耗了超过700万个Token。

目前该应用仅Mac OS可用,官方称Windows版本开发已近完成,Linux版本也已提上日程。未来将推出支持云端触发的Automation,使任务能在电脑关闭时持续运行。

相关链接:


阶跃星辰发布并开源模型 Step 3.5 Flash #2

阶跃星辰发布并开源新一代模型 Step 3.5 Flash,采用稀疏 MoE 架构,总参数量达 196B,激活参数 11B,支持 256K 上下文。该模型在数学推理、代码生成和智能体任务中表现优异。

阶跃星辰发布新一代开源基座模型 Step 3.5 Flash,专为 Agent 场景设计。该模型采用 196B 总参数(激活 11B)的稀疏 MoE 架构,支持 256K 上下文,并利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 的推理速度。

在性能上,该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示,开启 Parallel Thinking 后,其在 AIME、IMOAnswerBench 等数学竞赛和 BrowseComp 等智能体基准测试中表现领先,代码能力则逼近 Gemini 3.0 Pro。

核心能力方面,模型具备“Think-and-Act”协同机制,支持大规模工具编排,能通过单 Agent 循环生成万字研究报告。它还支持端云协同模式,可作为“云端大脑”与本地 Step-GUI 协作,完成跨 App 价格对比、操作手机微信等复杂任务。

模型已完成对华为昇腾等六大国产 AI 芯片的适配,支持在 Apple M4 Max 等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架 MIS-PO,用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足,并已启动下一代 Step 4 模型的训练。

相关链接:


SpaceX正式收购xAI #3

SpaceX 宣布以2500亿美元收购马斯克旗下的xAI,合并后估值达1.25万亿美元。双方将打造太空AI数据中心,利用Starship发射卫星星座,在未来实现每年1太瓦算力。此举旨在解决地面算力瓶颈,推动人类迈向卡尔达肖夫II级文明。

SpaceX正式宣布收购马斯克旗下人工智能公司xAI。据媒体报道,交易金额或达2500亿美元,合并估值约1.25万亿美元。核心战略是将AI算力基础设施转移至太空,解决地面数据中心的电力与散热压力。

马斯克表示,计划利用Starship发射百万颗卫星组成轨道数据中心星座,直接利用太阳能供电。官方目标每年不断增加算力,最终达成1TW年发射能力,预计2-3年内太空生成AI算力成本最低。新星座将沿用Starlink的可持续性设计。

财务方面,xAI月支出约10亿美元,SpaceX去年利润约80亿美元,80%收入来自Starlink。非官方社区质疑轨道散热困难、宇宙射线干扰及维护障碍。有分析指合并或为IPO前优化报表,因SpaceX正计划最早今年6月上市。

相关链接:


模型发布

智谱发布并开源OCR模型GLM-OCR #4

智谱发布轻量级 OCR 模型 GLM-OCR,参数规模 0.9B,基于 GLM-V 架构,在 OmniDocBench 评测中以 94.62 分登顶。支持 PDF 和图片输入,适用于表格、公式、印章等复杂场景。

智谱正式发布轻量级专业OCR模型GLM-OCR,参数规模为0.9B。该模型基于GLM-V编码器-解码器架构构建,在OmniDocBench V1.5评测中以94.62分登顶,并在表格、公式识别及信息提取等主流基准中达到SOTA水平。

在架构上,GLM-OCR采用自研CogViT视觉编码器与GLM-0.5B语言解码器,引入Multi-Token Prediction损失函数和全任务强化学习以提升效率。关于其参数规模,官方文档明确标注为0.9B;据社区讨论认为,其视觉与语言部分总计约1.4B。性能方面,官方数据显示GLM-OCR处理PDF文档的吞吐量达1.86页/秒,其表现优于多款OCR专项模型,性能接近Gemini-3-Pro。

该模型针对复杂表格、代码文档、印章等真实场景优化,支持中、英、法等多种语言的通用文本识别。在输出上,可直接从合并单元格、多层表头等表格解析出HTML代码,或从卡证票据中提取关键字段并输出标准JSON格式,为RAG等应用提供支持。

GLM-OCR已在Hugging Face开源并提供API服务,模型本身遵循MIT License。API输入与输出同价,均为0.2元/百万Tokens。

相关链接:


ElevenLabs宣布TTS模型Eleven v3结束测试正式上线 #5

ElevenLabs 宣布其最新语音合成模型 Eleven v3 结束测试正式上线,支持商业使用。该模型错误率降低 68%,能准确处理数字、术语和复杂上下文,支持 70 多种语言、多说话者及情感控制。

ElevenLabs正式发布其最先进的Text to Speech模型Eleven v3,现已结束Alpha测试进入正式可用(GA)阶段,并支持商业用途。该模型经深度优化,整体错误率降低68%,显著加强了对数字、符号、专业术语及复杂上下文(如化学式、体育比分)的理解与发音准度。Eleven v3已通过全平台UI及API上线,支持70多种语言、多说话者对话,并允许通过音频标签进行情感控制。

相关链接:


xAI正式发布Grok Imagine 1.0视频模型 #6

xAI宣布正式发布Grok Imagine 1.0,支持生成10秒720p高清视频。该版本已在Grok应用及API全面上线。

xAI正式发布Grok Imagine 1.0,实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长10秒、720p分辨率的视频,音频质量与提示词理解能力显著提升。该版本已在Grok应用及API全面上线。

相关链接:


优必选开源具身智能大模型Thinker #7

优必选开源具身智能大模型Thinker,定位小参数高性能,模型权重、工具链全开放,支持工业场景实时响应与空间感知。

优必选发布并开源具身智能大模型Thinker,定位“小参数、高性能、全开源”,为工业人形机器人提供精准空间感知与快速响应的“大脑”。截至2026年1月30日,Thinker在10B以下参数规模的9项具身智能基准评测中位列全球第一。其全链路数据方案通过“精炼提纯-自动化标注-数据驱动训练”,将20B原始数据提纯至10M高质量数据(仅保留约1%),人工参与率降至1%以下,标注成本降低99%,并打通真实场景数据回流机制。基于此,Walker S2机器人在搬运分拣场景作业准确率达99.99%。目前,Thinker模型权重、训练工具链及优化指南已全量开放。

相关链接:


技术与洞察

谷歌 Game Arena 新增狼人杀和扑克基准测试 #8

Google DeepMind 与 Kaggle 扩展 Game Arena 基准平台,新增“狼人杀”和“扑克”测试,评估 AI 在不完全信息下的社交博弈与风险管理能力。

Google DeepMind与Kaggle扩展AI基准测试平台Game Arena,新增"狼人杀"和"扑克"两项测试,衡量模型在不完全信息、社交博弈及风险管理能力。根据官方最新数据,Gemini 3 Pro和Gemini 3 Flash在国际象棋与狼人杀排行榜上均位居前两名,较Gemini 2.5系列战略推理与沟通协调显著提升。

相关链接:


Google Gemini研究揭示数学猜想新解法 #9

Google 团队发布研究,利用 Gemini 系统评估 700 个数学猜想,解决 13 个开放问题,其中 Gemini 自主发现 5 个新解法,并找出 8 个被忽略的已有解。

Google团队发布"Semi-Autonomous Mathematics Discovery with Gemini"研究,利用Gemini模型系统评估Erdős Problems数据库中的700个开放数学猜想。研究成功解决13个开放问题:其中5个为Gemini自主发现的全新解决方案,另外8个问题的解法虽在学术文献中已存在,但被数据库遗漏。完整案例报告已在arXiv平台公开。

相关链接:


行业动态

阿里宣布投入30亿元启动千问App"春节请客计划" #10

阿里巴巴宣布投入30亿元启动千问App“春节请客计划”,活动将于2月6日上线,发放大额红包并联动淘宝闪购、飞猪、盒马等生态业务,覆盖全国吃喝玩乐场景。

阿里巴巴宣布投入30亿元启动千问App"春节请客计划",活动将于2月6日上线,以免单和现金红包形式覆盖全国吃喝玩乐。活动深度联动淘宝闪购、飞猪、大麦、盒马、天猫超市、支付宝、高德等阿里生态板块。

相关链接:


Snowflake与OpenAI达成2亿美元模型集成合作 #11

Snowflake与OpenAI达成2亿美元多年合作协议,将GPT-5.2等模型集成至其Cortex AI与Intelligence平台。

Snowflake与OpenAI达成2亿美元多年期战略合作,将GPT-5.2等前沿模型集成至Snowflake Cortex AI和Intelligence平台,为12,600余家企业客户在其数据环境中提供安全可控的AI服务。用户可通过自然语言或SQL直接调用模型,分析文本、图像、音频等多模态数据,构建基于企业知识的AI Agent。Snowflake CEO称客户能利用全部企业知识打造强大、可信的AI;OpenAI CEO表示合作将先进模型带入企业数据管理核心,简化AI部署。Canva、WHOOP等已应用于创意工具与高级分析。

相关链接:


前瞻与传闻

多家厂商二月新模型发布计划前瞻 #12

据社交媒体讨论及媒体报道,2月将有多款大模型发布,智谱将发GLM-5,MiniMax将发M2.5,最新报道称DeepSeek或仅发布小幅升级版,字节或发 Doubao Seed 2.0,阿里或发Qwen 3.5。此外 OpenAI、xAI、Google、Anthropic等也有新模型传闻,但多数尚未获官方证实。

2月或迎来AI模型密集发布期。智谱计划推出GLM-5,MiniMax预计发布M2.5模型。据媒体报道,字节跳动或发布Doubao Seed 2.0,阿里巴巴或推Qwen 3.5;DeepSeek V4的发布尚存变数,或仅小幅升级。此外,OpenAI GPT-5.3、xAI Grok 4.2、Gemini 3及Claude Sonnet更新版等传闻也集中于2月。除智谱GLM-5与MiniMax M2.5外,其他模型消息暂无可靠官方来源佐证。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误