2026-02-03 · Markdown

AI 早报 2026-02-03

概览

要闻

OpenAI 发布 Codex App ↗ #1
阶跃星辰发布并开源模型 Step 3.5 Flash ↗ #2
SpaceX正式收购xAI ↗ #3

模型发布

智谱发布并开源OCR模型GLM-OCR ↗ #4
ElevenLabs宣布TTS模型Eleven v3结束测试正式上线 ↗ #5
xAI正式发布Grok Imagine 1.0视频模型 ↗ #6
优必选开源具身智能大模型Thinker ↗ #7

技术与洞察

谷歌 Game Arena 新增狼人杀和扑克基准测试 ↗ #8
Google Gemini研究揭示数学猜想新解法 ↗ #9

行业动态

阿里宣布投入30亿元启动千问App"春节请客计划" ↗ #10
Snowflake与OpenAI达成2亿美元模型集成合作 ↗ #11

前瞻与传闻

多家厂商二月新模型发布计划前瞻 ↗ #12

要闻

OpenAI 发布 Codex App `#1`

OpenAI 发布了 Codex 桌面应用，该应用支持多 Agent 并行开发与协作，集成代码对比、终端视图和自动化功能，付费用户已可使用，免费及 Go 用户限时一个月可使用，目前仅限Mac OS可用，其他系统适配正在进行中。同时，OpenAI宣布所有付费计划的 Codex 速率限制翻倍，持续两个月。

OpenAI正式发布 Codex App 桌面应用，作为AI编码与软件开发的指挥中心，用于管理多个Agent、运行并行工作流并协作处理长耗时任务。该App已向所有ChatGPT付费订阅用户开放，并为免费版和Go版用户提供为期一个月的访问权限。为庆祝发布，OpenAI宣布付费用户的Codex速率限制将翻倍，持续两个月。

Codex App的核心功能是Agent协作管理，支持按项目组织独立线程，开发者可无缝切换上下文并审查代码差异。其内置对Worktree的支持，允许多个Agent在同一仓库的隔离环境中协同工作。通过Skill系统，Codex的能力从代码生成扩展至信息搜集与问题解决。用户还可设置后台Automation任务，以执行定时工作流。其沿用了开源可配置的系统级沙箱，Agent执行高权限操作需获用户许可。

官方示例中，Codex仅凭一条提示词便自主开发了3D赛车游戏《Voxel Velocity》，承担了设计、开发与测试角色，消耗了超过700万个Token。

目前该应用仅Mac OS可用，官方称Windows版本开发已近完成，Linux版本也已提上日程。未来将推出支持云端触发的Automation，使任务能在电脑关闭时持续运行。

相关链接：

阶跃星辰发布并开源模型 Step 3.5 Flash `#2`

阶跃星辰发布并开源新一代模型 Step 3.5 Flash，采用稀疏 MoE 架构，总参数量达 196B，激活参数 11B，支持 256K 上下文。该模型在数学推理、代码生成和智能体任务中表现优异。

阶跃星辰发布新一代开源基座模型 Step 3.5 Flash，专为 Agent 场景设计。该模型采用 196B 总参数（激活 11B）的稀疏 MoE 架构，支持 256K 上下文，并利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 的推理速度。

在性能上，该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示，开启 Parallel Thinking 后，其在 AIME、IMOAnswerBench 等数学竞赛和 BrowseComp 等智能体基准测试中表现领先，代码能力则逼近 Gemini 3.0 Pro。

核心能力方面，模型具备“Think-and-Act”协同机制，支持大规模工具编排，能通过单 Agent 循环生成万字研究报告。它还支持端云协同模式，可作为“云端大脑”与本地 Step-GUI 协作，完成跨 App 价格对比、操作手机微信等复杂任务。

模型已完成对华为昇腾等六大国产 AI 芯片的适配，支持在 Apple M4 Max 等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架 MIS-PO，用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足，并已启动下一代 Step 4 模型的训练。

相关链接：

SpaceX正式收购xAI `#3`

SpaceX 宣布以2500亿美元收购马斯克旗下的xAI，合并后估值达1.25万亿美元。双方将打造太空AI数据中心，利用Starship发射卫星星座，在未来实现每年1太瓦算力。此举旨在解决地面算力瓶颈，推动人类迈向卡尔达肖夫II级文明。

SpaceX正式宣布收购马斯克旗下人工智能公司xAI。据媒体报道，交易金额或达2500亿美元，合并估值约1.25万亿美元。核心战略是将AI算力基础设施转移至太空，解决地面数据中心的电力与散热压力。

马斯克表示，计划利用Starship发射百万颗卫星组成轨道数据中心星座，直接利用太阳能供电。官方目标每年不断增加算力，最终达成1TW年发射能力，预计2-3年内太空生成AI算力成本最低。新星座将沿用Starlink的可持续性设计。

财务方面，xAI月支出约10亿美元，SpaceX去年利润约80亿美元，80%收入来自Starlink。非官方社区质疑轨道散热困难、宇宙射线干扰及维护障碍。有分析指合并或为IPO前优化报表，因SpaceX正计划最早今年6月上市。

相关链接：

模型发布

智谱发布并开源OCR模型GLM-OCR `#4`

智谱发布轻量级 OCR 模型 GLM-OCR，参数规模 0.9B，基于 GLM-V 架构，在 OmniDocBench 评测中以 94.62 分登顶。支持 PDF 和图片输入，适用于表格、公式、印章等复杂场景。

智谱正式发布轻量级专业OCR模型GLM-OCR，参数规模为0.9B。该模型基于GLM-V编码器-解码器架构构建，在OmniDocBench V1.5评测中以94.62分登顶，并在表格、公式识别及信息提取等主流基准中达到SOTA水平。

在架构上，GLM-OCR采用自研CogViT视觉编码器与GLM-0.5B语言解码器，引入Multi-Token Prediction损失函数和全任务强化学习以提升效率。关于其参数规模，官方文档明确标注为0.9B；据社区讨论认为，其视觉与语言部分总计约1.4B。性能方面，官方数据显示GLM-OCR处理PDF文档的吞吐量达1.86页/秒，其表现优于多款OCR专项模型，性能接近Gemini-3-Pro。

该模型针对复杂表格、代码文档、印章等真实场景优化，支持中、英、法等多种语言的通用文本识别。在输出上，可直接从合并单元格、多层表头等表格解析出HTML代码，或从卡证票据中提取关键字段并输出标准JSON格式，为RAG等应用提供支持。

GLM-OCR已在Hugging Face开源并提供API服务，模型本身遵循MIT License。API输入与输出同价，均为0.2元/百万Tokens。

相关链接：

ElevenLabs宣布TTS模型Eleven v3结束测试正式上线 `#5`

ElevenLabs 宣布其最新语音合成模型 Eleven v3 结束测试正式上线，支持商业使用。该模型错误率降低 68%，能准确处理数字、术语和复杂上下文，支持 70 多种语言、多说话者及情感控制。

ElevenLabs正式发布其最先进的Text to Speech模型Eleven v3，现已结束Alpha测试进入正式可用（GA）阶段，并支持商业用途。该模型经深度优化，整体错误率降低68%，显著加强了对数字、符号、专业术语及复杂上下文（如化学式、体育比分）的理解与发音准度。Eleven v3已通过全平台UI及API上线，支持70多种语言、多说话者对话，并允许通过音频标签进行情感控制。

相关链接：

https://elevenlabs.io/blog/eleven-v3-is-now-generally-available

xAI正式发布Grok Imagine 1.0视频模型 `#6`

xAI宣布正式发布Grok Imagine 1.0，支持生成10秒720p高清视频。该版本已在Grok应用及API全面上线。

xAI正式发布Grok Imagine 1.0，实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长10秒、720p分辨率的视频，音频质量与提示词理解能力显著提升。该版本已在Grok应用及API全面上线。

相关链接：

http://grok.com/imagine

优必选开源具身智能大模型Thinker `#7`

优必选开源具身智能大模型Thinker，定位小参数高性能，模型权重、工具链全开放，支持工业场景实时响应与空间感知。

优必选发布并开源具身智能大模型Thinker，定位“小参数、高性能、全开源”，为工业人形机器人提供精准空间感知与快速响应的“大脑”。截至2026年1月30日，Thinker在10B以下参数规模的9项具身智能基准评测中位列全球第一。其全链路数据方案通过“精炼提纯-自动化标注-数据驱动训练”，将20B原始数据提纯至10M高质量数据（仅保留约1%），人工参与率降至1%以下，标注成本降低99%，并打通真实场景数据回流机制。基于此，Walker S2机器人在搬运分拣场景作业准确率达99.99%。目前，Thinker模型权重、训练工具链及优化指南已全量开放。

相关链接：

技术与洞察

谷歌 Game Arena 新增狼人杀和扑克基准测试 `#8`

Google DeepMind 与 Kaggle 扩展 Game Arena 基准平台，新增“狼人杀”和“扑克”测试，评估 AI 在不完全信息下的社交博弈与风险管理能力。

Google DeepMind与Kaggle扩展AI基准测试平台Game Arena，新增"狼人杀"和"扑克"两项测试，衡量模型在不完全信息、社交博弈及风险管理能力。根据官方最新数据，Gemini 3 Pro和Gemini 3 Flash在国际象棋与狼人杀排行榜上均位居前两名，较Gemini 2.5系列战略推理与沟通协调显著提升。

相关链接：

Google Gemini研究揭示数学猜想新解法 `#9`

Google 团队发布研究，利用 Gemini 系统评估 700 个数学猜想，解决 13 个开放问题，其中 Gemini 自主发现 5 个新解法，并找出 8 个被忽略的已有解。

Google团队发布"Semi-Autonomous Mathematics Discovery with Gemini"研究，利用Gemini模型系统评估Erdős Problems数据库中的700个开放数学猜想。研究成功解决13个开放问题：其中5个为Gemini自主发现的全新解决方案，另外8个问题的解法虽在学术文献中已存在，但被数据库遗漏。完整案例报告已在arXiv平台公开。

相关链接：

行业动态

阿里宣布投入30亿元启动千问App"春节请客计划" `#10`

阿里巴巴宣布投入30亿元启动千问App“春节请客计划”，活动将于2月6日上线，发放大额红包并联动淘宝闪购、飞猪、盒马等生态业务，覆盖全国吃喝玩乐场景。

阿里巴巴宣布投入30亿元启动千问App"春节请客计划"，活动将于2月6日上线，以免单和现金红包形式覆盖全国吃喝玩乐。活动深度联动淘宝闪购、飞猪、大麦、盒马、天猫超市、支付宝、高德等阿里生态板块。

相关链接：

https://mp.weixin.qq.com/s/TaCvdwxZhwgUqeqr6I_hLQ

Snowflake与OpenAI达成2亿美元模型集成合作 `#11`

Snowflake与OpenAI达成2亿美元多年合作协议，将GPT-5.2等模型集成至其Cortex AI与Intelligence平台。

Snowflake与OpenAI达成2亿美元多年期战略合作，将GPT-5.2等前沿模型集成至Snowflake Cortex AI和Intelligence平台，为12,600余家企业客户在其数据环境中提供安全可控的AI服务。用户可通过自然语言或SQL直接调用模型，分析文本、图像、音频等多模态数据，构建基于企业知识的AI Agent。Snowflake CEO称客户能利用全部企业知识打造强大、可信的AI；OpenAI CEO表示合作将先进模型带入企业数据管理核心，简化AI部署。Canva、WHOOP等已应用于创意工具与高级分析。

相关链接：

https://openai.com/index/snowflake-partnership/

前瞻与传闻

多家厂商二月新模型发布计划前瞻 `#12`

据社交媒体讨论及媒体报道，2月将有多款大模型发布，智谱将发GLM-5，MiniMax将发M2.5，最新报道称DeepSeek或仅发布小幅升级版，字节或发 Doubao Seed 2.0，阿里或发Qwen 3.5。此外 OpenAI、xAI、Google、Anthropic等也有新模型传闻，但多数尚未获官方证实。

2月或迎来AI模型密集发布期。智谱计划推出GLM-5，MiniMax预计发布M2.5模型。据媒体报道，字节跳动或发布Doubao Seed 2.0，阿里巴巴或推Qwen 3.5；DeepSeek V4的发布尚存变数，或仅小幅升级。此外，OpenAI GPT-5.3、xAI Grok 4.2、Gemini 3及Claude Sonnet更新版等传闻也集中于2月。除智谱GLM-5与MiniMax M2.5外，其他模型消息暂无可靠官方来源佐证。

相关链接：

提示：内容由AI辅助创作，可能存在幻觉和错误。

AI 早报 2026-02-03

概览

要闻

模型发布

技术与洞察

行业动态

前瞻与传闻

要闻

OpenAI 发布 Codex App #1

阶跃星辰发布并开源模型 Step 3.5 Flash #2

SpaceX正式收购xAI #3

模型发布

智谱发布并开源OCR模型GLM-OCR #4

ElevenLabs宣布TTS模型Eleven v3结束测试正式上线 #5

xAI正式发布Grok Imagine 1.0视频模型 #6

优必选开源具身智能大模型Thinker #7

技术与洞察

谷歌 Game Arena 新增狼人杀和扑克基准测试 #8

Google Gemini研究揭示数学猜想新解法 #9

行业动态

阿里宣布投入30亿元启动千问App"春节请客计划" #10

Snowflake与OpenAI达成2亿美元模型集成合作 #11

前瞻与传闻

多家厂商二月新模型发布计划前瞻 #12

OpenAI 发布 Codex App `#1`

阶跃星辰发布并开源模型 Step 3.5 Flash `#2`

SpaceX正式收购xAI `#3`

智谱发布并开源OCR模型GLM-OCR `#4`

ElevenLabs宣布TTS模型Eleven v3结束测试正式上线 `#5`

xAI正式发布Grok Imagine 1.0视频模型 `#6`

优必选开源具身智能大模型Thinker `#7`

谷歌 Game Arena 新增狼人杀和扑克基准测试 `#8`

Google Gemini研究揭示数学猜想新解法 `#9`

阿里宣布投入30亿元启动千问App"春节请客计划" `#10`

Snowflake与OpenAI达成2亿美元模型集成合作 `#11`

多家厂商二月新模型发布计划前瞻 `#12`