![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/imagehub/20260203/20260203083408942405e94a_cover_785c.jpg)

# AI 早报 2026-02-03

## 概览
### 要闻
- OpenAI 发布 Codex App [↗](https://openai.com/index/introducing-the-codex-app/) `#1`
- 阶跃星辰发布并开源模型 Step 3.5 Flash [↗](https://static.stepfun.com/blog/step-3.5-flash/) `#2`
- SpaceX正式收购xAI [↗](https://www.spacex.com/updates#xai-joins-spacex) `#3`
### 模型发布
- 智谱发布并开源OCR模型GLM-OCR [↗](https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr) `#4`
- ElevenLabs宣布TTS模型Eleven v3结束测试正式上线 [↗](https://elevenlabs.io/blog/eleven-v3-is-now-generally-available) `#5`
- xAI正式发布Grok Imagine 1.0视频模型 [↗](http://grok.com/imagine) `#6`
- 优必选开源具身智能大模型Thinker [↗](https://mp.weixin.qq.com/s/2pz0JEr5LGPbMKmHmmC8Zw) `#7`
### 技术与洞察
- 谷歌 Game Arena 新增狼人杀和扑克基准测试 [↗](https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/) `#8`
- Google Gemini研究揭示数学猜想新解法 [↗](https://arxiv.org/abs/2601.22401) `#9`
### 行业动态
- 阿里宣布投入30亿元启动千问App"春节请客计划" [↗](https://mp.weixin.qq.com/s/TaCvdwxZhwgUqeqr6I_hLQ) `#10`
- Snowflake与OpenAI达成2亿美元模型集成合作 [↗](https://openai.com/index/snowflake-partnership/) `#11`
### 前瞻与传闻
- 多家厂商二月新模型发布计划前瞻 [↗](https://x.com/jietang/status/2018246490775498791) `#12`

---

## 要闻

### [OpenAI 发布 Codex App](https://openai.com/index/introducing-the-codex-app/) `#1`
> OpenAI 发布了 Codex 桌面应用，该应用支持多 Agent 并行开发与协作，集成代码对比、终端视图和自动化功能，付费用户已可使用，免费及 Go 用户限时一个月可使用，目前仅限Mac OS可用，其他系统适配正在进行中。同时，OpenAI宣布所有付费计划的 Codex 速率限制翻倍，持续两个月。

OpenAI正式发布 Codex App 桌面应用，作为AI编码与软件开发的指挥中心，用于管理多个Agent、运行并行工作流并协作处理长耗时任务。该App已向所有ChatGPT付费订阅用户开放，并为免费版和Go版用户提供为期一个月的访问权限。为庆祝发布，OpenAI宣布付费用户的Codex速率限制将翻倍，持续两个月。

Codex App的核心功能是Agent协作管理，支持按项目组织独立线程，开发者可无缝切换上下文并审查代码差异。其内置对Worktree的支持，允许多个Agent在同一仓库的隔离环境中协同工作。通过Skill系统，Codex的能力从代码生成扩展至信息搜集与问题解决。用户还可设置后台Automation任务，以执行定时工作流。其沿用了开源可配置的系统级沙箱，Agent执行高权限操作需获用户许可。

官方示例中，Codex仅凭一条提示词便自主开发了3D赛车游戏《Voxel Velocity》，承担了设计、开发与测试角色，消耗了超过700万个Token。

目前该应用仅Mac OS可用，官方称Windows版本开发已近完成，Linux版本也已提上日程。未来将推出支持云端触发的Automation，使任务能在电脑关闭时持续运行。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/21c34410-6537-4ef7-b043-bae9910b2b43/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/21c34410-6537-4ef7-b043-bae9910b2b43/m002.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/21c34410-6537-4ef7-b043-bae9910b2b43/m003.png)

相关链接：
- [https://openai.com/index/introducing-the-codex-app/](https://openai.com/index/introducing-the-codex-app/)
- [https://openai.com/codex](https://openai.com/codex)
- [https://openai.com/form/codex-app/](https://openai.com/form/codex-app/)

---

### [阶跃星辰发布并开源模型 Step 3.5 Flash](https://static.stepfun.com/blog/step-3.5-flash/) `#2`
> 阶跃星辰发布并开源新一代模型 Step 3.5 Flash，采用稀疏 MoE 架构，总参数量达 196B，激活参数 11B，支持 256K 上下文。该模型在数学推理、代码生成和智能体任务中表现优异。

阶跃星辰发布新一代开源基座模型 Step 3.5 Flash，专为 Agent 场景设计。该模型采用 196B 总参数（激活 11B）的稀疏 MoE 架构，支持 256K 上下文，并利用 MTP-3 技术在单请求代码任务中实现最高 350 TPS 的推理速度。

在性能上，该模型在数学推理、代码和智能体任务上逼近顶级闭源模型。官方数据显示，开启 Parallel Thinking 后，其在 AIME、IMOAnswerBench 等数学竞赛和 BrowseComp 等智能体基准测试中表现领先，代码能力则逼近 Gemini 3.0 Pro。

核心能力方面，模型具备“Think-and-Act”协同机制，支持大规模工具编排，能通过单 Agent 循环生成万字研究报告。它还支持端云协同模式，可作为“云端大脑”与本地 Step-GUI 协作，完成跨 App 价格对比、操作手机微信等复杂任务。

模型已完成对华为昇腾等六大国产 AI 芯片的适配，支持在 Apple M4 Max 等高端个人硬件上私有部署。其训练采用了可扩展的强化学习框架 MIS-PO，用于解决长序列训练中的稳定性问题。官方指出模型在生成轨迹长度等方面仍存不足，并已启动下一代 Step 4 模型的训练。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/dba50bec-3ce4-48de-9c6e-f7204e9e501b/m001.png)

相关链接：
- [https://static.stepfun.com/blog/step-3.5-flash/](https://static.stepfun.com/blog/step-3.5-flash/)
- [https://mp.weixin.qq.com/s/XYH-5lZ3z3bw8VOEemyeSQ](https://mp.weixin.qq.com/s/XYH-5lZ3z3bw8VOEemyeSQ)
- [https://github.com/stepfun-ai/Step-3.5-Flash](https://github.com/stepfun-ai/Step-3.5-Flash)
- [https://huggingface.co/stepfun-ai/Step-3.5-Flash](https://huggingface.co/stepfun-ai/Step-3.5-Flash)

---

### [SpaceX正式收购xAI](https://www.spacex.com/updates#xai-joins-spacex) `#3`
> SpaceX 宣布以2500亿美元收购马斯克旗下的xAI，合并后估值达1.25万亿美元。双方将打造太空AI数据中心，利用Starship发射卫星星座，在未来实现每年1太瓦算力。此举旨在解决地面算力瓶颈，推动人类迈向卡尔达肖夫II级文明。

SpaceX正式宣布收购马斯克旗下人工智能公司xAI。据媒体报道，交易金额或达2500亿美元，合并估值约1.25万亿美元。核心战略是将AI算力基础设施转移至太空，解决地面数据中心的电力与散热压力。

马斯克表示，计划利用Starship发射百万颗卫星组成轨道数据中心星座，直接利用太阳能供电。官方目标每年不断增加算力，最终达成1TW年发射能力，预计2-3年内太空生成AI算力成本最低。新星座将沿用Starlink的可持续性设计。

财务方面，xAI月支出约10亿美元，SpaceX去年利润约80亿美元，80%收入来自Starlink。非官方社区质疑轨道散热困难、宇宙射线干扰及维护障碍。有分析指合并或为IPO前优化报表，因SpaceX正计划最早今年6月上市。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/cf329410-5781-47ae-a04b-c2e53590e70a/m001.png)

相关链接：
- [https://www.spacex.com/updates#xai-joins-spacex](https://www.spacex.com/updates#xai-joins-spacex)
- [https://x.ai/news/xai-joins-spacex](https://x.ai/news/xai-joins-spacex)

---

## 模型发布

### [智谱发布并开源OCR模型GLM-OCR](https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr) `#4`
> 智谱发布轻量级 OCR 模型 GLM-OCR，参数规模 0.9B，基于 GLM-V 架构，在 OmniDocBench 评测中以 94.62 分登顶。支持 PDF 和图片输入，适用于表格、公式、印章等复杂场景。

智谱正式发布轻量级专业OCR模型GLM-OCR，参数规模为0.9B。该模型基于GLM-V编码器-解码器架构构建，在OmniDocBench V1.5评测中以94.62分登顶，并在表格、公式识别及信息提取等主流基准中达到SOTA水平。

在架构上，GLM-OCR采用自研CogViT视觉编码器与GLM-0.5B语言解码器，引入Multi-Token Prediction损失函数和全任务强化学习以提升效率。关于其参数规模，官方文档明确标注为0.9B；据社区讨论认为，其视觉与语言部分总计约1.4B。性能方面，官方数据显示GLM-OCR处理PDF文档的吞吐量达1.86页/秒，其表现优于多款OCR专项模型，性能接近Gemini-3-Pro。

该模型针对复杂表格、代码文档、印章等真实场景优化，支持中、英、法等多种语言的通用文本识别。在输出上，可直接从合并单元格、多层表头等表格解析出HTML代码，或从卡证票据中提取关键字段并输出标准JSON格式，为RAG等应用提供支持。

GLM-OCR已在Hugging Face开源并提供API服务，模型本身遵循MIT License。API输入与输出同价，均为0.2元/百万Tokens。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/d3a8dcb0-6290-45c4-8459-6d9a8a077033/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/d3a8dcb0-6290-45c4-8459-6d9a8a077033/m002.png)

相关链接：
- [https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr](https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr)
- [https://github.com/zai-org/GLM-OCR](https://github.com/zai-org/GLM-OCR)
- [https://huggingface.co/zai-org/GLM-OCR](https://huggingface.co/zai-org/GLM-OCR)

---

### [ElevenLabs宣布TTS模型Eleven v3结束测试正式上线](https://elevenlabs.io/blog/eleven-v3-is-now-generally-available) `#5`
> ElevenLabs 宣布其最新语音合成模型 Eleven v3 结束测试正式上线，支持商业使用。该模型错误率降低 68%，能准确处理数字、术语和复杂上下文，支持 70 多种语言、多说话者及情感控制。

ElevenLabs正式发布其最先进的Text to Speech模型Eleven v3，现已结束Alpha测试进入正式可用（GA）阶段，并支持商业用途。该模型经深度优化，整体错误率降低68%，显著加强了对数字、符号、专业术语及复杂上下文（如化学式、体育比分）的理解与发音准度。Eleven v3已通过全平台UI及API上线，支持70多种语言、多说话者对话，并允许通过音频标签进行情感控制。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/2605d6af-67c3-43ec-b8f1-317b9e5c9980/m001.png)

相关链接：
- [https://elevenlabs.io/blog/eleven-v3-is-now-generally-available](https://elevenlabs.io/blog/eleven-v3-is-now-generally-available)

---

### [xAI正式发布Grok Imagine 1.0视频模型](http://grok.com/imagine) `#6`
> xAI宣布正式发布Grok Imagine 1.0，支持生成10秒720p高清视频。该版本已在Grok应用及API全面上线。

xAI正式发布Grok Imagine 1.0，实现从静态图像到动态高清视频生成的跨越。新版本支持生成最长10秒、720p分辨率的视频，音频质量与提示词理解能力显著提升。该版本已在Grok应用及API全面上线。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/39c237c5-a180-4700-b9e2-97113c515549/m001.png)

相关链接：
- [http://grok.com/imagine](http://grok.com/imagine)

---

### [优必选开源具身智能大模型Thinker](https://mp.weixin.qq.com/s/2pz0JEr5LGPbMKmHmmC8Zw) `#7`
> 优必选开源具身智能大模型Thinker，定位小参数高性能，模型权重、工具链全开放，支持工业场景实时响应与空间感知。

优必选发布并开源具身智能大模型Thinker，定位“小参数、高性能、全开源”，为工业人形机器人提供精准空间感知与快速响应的“大脑”。截至2026年1月30日，Thinker在10B以下参数规模的9项具身智能基准评测中位列全球第一。其全链路数据方案通过“精炼提纯-自动化标注-数据驱动训练”，将20B原始数据提纯至10M高质量数据（仅保留约1%），人工参与率降至1%以下，标注成本降低99%，并打通真实场景数据回流机制。基于此，Walker S2机器人在搬运分拣场景作业准确率达99.99%。目前，Thinker模型权重、训练工具链及优化指南已全量开放。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/1541ee8e-8f0b-4893-9cab-7360981d4c17/m001.png)

相关链接：
- [https://mp.weixin.qq.com/s/2pz0JEr5LGPbMKmHmmC8Zw](https://mp.weixin.qq.com/s/2pz0JEr5LGPbMKmHmmC8Zw)
- [https://github.com/UBTECH-Robot/Thinker](https://github.com/UBTECH-Robot/Thinker)
- [https://huggingface.co/UBTECH-Robotics/Thinker-4B](https://huggingface.co/UBTECH-Robotics/Thinker-4B)

---

## 技术与洞察

### [谷歌 Game Arena 新增狼人杀和扑克基准测试](https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/) `#8`
> Google DeepMind 与 Kaggle 扩展 Game Arena 基准平台，新增“狼人杀”和“扑克”测试，评估 AI 在不完全信息下的社交博弈与风险管理能力。

Google DeepMind与Kaggle扩展AI基准测试平台Game Arena，新增"狼人杀"和"扑克"两项测试，衡量模型在不完全信息、社交博弈及风险管理能力。根据官方最新数据，Gemini 3 Pro和Gemini 3 Flash在国际象棋与狼人杀排行榜上均位居前两名，较Gemini 2.5系列战略推理与沟通协调显著提升。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/1b69853c-37b8-4d39-adf3-1964f890038a/m001.png)

相关链接：
- [https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/](https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/)
- [https://x.com/GoogleDeepMind/status/2018372195701973144](https://x.com/GoogleDeepMind/status/2018372195701973144)

---

### [Google Gemini研究揭示数学猜想新解法](https://arxiv.org/abs/2601.22401) `#9`
> Google 团队发布研究，利用 Gemini 系统评估 700 个数学猜想，解决 13 个开放问题，其中 Gemini 自主发现 5 个新解法，并找出 8 个被忽略的已有解。

Google团队发布"Semi-Autonomous Mathematics Discovery with Gemini"研究，利用Gemini模型系统评估Erdős Problems数据库中的700个开放数学猜想。研究成功解决13个开放问题：其中5个为Gemini自主发现的全新解决方案，另外8个问题的解法虽在学术文献中已存在，但被数据库遗漏。完整案例报告已在arXiv平台公开。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/ef9e61e8-3b81-42d2-ad3d-c5e8f62b5fc5/m001.png)

相关链接：
- [https://arxiv.org/abs/2601.22401](https://arxiv.org/abs/2601.22401)
- [https://x.com/demishassabis/status/2018430475388231929](https://x.com/demishassabis/status/2018430475388231929)

---

## 行业动态

### [阿里宣布投入30亿元启动千问App"春节请客计划"](https://mp.weixin.qq.com/s/TaCvdwxZhwgUqeqr6I_hLQ) `#10`
> 阿里巴巴宣布投入30亿元启动千问App“春节请客计划”，活动将于2月6日上线，发放大额红包并联动淘宝闪购、飞猪、盒马等生态业务，覆盖全国吃喝玩乐场景。

阿里巴巴宣布投入30亿元启动千问App"春节请客计划"，活动将于2月6日上线，以免单和现金红包形式覆盖全国吃喝玩乐。活动深度联动淘宝闪购、飞猪、大麦、盒马、天猫超市、支付宝、高德等阿里生态板块。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/2b2ba47b-c4a1-4627-83ab-db734dcead15/m001.png)

相关链接：
- [https://mp.weixin.qq.com/s/TaCvdwxZhwgUqeqr6I_hLQ](https://mp.weixin.qq.com/s/TaCvdwxZhwgUqeqr6I_hLQ)

---

### [Snowflake与OpenAI达成2亿美元模型集成合作](https://openai.com/index/snowflake-partnership/) `#11`
> Snowflake与OpenAI达成2亿美元多年合作协议，将GPT-5.2等模型集成至其Cortex AI与Intelligence平台。

Snowflake与OpenAI达成2亿美元多年期战略合作，将GPT-5.2等前沿模型集成至Snowflake Cortex AI和Intelligence平台，为12,600余家企业客户在其数据环境中提供安全可控的AI服务。用户可通过自然语言或SQL直接调用模型，分析文本、图像、音频等多模态数据，构建基于企业知识的AI Agent。Snowflake CEO称客户能利用全部企业知识打造强大、可信的AI；OpenAI CEO表示合作将先进模型带入企业数据管理核心，简化AI部署。Canva、WHOOP等已应用于创意工具与高级分析。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/e3154d53-98e0-4f62-81df-de528148a99b/m001.png)

相关链接：
- [https://openai.com/index/snowflake-partnership/](https://openai.com/index/snowflake-partnership/)

---

## 前瞻与传闻

### [多家厂商二月新模型发布计划前瞻](https://x.com/jietang/status/2018246490775498791) `#12`
> 据社交媒体讨论及媒体报道，2月将有多款大模型发布，智谱将发GLM-5，MiniMax将发M2.5，最新报道称DeepSeek或仅发布小幅升级版，字节或发 Doubao Seed 2.0，阿里或发Qwen 3.5。此外 OpenAI、xAI、Google、Anthropic等也有新模型传闻，但多数尚未获官方证实。

2月或迎来AI模型密集发布期。智谱计划推出GLM-5，MiniMax预计发布M2.5模型。据媒体报道，字节跳动或发布Doubao Seed 2.0，阿里巴巴或推Qwen 3.5；DeepSeek V4的发布尚存变数，或仅小幅升级。此外，OpenAI GPT-5.3、xAI Grok 4.2、Gemini 3及Claude Sonnet更新版等传闻也集中于2月。除智谱GLM-5与MiniMax M2.5外，其他模型消息暂无可靠官方来源佐证。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/90b84686-bb70-41d5-8827-ba4e12e1b954/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/785c449d-a55d-41a5-94db-b72c03433d78/90b84686-bb70-41d5-8827-ba4e12e1b954/m002.png)

相关链接：
- [https://x.com/jietang/status/2018246490775498791](https://x.com/jietang/status/2018246490775498791)
- [https://www.scmp.com/tech/big-tech/article/3342051/chinas-ai-labs-race-debut-latest-models-lunar-new-year?onboard=true&firstTimeRegister=true](https://www.scmp.com/tech/big-tech/article/3342051/chinas-ai-labs-race-debut-latest-models-lunar-new-year?onboard=true&firstTimeRegister=true)
- [https://weibo.com/u/1560906700](https://weibo.com/u/1560906700)

---

**提示**：内容由AI辅助创作，可能存在**幻觉**和**错误**。