![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/imagehub/20260130/202601300851194883361436_cover_c06a.jpg)

# AI 早报 2026-01-30

## 概览
### 要闻
- OpenAI取消API验证并澄清发现所有权 [↗](https://x.com/OpenAIDevs/status/2016980854455882209) `#1`
- 谷歌DeepMind发布实验性AI世界模型Project Genie [↗](https://deepmind.google/models/genie/) `#2`
- 阿里Qwen开源Qwen3-ASR模型 [↗](https://qwen.ai/blog?id=qwen3asr) `#3`
### 产品应用
- 谷歌地图Gemini导航扩展至步行骑行 [↗](https://blog.google/products-and-platforms/products/maps/gemini-navigation-biking-walking/) `#4`
### 模型发布
- Google DeepMind发布基因组预测模型AlphaGenome [↗](https://www.nature.com/articles/s41586-025-10014-0) `#5`
- MiniMax发布Music 2.5模型 [↗](https://www.minimaxi.com/audio/introducing/music-2-5/) `#6`
- OpenMOSS开源MOVA同步音视频模型 [↗](https://github.com/OpenMOSS/MOVA) `#7`
- 飞桨发布PaddleOCR-VL-1.5 [↗](https://github.com/PaddlePaddle/PaddleOCR) `#8`
- Skywork AI开源SkyReels-V3多模态视频模型 [↗](https://github.com/SkyworkAI/SkyReels-V3) `#9`
### 开发生态
- Cursor发布AI代码溯源标准Agent Trace [↗](https://agent-trace.dev/) `#10`
- Gradio团队发布Daggr助力AI工作流开发 [↗](https://github.com/gradio-app/daggr) `#11`
- Gemini API 中 Gemini 3 系列模型上线Computer Use工具 [↗](https://ai.google.dev/gemini-api/docs/computer-use) `#12`
- xAI正式发布Grok Imagine API [↗](https://x.ai/news/grok-imagine-api) `#13`
- Cloudflare发布Moltworker [↗](https://blog.cloudflare.com/moltworker-self-hosted-ai-agent/) `#14`
- Unsloth发布Kimi K2.5模型本地运行方案 [↗](https://unsloth.ai/docs/models/kimi-k2.5) `#15`
### 技术与洞察
- OpenAI 发文介绍内部自用 AI数据分析Agent [↗](https://openai.com/index/inside-our-in-house-data-agent/) `#16`
### 行业动态
- Anthropic盗版训练AI再遭天价索赔 [↗](https://www.reuters.com/legal/litigation/anthropic-faces-new-music-publisher-lawsuit-over-alleged-piracy-2026-01-28/) `#17`
- Apple收购面部运动AI公司Q.ai [↗](https://www.ynetnews.com/business/article/by7ymzti11l) `#18`
- SpaceX与xAI商谈合并或为IPO铺路 [↗](https://www.reuters.com/world/musks-spacex-merger-talks-with-xai-ahead-planned-ipo-source-says-2026-01-29/) `#19`
- 平头哥发布真武810E性能比肩H20 [↗](https://www.t-head.cn/product?id=7) `#20`
- 微软财报OpenAI投资推动云业务与利润增长 [↗](https://microsoft.com/en-us/investor/earnings/FY-2026-Q2/Document/DownloadDocument/132/FinancialStatementFY26Q2.xlsx) `#21`
### 前瞻与传闻
- 字节跳动阿里据报春节前将发新AI模型 [↗](https://thein.fo/3M63pye) `#22`
- OpenAI宣布ChatGPT将停用GPT-4o等旧模型 [↗](https://openai.com/index/retiring-gpt-4o-and-older-models/) `#23`
- OpenAI有望达成千亿美元新一轮融资 [↗](https://theinformation.com/articles/nvidia-microsoft-and-amazon-are-in-talks-to-invest-up-to-60-billion-in-openai) `#24`

---

## 要闻

### [OpenAI取消API验证并澄清发现所有权](https://x.com/OpenAIDevs/status/2016980854455882209) `#1`
> OpenAI调整API政策，取消GPT-5系列、图像及Sora视频模型的KYC和商业验证，开发者仅需有效付款方式即可访问。但ChatGPT应用提交和未来新模型仍需验证。与此同时有员工澄清此前关于IP定价的讨论，称OpenAI不会主张用户发现的所有权或索取分成。

OpenAI宣布取消GPT-5系列、图像模型gpt-image-1.5/1/mini及Sora视频模型sora-2/sora-2-pro等付费API的KYC与商业验证，开发者仅需有效付款方式即可访问，旨在加速早期实验。此项调整不适用于ChatGPT应用提交及未来部分新模型，这些场景仍需完成验证流程。另据媒体报道，OpenAI研究员Kevin Weil近期澄清，公司不会主张对用户发现的所有权或索取分成，以回应此前因CFO Sarah Friar关于IP定价言论所引发的误解。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/34107222-24b9-4b37-a806-cf4a582d7ad3/m001.png)

相关链接：
- [https://x.com/OpenAIDevs/status/2016980854455882209](https://x.com/OpenAIDevs/status/2016980854455882209)
- [https://the-decoder.com/openai-clarifies-it-wont-claim-ownership-of-user-discoveries-following-confusion-over-monetization-plans](https://the-decoder.com/openai-clarifies-it-wont-claim-ownership-of-user-discoveries-following-confusion-over-monetization-plans)

---

### [谷歌DeepMind发布实验性AI世界模型Project Genie](https://deepmind.google/models/genie/) `#2`
> 谷歌DeepMind推出Project Genie，整合Genie 3世界模型、Nano Banana Pro与Gemini，支持用户通过文本或图像创建可交互虚拟世界。该原型现面向美国地区年满18岁的Google AI Ultra订阅用户开放，以720p分辨率实时运行，但存在60秒互动时长限制及动作范围有限等局限。

谷歌DeepMind发布了实验性研究原型Project Genie，它整合了Genie 3世界模型、Nano Banana Pro图像生成模型和Gemini，现可供美国地区年满18岁的Google AI Ultra订阅用户使用。用户可通过文本或图像提示创建和探索可实时交互的虚拟世界，该原型在720p分辨率下以每秒20-24帧的速度运行。

在使用时，用户首先通过文本或图像提示定义环境，Nano Banana Pro生成作为起点的图像，随后Genie 3可在数秒内创建出可探索的交互世界。作为核心技术，Genie 3具备世界一致性，能回忆用户访问过的位置细节，并支持长达一分钟的记忆以维持交互连续性。用户还能“remix”现有世界或下载视频。

该项目目前存在显著局限。官方因高昂的推理成本将单次互动时长限制为60秒，并指出Agent动作范围有限，无法精确模拟真实世界位置。据媒体报道，该工具体验不稳定，存在导航控制失灵、角色穿墙等问题。其在艺术风格（如动漫）的提示上表现出色，但在生成逼真场景时往往失败，使用真实照片的效果也好坏参半。

官方指出，Genie 3可用于教育、训练自动驾驶车辆及评估AI Agent性能。当前世界模型领域的竞争正升温，竞争对手包括World Labs和AMI Labs。有社区讨论认为，该项目在影视制作、游戏开发和专业训练方面有潜在用途，但其物理法则不准确、时间连贯性不足、持久记忆能力弱及计算成本高昂等短板，限制了其在消费级硬件和VR设备上的应用。DeepMind同时强调，已与责任团队合作以应对新挑战。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/59aedd14-2ab6-4cfe-818b-c978e2974842/m001.gif)

相关链接：
- [https://deepmind.google/models/genie/](https://deepmind.google/models/genie/)
- [https://labs.google/projectgenie](https://labs.google/projectgenie)
- [https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie](https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie)

---

### [阿里Qwen开源Qwen3-ASR模型](https://qwen.ai/blog?id=qwen3asr) `#3`
> 阿里巴巴Qwen团队开源了Qwen3-ASR系列语音识别模型，包括1.7B和0.6B参数版本及一个强制对齐模型，支持52种语言与方言，是首个支持原生流式处理的开源LLM-based ASR模型，采用Apache 2.0协议，相关资源已在相关平台发布。

阿里巴巴Qwen团队正式开源Qwen3-ASR系列语音识别模型，包括Qwen3-ASR-1.7B、Qwen3-ASR-0.6B及Qwen3-ForcedAligner-0.6B三个模型，均采用Apache 2.0协议。官方称，该系列是业内首个支持原生流式处理的开源LLM-based ASR模型，可自动识别与转写52种语言及方言。模型基于自研AuT语音编码器与Qwen3-Omni多模态基座构建，具备在嘈杂、混响等复杂声学环境下的鲁棒性，单次最长可处理20分钟音频。

在性能上，Qwen3-ASR-1.7B在多项基准测试中达到开源领域SOTA水平。其中文方言识别词错误率（WER）较主流商用API平均降低20%；在覆盖16个国家的英文口音测试中表现优于GPT-4o Transcribe、Gemini及Whisper-large-v3；歌唱场景中，其中英文WER分别低至13.91%与14.60%。Qwen3-ASR-0.6B则专注于效率，在128并发下吞吐量可达2000倍。Qwen3-ForcedAligner模型支持11种语言精准时间戳预测。

模型已在GitHub及Hugging Face平台发布，并获得vLLM项目首日支持。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/7d53806e-7d64-4d93-8cd9-1d86b3d3a1ea/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/7d53806e-7d64-4d93-8cd9-1d86b3d3a1ea/m002.png)

相关链接：
- [https://qwen.ai/blog?id=qwen3asr](https://qwen.ai/blog?id=qwen3asr)
- [https://github.com/QwenLM/Qwen3-ASR](https://github.com/QwenLM/Qwen3-ASR)
- [https://huggingface.co/collections/Qwen/qwen3-asr](https://huggingface.co/collections/Qwen/qwen3-asr)
- [https://modelscope.cn/studios/Qwen/Qwen3-ASR](https://modelscope.cn/studios/Qwen/Qwen3-ASR)

---

## 产品应用

### [谷歌地图Gemini导航扩展至步行骑行](https://blog.google/products-and-platforms/products/maps/gemini-navigation-biking-walking/) `#4`
> 谷歌地图的 Gemini 导航功能现已支持步行和骑行。用户可语音提问街区信息、餐厅推荐，或查询预计到达时间、发送短信。该功能已在支持 Gemini 的 iOS 和 Android 设备上分批推送，覆盖全球可用地区。

据谷歌官方博客，谷歌地图Gemini导航功能已从驾驶扩展至步行和骑行场景，提供对话式交互体验。步行时，它充当私人向导，可解答街区问题并推荐沿途高评分餐厅；骑行时支持免提操作，用户能在紧握车把期间查询预计到达时间、会议安排并发送短信以确保安全。该功能正全球分批推送，在支持Gemini的iOS和Android设备上提供，但仅限Gemini服务可用地区。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/134994db-be93-48ce-be25-b84586b2e0de/m001.png)

相关链接：
- [https://blog.google/products-and-platforms/products/maps/gemini-navigation-biking-walking/](https://blog.google/products-and-platforms/products/maps/gemini-navigation-biking-walking/)

---

## 模型发布

### [Google DeepMind发布基因组预测模型AlphaGenome](https://www.nature.com/articles/s41586-025-10014-0) `#5`
> Google DeepMind发布AI模型AlphaGenome，可解析百万碱基对DNA序列，预测11种基因组功能。该模型采用混合架构，支持单碱基分辨率，已在多项基因组预测任务中超越现有技术。AlphaGenome已通过API向学术界开放，助力遗传病研究与新药开发。

Google DeepMind发布基因组学AI模型AlphaGenome，相关论文登上《自然》杂志封面。该模型可处理长达100万个碱基对（1Mb）的DNA序列输入，以单碱基分辨率预测基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图、剪接位点等11种基因组功能模态。

该模型、权重及代码已通过GitHub向学术界开放，提供API与Python SDK供非商业用途使用。据Google CEO桑达尔·皮查伊透露，API已收到来自160多个国家的超过100万次调用。团队表示，AlphaGenome有望成为推动罕见病致因定位、新型治疗靶点发现及合成生物学设计的重要工具。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/6f3d79bc-8a52-47cd-99e3-3f3535fff3cf/m001.png)

相关链接：
- [https://www.nature.com/articles/s41586-025-10014-0](https://www.nature.com/articles/s41586-025-10014-0)

---

### [MiniMax发布Music 2.5模型](https://www.minimaxi.com/audio/introducing/music-2-5/) `#6`
> MiniMax发布Music 2.5音乐生成模型，支持14种结构标签，实现段落级精准控制。模型优化人声、编曲与混音，音质达录音室级，适用于影视、游戏及品牌音频制作。

MiniMax稀宇科技发布Music 2.5模型，其在段落级强控制与物理级高保真方面实现突破，旨在提供格莱美级音乐创作能力。

在控制能力上，该模型开放14种歌曲结构标签，实现对前奏、Hook等每个转折点的精准指挥。音质方面，模型对人声、编曲与混音进行了系统性优化，深度适配华语流行音乐，支持中英文无缝衔接，音色库扩充至100多种乐器以实现录音室级效果。为还原真实演唱技巧，模型优化了声场算法，增强了人声的穿透力与动态情绪。

产品定位为专业创作与生产力工具，已通过API接口支持影视配乐、游戏音频等商业场景集成。Music 2.5已正式上线。

相关链接：
- [https://www.minimaxi.com/audio/introducing/music-2-5/](https://www.minimaxi.com/audio/introducing/music-2-5/)
- [https://platform.minimaxi.com/docs/api-reference/music-generation](https://platform.minimaxi.com/docs/api-reference/music-generation)

---

### [OpenMOSS开源MOVA同步音视频模型](https://github.com/OpenMOSS/MOVA) `#7`
> OpenMOSS团队开源了MOVA模型，支持图文或文本到视频音频的同步生成。该模型采用非对称双塔架构与MoE设计，实现高质量、低显存消耗的音视频合成。

OpenMOSS团队近日发布了MOVA（MOSS Video and Audio），一个旨在打破开源视频生成“无声时代”的基础模型。该模型通过单一推理过程同步生成高保真视频与音频，旨在克服传统级联管道生成的错误累积问题。技术上，MOVA采用非对称双塔架构，通过双向交叉注意力机制融合预训练视频与音频塔，并利用总计320亿参数的MoE设计，在推理时仅激活18亿参数，以平衡质量与效率。模型支持原生双模态的图文到视频音频（IT2VA）和文本到视频音频（T2VA）生成。

根据官方基准测试，MOVA在多语言唇形同步和环境感知音效方面达到业界领先水平。在Verse-Bench基准上的客观评估与人为主观评估也显示，MOVA作为开源模型展现出显著优势，尤其在唇同步任务的关键指标上表现最佳。

该项目完全开源，遵循Apache-2.0许可证，发布了MOVA-360p和MOVA-720p两个版本的模型权重，并提供完整的推理代码、训练管道和LoRA微调脚本。官方资源评估显示，在RTX 4090上通过分层卸载策略生成8秒360p视频约需12GB VRAM和76.7GB主机内存。模型已集成SGLang并支持NPU进行训练和推理，计划在未来增加Diffusers集成和多GPU推理功能。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/46591dc0-d2cd-43ec-bb86-f5826b965195/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/46591dc0-d2cd-43ec-bb86-f5826b965195/m002.png)

相关链接：
- [https://github.com/OpenMOSS/MOVA](https://github.com/OpenMOSS/MOVA)
- [https://mosi.cn/models/mova](https://mosi.cn/models/mova)
- [https://huggingface.co/OpenMOSS-Team/MOVA-360p](https://huggingface.co/OpenMOSS-Team/MOVA-360p)

---

### [飞桨发布PaddleOCR-VL-1.5](https://github.com/PaddlePaddle/PaddleOCR) `#8`
> PaddlePaddle发布并开源了PaddleOCR-VL-1.5，一款0.9B参数的多模态大模型，专为复杂场景文档解析设计。该模型在OmniDocBench上达94.5%准确率，支持111种语言，新增支持文本、印章识别及跨页表格合并功能。

PaddlePaddle发布0.9B参数多模态模型PaddleOCR-VL-1.5，专注真实场景文档解析。基于PP-DocLayoutV3算法，在OmniDocBench v1.5基准达94.5%准确率，于扫描、弯曲、倾斜、屏摄及光照变化五大场景实现SOTA性能。模型新增文本定位识别与印章识别功能，支持语言扩展至111种（含藏文、孟加拉语），并强化特殊符号、古籍、多语言表格、下划线及复选框识别能力。长文档解析支持跨页表格自动合并与段落标题识别。用户可通过PaddleOCR官网在线体验或调用API，模型已发布至GitHub与HuggingFace，支持CLI、Python API及vLLM推理服务器部署，macOS用户建议使用Docker。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/a4b7c45c-474c-46d1-87f0-b550b5d02bf8/m001.png)

相关链接：
- [https://github.com/PaddlePaddle/PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR)
- [https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5)

---

### [Skywork AI开源SkyReels-V3多模态视频模型](https://github.com/SkyworkAI/SkyReels-V3) `#9`
> Skywork AI开源了SkyReels-V3多模态视频生成模型，支持图像转视频、音频驱动视频和视频延长等功能，模型支持720P输出，并针对低显存GPU优化，模型权重已发布，同时提供API服务。

昆仑万维 Skywork AI开源多模态视频模型SkyReels-V3，基于统一上下文学习框架，集成三大功能：参考图像转视频（R2V-14B）、视频延长（V2V-14B）和音频驱动头像生成（A2V-19B）。模型已上线Hugging Face、ModelScope、GitHub及API平台。

R2V支持1-4张参考图，可生成多比例视频，官方评测显示其参考一致性、指令遵循和视觉质量超越Vidu Q2、Kling 1.6和PixVerse V5。V2V提供单镜头延长（5-30秒）及5种镜头切换模式。A2V可基于单张肖像和最长200秒音频生成720p/24fps说话头像，支持多语言及多种风格。

所有模型支持单卡/多卡推理，低显存GPU可通过FP8量化或降至540P/480P运行。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/01639da9-ef66-4680-a19c-c30d3a5b2b48/m001.gif)

相关链接：
- [https://github.com/SkyworkAI/SkyReels-V3](https://github.com/SkyworkAI/SkyReels-V3)
- [https://huggingface.co/spaces/Skywork/SkyReels-V3](https://huggingface.co/spaces/Skywork/SkyReels-V3)
- [https://huggingface.co/collections/Skywork/skyreels-v3](https://huggingface.co/collections/Skywork/skyreels-v3)

---

## 开发生态

### [Cursor发布AI代码溯源标准Agent Trace](https://agent-trace.dev/) `#10`
> Cursor 团队发布 Agent Trace 开放规范。该规范支持 AI 生成代码的文件与行级归属追踪，兼容 Git、Jujutsu 等系统，定义 JSON 格式记录，包含模型标识、贡献者类型及变更范围，允许扩展元数据，以促进 AI 与人类协作。

Cursor团队发布了名为Agent Trace的开放标准规范，旨在为AI生成代码提供供应商中立、可互操作的追踪格式。该规范支持对代码变更进行文件级和行级的归属记录，可追溯所用的AI模型，并兼容Git和Jujutsu等版本控制系统。

Agent Trace的目标是实现工具互操作性和人机可读的细粒度归属，而非追踪法律所有权、训练数据或评估代码质量。其核心是“Trace Record”，一个JSON Schema，包含版本控制信息、生成工具及文件范围等字段。贡献者分为人类、AI、混合或未知类型，AI贡献通过`provider/model-name`格式的`model_id`字段进行标识。规范还提供`metadata`字段以支持供应商扩展。

该规范在CC BY 4.0许可下发布，并提供了参考实现。目前已获得Amp、Cloudflare、Cognition和Vercel等多家合作伙伴支持。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/2259784e-7ec7-4161-8d67-4a08465f7557/m001.png)

相关链接：
- [https://agent-trace.dev/](https://agent-trace.dev/)
- [https://github.com/cursor/agent-trace/tree/main/reference](https://github.com/cursor/agent-trace/tree/main/reference)

---

### [Gradio团队发布Daggr助力AI工作流开发](https://github.com/gradio-app/daggr) `#11`
> Gradio 团队发布 Python 库 Daggr，支持开发者用代码构建连接 Gradio、Hugging Face 模型与自定义函数的 AI 工作流。该库提供可视化画布，支持调试、状态跟踪。

Gradio团队发布Daggr Python库，以代码优先方式构建AI工作流，连接Gradio应用、Hugging Face模型和自定义Python函数。该库自动生成可视化画布，可检查中间输出、重新运行任意步骤并跟踪状态。工作流由GradioNode、InferenceNode、FnNode三种节点构成，支持列表处理（.each/.all()）和选择节点（|操作符）等高级操作。区别于ComfyUI的可视化编辑和Airflow/Prefect的调度监控，Daggr专注为开发者提供交互式AI/ML工作流的实时反馈。支持热重载开发和一键部署至Hugging Face Spaces，并提供REST API。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/eac2adf6-ab40-4c2c-9862-26e256df2bab/m001.png)

相关链接：
- [https://github.com/gradio-app/daggr](https://github.com/gradio-app/daggr)

---

### [Gemini API 中 Gemini 3 系列模型上线Computer Use工具](https://ai.google.dev/gemini-api/docs/computer-use) `#12`
> Gemini API 中 Gemini 3 系列模型上线了 Computer Use 工具，模型通过截图理解屏幕，生成点击、输入等指令，实现网页自动化。需配合客户端执行操作，并处理安全确认。

Gemini API 中 Gemini 3 系列模型上线了 Computer Use 工具，允许开发者构建基于屏幕截图理解和操作计算机界面的Agent。该工具可生成鼠标点击、键盘输入等UI指令，自动化完成数据录入、应用测试、跨网站研究等网页任务。

其工作流程为四步Agent循环：发送API请求→接收模型返回的UI操作指令及可选`safety_decision`安全决策→执行操作（如需确认则必须获得用户批准）→截取新屏幕截图反馈给模型，循环直至任务完成。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/c3604675-1064-4c47-afbe-305d31d8fe3c/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/c3604675-1064-4c47-afbe-305d31d8fe3c/m002.png)

相关链接：
- [https://ai.google.dev/gemini-api/docs/computer-use](https://ai.google.dev/gemini-api/docs/computer-use)
- [https://github.com/google/computer-use-preview/](https://github.com/google/computer-use-preview/)

---

### [xAI正式发布Grok Imagine API](https://x.ai/news/grok-imagine-api) `#13`
> xAI 发布 Grok Imagine API，支持从文本和图像生成图像或视频，提供视频编辑功能。该模型在质量、成本和延迟上表现领先，已通过官方 API、Python SDK 及 fal、ComfyUI 等平台开放。

xAI正式发布Grok Imagine API，这是一个集成视频-音频生成、图生视频转换及视频编辑功能的统一接口。据Artificial Analysis官网，其在文生视频和图生视频榜均排名第一；据LMArena官方消息，在图生视频Arena排名第三、文生视频第四，性能接近谷歌Veo 3.1和OpenAI Sora 2。API通过官方接口、Python SDK、Playground及fal、ComfyUI、HeyGen等合作平台向开发者开放。支持文本或图片生成15秒视频、物体增删替换、角色动画驱动、季节天气切换等编辑功能。该模型优化了质量、成本和延迟以支持快速创意迭代，定价为图生图每张0.02美元，视频生成每秒0.05美元。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/d82c170b-358e-433d-888a-ae93f3839db0/m001.png)

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/d82c170b-358e-433d-888a-ae93f3839db0/m002.png)

相关链接：
- [https://x.ai/news/grok-imagine-api](https://x.ai/news/grok-imagine-api)
- [https://docs.x.ai/docs/guides/video-generations](https://docs.x.ai/docs/guides/video-generations)

---

### [Cloudflare发布Moltworker](https://blog.cloudflare.com/moltworker-self-hosted-ai-agent/) `#14`
> Cloudflare 推出开源项目 Moltworker，让用户无需购买新硬件，即可在云端自托管 AI 助手 Moltbot。该方案需 Cloudflare 账户及每月 5 美元 Workers 计划，AI Gateway 和 R2 提供免费额度。项目为概念验证，非正式产品。

Cloudflare发布Moltworker，这是一个中间件Worker和适配脚本，使开源个人AI助手Moltbot（原名Clawdbot）能在其云平台运行，免除用户购置Mac mini等专用硬件的热潮。该方案深度整合多项服务：AI Gateway统一管理请求与计费，Sandboxes在隔离环境中执行核心逻辑，R2实现数据持久化存储，Browser Rendering通过CDP代理完成浏览器自动化任务，Zero Trust Access保障安全。得益于Workers对Node.js兼容性显著提升，该项目已在GitHub开源。部署需Cloudflare账户及每月5美元Workers付费计划，AI Gateway和R2提供免费额度。官方明确其为展示Developer Platform能力的概念验证，非正式产品。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/47438576-3109-4beb-853b-7407148390b4/m001.png)

相关链接：
- [https://blog.cloudflare.com/moltworker-self-hosted-ai-agent/](https://blog.cloudflare.com/moltworker-self-hosted-ai-agent/)
- [https://github.com/cloudflare/moltworker](https://github.com/cloudflare/moltworker)

---

### [Unsloth发布Kimi K2.5模型本地运行方案](https://unsloth.ai/docs/models/kimi-k2.5) `#15`
> Unsloth发布Kimi K2.5 1.8-bit GGUF版本，模型体积压缩至240GB，可在本地设备运行。用户需满足磁盘、RAM与VRAM总和≥240GB。

Unsloth发布Kimi K2.5本地运行指南，通过1.8-bit量化将1T参数模型体积从630GB压缩至240GB，降幅60%。运行需磁盘+RAM+VRAM总和不低于240GB，官方建议内存大于240GB以实现10+ tokens/s生成速度。典型配置为24GB GPU配合256GB内存，将MoE层卸载至内存可达约10 tokens/s。未量化原版需至少4块H200 GPU。为保持精度可选4-bit或5-bit量化，推荐UD-Q2_K_XL版本（375GB）。该模型在视觉、编码、Agent和聊天任务上达到SOTA性能，采用修改版DeepSeek V3 MoE架构，其2亿参数的MoonViT视觉编码器暂不支持视觉功能。运行需最新llama.cpp，支持OpenAI兼容API，指南附带与GPT-5.2等顶尖模型的多项基准测试对比数据。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/696cb3a4-b5c5-4347-acf3-722e0cfcc56d/m001.png)

相关链接：
- [https://unsloth.ai/docs/models/kimi-k2.5](https://unsloth.ai/docs/models/kimi-k2.5)
- [https://huggingface.co/unsloth/Kimi-K2.5-GGUF](https://huggingface.co/unsloth/Kimi-K2.5-GGUF)

---

## 技术与洞察

### [OpenAI 发文介绍内部自用 AI数据分析Agent](https://openai.com/index/inside-our-in-house-data-agent/) `#16`
> OpenAI 发文介绍内部自用 AI数据分析Agent，其基于 GPT-5.2 和 Codex，支持自然语言查询超 600 PB 数据与 7 万数据集。系统集成六层上下文与自我学习机制，保障安全与准确性。

OpenAI近期发文介绍其内部AI数据分析Agent。该工具基于GPT-5.2和Codex，支持员工用自然语言在数分钟内分析超过600PB数据与70,000个数据集，往常需数天。

该Agent已服务超3.5k名内部用户，覆盖工程、研究、市场、财务等多团队。其六层上下文系统（表使用、人工标注、Codex增强、机构知识、记忆、运行时）与自我学习记忆功能，可自动检测错误、调整方法并重试。系统严格继承现有权限保障数据安全，并通过Evals API持续评估性能。

员工可通过Slack机器人、Web界面、IDE插件等多平台访问。这一工具将复杂分析流程压缩至分钟级，同时保持透明性，展示推理过程与底层查询链接供验证。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/50760332-486c-4dc6-886b-d84c4e96195f/m001.png)

相关链接：
- [https://openai.com/index/inside-our-in-house-data-agent/](https://openai.com/index/inside-our-in-house-data-agent/)

---

## 行业动态

### [Anthropic盗版训练AI再遭天价索赔](https://www.reuters.com/legal/litigation/anthropic-faces-new-music-publisher-lawsuit-over-alleged-piracy-2026-01-28/) `#17`
> 音乐出版商联盟起诉Anthropic，指控其非法下载超2万首版权歌曲训练AI，索赔超30亿美元。此案已将CEO Dario Amodei列为被告。

由Concord和Universal音乐集团领头的音乐出版商联盟起诉Anthropic及其CEO Dario Amodei，指控其非法下载超20,000首受版权保护歌曲用于训练AI模型，索赔超30亿美元。此案源于Bartz v. Anthropic作者诉讼案的取证过程，出版商称在此过程中发现更大规模侵权行为。法官William Alsup此前在Bartz案中裁定，用版权内容训练模型合法，但盗版获取违法。Bartz案最终以Anthropic支付15亿美元就约50万部作品达成和解，作者平均每部获赔约3,000美元。出版商最初因约500部作品起诉，但取证中发现数千首更多侵权作品，法院去年十月驳回其修改原诉讼的动议后，出版商提起单独诉讼，同时将联合创始人Benjamin Mann列为被告。诉讼文件称Anthropic数十亿美元商业帝国建立在盗版之上。

相关链接：
- [https://www.reuters.com/legal/litigation/anthropic-faces-new-music-publisher-lawsuit-over-alleged-piracy-2026-01-28/](https://www.reuters.com/legal/litigation/anthropic-faces-new-music-publisher-lawsuit-over-alleged-piracy-2026-01-28/)

---

### [Apple收购面部运动AI公司Q.ai](https://www.ynetnews.com/business/article/by7ymzti11l) `#18`
> Apple 收购以色列 AI 初创 Q.ai，该公司擅长通过面部肌肉运动解读无声语音。技术或用于 Siri、AirPods 及 FaceTime。

Apple确认收购以色列AI初创公司Q.ai，其技术通过分析面部肌肉微运动解读无声通信和耳语，可检测默读、识别用户身份并评估情绪、心率等生理指标。Q.ai的100名员工全部加入Apple，包括创始人Aviad Maizels——他此前创立的PrimeSense于2013年被Apple收购，为Face ID奠基。据《金融时报》和Reuters援引知情人士，交易估值约16至20亿美元。Apple未披露具体整合计划，外界推测该技术可能用于增强Siri、AirPods音频体验及FaceTime等功能。

相关链接：
- [https://www.ynetnews.com/business/article/by7ymzti11l](https://www.ynetnews.com/business/article/by7ymzti11l)

---

### [SpaceX与xAI商谈合并或为IPO铺路](https://www.reuters.com/world/musks-spacex-merger-talks-with-xai-ahead-planned-ipo-source-says-2026-01-29/) `#19`
> Elon Musk旗下SpaceX与xAI正商谈合并，或为SpaceX今年IPO铺路。合并将整合Grok、X平台、Starlink及火箭业务，或实现xAI太空数据中心目标。

据路透社报道，Elon Musk旗下SpaceX与xAI正进行合并谈判，可能为今年计划中的SpaceX IPO做准备。合并旨在将Grok聊天机器人、X平台、Starlink卫星及SpaceX火箭等产品整合至同一公司，并可能实现xAI将数据中心部署到太空的目标。尽管公司代表未公开讨论，但文件显示1月21日已在内华达州成立K2 Merger Sub Inc.和K2 Merger Sub 2 LLC两个新实体。据报道，SpaceX与Tesla已分别向xAI投资20亿美元。去年xAI收购X的估值分别为800亿和330亿美元。成立于2002年的SpaceX估值达8000亿美元，是美国最有价值的私营公司。据《金融时报》报道，Musk希望6月让SpaceX上市，但其宏大计划很少按时实现。

相关链接：
- [https://www.reuters.com/world/musks-spacex-merger-talks-with-xai-ahead-planned-ipo-source-says-2026-01-29/](https://www.reuters.com/world/musks-spacex-merger-talks-with-xai-ahead-planned-ipo-source-says-2026-01-29/)
- [https://techcrunch.com/2026/01/29/elon-musk-spacex-xai-merger-talks-ipo-reuters](https://techcrunch.com/2026/01/29/elon-musk-spacex-xai-merger-talks-ipo-reuters)

---

### [平头哥发布真武810E性能比肩H20](https://www.t-head.cn/product?id=7) `#20`
> 阿里巴巴旗下平头哥发布自研AI芯片“真武810E”，采用96GB HBM2e内存与自研ICN互联技术，片间带宽达700GB/s，性能超越A800及主流国产GPU。

阿里巴巴旗下平头哥半导体发布全栈自研高端AI芯片“真武810E”，为阿里“通云哥”（通义实验室、阿里云、平头哥）AI战略核心硬件。性能超越A800及主流国产GPU。技术规格：96GB HBM2e内存、自研ICN片间互联技术（带宽700GB/s，7个独立链路），支持超大规模集群线性加速。主打高易用性与芯云一体化，全面兼容主流AI生态，支持源代码级编译和算法无缝迁移。已在阿里云部署多个万卡规模集群并通过大规模业务验证，服务国家电网、中科院、小鹏汽车、新浪微博等超400家头部客户。该芯片发布标志“通云哥”黄金三角战略完整成型，实现阿里AI技术全链路闭环。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/c5fb7be0-4828-4299-853e-1d25183c947f/m001.png)

相关链接：
- [https://www.t-head.cn/product?id=7](https://www.t-head.cn/product?id=7)

---

### [微软财报OpenAI投资推动云业务与利润增长](https://microsoft.com/en-us/investor/earnings/FY-2026-Q2/Document/DownloadDocument/132/FinancialStatementFY26Q2.xlsx) `#21`
> 微软发布2026财年第二季度财报，营收813亿美元，同比增长17%；净利润达383亿美元，主要因对OpenAI投资获76亿美元账面收益。

微软2026财年第二季度财报显示，营收813亿美元，同比增长17%；GAAP净利润383亿美元，同比增长21%，其中76亿美元来自OpenAI投资账面收益（去年同期亏损9.39亿美元）。微软云收入首次突破500亿美元至515亿，同比增长26%；Azure营收增长39%。商业剩余履约义务从3920亿跃升至6250亿美元，其中约45%（超2800亿）来自OpenAI承诺的2500亿美元Azure采购。当季资本支出375亿美元，同比增长66%，主要用于扩充AI算力。Microsoft 365 Copilot付费席位达1500万，GitHub Copilot付费订阅者470万，同比增长75%。UBS分析师指出Azure与Microsoft 365增长略低于预期。公司称市场需求远超数据中心供给。

相关链接：
- [https://microsoft.com/en-us/investor/earnings/FY-2026-Q2/Document/DownloadDocument/132/FinancialStatementFY26Q2.xlsx](https://microsoft.com/en-us/investor/earnings/FY-2026-Q2/Document/DownloadDocument/132/FinancialStatementFY26Q2.xlsx)
- [https://www.microsoft.com/investor/reports/ar25/index.html](https://www.microsoft.com/investor/reports/ar25/index.html)
- [https://techcrunch.com/2026/01/28/microsoft-earnings-7-6-billion-openai/](https://techcrunch.com/2026/01/28/microsoft-earnings-7-6-billion-openai/)

---

## 前瞻与传闻

### [字节跳动阿里据报春节前将发新AI模型](https://thein.fo/3M63pye) `#22`
> 据报道，字节跳动与阿里巴巴计划于农历新年前后推出新一代旗舰 AI 模型。据社区预测，未来两周内可能发布 DeepSeek-R2、Qwen-3.5 及 Seed 2.0，但所有信息尚未有官方确认。

据The Information独家报道，字节跳动与阿里巴巴拟在2月中旬农历新年期间发布新一代旗舰AI模型。与此同时，社区讨论预测未来2-3周可能集中发布多款模型，包括DeepSeek-V4、阿里巴巴Qwen-3.5、字节跳动Seed 2.0等。但关于DeepSeek的新模型版本，社区存在R2与V4的不同说法。所有信息均源自非官方讨论，具体版本及发布时间均未获得官方确认。

相关链接：
- [https://thein.fo/3M63pye](https://thein.fo/3M63pye)

---

### [OpenAI宣布ChatGPT将停用GPT-4o等旧模型](https://openai.com/index/retiring-gpt-4o-and-older-models/) `#23`
> OpenAI 宣布，将于 2026 年 2 月 13 日在 ChatGPT 中停用 GPT-4o 等多个旧模型，主要因用户已普遍迁移至 GPT-5.2，且新模型已整合其功能。API 服务不受影响。

OpenAI宣布将于2026年2月13日从ChatGPT产品中停用GPT-4o、GPT-4.1、GPT-4.1 mini和OpenAI o4-mini等旧模型，API服务不受影响。官方称，因绝大多数用户已迁移至GPT-5.2，且GPT-4o的对话风格与创意特性已在GPT-5.1和GPT-5.2中得到改进，目前仅0.1%用户仍使用GPT-4o。此前GPT-4o曾因用户反馈恢复访问，其意见直接影响了新版本开发。OpenAI表示将继续优化模型个性与创造力，并推进专为成人设计的ChatGPT版本，已在多数市场为未成年用户上线年龄预测功能。

![](http://testtttt.oss-cn-guangzhou.aliyuncs.com/uploads/aidaily/c06a7637-3d21-49fb-9ddb-ef9c8b41222e/801388ad-8da6-47ce-86d4-70b5e332c379/m001.png)

相关链接：
- [https://openai.com/index/retiring-gpt-4o-and-older-models/](https://openai.com/index/retiring-gpt-4o-and-older-models/)

---

### [OpenAI有望达成千亿美元新一轮融资](https://theinformation.com/articles/nvidia-microsoft-and-amazon-are-in-talks-to-invest-up-to-60-billion-in-openai) `#24`
> 据报道，OpenAI正寻求1000亿美元融资，预计一季度末完成。Amazon、Nvidia、Microsoft和软银或联合投资。

OpenAI正洽谈新一轮1000亿美元融资，估值或从5000亿升至8300亿美元。据《华尔街日报》，Amazon可能投资至少500亿美元，CEO Andy Jassy正与OpenAI CEO Sam Altman谈判，预计一季度末完成。The Information引述知情人士称，Nvidia、Microsoft和Amazon拟联合投资600亿美元（Nvidia或达300亿，Amazon考虑100-200亿，Microsoft低于100亿），软银计划追加300亿。Amazon此举引关注，因其已向OpenAI竞争对手Anthropic投资80亿美元并提供云服务，还建有110亿美元数据中心专门运行Anthropic模型。有分析担忧，因投资方多为OpenAI供应商和客户，融得资金可能回流形成"循环融资"。OpenAI预计2029年前计算支出达4300亿美元。

相关链接：
- [https://theinformation.com/articles/nvidia-microsoft-and-amazon-are-in-talks-to-invest-up-to-60-billion-in-openai](https://theinformation.com/articles/nvidia-microsoft-and-amazon-are-in-talks-to-invest-up-to-60-billion-in-openai)
- [https://techcrunch.com/2026/01/29/amazon-is-reportedly-in-talks-to-invest-50-billion-in-openai](https://techcrunch.com/2026/01/29/amazon-is-reportedly-in-talks-to-invest-50-billion-in-openai)

---

**提示**：内容由AI辅助创作，可能存在**幻觉**和**错误**。
