
AI 早报 2026-01-30
概览
要闻
产品应用
- 谷歌地图Gemini导航扩展至步行骑行 ↗
#4
模型发布
- Google DeepMind发布基因组预测模型AlphaGenome ↗
#5 - MiniMax发布Music 2.5模型 ↗
#6 - OpenMOSS开源MOVA同步音视频模型 ↗
#7 - 飞桨发布PaddleOCR-VL-1.5 ↗
#8 - Skywork AI开源SkyReels-V3多模态视频模型 ↗
#9
开发生态
- Cursor发布AI代码溯源标准Agent Trace ↗
#10 - Gradio团队发布Daggr助力AI工作流开发 ↗
#11 - Gemini API 中 Gemini 3 系列模型上线Computer Use工具 ↗
#12 - xAI正式发布Grok Imagine API ↗
#13 - Cloudflare发布Moltworker ↗
#14 - Unsloth发布Kimi K2.5模型本地运行方案 ↗
#15
技术与洞察
- OpenAI 发文介绍内部自用 AI数据分析Agent ↗
#16
行业动态
- Anthropic盗版训练AI再遭天价索赔 ↗
#17 - Apple收购面部运动AI公司Q.ai ↗
#18 - SpaceX与xAI商谈合并或为IPO铺路 ↗
#19 - 平头哥发布真武810E性能比肩H20 ↗
#20 - 微软财报OpenAI投资推动云业务与利润增长 ↗
#21
前瞻与传闻
要闻
OpenAI取消API验证并澄清发现所有权 #1
OpenAI调整API政策,取消GPT-5系列、图像及Sora视频模型的KYC和商业验证,开发者仅需有效付款方式即可访问。但ChatGPT应用提交和未来新模型仍需验证。与此同时有员工澄清此前关于IP定价的讨论,称OpenAI不会主张用户发现的所有权或索取分成。
OpenAI宣布取消GPT-5系列、图像模型gpt-image-1.5/1/mini及Sora视频模型sora-2/sora-2-pro等付费API的KYC与商业验证,开发者仅需有效付款方式即可访问,旨在加速早期实验。此项调整不适用于ChatGPT应用提交及未来部分新模型,这些场景仍需完成验证流程。另据媒体报道,OpenAI研究员Kevin Weil近期澄清,公司不会主张对用户发现的所有权或索取分成,以回应此前因CFO Sarah Friar关于IP定价言论所引发的误解。

相关链接:
- https://x.com/OpenAIDevs/status/2016980854455882209
- https://the-decoder.com/openai-clarifies-it-wont-claim-ownership-of-user-discoveries-following-confusion-over-monetization-plans
谷歌DeepMind发布实验性AI世界模型Project Genie #2
谷歌DeepMind推出Project Genie,整合Genie 3世界模型、Nano Banana Pro与Gemini,支持用户通过文本或图像创建可交互虚拟世界。该原型现面向美国地区年满18岁的Google AI Ultra订阅用户开放,以720p分辨率实时运行,但存在60秒互动时长限制及动作范围有限等局限。
谷歌DeepMind发布了实验性研究原型Project Genie,它整合了Genie 3世界模型、Nano Banana Pro图像生成模型和Gemini,现可供美国地区年满18岁的Google AI Ultra订阅用户使用。用户可通过文本或图像提示创建和探索可实时交互的虚拟世界,该原型在720p分辨率下以每秒20-24帧的速度运行。
在使用时,用户首先通过文本或图像提示定义环境,Nano Banana Pro生成作为起点的图像,随后Genie 3可在数秒内创建出可探索的交互世界。作为核心技术,Genie 3具备世界一致性,能回忆用户访问过的位置细节,并支持长达一分钟的记忆以维持交互连续性。用户还能“remix”现有世界或下载视频。
该项目目前存在显著局限。官方因高昂的推理成本将单次互动时长限制为60秒,并指出Agent动作范围有限,无法精确模拟真实世界位置。据媒体报道,该工具体验不稳定,存在导航控制失灵、角色穿墙等问题。其在艺术风格(如动漫)的提示上表现出色,但在生成逼真场景时往往失败,使用真实照片的效果也好坏参半。
官方指出,Genie 3可用于教育、训练自动驾驶车辆及评估AI Agent性能。当前世界模型领域的竞争正升温,竞争对手包括World Labs和AMI Labs。有社区讨论认为,该项目在影视制作、游戏开发和专业训练方面有潜在用途,但其物理法则不准确、时间连贯性不足、持久记忆能力弱及计算成本高昂等短板,限制了其在消费级硬件和VR设备上的应用。DeepMind同时强调,已与责任团队合作以应对新挑战。

相关链接:
- https://deepmind.google/models/genie/
- https://labs.google/projectgenie
- https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie
阿里Qwen开源Qwen3-ASR模型 #3
阿里巴巴Qwen团队开源了Qwen3-ASR系列语音识别模型,包括1.7B和0.6B参数版本及一个强制对齐模型,支持52种语言与方言,是首个支持原生流式处理的开源LLM-based ASR模型,采用Apache 2.0协议,相关资源已在相关平台发布。
阿里巴巴Qwen团队正式开源Qwen3-ASR系列语音识别模型,包括Qwen3-ASR-1.7B、Qwen3-ASR-0.6B及Qwen3-ForcedAligner-0.6B三个模型,均采用Apache 2.0协议。官方称,该系列是业内首个支持原生流式处理的开源LLM-based ASR模型,可自动识别与转写52种语言及方言。模型基于自研AuT语音编码器与Qwen3-Omni多模态基座构建,具备在嘈杂、混响等复杂声学环境下的鲁棒性,单次最长可处理20分钟音频。
在性能上,Qwen3-ASR-1.7B在多项基准测试中达到开源领域SOTA水平。其中文方言识别词错误率(WER)较主流商用API平均降低20%;在覆盖16个国家的英文口音测试中表现优于GPT-4o Transcribe、Gemini及Whisper-large-v3;歌唱场景中,其中英文WER分别低至13.91%与14.60%。Qwen3-ASR-0.6B则专注于效率,在128并发下吞吐量可达2000倍。Qwen3-ForcedAligner模型支持11种语言精准时间戳预测。
模型已在GitHub及Hugging Face平台发布,并获得vLLM项目首日支持。


相关链接:
- https://qwen.ai/blog?id=qwen3asr
- https://github.com/QwenLM/Qwen3-ASR
- https://huggingface.co/collections/Qwen/qwen3-asr
- https://modelscope.cn/studios/Qwen/Qwen3-ASR
产品应用
谷歌地图Gemini导航扩展至步行骑行 #4
谷歌地图的 Gemini 导航功能现已支持步行和骑行。用户可语音提问街区信息、餐厅推荐,或查询预计到达时间、发送短信。该功能已在支持 Gemini 的 iOS 和 Android 设备上分批推送,覆盖全球可用地区。
据谷歌官方博客,谷歌地图Gemini导航功能已从驾驶扩展至步行和骑行场景,提供对话式交互体验。步行时,它充当私人向导,可解答街区问题并推荐沿途高评分餐厅;骑行时支持免提操作,用户能在紧握车把期间查询预计到达时间、会议安排并发送短信以确保安全。该功能正全球分批推送,在支持Gemini的iOS和Android设备上提供,但仅限Gemini服务可用地区。

相关链接:
模型发布
Google DeepMind发布基因组预测模型AlphaGenome #5
Google DeepMind发布AI模型AlphaGenome,可解析百万碱基对DNA序列,预测11种基因组功能。该模型采用混合架构,支持单碱基分辨率,已在多项基因组预测任务中超越现有技术。AlphaGenome已通过API向学术界开放,助力遗传病研究与新药开发。
Google DeepMind发布基因组学AI模型AlphaGenome,相关论文登上《自然》杂志封面。该模型可处理长达100万个碱基对(1Mb)的DNA序列输入,以单碱基分辨率预测基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图、剪接位点等11种基因组功能模态。
该模型、权重及代码已通过GitHub向学术界开放,提供API与Python SDK供非商业用途使用。据Google CEO桑达尔·皮查伊透露,API已收到来自160多个国家的超过100万次调用。团队表示,AlphaGenome有望成为推动罕见病致因定位、新型治疗靶点发现及合成生物学设计的重要工具。

相关链接:
MiniMax发布Music 2.5模型 #6
MiniMax发布Music 2.5音乐生成模型,支持14种结构标签,实现段落级精准控制。模型优化人声、编曲与混音,音质达录音室级,适用于影视、游戏及品牌音频制作。
MiniMax稀宇科技发布Music 2.5模型,其在段落级强控制与物理级高保真方面实现突破,旨在提供格莱美级音乐创作能力。
在控制能力上,该模型开放14种歌曲结构标签,实现对前奏、Hook等每个转折点的精准指挥。音质方面,模型对人声、编曲与混音进行了系统性优化,深度适配华语流行音乐,支持中英文无缝衔接,音色库扩充至100多种乐器以实现录音室级效果。为还原真实演唱技巧,模型优化了声场算法,增强了人声的穿透力与动态情绪。
产品定位为专业创作与生产力工具,已通过API接口支持影视配乐、游戏音频等商业场景集成。Music 2.5已正式上线。
相关链接:
- https://www.minimaxi.com/audio/introducing/music-2-5/
- https://platform.minimaxi.com/docs/api-reference/music-generation
OpenMOSS开源MOVA同步音视频模型 #7
OpenMOSS团队开源了MOVA模型,支持图文或文本到视频音频的同步生成。该模型采用非对称双塔架构与MoE设计,实现高质量、低显存消耗的音视频合成。
OpenMOSS团队近日发布了MOVA(MOSS Video and Audio),一个旨在打破开源视频生成“无声时代”的基础模型。该模型通过单一推理过程同步生成高保真视频与音频,旨在克服传统级联管道生成的错误累积问题。技术上,MOVA采用非对称双塔架构,通过双向交叉注意力机制融合预训练视频与音频塔,并利用总计320亿参数的MoE设计,在推理时仅激活18亿参数,以平衡质量与效率。模型支持原生双模态的图文到视频音频(IT2VA)和文本到视频音频(T2VA)生成。
根据官方基准测试,MOVA在多语言唇形同步和环境感知音效方面达到业界领先水平。在Verse-Bench基准上的客观评估与人为主观评估也显示,MOVA作为开源模型展现出显著优势,尤其在唇同步任务的关键指标上表现最佳。
该项目完全开源,遵循Apache-2.0许可证,发布了MOVA-360p和MOVA-720p两个版本的模型权重,并提供完整的推理代码、训练管道和LoRA微调脚本。官方资源评估显示,在RTX 4090上通过分层卸载策略生成8秒360p视频约需12GB VRAM和76.7GB主机内存。模型已集成SGLang并支持NPU进行训练和推理,计划在未来增加Diffusers集成和多GPU推理功能。


相关链接:
- https://github.com/OpenMOSS/MOVA
- https://mosi.cn/models/mova
- https://huggingface.co/OpenMOSS-Team/MOVA-360p
飞桨发布PaddleOCR-VL-1.5 #8
PaddlePaddle发布并开源了PaddleOCR-VL-1.5,一款0.9B参数的多模态大模型,专为复杂场景文档解析设计。该模型在OmniDocBench上达94.5%准确率,支持111种语言,新增支持文本、印章识别及跨页表格合并功能。
PaddlePaddle发布0.9B参数多模态模型PaddleOCR-VL-1.5,专注真实场景文档解析。基于PP-DocLayoutV3算法,在OmniDocBench v1.5基准达94.5%准确率,于扫描、弯曲、倾斜、屏摄及光照变化五大场景实现SOTA性能。模型新增文本定位识别与印章识别功能,支持语言扩展至111种(含藏文、孟加拉语),并强化特殊符号、古籍、多语言表格、下划线及复选框识别能力。长文档解析支持跨页表格自动合并与段落标题识别。用户可通过PaddleOCR官网在线体验或调用API,模型已发布至GitHub与HuggingFace,支持CLI、Python API及vLLM推理服务器部署,macOS用户建议使用Docker。

相关链接:
Skywork AI开源SkyReels-V3多模态视频模型 #9
Skywork AI开源了SkyReels-V3多模态视频生成模型,支持图像转视频、音频驱动视频和视频延长等功能,模型支持720P输出,并针对低显存GPU优化,模型权重已发布,同时提供API服务。
昆仑万维 Skywork AI开源多模态视频模型SkyReels-V3,基于统一上下文学习框架,集成三大功能:参考图像转视频(R2V-14B)、视频延长(V2V-14B)和音频驱动头像生成(A2V-19B)。模型已上线Hugging Face、ModelScope、GitHub及API平台。
R2V支持1-4张参考图,可生成多比例视频,官方评测显示其参考一致性、指令遵循和视觉质量超越Vidu Q2、Kling 1.6和PixVerse V5。V2V提供单镜头延长(5-30秒)及5种镜头切换模式。A2V可基于单张肖像和最长200秒音频生成720p/24fps说话头像,支持多语言及多种风格。
所有模型支持单卡/多卡推理,低显存GPU可通过FP8量化或降至540P/480P运行。

相关链接:
- https://github.com/SkyworkAI/SkyReels-V3
- https://huggingface.co/spaces/Skywork/SkyReels-V3
- https://huggingface.co/collections/Skywork/skyreels-v3
开发生态
Cursor发布AI代码溯源标准Agent Trace #10
Cursor 团队发布 Agent Trace 开放规范。该规范支持 AI 生成代码的文件与行级归属追踪,兼容 Git、Jujutsu 等系统,定义 JSON 格式记录,包含模型标识、贡献者类型及变更范围,允许扩展元数据,以促进 AI 与人类协作。
Cursor团队发布了名为Agent Trace的开放标准规范,旨在为AI生成代码提供供应商中立、可互操作的追踪格式。该规范支持对代码变更进行文件级和行级的归属记录,可追溯所用的AI模型,并兼容Git和Jujutsu等版本控制系统。
Agent Trace的目标是实现工具互操作性和人机可读的细粒度归属,而非追踪法律所有权、训练数据或评估代码质量。其核心是“Trace Record”,一个JSON Schema,包含版本控制信息、生成工具及文件范围等字段。贡献者分为人类、AI、混合或未知类型,AI贡献通过provider/model-name格式的model_id字段进行标识。规范还提供metadata字段以支持供应商扩展。
该规范在CC BY 4.0许可下发布,并提供了参考实现。目前已获得Amp、Cloudflare、Cognition和Vercel等多家合作伙伴支持。

相关链接:
Gradio团队发布Daggr助力AI工作流开发 #11
Gradio 团队发布 Python 库 Daggr,支持开发者用代码构建连接 Gradio、Hugging Face 模型与自定义函数的 AI 工作流。该库提供可视化画布,支持调试、状态跟踪。
Gradio团队发布Daggr Python库,以代码优先方式构建AI工作流,连接Gradio应用、Hugging Face模型和自定义Python函数。该库自动生成可视化画布,可检查中间输出、重新运行任意步骤并跟踪状态。工作流由GradioNode、InferenceNode、FnNode三种节点构成,支持列表处理(.each/.all())和选择节点(|操作符)等高级操作。区别于ComfyUI的可视化编辑和Airflow/Prefect的调度监控,Daggr专注为开发者提供交互式AI/ML工作流的实时反馈。支持热重载开发和一键部署至Hugging Face Spaces,并提供REST API。

相关链接:
Gemini API 中 Gemini 3 系列模型上线Computer Use工具 #12
Gemini API 中 Gemini 3 系列模型上线了 Computer Use 工具,模型通过截图理解屏幕,生成点击、输入等指令,实现网页自动化。需配合客户端执行操作,并处理安全确认。
Gemini API 中 Gemini 3 系列模型上线了 Computer Use 工具,允许开发者构建基于屏幕截图理解和操作计算机界面的Agent。该工具可生成鼠标点击、键盘输入等UI指令,自动化完成数据录入、应用测试、跨网站研究等网页任务。
其工作流程为四步Agent循环:发送API请求→接收模型返回的UI操作指令及可选safety_decision安全决策→执行操作(如需确认则必须获得用户批准)→截取新屏幕截图反馈给模型,循环直至任务完成。


相关链接:
xAI正式发布Grok Imagine API #13
xAI 发布 Grok Imagine API,支持从文本和图像生成图像或视频,提供视频编辑功能。该模型在质量、成本和延迟上表现领先,已通过官方 API、Python SDK 及 fal、ComfyUI 等平台开放。
xAI正式发布Grok Imagine API,这是一个集成视频-音频生成、图生视频转换及视频编辑功能的统一接口。据Artificial Analysis官网,其在文生视频和图生视频榜均排名第一;据LMArena官方消息,在图生视频Arena排名第三、文生视频第四,性能接近谷歌Veo 3.1和OpenAI Sora 2。API通过官方接口、Python SDK、Playground及fal、ComfyUI、HeyGen等合作平台向开发者开放。支持文本或图片生成15秒视频、物体增删替换、角色动画驱动、季节天气切换等编辑功能。该模型优化了质量、成本和延迟以支持快速创意迭代,定价为图生图每张0.02美元,视频生成每秒0.05美元。


相关链接:
Cloudflare发布Moltworker #14
Cloudflare 推出开源项目 Moltworker,让用户无需购买新硬件,即可在云端自托管 AI 助手 Moltbot。该方案需 Cloudflare 账户及每月 5 美元 Workers 计划,AI Gateway 和 R2 提供免费额度。项目为概念验证,非正式产品。
Cloudflare发布Moltworker,这是一个中间件Worker和适配脚本,使开源个人AI助手Moltbot(原名Clawdbot)能在其云平台运行,免除用户购置Mac mini等专用硬件的热潮。该方案深度整合多项服务:AI Gateway统一管理请求与计费,Sandboxes在隔离环境中执行核心逻辑,R2实现数据持久化存储,Browser Rendering通过CDP代理完成浏览器自动化任务,Zero Trust Access保障安全。得益于Workers对Node.js兼容性显著提升,该项目已在GitHub开源。部署需Cloudflare账户及每月5美元Workers付费计划,AI Gateway和R2提供免费额度。官方明确其为展示Developer Platform能力的概念验证,非正式产品。

相关链接:
- https://blog.cloudflare.com/moltworker-self-hosted-ai-agent/
- https://github.com/cloudflare/moltworker
Unsloth发布Kimi K2.5模型本地运行方案 #15
Unsloth发布Kimi K2.5 1.8-bit GGUF版本,模型体积压缩至240GB,可在本地设备运行。用户需满足磁盘、RAM与VRAM总和≥240GB。
Unsloth发布Kimi K2.5本地运行指南,通过1.8-bit量化将1T参数模型体积从630GB压缩至240GB,降幅60%。运行需磁盘+RAM+VRAM总和不低于240GB,官方建议内存大于240GB以实现10+ tokens/s生成速度。典型配置为24GB GPU配合256GB内存,将MoE层卸载至内存可达约10 tokens/s。未量化原版需至少4块H200 GPU。为保持精度可选4-bit或5-bit量化,推荐UD-Q2_K_XL版本(375GB)。该模型在视觉、编码、Agent和聊天任务上达到SOTA性能,采用修改版DeepSeek V3 MoE架构,其2亿参数的MoonViT视觉编码器暂不支持视觉功能。运行需最新llama.cpp,支持OpenAI兼容API,指南附带与GPT-5.2等顶尖模型的多项基准测试对比数据。

相关链接:
技术与洞察
OpenAI 发文介绍内部自用 AI数据分析Agent #16
OpenAI 发文介绍内部自用 AI数据分析Agent,其基于 GPT-5.2 和 Codex,支持自然语言查询超 600 PB 数据与 7 万数据集。系统集成六层上下文与自我学习机制,保障安全与准确性。
OpenAI近期发文介绍其内部AI数据分析Agent。该工具基于GPT-5.2和Codex,支持员工用自然语言在数分钟内分析超过600PB数据与70,000个数据集,往常需数天。
该Agent已服务超3.5k名内部用户,覆盖工程、研究、市场、财务等多团队。其六层上下文系统(表使用、人工标注、Codex增强、机构知识、记忆、运行时)与自我学习记忆功能,可自动检测错误、调整方法并重试。系统严格继承现有权限保障数据安全,并通过Evals API持续评估性能。
员工可通过Slack机器人、Web界面、IDE插件等多平台访问。这一工具将复杂分析流程压缩至分钟级,同时保持透明性,展示推理过程与底层查询链接供验证。

相关链接:
行业动态
Anthropic盗版训练AI再遭天价索赔 #17
音乐出版商联盟起诉Anthropic,指控其非法下载超2万首版权歌曲训练AI,索赔超30亿美元。此案已将CEO Dario Amodei列为被告。
由Concord和Universal音乐集团领头的音乐出版商联盟起诉Anthropic及其CEO Dario Amodei,指控其非法下载超20,000首受版权保护歌曲用于训练AI模型,索赔超30亿美元。此案源于Bartz v. Anthropic作者诉讼案的取证过程,出版商称在此过程中发现更大规模侵权行为。法官William Alsup此前在Bartz案中裁定,用版权内容训练模型合法,但盗版获取违法。Bartz案最终以Anthropic支付15亿美元就约50万部作品达成和解,作者平均每部获赔约3,000美元。出版商最初因约500部作品起诉,但取证中发现数千首更多侵权作品,法院去年十月驳回其修改原诉讼的动议后,出版商提起单独诉讼,同时将联合创始人Benjamin Mann列为被告。诉讼文件称Anthropic数十亿美元商业帝国建立在盗版之上。
相关链接:
Apple收购面部运动AI公司Q.ai #18
Apple 收购以色列 AI 初创 Q.ai,该公司擅长通过面部肌肉运动解读无声语音。技术或用于 Siri、AirPods 及 FaceTime。
Apple确认收购以色列AI初创公司Q.ai,其技术通过分析面部肌肉微运动解读无声通信和耳语,可检测默读、识别用户身份并评估情绪、心率等生理指标。Q.ai的100名员工全部加入Apple,包括创始人Aviad Maizels——他此前创立的PrimeSense于2013年被Apple收购,为Face ID奠基。据《金融时报》和Reuters援引知情人士,交易估值约16至20亿美元。Apple未披露具体整合计划,外界推测该技术可能用于增强Siri、AirPods音频体验及FaceTime等功能。
相关链接:
SpaceX与xAI商谈合并或为IPO铺路 #19
Elon Musk旗下SpaceX与xAI正商谈合并,或为SpaceX今年IPO铺路。合并将整合Grok、X平台、Starlink及火箭业务,或实现xAI太空数据中心目标。
据路透社报道,Elon Musk旗下SpaceX与xAI正进行合并谈判,可能为今年计划中的SpaceX IPO做准备。合并旨在将Grok聊天机器人、X平台、Starlink卫星及SpaceX火箭等产品整合至同一公司,并可能实现xAI将数据中心部署到太空的目标。尽管公司代表未公开讨论,但文件显示1月21日已在内华达州成立K2 Merger Sub Inc.和K2 Merger Sub 2 LLC两个新实体。据报道,SpaceX与Tesla已分别向xAI投资20亿美元。去年xAI收购X的估值分别为800亿和330亿美元。成立于2002年的SpaceX估值达8000亿美元,是美国最有价值的私营公司。据《金融时报》报道,Musk希望6月让SpaceX上市,但其宏大计划很少按时实现。
相关链接:
- https://www.reuters.com/world/musks-spacex-merger-talks-with-xai-ahead-planned-ipo-source-says-2026-01-29/
- https://techcrunch.com/2026/01/29/elon-musk-spacex-xai-merger-talks-ipo-reuters
平头哥发布真武810E性能比肩H20 #20
阿里巴巴旗下平头哥发布自研AI芯片“真武810E”,采用96GB HBM2e内存与自研ICN互联技术,片间带宽达700GB/s,性能超越A800及主流国产GPU。
阿里巴巴旗下平头哥半导体发布全栈自研高端AI芯片“真武810E”,为阿里“通云哥”(通义实验室、阿里云、平头哥)AI战略核心硬件。性能超越A800及主流国产GPU。技术规格:96GB HBM2e内存、自研ICN片间互联技术(带宽700GB/s,7个独立链路),支持超大规模集群线性加速。主打高易用性与芯云一体化,全面兼容主流AI生态,支持源代码级编译和算法无缝迁移。已在阿里云部署多个万卡规模集群并通过大规模业务验证,服务国家电网、中科院、小鹏汽车、新浪微博等超400家头部客户。该芯片发布标志“通云哥”黄金三角战略完整成型,实现阿里AI技术全链路闭环。

相关链接:
微软财报OpenAI投资推动云业务与利润增长 #21
微软发布2026财年第二季度财报,营收813亿美元,同比增长17%;净利润达383亿美元,主要因对OpenAI投资获76亿美元账面收益。
微软2026财年第二季度财报显示,营收813亿美元,同比增长17%;GAAP净利润383亿美元,同比增长21%,其中76亿美元来自OpenAI投资账面收益(去年同期亏损9.39亿美元)。微软云收入首次突破500亿美元至515亿,同比增长26%;Azure营收增长39%。商业剩余履约义务从3920亿跃升至6250亿美元,其中约45%(超2800亿)来自OpenAI承诺的2500亿美元Azure采购。当季资本支出375亿美元,同比增长66%,主要用于扩充AI算力。Microsoft 365 Copilot付费席位达1500万,GitHub Copilot付费订阅者470万,同比增长75%。UBS分析师指出Azure与Microsoft 365增长略低于预期。公司称市场需求远超数据中心供给。
相关链接:
- https://microsoft.com/en-us/investor/earnings/FY-2026-Q2/Document/DownloadDocument/132/FinancialStatementFY26Q2.xlsx
- https://www.microsoft.com/investor/reports/ar25/index.html
- https://techcrunch.com/2026/01/28/microsoft-earnings-7-6-billion-openai/
前瞻与传闻
字节跳动阿里据报春节前将发新AI模型 #22
据报道,字节跳动与阿里巴巴计划于农历新年前后推出新一代旗舰 AI 模型。据社区预测,未来两周内可能发布 DeepSeek-R2、Qwen-3.5 及 Seed 2.0,但所有信息尚未有官方确认。
据The Information独家报道,字节跳动与阿里巴巴拟在2月中旬农历新年期间发布新一代旗舰AI模型。与此同时,社区讨论预测未来2-3周可能集中发布多款模型,包括DeepSeek-V4、阿里巴巴Qwen-3.5、字节跳动Seed 2.0等。但关于DeepSeek的新模型版本,社区存在R2与V4的不同说法。所有信息均源自非官方讨论,具体版本及发布时间均未获得官方确认。
相关链接:
OpenAI宣布ChatGPT将停用GPT-4o等旧模型 #23
OpenAI 宣布,将于 2026 年 2 月 13 日在 ChatGPT 中停用 GPT-4o 等多个旧模型,主要因用户已普遍迁移至 GPT-5.2,且新模型已整合其功能。API 服务不受影响。
OpenAI宣布将于2026年2月13日从ChatGPT产品中停用GPT-4o、GPT-4.1、GPT-4.1 mini和OpenAI o4-mini等旧模型,API服务不受影响。官方称,因绝大多数用户已迁移至GPT-5.2,且GPT-4o的对话风格与创意特性已在GPT-5.1和GPT-5.2中得到改进,目前仅0.1%用户仍使用GPT-4o。此前GPT-4o曾因用户反馈恢复访问,其意见直接影响了新版本开发。OpenAI表示将继续优化模型个性与创造力,并推进专为成人设计的ChatGPT版本,已在多数市场为未成年用户上线年龄预测功能。

相关链接:
OpenAI有望达成千亿美元新一轮融资 #24
据报道,OpenAI正寻求1000亿美元融资,预计一季度末完成。Amazon、Nvidia、Microsoft和软银或联合投资。
OpenAI正洽谈新一轮1000亿美元融资,估值或从5000亿升至8300亿美元。据《华尔街日报》,Amazon可能投资至少500亿美元,CEO Andy Jassy正与OpenAI CEO Sam Altman谈判,预计一季度末完成。The Information引述知情人士称,Nvidia、Microsoft和Amazon拟联合投资600亿美元(Nvidia或达300亿,Amazon考虑100-200亿,Microsoft低于100亿),软银计划追加300亿。Amazon此举引关注,因其已向OpenAI竞争对手Anthropic投资80亿美元并提供云服务,还建有110亿美元数据中心专门运行Anthropic模型。有分析担忧,因投资方多为OpenAI供应商和客户,融得资金可能回流形成"循环融资"。OpenAI预计2029年前计算支出达4300亿美元。
相关链接:
- https://theinformation.com/articles/nvidia-microsoft-and-amazon-are-in-talks-to-invest-up-to-60-billion-in-openai
- https://techcrunch.com/2026/01/29/amazon-is-reportedly-in-talks-to-invest-50-billion-in-openai
提示:内容由AI辅助创作,可能存在幻觉和错误。