2026-01-28 · Markdown

AI 早报 2026-01-28

概览

要闻

Google 调整 AI 订阅用户权益体系 ↗ #1

产品应用

OpenAI发布免费AI科研协作平台Prism ↗ #2
Google AI Overviews 升级可进行对话 ↗ #3
谷歌Gemini新增切换模型键盘快捷指令功能 ↗ #4
Airtable发布首款多Agent协作AI工具 ↗ #5

模型发布

月之暗面发布开源多模态K2.5模型 ↗ #6
通义实验室发布图像生成模型 Z-Image 标准版 ↗ #7
DeepSeek开源DeepSeek-OCR 2 ↗ #8
腾讯优图发布4B参数视觉语言模型 ↗ #9
Jan团队发布Jan-v3-4B-base-instruct模型 ↗ #10
Arcee AI发布Trinity Large稀疏MoE模型 ↗ #11
艾伦AI发布开源编码模型SERA系列 ↗ #12

开发生态

谷歌Gemini 3 Flash引入Agentic Vision ↗ #13
GitHub仓库新增Agents管理标签页 ↗ #14
Kilo Code发布AI代码审查工具 ↗ #15
Mistral AI发布企业AI编码Vibe 2.0 ↗ #16
Cursor升级索引复用技术提升索引速度 ↗ #17

技术与洞察

Karpathy分享编程工作流变革观察 ↗ #18

要闻

Google 调整 AI 订阅用户权益体系 `#1`

谷歌宣布将Google AI Plus扩展至35个新国家和地区（含美国），同时，Pro与Ultra订阅集成Google Developer Program，每月分别获10美元和100美元Google Cloud抵用金，可用于Vertex AI部署及Gemini API。此外AI Studio 负责人 Logan 已经证实 AI Studio 的额度有所下调，并且后续 AI Studio 将会接入 Google AI 会员体系。

Google宣布AI Plus订阅扩展至35个新国家和地区（含美国），实现全市场覆盖。美区定价7.99美元/月，新用户前两个月享50%折扣。权益包括Gemini 3 Pro/Nano Banana Pro更多访问、Flow AI视频制作、NotebookLM研究写作辅助及200GB云存储（可与五名家庭成员共享）。现有Google One Premium 2TB用户未来几天将自动升级。Google Developer Program高级权益已并入AI Pro/Ultra订阅，Pro用户每月获10美元、Ultra用户每月100美元Google Cloud抵用金。据社区讨论称，AI Studio配额已下调，未来或将接入Google AI会员体系。

相关链接：

产品应用

OpenAI发布免费AI科研协作平台Prism `#2`

OpenAI推出免费AI科研工具Prism，整合写作与协作，由GPT-5.2驱动，现已开放个人用户使用。

OpenAI发布免费AI协作空间Prism，专为科学家设计，由GPT-5.2驱动，基于收购的云端LaTeX平台Crixet。即日起向所有ChatGPT个人用户开放，项目数量、协作人数、编译时间和速度均不设上限；将很快向商业、团队、企业及教育版组织开放。

Prism整合科研写作全流程，核心功能包括与GPT-5.2 Thinking深度对话、arXiv文献检索并融入全文、跨章节处理公式引文图表、白板内容一键转LaTeX、不限人数实时协作及语音编辑。

OpenAI产品负责人Kevin Weil表示，Prism遵循ChatGPT数据设置，用户可选择退出共享；ChatGPT每周收到840万条科学提问，涉及130万用户。据TechCrunch报道，Prism旨在加速人类科研，而非自主研究。社区讨论中有担忧称该工具或导致低质量论文增多。

相关链接：

https://prism.openai.com/

Google AI Overviews 升级可进行对话 `#3`

谷歌搜索发布两项升级：Gemini 3 成 AI Overviews 全球默认模型，同时用户可从结果页直接提问进入对话模式。

谷歌推出两项搜索功能升级，以提升全球用户体验。首先，Gemini 3 成为 AI Overviews 的全球新默认模型，优化搜索结果页的 AI 回答质量。其次，用户可直接从 AI Overviews 提出后续问题，并进入 AI Mode 进行对话，该移动端功能已在全球范围上线。这些设计旨在为快速查询者提供答案快照，同时为深度探索者提供流畅的对话体验，并通过保留上下文增强搜索实用性。

相关链接：

https://blog.google/products-and-platforms/products/search/ai-mode-ai-overviews-updates/

谷歌Gemini新增切换模型键盘快捷指令功能 `#4`

Google 为 Gemini Web 推出高级用户快捷指令，输入 @fast、@thinking 或 @pro 可切换模型。

Google为Gemini Web推出@快捷指令：输入@fast、@thinking、@pro可切换模型。据观察者称，该功能支持选择推理强度，工具调用指令或正开发中。

相关链接：

Airtable发布首款多Agent协作AI工具 `#5`

Airtable 推出 AI 产品 Superagent，采用多 Agent 协作架构，可并行处理财务、竞争、管理等分析任务，输出含图表与引用的交互式报告。

Airtable发布首款独立产品Superagent，一个基于多Agent协作的AI工具。该产品通过并行部署负责财务、竞争、管理等领域的专业Agent，将复杂商业问题转化为含可视化图表和来源引用的交互式报告、幻灯片或网站。由被收购的DeepSky团队半独立运营，CEO Howie Liu称其为公司"多Agent协调"的重要布局，规模或超Airtable本身。他声称，与多数"LLM驱动工作流"竞品不同，Superagent是真正的智能Agent架构，此方面仅Anthropic Claude Agent和Manus可媲美。产品接入FactSet、Crunchbase、SEC文件等高级数据源，定价20至200美元/月/用户，含推理额度。

相关链接：

https://www.superagent.com

模型发布

月之暗面发布开源多模态K2.5模型 `#6`

月之暗面发布并开源Kimi K2.5模型，这是一个在15万亿混合视觉与文本token上持续预训练的原生多模态Agent模型，据介绍，该模型在开源领域于Agent、代码、图像和视频理解等任务上达到state-of-the-art水平。

月之暗面发布开源多模态Agent模型Kimi K2.5，基于15万亿视觉与文本token预训练，在Agent、代码、图像/视频理解任务达开源SOTA。核心功能：Agent集群可创建最多100个子Agent并行处理1500个步骤，运行时间最高缩短4.5倍；视觉代码支持从图像/视频生成前端界面；支持Word、Excel、PPT、PDF办公处理。模型已在kimi.com、App及API平台上线，提供四种模式。同步发布编程工具Kimi Code。官方基准：HLE-Full 50.2%，BrowseComp 74.9%，SWE-Bench Verified 76.8%。权重已开源至Hugging Face并采用INT4量化，支持vLLM等引擎部署。API降价并开展7天充值赠送活动。

相关链接：

通义实验室发布图像生成模型 Z-Image 标准版 `#7`

通义实验室发布图像生成模型 Z-Image 标准版，这是一个非蒸馏的完整模型，优于其蒸馏版本Z-Image-Turbo，支持完整CFG、负向提示词控制，可避免"相同脸"问题，生成多样性更高。

通义实验室发布图像生成模型 Z-Image 标准版，这是一个非蒸馏的完整模型，优于其蒸馏版本Z-Image-Turbo，支持完整CFG、负向提示词控制，可避免"相同脸"问题，生成多样性更高。模型采用创新的S3-DiT架构，训练流程包括预训练、有监督微调（SFT）和强化学习三阶段，当前处于SFT阶段。开发者可通过官方仓库、Diffusers或DiffSynth-Studio进行推理，并使用DiffSynth-Studio进行LoRA微调。DiffSynth-Studio团队同步发布Z-Image-i2L模型，支持单张图片直接生成对应风格的LoRA模型。Z-Image系列模型已在ModelScope和Hugging Face开源，团队预告将发布Z-Image-Edit和Z-Image-Omni-Base等更多模型。

相关链接：

DeepSeek开源DeepSeek-OCR 2 `#8`

DeepSeek开源了新一代OCR模型DeepSeek-OCR 2，采用创新的DeepEncoder V2架构和“视觉因果流”机制，能模仿人类阅读顺序处理图像。模型已通过Apache-2.0许可证在GitHub和Hugging Face开源。

DeepSeek发布并开源新一代OCR模型DeepSeek-OCR 2，采用DeepEncoder V2编码器与"Visual Causal Flow"机制，通过内容感知因果流查询模仿人类阅读顺序语义重排序，取代固定光栅扫描。模型支持动态分辨率(0-6)×768×768 + 1×1024×1024输入，生成(0-6)×144 + 256个视觉token，实现约16倍压缩。该模型约30亿参数，MoE结构，含约5亿活跃参数。官方测试显示，OmniDocBench v1.5得分91.09%，较前代提升3.73%；阅读顺序编辑距离降至0.057，错误减少33%；生产环境重复率降低30%-40%。在1120个视觉token预算下，文档解析编辑距离优于Gemini-3 Pro。模型使用Apache-2.0许可证开源，获vLLM 0.8.5当日支持，提供vLLM和Transformers推理，支持文档转Markdown与自由OCR。据媒体称，极端高密度文本识别稍弱，可通过增加裁剪或训练样本改善。

相关链接：

腾讯优图发布4B参数视觉语言模型 `#9`

腾讯优图实验室发布40亿参数视觉语言模型Youtu-VL，基于Youtu-LLM构建，支持图像分类、目标检测、语义分割等视觉任务及多模态问答等通用能力。

腾讯优图实验室发布40亿参数视觉语言模型Youtu-VL，基于Youtu-LLM和deepseek2架构构建。该模型开创性采用视觉语言统一自回归监督（VLUAS）范式，通过学习的视觉代码本将视觉信号转换为自回归监督目标，缓解传统模型视觉信号被忽略的问题。Youtu-VL赋予图像与文本token等效的自回归地位，无需特定任务模块即可执行密集视觉预测（分割、深度估计）和文本预测（定位、检测），覆盖视觉中心任务与通用多模态任务。官方性能数据显示其在基准测试中具有竞争力。模型提供8-bit和16-bit量化GGUF版本供本地部署，基础模型为tencent/Youtu-VL-4B-Instruct。

相关链接：

https://huggingface.co/tencent/Youtu-VL-4B-Instruct-GGUF

Jan团队发布Jan-v3-4B-base-instruct模型 `#10`

Jan团队发布40亿参数模型Jan-v3-4B，模型已开源，后续将推出代码微调版和30B参数模型。

Jan团队发布Jan-v3-4B-base-instruct，40亿参数指令模型，基于Qwen3-4B-Instruct-2507，通过持续预训练和强化学习训练，在Aider编码评估中性能提升超40%。该模型旨在提升常见任务能力并保留通用能力，可作为微调起点和轻量级编码辅助。推荐推理参数temperature 0.7、top_p 0.8、top_k 20。用户可通过Jan Desktop应用、Jan Hub、Hugging Face或chat.jan.ai在线演示体验。官方计划发布代码微调版Jan-Code、搜索版Jan-v3-Search-4B及30B参数模型。部分社区用户质疑基准测试真实性，团队回应称成果源于大量预训练与知识蒸馏，非基准优化，并强调小模型需避免灾难性遗忘。技术报告即将发布。社区讨论认为该模型适用于本地会议转录摘要，支持高上下文。

相关链接：

https://huggingface.co/janhq/Jan-v3-4B-base-instruct

Arcee AI发布Trinity Large稀疏MoE模型 `#11`

Arcee AI 发布 Trinity Large 模型家族，总参数 398B，采用稀疏 MoE 架构，每个 token 激活约 13B 参数。该家族包含三个变体。所有模型均开源，采用 Apache 2.0 许可证。

Arcee AI发布Trinity Large稀疏MoE模型家族，总参398B，激活13B。包含Trinity-Large-Preview（轻量微调聊天模型）、Base（17T token完整预训练）和TrueBase（10T token预退火检查点）三变体。采用4-of-256专家路由，稀疏度1.56%，在2048块NVIDIA B300 GPU上训练33天，数据总量17T tokens。Preview在MMLU等基准测试中与Llama 4 Maverick表现相当，原生支持512k上下文（API当前128k）。官方称高稀疏度使其推理速度比同类模型快2-3倍。所有模型以Apache 2.0协议发布于Hugging Face，Preview在OpenRouter免费可用。TrueBase不含指令数据，适用于研究探测。项目总成本2000万美元。

相关链接：

https://huggingface.co/collections/arcee-ai/trinity-large

艾伦AI发布开源编码模型SERA系列 `#12`

艾伦人工智能研究所发布开源编码模型SERA-32B与SERA-8B，基于Qwen 3，采用Soft Verified Generation方法训练，所有资源开源，遵循Apache 2.0许可。

艾伦人工智能研究所发布SERA-32B与SERA-8B开源编码模型，在SWE-bench Verified上分别取得49.5%和31.7%成绩。基于Qwen 3通过Soft Verified Generation合成数据微调，数据生成及训练成本约2000美元，支持私有代码库定制并集成Claude Code，遵循Apache 2.0许可。

相关链接：

开发生态

谷歌Gemini 3 Flash引入Agentic Vision `#13`

谷歌为Gemini 3 Flash引入Agentic Vision功能，结合视觉推理与代码执行，通过循环分析图像提升质量5-10%，开发者已可用。

Google为Gemini 3 Flash新增Agentic Vision功能，将图像理解转为Agent过程。该功能通过"思考、行动、观察"循环，主动生成Python代码处理分析图像（如裁剪、标注、计算），使答案基于视觉证据。官方称在大多数视觉基准测试中带来5-10%质量提升。开发者可在AI Studio、Vertex AI及Gemini应用启用。案例包括PlanCheckSolver.com准确率提升5%、精准计数手指及表格数据提取可视化。未来将扩展至更多模型。

相关链接：

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/

GitHub仓库新增Agents管理标签页 `#14`

GitHub推出新Agents标签页，集成Copilot任务管理，支持会话关联代码操作。

GitHub在仓库中新增Agents标签页，集成Copilot coding agent任务管理。用户无需离开代码库，即可与pull requests、issues并行查看、创建、切换Agent会话，并通过一键链接快速跳转至关联PR。新界面支持会话归档、分页浏览历史。日志重新设计：相似工具调用分组显示，内联工具输出预览与文件差异视图，每个调用配独特图标，bash命令完全可见。新增Continue in Copilot CLI功能，可在终端无缝恢复会话。需为仓库启用Copilot coding agent。

相关链接：

https://github.blog/changelog/2026-01-26-introducing-the-agents-tab-in-your-repository/

Kilo Code发布AI代码审查工具 `#15`

Kilo Code发布AI代码审查工具，可在用户打开或更新Pull Request时即时提供结构化反馈

Kilo Code发布AI代码审查工具Kilo Code Reviewer，可在PR打开或更新时即时分析代码质量、安全性、结构与测试覆盖率，支持500余款模型（含Claude/GPT/Gemini及免费选项）。作为开源AI编码助手，这是其在Product Hunt的第三次发布，此前已推出JetBrains与VS Code版本。

相关链接：

https://kilo.ai

Mistral AI发布企业AI编码Vibe 2.0 `#16`

Mistral AI 发布了企业级 AI 编码 Agent Mistral Vibe 2.0，集成于 Le Chat Pro 和团队版，由 Devstral 2 模型驱动。新功能包括自定义子代理、多选项澄清和斜杠命令，支持代码补全、重构与现代化。

Mistral AI发布企业级AI编码Agent Mistral Vibe 2.0，集成至Le Chat Pro及团队版计划。该版本由Devstral 2模型驱动，新增自定义子代理、多选项澄清、斜杠命令技能和统一代理模式。产品可处理样板代码、测试与文档，提供代码库感知上下文，支持代码补全、重构与审查，助力企业摆脱技术债务。官方数据显示，在50多个客户项目中实现100%开发者采用率，代码补全准确率达90%，六个月内生产力提升。Le Chat Pro版定价每月14.99美元，团队版每席位每月24.99美元。Devstral 2 API每百万token输入0.40美元、输出2.00美元。

相关链接：

https://mistral.ai/products/vibe

Cursor升级索引复用技术提升索引速度 `#17`

Cursor发布博客称其采用Merkle树索引复用技术，将大型代码库首次查询从数小时缩短至数秒，显著改善用户体验。

Cursor推出基于Merkle tree和相似度哈希的索引复用技术，将大型代码库语义搜索的首次查询等待时间从数小时缩短至数秒。官方评估显示，语义搜索可提升Agent响应准确率12.5%。该技术利用组织内代码库92%相似度的特性，通过加密哈希精确检测文件变更，实现团队成员间安全复用索引。性能数据方面：中位数仓库从7.87秒降至525毫秒，90分位从2.82分钟降至1.87秒，99分位从4.03小时降至21秒。访问证明机制确保代码在副本间不泄露。

相关链接：

https://cursor.com/cn/blog/secure-codebase-indexing

技术与洞察

Karpathy分享编程工作流变革观察 `#18`

Andrej Karpathy 表示，自2025年12月起，其编程工作流已转向80%由Agent完成，他认为这是近二十年来编程方式的最大变革。尽管Agent仍会犯错，存在种种问题，但他强调其能力已不可逆，且正推动软件工程进入新阶段。

Andrej Karpathy称，2025年12月起其编程工作流从80%手动编码转为80%Agent编码，系近20年最重大变革。他指出Claude会犯概念性错误，如错误假设、过度复杂化、遗留冗余代码，但提升巨大令其无法想象回归手动编码。他建议采用声明式方法，为Agent提供成功标准而非具体指令。Karpathy感到AGI临近，编程变得更有趣，但手动能力在退化。他预测2026年数字平台将被低质量AI内容淹没，认为LLM Agent能力在2025年12月左右跨越连贯性门槛，导致软件工程相变，2026年将是业界消化新能力的高能量之年。

相关链接：

https://x.com/karpathy/status/2015883857489522876

提示：内容由AI辅助创作，可能存在幻觉和错误。

AI 早报 2026-01-28

概览

要闻

产品应用

模型发布

开发生态

技术与洞察

要闻

Google 调整 AI 订阅用户权益体系 #1

产品应用

OpenAI发布免费AI科研协作平台Prism #2

Google AI Overviews 升级可进行对话 #3

谷歌Gemini新增切换模型键盘快捷指令功能 #4

Airtable发布首款多Agent协作AI工具 #5

模型发布

月之暗面发布开源多模态K2.5模型 #6

通义实验室发布图像生成模型 Z-Image 标准版 #7

DeepSeek开源DeepSeek-OCR 2 #8

腾讯优图发布4B参数视觉语言模型 #9

Jan团队发布Jan-v3-4B-base-instruct模型 #10

Arcee AI发布Trinity Large稀疏MoE模型 #11

艾伦AI发布开源编码模型SERA系列 #12

开发生态

谷歌Gemini 3 Flash引入Agentic Vision #13

GitHub仓库新增Agents管理标签页 #14

Kilo Code发布AI代码审查工具 #15

Mistral AI发布企业AI编码Vibe 2.0 #16

Cursor升级索引复用技术提升索引速度 #17

技术与洞察

Karpathy分享编程工作流变革观察 #18

Google 调整 AI 订阅用户权益体系 `#1`

OpenAI发布免费AI科研协作平台Prism `#2`

Google AI Overviews 升级可进行对话 `#3`

谷歌Gemini新增切换模型键盘快捷指令功能 `#4`

Airtable发布首款多Agent协作AI工具 `#5`

月之暗面发布开源多模态K2.5模型 `#6`

通义实验室发布图像生成模型 Z-Image 标准版 `#7`

DeepSeek开源DeepSeek-OCR 2 `#8`

腾讯优图发布4B参数视觉语言模型 `#9`

Jan团队发布Jan-v3-4B-base-instruct模型 `#10`

Arcee AI发布Trinity Large稀疏MoE模型 `#11`

艾伦AI发布开源编码模型SERA系列 `#12`

谷歌Gemini 3 Flash引入Agentic Vision `#13`

GitHub仓库新增Agents管理标签页 `#14`

Kilo Code发布AI代码审查工具 `#15`

Mistral AI发布企业AI编码Vibe 2.0 `#16`

Cursor升级索引复用技术提升索引速度 `#17`

Karpathy分享编程工作流变革观察 `#18`