
AI 早报 2026-01-28
概览
要闻
- Google 调整 AI 订阅用户权益体系 ↗
#1
产品应用
- OpenAI发布免费AI科研协作平台Prism ↗
#2 - Google AI Overviews 升级可进行对话 ↗
#3 - 谷歌Gemini新增切换模型键盘快捷指令功能 ↗
#4 - Airtable发布首款多Agent协作AI工具 ↗
#5
模型发布
- 月之暗面发布开源多模态K2.5模型 ↗
#6 - 通义实验室发布图像生成模型 Z-Image 标准版 ↗
#7 - DeepSeek开源DeepSeek-OCR 2 ↗
#8 - 腾讯优图发布4B参数视觉语言模型 ↗
#9 - Jan团队发布Jan-v3-4B-base-instruct模型 ↗
#10 - Arcee AI发布Trinity Large稀疏MoE模型 ↗
#11 - 艾伦AI发布开源编码模型SERA系列 ↗
#12
开发生态
- 谷歌Gemini 3 Flash引入Agentic Vision ↗
#13 - GitHub仓库新增Agents管理标签页 ↗
#14 - Kilo Code发布AI代码审查工具 ↗
#15 - Mistral AI发布企业AI编码Vibe 2.0 ↗
#16 - Cursor升级索引复用技术提升索引速度 ↗
#17
技术与洞察
- Karpathy分享编程工作流变革观察 ↗
#18
要闻
Google 调整 AI 订阅用户权益体系 #1
谷歌宣布将Google AI Plus扩展至35个新国家和地区(含美国),同时,Pro与Ultra订阅集成Google Developer Program,每月分别获10美元和100美元Google Cloud抵用金,可用于Vertex AI部署及Gemini API。此外AI Studio 负责人 Logan 已经证实 AI Studio 的额度有所下调,并且后续 AI Studio 将会接入 Google AI 会员体系。
Google宣布AI Plus订阅扩展至35个新国家和地区(含美国),实现全市场覆盖。美区定价7.99美元/月,新用户前两个月享50%折扣。权益包括Gemini 3 Pro/Nano Banana Pro更多访问、Flow AI视频制作、NotebookLM研究写作辅助及200GB云存储(可与五名家庭成员共享)。现有Google One Premium 2TB用户未来几天将自动升级。Google Developer Program高级权益已并入AI Pro/Ultra订阅,Pro用户每月获10美元、Ultra用户每月100美元Google Cloud抵用金。据社区讨论称,AI Studio配额已下调,未来或将接入Google AI会员体系。



相关链接:
- https://blog.google/products-and-platforms/products/google-one/google-ai-plus-availability/
- https://blog.google/innovation-and-ai/technology/developers-tools/gdp-premium-ai-pro-ultra/
- https://one.google.com/about/google-ai-plans/
- https://linux.do/t/topic/1523204
产品应用
OpenAI发布免费AI科研协作平台Prism #2
OpenAI推出免费AI科研工具Prism,整合写作与协作,由GPT-5.2驱动,现已开放个人用户使用。
OpenAI发布免费AI协作空间Prism,专为科学家设计,由GPT-5.2驱动,基于收购的云端LaTeX平台Crixet。即日起向所有ChatGPT个人用户开放,项目数量、协作人数、编译时间和速度均不设上限;将很快向商业、团队、企业及教育版组织开放。
Prism整合科研写作全流程,核心功能包括与GPT-5.2 Thinking深度对话、arXiv文献检索并融入全文、跨章节处理公式引文图表、白板内容一键转LaTeX、不限人数实时协作及语音编辑。
OpenAI产品负责人Kevin Weil表示,Prism遵循ChatGPT数据设置,用户可选择退出共享;ChatGPT每周收到840万条科学提问,涉及130万用户。据TechCrunch报道,Prism旨在加速人类科研,而非自主研究。社区讨论中有担忧称该工具或导致低质量论文增多。


相关链接:
Google AI Overviews 升级可进行对话 #3
谷歌搜索发布两项升级:Gemini 3 成 AI Overviews 全球默认模型,同时用户可从结果页直接提问进入对话模式。
谷歌推出两项搜索功能升级,以提升全球用户体验。首先,Gemini 3 成为 AI Overviews 的全球新默认模型,优化搜索结果页的 AI 回答质量。其次,用户可直接从 AI Overviews 提出后续问题,并进入 AI Mode 进行对话,该移动端功能已在全球范围上线。这些设计旨在为快速查询者提供答案快照,同时为深度探索者提供流畅的对话体验,并通过保留上下文增强搜索实用性。

相关链接:
谷歌Gemini新增切换模型键盘快捷指令功能 #4
Google 为 Gemini Web 推出高级用户快捷指令,输入 @fast、@thinking 或 @pro 可切换模型。
Google为Gemini Web推出@快捷指令:输入@fast、@thinking、@pro可切换模型。据观察者称,该功能支持选择推理强度,工具调用指令或正开发中。

相关链接:
- https://x.com/GeminiApp/status/2016222823346565322
- https://x.com/testingcatalog/status/2016203508676997446
Airtable发布首款多Agent协作AI工具 #5
Airtable 推出 AI 产品 Superagent,采用多 Agent 协作架构,可并行处理财务、竞争、管理等分析任务,输出含图表与引用的交互式报告。
Airtable发布首款独立产品Superagent,一个基于多Agent协作的AI工具。该产品通过并行部署负责财务、竞争、管理等领域的专业Agent,将复杂商业问题转化为含可视化图表和来源引用的交互式报告、幻灯片或网站。由被收购的DeepSky团队半独立运营,CEO Howie Liu称其为公司"多Agent协调"的重要布局,规模或超Airtable本身。他声称,与多数"LLM驱动工作流"竞品不同,Superagent是真正的智能Agent架构,此方面仅Anthropic Claude Agent和Manus可媲美。产品接入FactSet、Crunchbase、SEC文件等高级数据源,定价20至200美元/月/用户,含推理额度。

相关链接:
模型发布
月之暗面发布开源多模态K2.5模型 #6
月之暗面发布并开源Kimi K2.5模型,这是一个在15万亿混合视觉与文本token上持续预训练的原生多模态Agent模型,据介绍,该模型在开源领域于Agent、代码、图像和视频理解等任务上达到state-of-the-art水平。
月之暗面发布开源多模态Agent模型Kimi K2.5,基于15万亿视觉与文本token预训练,在Agent、代码、图像/视频理解任务达开源SOTA。核心功能:Agent集群可创建最多100个子Agent并行处理1500个步骤,运行时间最高缩短4.5倍;视觉代码支持从图像/视频生成前端界面;支持Word、Excel、PPT、PDF办公处理。模型已在kimi.com、App及API平台上线,提供四种模式。同步发布编程工具Kimi Code。官方基准:HLE-Full 50.2%,BrowseComp 74.9%,SWE-Bench Verified 76.8%。权重已开源至Hugging Face并采用INT4量化,支持vLLM等引擎部署。API降价并开展7天充值赠送活动。

相关链接:
- https://mp.weixin.qq.com/s/q0Ovr33kHYt6agxylZVu7Q
- https://huggingface.co/moonshotai/Kimi-K2.5
- https://www.kimi.com/blog/kimi-k2-5.html
通义实验室发布图像生成模型 Z-Image 标准版 #7
通义实验室发布图像生成模型 Z-Image 标准版,这是一个非蒸馏的完整模型,优于其蒸馏版本Z-Image-Turbo,支持完整CFG、负向提示词控制,可避免"相同脸"问题,生成多样性更高。
通义实验室发布图像生成模型 Z-Image 标准版,这是一个非蒸馏的完整模型,优于其蒸馏版本Z-Image-Turbo,支持完整CFG、负向提示词控制,可避免"相同脸"问题,生成多样性更高。模型采用创新的S3-DiT架构,训练流程包括预训练、有监督微调(SFT)和强化学习三阶段,当前处于SFT阶段。开发者可通过官方仓库、Diffusers或DiffSynth-Studio进行推理,并使用DiffSynth-Studio进行LoRA微调。DiffSynth-Studio团队同步发布Z-Image-i2L模型,支持单张图片直接生成对应风格的LoRA模型。Z-Image系列模型已在ModelScope和Hugging Face开源,团队预告将发布Z-Image-Edit和Z-Image-Omni-Base等更多模型。

相关链接:
- https://mp.weixin.qq.com/s/l2UF-WuGCLz5hN4jVtSBQw
- https://modelscope.cn/models/Tongyi-MAI/Z-Image
- https://github.com/Tongyi-MAI/Z-Image.git
DeepSeek开源DeepSeek-OCR 2 #8
DeepSeek开源了新一代OCR模型DeepSeek-OCR 2,采用创新的DeepEncoder V2架构和“视觉因果流”机制,能模仿人类阅读顺序处理图像。模型已通过Apache-2.0许可证在GitHub和Hugging Face开源。
DeepSeek发布并开源新一代OCR模型DeepSeek-OCR 2,采用DeepEncoder V2编码器与"Visual Causal Flow"机制,通过内容感知因果流查询模仿人类阅读顺序语义重排序,取代固定光栅扫描。模型支持动态分辨率(0-6)×768×768 + 1×1024×1024输入,生成(0-6)×144 + 256个视觉token,实现约16倍压缩。该模型约30亿参数,MoE结构,含约5亿活跃参数。官方测试显示,OmniDocBench v1.5得分91.09%,较前代提升3.73%;阅读顺序编辑距离降至0.057,错误减少33%;生产环境重复率降低30%-40%。在1120个视觉token预算下,文档解析编辑距离优于Gemini-3 Pro。模型使用Apache-2.0许可证开源,获vLLM 0.8.5当日支持,提供vLLM和Transformers推理,支持文档转Markdown与自由OCR。据媒体称,极端高密度文本识别稍弱,可通过增加裁剪或训练样本改善。

相关链接:
腾讯优图发布4B参数视觉语言模型 #9
腾讯优图实验室发布40亿参数视觉语言模型Youtu-VL,基于Youtu-LLM构建,支持图像分类、目标检测、语义分割等视觉任务及多模态问答等通用能力。
腾讯优图实验室发布40亿参数视觉语言模型Youtu-VL,基于Youtu-LLM和deepseek2架构构建。该模型开创性采用视觉语言统一自回归监督(VLUAS)范式,通过学习的视觉代码本将视觉信号转换为自回归监督目标,缓解传统模型视觉信号被忽略的问题。Youtu-VL赋予图像与文本token等效的自回归地位,无需特定任务模块即可执行密集视觉预测(分割、深度估计)和文本预测(定位、检测),覆盖视觉中心任务与通用多模态任务。官方性能数据显示其在基准测试中具有竞争力。模型提供8-bit和16-bit量化GGUF版本供本地部署,基础模型为tencent/Youtu-VL-4B-Instruct。


相关链接:
Jan团队发布Jan-v3-4B-base-instruct模型 #10
Jan团队发布40亿参数模型Jan-v3-4B,模型已开源,后续将推出代码微调版和30B参数模型。
Jan团队发布Jan-v3-4B-base-instruct,40亿参数指令模型,基于Qwen3-4B-Instruct-2507,通过持续预训练和强化学习训练,在Aider编码评估中性能提升超40%。该模型旨在提升常见任务能力并保留通用能力,可作为微调起点和轻量级编码辅助。推荐推理参数temperature 0.7、top_p 0.8、top_k 20。用户可通过Jan Desktop应用、Jan Hub、Hugging Face或chat.jan.ai在线演示体验。官方计划发布代码微调版Jan-Code、搜索版Jan-v3-Search-4B及30B参数模型。部分社区用户质疑基准测试真实性,团队回应称成果源于大量预训练与知识蒸馏,非基准优化,并强调小模型需避免灾难性遗忘。技术报告即将发布。社区讨论认为该模型适用于本地会议转录摘要,支持高上下文。

相关链接:
Arcee AI发布Trinity Large稀疏MoE模型 #11
Arcee AI 发布 Trinity Large 模型家族,总参数 398B,采用稀疏 MoE 架构,每个 token 激活约 13B 参数。该家族包含三个变体。所有模型均开源,采用 Apache 2.0 许可证。
Arcee AI发布Trinity Large稀疏MoE模型家族,总参398B,激活13B。包含Trinity-Large-Preview(轻量微调聊天模型)、Base(17T token完整预训练)和TrueBase(10T token预退火检查点)三变体。采用4-of-256专家路由,稀疏度1.56%,在2048块NVIDIA B300 GPU上训练33天,数据总量17T tokens。Preview在MMLU等基准测试中与Llama 4 Maverick表现相当,原生支持512k上下文(API当前128k)。官方称高稀疏度使其推理速度比同类模型快2-3倍。所有模型以Apache 2.0协议发布于Hugging Face,Preview在OpenRouter免费可用。TrueBase不含指令数据,适用于研究探测。项目总成本2000万美元。

相关链接:
艾伦AI发布开源编码模型SERA系列 #12
艾伦人工智能研究所发布开源编码模型SERA-32B与SERA-8B,基于Qwen 3,采用Soft Verified Generation方法训练,所有资源开源,遵循Apache 2.0许可。
艾伦人工智能研究所发布SERA-32B与SERA-8B开源编码模型,在SWE-bench Verified上分别取得49.5%和31.7%成绩。基于Qwen 3通过Soft Verified Generation合成数据微调,数据生成及训练成本约2000美元,支持私有代码库定制并集成Claude Code,遵循Apache 2.0许可。

相关链接:
- https://huggingface.co/collections/allenai/open-coding-agents
- https://allenai.org/papers/opencodingagents
- https://github.com/allenai/SERA
开发生态
谷歌Gemini 3 Flash引入Agentic Vision #13
谷歌为Gemini 3 Flash引入Agentic Vision功能,结合视觉推理与代码执行,通过循环分析图像提升质量5-10%,开发者已可用。
Google为Gemini 3 Flash新增Agentic Vision功能,将图像理解转为Agent过程。该功能通过"思考、行动、观察"循环,主动生成Python代码处理分析图像(如裁剪、标注、计算),使答案基于视觉证据。官方称在大多数视觉基准测试中带来5-10%质量提升。开发者可在AI Studio、Vertex AI及Gemini应用启用。案例包括PlanCheckSolver.com准确率提升5%、精准计数手指及表格数据提取可视化。未来将扩展至更多模型。



相关链接:
GitHub仓库新增Agents管理标签页 #14
GitHub推出新Agents标签页,集成Copilot任务管理,支持会话关联代码操作。
GitHub在仓库中新增Agents标签页,集成Copilot coding agent任务管理。用户无需离开代码库,即可与pull requests、issues并行查看、创建、切换Agent会话,并通过一键链接快速跳转至关联PR。新界面支持会话归档、分页浏览历史。日志重新设计:相似工具调用分组显示,内联工具输出预览与文件差异视图,每个调用配独特图标,bash命令完全可见。新增Continue in Copilot CLI功能,可在终端无缝恢复会话。需为仓库启用Copilot coding agent。

相关链接:
Kilo Code发布AI代码审查工具 #15
Kilo Code发布AI代码审查工具,可在用户打开或更新Pull Request时即时提供结构化反馈
Kilo Code发布AI代码审查工具Kilo Code Reviewer,可在PR打开或更新时即时分析代码质量、安全性、结构与测试覆盖率,支持500余款模型(含Claude/GPT/Gemini及免费选项)。作为开源AI编码助手,这是其在Product Hunt的第三次发布,此前已推出JetBrains与VS Code版本。

相关链接:
Mistral AI发布企业AI编码Vibe 2.0 #16
Mistral AI 发布了企业级 AI 编码 Agent Mistral Vibe 2.0,集成于 Le Chat Pro 和团队版,由 Devstral 2 模型驱动。新功能包括自定义子代理、多选项澄清和斜杠命令,支持代码补全、重构与现代化。
Mistral AI发布企业级AI编码Agent Mistral Vibe 2.0,集成至Le Chat Pro及团队版计划。该版本由Devstral 2模型驱动,新增自定义子代理、多选项澄清、斜杠命令技能和统一代理模式。产品可处理样板代码、测试与文档,提供代码库感知上下文,支持代码补全、重构与审查,助力企业摆脱技术债务。官方数据显示,在50多个客户项目中实现100%开发者采用率,代码补全准确率达90%,六个月内生产力提升。Le Chat Pro版定价每月14.99美元,团队版每席位每月24.99美元。Devstral 2 API每百万token输入0.40美元、输出2.00美元。

相关链接:
Cursor升级索引复用技术提升索引速度 #17
Cursor发布博客称其采用Merkle树索引复用技术,将大型代码库首次查询从数小时缩短至数秒,显著改善用户体验。
Cursor推出基于Merkle tree和相似度哈希的索引复用技术,将大型代码库语义搜索的首次查询等待时间从数小时缩短至数秒。官方评估显示,语义搜索可提升Agent响应准确率12.5%。该技术利用组织内代码库92%相似度的特性,通过加密哈希精确检测文件变更,实现团队成员间安全复用索引。性能数据方面:中位数仓库从7.87秒降至525毫秒,90分位从2.82分钟降至1.87秒,99分位从4.03小时降至21秒。访问证明机制确保代码在副本间不泄露。

相关链接:
技术与洞察
Karpathy分享编程工作流变革观察 #18
Andrej Karpathy 表示,自2025年12月起,其编程工作流已转向80%由Agent完成,他认为这是近二十年来编程方式的最大变革。尽管Agent仍会犯错,存在种种问题,但他强调其能力已不可逆,且正推动软件工程进入新阶段。
Andrej Karpathy称,2025年12月起其编程工作流从80%手动编码转为80%Agent编码,系近20年最重大变革。他指出Claude会犯概念性错误,如错误假设、过度复杂化、遗留冗余代码,但提升巨大令其无法想象回归手动编码。他建议采用声明式方法,为Agent提供成功标准而非具体指令。Karpathy感到AGI临近,编程变得更有趣,但手动能力在退化。他预测2026年数字平台将被低质量AI内容淹没,认为LLM Agent能力在2025年12月左右跨越连贯性门槛,导致软件工程相变,2026年将是业界消化新能力的高能量之年。
相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。