2026-01-22 · Markdown

AI 早报 2026-01-22

概览

产品应用

模型发布

开发生态

技术与洞察

行业动态

前瞻与传闻

其他


产品应用

OpenAI向付费用户推送ChatGPT Voice更新 #1

OpenAI周二向付费用户推送了ChatGPT Voice更新,优化了指令遵循能力,并修复了重复回放自定义指令的缺陷,此次升级已全面开放。

OpenAI周二向付费用户推送ChatGPT Voice更新,提升模型指令遵循能力,修复重复回诵用户自定义指令的缺陷。官方称此为重要改进,目前已向所有付费订阅用户开放。

相关链接:


ChatGPT Atlas更新界面与搜索功能 #2

ChatGPT Atlas更新,界面交互全面重构。新增Tab分组与Emoji标签,搜索结果改用垂直链接展示。支持Auto智能选源,自动调用ChatGPT或Google,并优化内存减少卡顿。

ChatGPT Atlas更新:新增Tab Groups标签分组与Emoji分类功能,搜索结果改为垂直堆叠展示,搜索引擎新增"Auto"选项可智能调用,底层内存占用优化。

相关链接:


谷歌教育版Workspace整合Gemini功能 #3

Google将部分Gemini AI功能免费整合至教育版Workspace,并推出AI代理管理平台Workspace Studio。新功能将逐步向18岁以上用户开放,高级服务Google AI Pro for Education仍保留。

Google宣布扩展教育领域AI能力,将部分Gemini in Workspace功能以免费增值形式整合进Google Workspace for Education核心版本,并推出用于设计和管理AI agents的新平台Workspace Studio。多数功能将在未来数周内向18岁以上用户逐步推出,部分完整上线或需数月。高级订阅服务Google AI Pro for Education继续保留。

相关链接:


谷歌Gemini推出免费SAT备考功能 #4

Google推出Gemini AI助手的SAT备考功能,联合普林斯顿Review开发,免费提供模拟考试、即时反馈与个性化学习计划,现已上线。

Google为Gemini推出免费SAT模拟考试,与The Princeton Review合作开发,现已上线。功能包括即时反馈、错题解析及AI生成个性化学习计划,标志其AI能力深度整合进正式教育流程。

相关链接:


OpenAI与盖茨基金会启动非洲医疗AI计划 #5

OpenAI与盖茨基金会联合启动Horizon 1000计划,投入五千万美元,支持非洲千家诊所。首站卢旺达,目标2028年前用AI缓解医护短缺,减轻负担,提升医疗质量。

OpenAI与盖茨基金会本周二联合宣布启动Horizon 1000试点计划,承诺共同投入5000万美元,目标2028年前将AI能力赋能非洲1000家基层医疗诊所,首个落地国家为卢旺达。该计划旨在通过AI工具缓解撒哈拉以南非洲地区约560万医护人员短缺问题,减轻一线临床工作者行政负担,并提升医疗服务质量与一致性。

相关链接:


模型发布

微软开源9B参数长程语音模型VibeVoice-ASR #6

微软开源全新语音识别模型VibeVoice-ASR,支持60分钟长音频处理,输出带说话人识别与时间戳的结构化文本,支持自定义热词,模型参数90亿,代码已在Hugging Face发布,采用MIT许可证。

微软开源9B参数VibeVoice-ASR模型,支持60分钟音频转录,输出含说话人、时间戳文本,可自定义热词,MIT协议,已发布至Hugging Face。

相关链接:


FlashLabs发布开源语音对话模型Chroma 1.0 #7

FlashLabs发布开源语音对话模型Chroma 1.0,支持高保真语音克隆,对标OpenAI Realtime模型,已通过Hugging Face开放权重与Demo,采用Apache-2.0协议。

FlashLabs开源发布Chroma 1.0实时语音对话模型,集成语音克隆功能,对标OpenAI Realtime。模型权重、技术报告及Demo已上线Hugging Face,采用Apache-2.0许可供全球开发者使用。

相关链接:


SweepAI发布15亿参数代码编辑模型 #8

SweepAI发布开源模型Sweep Next-Edit,15亿参数,专注预测代码编辑,性能超四倍规模模型,支持本地运行,兼顾速度与隐私。

SweepAI开源15亿参数模型Sweep Next-Edit,可预测开发者下一步代码编辑,性能超越四倍规模模型,支持本地运行,兼顾速度、隐私保护与自动补全。

相关链接:


Inworld AI发布TTS-1.5语音模型 #9

Inworld AI发布TTS-1.5语音模型,延迟更低、表现力更强,支持15种语言,首字节延迟低至130毫秒,支持语音克隆与多部署方案。

Inworld AI发布TTS-1.5语音模型,专为实时语音代理设计。Max和Mini型号首字节延迟分别低于250ms和130ms,速度提升4倍。支持15种语言,成本约0.005-0.01美元/分钟,提供云API和本地化部署。

相关链接:


Meta超级智能实验室完成首批AI模型训练 #10

Meta首席技术官博斯沃思宣布,由扎克伯格去年组建的“超级智能实验室”在成立不足六个月后,已训练完成首个基础模型,并向内部交付首批AI模型,表现优异,后续将持续优化以支持应用落地。

Meta CTO宣布,扎克伯格去年组建的“Meta超级智能实验室”六个月内完成首个基础模型训练并交付首批内部模型,评价“表现非常出色”,但强调需post-training优化以用于内外部应用。

相关链接:


开发生态

Cognition发布新一代代码审查工具Devin Review #11

2026年1月21日,Cognition 发布了代码审查工具 Devin Review。该工具通过优化用户界面,帮助开发者更高效理解 GitHub 拉取请求。目前支持公测,访问 devinreview.com 或将 GitHub 链接中的 "github" 替换为 "devinreview" 即可使用。

2026年1月21日,Cognition发布新一代代码审查工具Devin Review,重塑GitHub PR审查体验。不同于传统AI抓Bug工具,该产品侧重通过改进用户界面辅助人类开发者建立代码理解力,提升审查效率。目前已开放公测,无需注册,可通过devinreview.com访问,或将GitHub PR链接中的"github"替换为"devinreview"直接使用。

相关链接:


LangChain发布LangSmith Agent Builder #12

LangChain发布LangSmith Agent Builder通用版,支持自然语言创建AI代理,自动处理复杂任务。集成Gmail、Google Calendar等应用,支持MCP连接自定义工具,现可免费试用。

LangChain本周发布LangSmith Agent Builder GA版,支持自然语言创建AI智能体。工具通过自动推理生成提示和子代理,无需手动规划流程,适用于复杂多步骤任务。产品集成Gmail等第三方应用,支持MCP协议连接自定义工具,已开放免费试用。

相关链接:


Vercel发布开源agent技能生态系统 #13

Vercel 推出开源平台 skills.sh,开发者可通过命令行将他人技能快速集成至 agent。

Vercel发布开源工具skills.sh,支持通过npx skills add <owner/repo>为agent集成共享技能。

相关链接:


Ollama新增图像生成功能 #14

Ollama新增图像生成功能,支持在macOS上使用Z-image-turbo和Flux.2 Klein模型,Windows与Linux版本将后续推出。

Ollama上线图像生成功能,支持阿里Z-image-turbo与BFL Flux.2 Klein模型,命令ollama run x/z-image-turbox/flux2-klein,macOS先行,Win/Linux后续。

相关链接:


Gemini CLI v0.25.0发布扩展管理改进 #15

Gemini CLI发布v0.25.0版本,新增CLI Help子代理,支持动态终端标题、Tab键切换Shell。用户可禁用LLM自动校正,通过斜杠命令直接管理扩展,并使用@文件选择器引用本地路径。

Gemini CLI v0.25.0发布,新增CLI Help子代理,终端标题栏动态显示Agent状态,交互式Shell热键改为Tab,可禁用LLM编辑校正,内置扩展管理,斜杠命令支持@文件选择器。

相关链接:


Stitch推出Gemini CLI扩展与MCP服务器 #16

Stitch推出Gemini CLI扩展,简化配置并增强Agent智能。同步发布MCP Server,支持AI实时生成UI并对接IDE,实现设计与编码无缝集成。

Stitch推出Gemini CLI Extension连接命令行工作流,同期发布MCP Server使AI编程Agent实时生成UI设计、从IDE获取代码,实现设计与编码无缝集成。

相关链接:


LM Arena推出Video Arena视频模型评测 #17

AI模型评测平台LM Arena本周上线Video Arena功能,支持用户匿名对比主流视频生成模型。首批参与模型包括Google Veo 3.1、OpenAI Sora 2等五款,功能免费开放,访问lmarena.ai即可体验。

AI评测平台LM Arena本周推出Video Arena功能,支持网页端视频生成模型匿名对战。首批上线Google Veo 3.1、OpenAI Sora 2、Kling 2.6 Pro、Wan 2.5及Seedance v1.5 Pro,目前在lmarena.ai免费开放。

相关链接:


技术与洞察

Anthropic发布Claude新宪法框架 #18

Anthropic发布“Claude的新宪法”,升级其AI训练方法。该文件以解释“为什么”为核心,取代旧有规则,提升模型在复杂情境下的判断力。它作为训练权威,指导数据生成与自我修正,并已开源。

Anthropic发布"Claude's new constitution",对其Constitutional AI训练方法重大升级:从僵化规则转向解释"为什么"的叙述框架,以提升模型在复杂情况下的判断力。该文档作为训练权威指导合成数据生成与自我修正,并以CC0协议开源。

相关链接:


OpenAI扩展国家计划应对AI能力鸿沟 #19

OpenAI发布《弥合能力鸿沟》报告,揭示全球AI应用差距。其OpenAI for Countries计划将扩展至教育、医疗、AI培训、防灾、网络安全及初创孵化六大领域,以缩小各国间生产力分化。

OpenAI发布《弥合能力鸿沟》报告,揭示全球AI应用存在巨大"Capability Overhang"差距。其OpenAI for Countries计划扩展至教育、医疗、AI技能培训、防灾减灾、网络安全及初创企业孵化六大领域。数据显示,深度用户"高级推理能力"调用量为普通用户7倍,国别差距最高达3倍,已导致生产力分化。

相关链接:


DeepMind CEO称AI变革规模或为工业革命百倍 #20

Google DeepMind 首席执行官哈萨比斯在达沃斯论坛接受彭博采访,称当前 AI 变革速度或达工业革命百倍,预计 2030 年实现通用人工智能(AGI)概率为 50%。他强调谷歌凭借 Gemini 模型与全栈技术优势重返前沿,并谈及机器人、中美竞争、就业与监管等议题。

DeepMind CEO Demis Hassabis在达沃斯接受彭博采访时表示,AI变革规模将达工业革命的百倍,2030年实现AGI概率为50%,其定义标准高于行业。Google通过Gemini模型重返前沿,宣称拥有从TPU芯片到终端产品的全栈竞争优势。

相关链接:


行业动态

智谱AI因算力紧缺限售GLM Coding Plan #21

智谱AI宣布,因GLM-4.7模型用户激增,算力紧张,自1月23日10时起,GLM Coding Plan将限量发售,每日额度为原20%,每日10时刷新,已订阅用户不受影响。

智谱AI:因GLM-4.7用户激增致算力紧缺,1月23日起GLM Coding Plan每日可售额度降至20%,存量自动续订用户不受影响。

相关链接:


Yann LeCun加入Logical Intelligence董事会 #22

Yann LeCun已加入创业公司Logical Intelligence董事会。该公司宣称在AI领域取得突破,但技术细节、产品形态及商业化时间尚未公布。

Yann LeCun加入Logical Intelligence董事会,该公司称AI突破但无细节。

相关链接:


前瞻与传闻

苹果将推生成式AI版Siri #23

Apple正打造代号“Campos”的新Siri,升级为支持语音文本交互的生成式AI助手,将集成于iOS 27和macOS 27,取代现有界面,支持搜索、创作、图像生成等功能,预计6月WWDC预览,9月随系统发布。

Apple拟将Siri改造为代号"Campos"的生成式AI聊天机器人,深度集成于iOS 27和macOS 27,6月WWDC预览,9月正式发布。

相关链接:


苹果开发AI随身设备2027年上市 #24

Apple正研发一款AI胸针设备,配双摄像头与三麦克风,2027年上市,初期供货2000万台,将与OpenAI硬件竞争。

据The Information报告,Apple正开发胸针式AI穿戴设备,配备双摄像头与三麦克风,尺寸或略厚于AirTag,预计2027年上市,初期供货量或达2000万台。

相关链接:


其他

智谱AI语音输入法转向免费 #25

智谱AI发布了其旗下AI输入法产品AutoGLM的1.5.0版本更新,此次更新的核心是AI语音输入功能永久对用户免费开放。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误