AI 早报 2026-01-22
概览
产品应用
- OpenAI向付费用户推送ChatGPT Voice更新 ↗
#1 - ChatGPT Atlas更新界面与搜索功能 ↗
#2 - 谷歌教育版Workspace整合Gemini功能 ↗
#3 - 谷歌Gemini推出免费SAT备考功能 ↗
#4 - OpenAI与盖茨基金会启动非洲医疗AI计划 ↗
#5
模型发布
- 微软开源9B参数长程语音模型VibeVoice-ASR ↗
#6 - FlashLabs发布开源语音对话模型Chroma 1.0 ↗
#7 - SweepAI发布15亿参数代码编辑模型 ↗
#8 - Inworld AI发布TTS-1.5语音模型 ↗
#9 - Meta超级智能实验室完成首批AI模型训练 ↗
#10
开发生态
- Cognition发布新一代代码审查工具Devin Review ↗
#11 - LangChain发布LangSmith Agent Builder ↗
#12 - Vercel发布开源agent技能生态系统 ↗
#13 - Ollama新增图像生成功能 ↗
#14 - Gemini CLI v0.25.0发布扩展管理改进 ↗
#15 - Stitch推出Gemini CLI扩展与MCP服务器 ↗
#16 - LM Arena推出Video Arena视频模型评测 ↗
#17
技术与洞察
行业动态
前瞻与传闻
其他
- 智谱AI语音输入法转向免费 ↗
#25
产品应用
OpenAI向付费用户推送ChatGPT Voice更新 #1
OpenAI周二向付费用户推送了ChatGPT Voice更新,优化了指令遵循能力,并修复了重复回放自定义指令的缺陷,此次升级已全面开放。
OpenAI周二向付费用户推送ChatGPT Voice更新,提升模型指令遵循能力,修复重复回诵用户自定义指令的缺陷。官方称此为重要改进,目前已向所有付费订阅用户开放。
相关链接:
ChatGPT Atlas更新界面与搜索功能 #2
ChatGPT Atlas更新,界面交互全面重构。新增Tab分组与Emoji标签,搜索结果改用垂直链接展示。支持Auto智能选源,自动调用ChatGPT或Google,并优化内存减少卡顿。
ChatGPT Atlas更新:新增Tab Groups标签分组与Emoji分类功能,搜索结果改为垂直堆叠展示,搜索引擎新增"Auto"选项可智能调用,底层内存占用优化。
相关链接:
谷歌教育版Workspace整合Gemini功能 #3
Google将部分Gemini AI功能免费整合至教育版Workspace,并推出AI代理管理平台Workspace Studio。新功能将逐步向18岁以上用户开放,高级服务Google AI Pro for Education仍保留。
Google宣布扩展教育领域AI能力,将部分Gemini in Workspace功能以免费增值形式整合进Google Workspace for Education核心版本,并推出用于设计和管理AI agents的新平台Workspace Studio。多数功能将在未来数周内向18岁以上用户逐步推出,部分完整上线或需数月。高级订阅服务Google AI Pro for Education继续保留。

相关链接:
谷歌Gemini推出免费SAT备考功能 #4
Google推出Gemini AI助手的SAT备考功能,联合普林斯顿Review开发,免费提供模拟考试、即时反馈与个性化学习计划,现已上线。
Google为Gemini推出免费SAT模拟考试,与The Princeton Review合作开发,现已上线。功能包括即时反馈、错题解析及AI生成个性化学习计划,标志其AI能力深度整合进正式教育流程。

相关链接:
OpenAI与盖茨基金会启动非洲医疗AI计划 #5
OpenAI与盖茨基金会联合启动Horizon 1000计划,投入五千万美元,支持非洲千家诊所。首站卢旺达,目标2028年前用AI缓解医护短缺,减轻负担,提升医疗质量。
OpenAI与盖茨基金会本周二联合宣布启动Horizon 1000试点计划,承诺共同投入5000万美元,目标2028年前将AI能力赋能非洲1000家基层医疗诊所,首个落地国家为卢旺达。该计划旨在通过AI工具缓解撒哈拉以南非洲地区约560万医护人员短缺问题,减轻一线临床工作者行政负担,并提升医疗服务质量与一致性。



相关链接:
- https://openai.om/index/horizon-1000/
- https://openai.com/index/horizon-1000
- https://openai.com/news/global-affairs/
- https://openai.com/index/ai-clinical-copilot-penda-health/
- https://openai.com/index/how-countries-can-end-the-capability-overhang/
- https://openai.com/index/edu-for-countries/
- https://openai.com/index/stargate-community/
模型发布
微软开源9B参数长程语音模型VibeVoice-ASR #6
微软开源全新语音识别模型VibeVoice-ASR,支持60分钟长音频处理,输出带说话人识别与时间戳的结构化文本,支持自定义热词,模型参数90亿,代码已在Hugging Face发布,采用MIT许可证。
微软开源9B参数VibeVoice-ASR模型,支持60分钟音频转录,输出含说话人、时间戳文本,可自定义热词,MIT协议,已发布至Hugging Face。

相关链接:
FlashLabs发布开源语音对话模型Chroma 1.0 #7
FlashLabs发布开源语音对话模型Chroma 1.0,支持高保真语音克隆,对标OpenAI Realtime模型,已通过Hugging Face开放权重与Demo,采用Apache-2.0协议。
FlashLabs开源发布Chroma 1.0实时语音对话模型,集成语音克隆功能,对标OpenAI Realtime。模型权重、技术报告及Demo已上线Hugging Face,采用Apache-2.0许可供全球开发者使用。
相关链接:
SweepAI发布15亿参数代码编辑模型 #8
SweepAI发布开源模型Sweep Next-Edit,15亿参数,专注预测代码编辑,性能超四倍规模模型,支持本地运行,兼顾速度与隐私。
SweepAI开源15亿参数模型Sweep Next-Edit,可预测开发者下一步代码编辑,性能超越四倍规模模型,支持本地运行,兼顾速度、隐私保护与自动补全。
相关链接:
Inworld AI发布TTS-1.5语音模型 #9
Inworld AI发布TTS-1.5语音模型,延迟更低、表现力更强,支持15种语言,首字节延迟低至130毫秒,支持语音克隆与多部署方案。
Inworld AI发布TTS-1.5语音模型,专为实时语音代理设计。Max和Mini型号首字节延迟分别低于250ms和130ms,速度提升4倍。支持15种语言,成本约0.005-0.01美元/分钟,提供云API和本地化部署。
相关链接:
- https://artificialanalysis.ai/text-to-speech/models/inworld-tts
- https://inworld.ai/blog/introducing-inworld-tts-1-5
Meta超级智能实验室完成首批AI模型训练 #10
Meta首席技术官博斯沃思宣布,由扎克伯格去年组建的“超级智能实验室”在成立不足六个月后,已训练完成首个基础模型,并向内部交付首批AI模型,表现优异,后续将持续优化以支持应用落地。
Meta CTO宣布,扎克伯格去年组建的“Meta超级智能实验室”六个月内完成首个基础模型训练并交付首批内部模型,评价“表现非常出色”,但强调需post-training优化以用于内外部应用。
相关链接:
开发生态
Cognition发布新一代代码审查工具Devin Review #11
2026年1月21日,Cognition 发布了代码审查工具 Devin Review。该工具通过优化用户界面,帮助开发者更高效理解 GitHub 拉取请求。目前支持公测,访问 devinreview.com 或将 GitHub 链接中的 "github" 替换为 "devinreview" 即可使用。
2026年1月21日,Cognition发布新一代代码审查工具Devin Review,重塑GitHub PR审查体验。不同于传统AI抓Bug工具,该产品侧重通过改进用户界面辅助人类开发者建立代码理解力,提升审查效率。目前已开放公测,无需注册,可通过devinreview.com访问,或将GitHub PR链接中的"github"替换为"devinreview"直接使用。
相关链接:
LangChain发布LangSmith Agent Builder #12
LangChain发布LangSmith Agent Builder通用版,支持自然语言创建AI代理,自动处理复杂任务。集成Gmail、Google Calendar等应用,支持MCP连接自定义工具,现可免费试用。
LangChain本周发布LangSmith Agent Builder GA版,支持自然语言创建AI智能体。工具通过自动推理生成提示和子代理,无需手动规划流程,适用于复杂多步骤任务。产品集成Gmail等第三方应用,支持MCP协议连接自定义工具,已开放免费试用。

相关链接:
Vercel发布开源agent技能生态系统 #13
Vercel 推出开源平台 skills.sh,开发者可通过命令行将他人技能快速集成至 agent。
Vercel发布开源工具skills.sh,支持通过npx skills add <owner/repo>为agent集成共享技能。
相关链接:
Ollama新增图像生成功能 #14
Ollama新增图像生成功能,支持在macOS上使用Z-image-turbo和Flux.2 Klein模型,Windows与Linux版本将后续推出。
Ollama上线图像生成功能,支持阿里Z-image-turbo与BFL Flux.2 Klein模型,命令ollama run x/z-image-turbo和x/flux2-klein,macOS先行,Win/Linux后续。
相关链接:
Gemini CLI v0.25.0发布扩展管理改进 #15
Gemini CLI发布v0.25.0版本,新增CLI Help子代理,支持动态终端标题、Tab键切换Shell。用户可禁用LLM自动校正,通过斜杠命令直接管理扩展,并使用@文件选择器引用本地路径。
Gemini CLI v0.25.0发布,新增CLI Help子代理,终端标题栏动态显示Agent状态,交互式Shell热键改为Tab,可禁用LLM编辑校正,内置扩展管理,斜杠命令支持@文件选择器。
相关链接:
Stitch推出Gemini CLI扩展与MCP服务器 #16
Stitch推出Gemini CLI扩展,简化配置并增强Agent智能。同步发布MCP Server,支持AI实时生成UI并对接IDE,实现设计与编码无缝集成。
Stitch推出Gemini CLI Extension连接命令行工作流,同期发布MCP Server使AI编程Agent实时生成UI设计、从IDE获取代码,实现设计与编码无缝集成。
相关链接:
- https://stitch.withgoogle.com/docs/mcp/setup
- https://x.com/stitchbygoogle/status/2014090813937164490
- https://x.com/testingcatalog/status/2013767913862250875
- https://x.com/simpsoka/status/2013813951440863690
LM Arena推出Video Arena视频模型评测 #17
AI模型评测平台LM Arena本周上线Video Arena功能,支持用户匿名对比主流视频生成模型。首批参与模型包括Google Veo 3.1、OpenAI Sora 2等五款,功能免费开放,访问lmarena.ai即可体验。
AI评测平台LM Arena本周推出Video Arena功能,支持网页端视频生成模型匿名对战。首批上线Google Veo 3.1、OpenAI Sora 2、Kling 2.6 Pro、Wan 2.5及Seedance v1.5 Pro,目前在lmarena.ai免费开放。
相关链接:
技术与洞察
Anthropic发布Claude新宪法框架 #18
Anthropic发布“Claude的新宪法”,升级其AI训练方法。该文件以解释“为什么”为核心,取代旧有规则,提升模型在复杂情境下的判断力。它作为训练权威,指导数据生成与自我修正,并已开源。
Anthropic发布"Claude's new constitution",对其Constitutional AI训练方法重大升级:从僵化规则转向解释"为什么"的叙述框架,以提升模型在复杂情况下的判断力。该文档作为训练权威指导合成数据生成与自我修正,并以CC0协议开源。
相关链接:
OpenAI扩展国家计划应对AI能力鸿沟 #19
OpenAI发布《弥合能力鸿沟》报告,揭示全球AI应用差距。其OpenAI for Countries计划将扩展至教育、医疗、AI培训、防灾、网络安全及初创孵化六大领域,以缩小各国间生产力分化。
OpenAI发布《弥合能力鸿沟》报告,揭示全球AI应用存在巨大"Capability Overhang"差距。其OpenAI for Countries计划扩展至教育、医疗、AI技能培训、防灾减灾、网络安全及初创企业孵化六大领域。数据显示,深度用户"高级推理能力"调用量为普通用户7倍,国别差距最高达3倍,已导致生产力分化。
相关链接:
- https://openai.com/index/how-countries-can-end-the-capability-overhang/
- https://openai.com/index/ai-for-self-empowerment/
DeepMind CEO称AI变革规模或为工业革命百倍 #20
Google DeepMind 首席执行官哈萨比斯在达沃斯论坛接受彭博采访,称当前 AI 变革速度或达工业革命百倍,预计 2030 年实现通用人工智能(AGI)概率为 50%。他强调谷歌凭借 Gemini 模型与全栈技术优势重返前沿,并谈及机器人、中美竞争、就业与监管等议题。
DeepMind CEO Demis Hassabis在达沃斯接受彭博采访时表示,AI变革规模将达工业革命的百倍,2030年实现AGI概率为50%,其定义标准高于行业。Google通过Gemini模型重返前沿,宣称拥有从TPU芯片到终端产品的全栈竞争优势。
相关链接:
行业动态
智谱AI因算力紧缺限售GLM Coding Plan #21
智谱AI宣布,因GLM-4.7模型用户激增,算力紧张,自1月23日10时起,GLM Coding Plan将限量发售,每日额度为原20%,每日10时刷新,已订阅用户不受影响。
智谱AI:因GLM-4.7用户激增致算力紧缺,1月23日起GLM Coding Plan每日可售额度降至20%,存量自动续订用户不受影响。
相关链接:
Yann LeCun加入Logical Intelligence董事会 #22
Yann LeCun已加入创业公司Logical Intelligence董事会。该公司宣称在AI领域取得突破,但技术细节、产品形态及商业化时间尚未公布。
Yann LeCun加入Logical Intelligence董事会,该公司称AI突破但无细节。
相关链接:
前瞻与传闻
苹果将推生成式AI版Siri #23
Apple正打造代号“Campos”的新Siri,升级为支持语音文本交互的生成式AI助手,将集成于iOS 27和macOS 27,取代现有界面,支持搜索、创作、图像生成等功能,预计6月WWDC预览,9月随系统发布。
Apple拟将Siri改造为代号"Campos"的生成式AI聊天机器人,深度集成于iOS 27和macOS 27,6月WWDC预览,9月正式发布。
相关链接:
- https://www.bloomberg.com/news/articles/2026-01-21/ios-27-apple-to-revamp-siri-as-built-in-iphone-mac-chatbot-to-fend-off-openai
- https://techcrunch.com/2026/01/21/apple-plans-to-make-siri-an-ai-chatbot-report-says
苹果开发AI随身设备2027年上市 #24
Apple正研发一款AI胸针设备,配双摄像头与三麦克风,2027年上市,初期供货2000万台,将与OpenAI硬件竞争。
据The Information报告,Apple正开发胸针式AI穿戴设备,配备双摄像头与三麦克风,尺寸或略厚于AirTag,预计2027年上市,初期供货量或达2000万台。
相关链接:
其他
智谱AI语音输入法转向免费 #25
智谱AI发布了其旗下AI输入法产品AutoGLM的1.5.0版本更新,此次更新的核心是AI语音输入功能永久对用户免费开放。
相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。