2026-01-23 · Markdown

AI 早报 2026-01-23

概览

产品应用

模型发布

开发生态

技术与洞察

行业动态


产品应用

谷歌 AI Mode in Search 新增 Personal Intelligence 功能 #1

Google 推出 AI 搜索 Personal Intelligence 功能,支持连接 Gmail 和 Google Photos,提供个性化搜索。该功能以实验项目形式分阶段上线,美国地区符合条件的英文个人账户及 AI Pro/Ultra 用户可自动获得权限,支持手动开启。

Google在Search的AI Mode中推出Personal Intelligence功能,允许连接Gmail和Google Photos获取个性化搜索结果。该Labs实验正分阶段向美国地区、使用英文的AI Pro/Ultra订阅用户(个人账户)推送。用户可通过AI Mode内邀请或手动路径(Search→个人资料→Search personalization→Connected Content Apps)开启此功能。

相关链接:


秘塔AI推出MetaLaw免费合同审查功能 #2

秘塔AI发布MetaLaw,支持免费上传合同,选择立场后自动识别风险,覆盖租房及商业协议,一键生成带批注的Word文档,适配律师和法务工作流程。

秘塔AI推出MetaLaw,提供免费合同审查。用户上传合同并选择立场后可识别风险,支持个人租房及公司商业协议,生成Word批注/修订版,兼容律师法务流程。

相关链接:


模型发布

Qwen团队开源Qwen3-TTS多语言语音合成模型 #3

Qwen团队开源Qwen3-TTS语音合成模型,含五款0.6B与1.7B参数模型,支持十种语言,支持音色克隆与自由设计,首字延迟仅97毫秒,支持自然语言控制音色情感,全模型支持微调。

Qwen团队开源Qwen3-TTS语音合成模型家族,包含VoiceDesign、CustomVoice、Base三种类型共5个模型,参数规模为0.6B和1.7B。该系列支持中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语10种语言,具备自由形式语音设计与克隆能力。核心技术为自研SOTA 12Hz高压缩率tokenizer,采用端到端架构,支持流式与非流式生成,首字延迟低至97ms,可通过自然语言指令控制音色、情感等属性。CustomVoice提供9种预设音色,Base支持3秒快速语音克隆,VoiceDesign可根据文本描述生成全新音色。所有模型均支持全参数微调,并提供完整模型权重。

相关链接:


百川智能发布医疗大模型M3 Plus #4

百川智能发布医疗大模型M3 Plus,官方称幻觉率仅2.6%并首创证据锚定技术,向医疗机构免费开放API。

百川智能发布医疗大模型Baichuan-M3 Plus,采用六源循证技术将幻觉率降至2.6%,首创"证据锚定"可追溯原始论文。启动"海纳百川"计划向医疗机构免费提供API,调用成本降70%,限时15天免费体验。

相关链接:


百度发布文心大模型5.0正式版 #5

百度发布文心大模型5.0正式版,采用原生全模态架构,支持多模态输入输出,已在文心APP和官网上线,开发者可通过千帆平台调用。

百度发布文心大模型5.0正式版,参数规模达2.4万亿,采用MoE架构,单次推理激活参数低于3%。该模型为原生全模态大模型,基于统一自回归架构实现文本、图像、音频、视频等数据联合训练,区别于业界"后期融合"方案。功能上在多模态理解、代码生成等场景实现突破,可自动生成可运行代码。官方数据显示,在40余项权威基准评测中,其语言与多模态理解能力达国际第一梯队,图像与视频生成能力与垂直专精模型相当。目前已上线文心APP和文心一言官网,企业及开发者可通过百度AI Cloud千帆平台调用。

相关链接:


开发生态

Cua发布开源Computer-Use Agent 基础设施 #6

Cua 发布开源桌面 AI Agent 基础设施,支持 macOS、Linux、Windows。平台含 Cua、Cua-Bench 和 Lume,提供沙箱、SDK 与基准测试,采用 MIT 许可证,可通过 Python 快速接入。

Cua发布开源Computer-Use Agent基础设施,为控制macOS、Linux、Windows桌面的AI Agent提供训练、评估与部署工具。平台含三部分:Cua用于构建桌面交互Agent;Cua-Bench在OSWorld、ScreenSpot、Windows Arena等基准上评估模型或训练Agent;Lume在Apple Silicon以近原生性能运行macOS/Linux虚拟机。项目采用MIT许可证,提供cua-agent等核心包及Python SDK。

相关链接:


Gradium推出顶尖语音克隆技术 #7

Gradium推出顶尖语音克隆技术,精准还原口音、韵律与身份。支持盲测验证,提供classifier-free guidance调节功能。API已开放,用户可立即接入使用。

Gradium发布语音克隆技术,官方称其可捕捉口音、韵律与身份,支持盲测试与可调classifier-free guidance,API已开放。

相关链接:


Anthropic发布Claude Code最佳实践指南 #8

Anthropic发布了Claude Code最佳实践指南,汇集了内部与外部工程师经验,旨在提升开发者与AI协作的编码效率。该指南系统介绍了如何与受限上下文的AI Agent高效交互,涵盖环境配置、会话管理及自动化扩展等关键模式。

Anthropic发布Claude Code最佳实践,整合内外工程师经验,指导开发者与自主性但受上下文限制的AI Agent高效协作,涵盖环境配置、会话管理至自动化扩展。

相关链接:


腾讯云发布CodeBuddy Code 2.0 #9

腾讯云发布 CodeBuddy Code 2.0,开放 SDK 与 API,支持 AI Agent 集成,采用 Plan 模式与 ACP 协议实现标准化编程。增强社区兼容性,支持插件市场、自定义智能体与 AgentHooks,迁移 CLI 生态。新增基于 TencentOS 的沙箱隔离环境,提升代码执行安全。优化工程记忆、交互模式与工具权限,支持 GLM-4.7、GPT5.2Codex 等模型。企业版上线,提供统一认证、研效度量与安全审计。

腾讯云发布 CodeBuddy 2.0,开放 SDK/API 集成 AI Agent,Plan 模式+ACP 协议实现透明化编程。新增 Plugin 市场、自定义 Subagents、AgentHooks、TencentOS 沙箱安全,优化工程记忆与交互,支持自定义模型。企业版提供统一身份认证、研效度量、安全审计。

相关链接:


Cursor 2.4发布引入subagents功能 #10

Cursor 发布 2.4 版本,新增子代理功能,支持并行处理任务,提升效率并优化上下文使用。新版本集成 Google 图像生成能力,Agent 可主动提问澄清,并支持自定义配置。

Cursor 2.4新增subagents并行任务、Google Nano Banana Pro图像生成功能,Agent可主动提问澄清。

相关链接:


OpenAI发布Codex CLI 0.89.0版本更新 #11

OpenAI 发布 Codex CLI 0.89.0,新增权限管理与技能 UI,弃用自定义提示,推荐使用 Skills。此前 0.88.0 修复多处错误并升级 Rust 依赖,现支持多智能体与子智能体功能。

OpenAI发布Codex CLI 0.89.0,新增/permissions与/skill UI管理技能,改进slash-command选择逻辑,弃用自定义提示并建议改用Skills。0.88.0版本增加设备码认证fallback,修复内存泄漏、Azure端点错误、WSL TUI图像粘贴问题,升级Rust依赖。Codex支持multi-agent/subagents,可通过/experimental启用。

相关链接:


JetBrains IDE集成OpenAI Codex #12

JetBrains 将 OpenAI Codex 集成至其主流 IDE,用户可在 v2025.3 及以上版本中通过 AI Agent 选择器启用。通过 JetBrains AI 订阅可限时免费使用 Codex,额度用尽即止,其他方式不享受优惠,后续使用将消耗 AI Credits。

JetBrains IDE v2025.3及以上版本原生集成OpenAI Codex,支持IntelliJ、PyCharm、WebStorm、Rider。开发者通过JetBrains AI Agent选择器,可使用JetBrains AI订阅、ChatGPT账户或OpenAI API密钥验证身份。推广期间,通过订阅使用Codex限时免费至额度用尽,该优惠不适用于ChatGPT账户或API密钥,其他AI功能正常消耗AI Credits。免费期后,Codex使用将消耗AI Credits,用户可通过JetBrains AI小组件跟踪使用情况。

相关链接:


技术与洞察

谷歌DeepMind 发文介绍 D4RT 4D重建模型 #13

Google DeepMind 发布 D4RT,一种高效动态 4D 重建与跟踪模型,速度比以往提升 18 至 300 倍,支持实时应用。该技术可用于机器人导航、AR 设备和世界模型构建,提升 AI 对物理环境的理解能力。

Google DeepMind发布D4RT(Dynamic 4D Reconstruction and Tracking)统一AI模型,用于4D场景重建与跟踪。该模型将动态场景重建统一到高效框架中,速度较传统方法提升18-300倍,支持实时应用。其应用潜力涵盖三大领域:机器人技术中,为动态环境提供空间感知与安全导航能力;AR眼镜可实现设备端低延迟场景几何理解;世界模型方面,能有效分离相机运动、物体运动与静态几何,构建更接近物理现实的AI"世界模型"。

相关链接:


行业动态

OpenAI探索基于成果的盈利模式 #14

OpenAI 正探索新盈利模式,收入将与客户成果挂钩,如收取版税或授权费。CEO Sam Altman 表示,API 业务月增超10亿美元年收入。

OpenAI CFO Sarah Friar透露,公司正探索超越订阅费的多元化盈利模式,包括版税、基于成果的定价等。新模式将收入与客户可衡量的成功挂钩,例如从使用其工具成功开发的药物销售额中分成。与此同时,CEO Sam Altman称,公司API业务过去一个月新增超10亿美元年度经常性收入。

相关链接:


OpenAI正在寻求500亿美元新融资 #15

OpenAI CEO 山姆·奥尔特曼正接触中东投资者,拟融资至少500亿美元,用于AI芯片与数据中心建设,估值或达7500亿至8300亿美元。

据报道,OpenAI CEO Sam Altman正与中东顶级投资者洽谈新一轮融资,规模至少500亿美元,公司估值将达7500-8300亿美元,资金拟用于AI芯片研发和数据中心建设。

相关链接:


vLLM转型Inferact获1.5亿美元融资 #16

vLLM 创始团队成立新公司 Inferact,完成 1.5 亿美元种子轮融资,估值 8 亿美元,由 a16z 和 Lightspeed 领投。公司将继续支持 vLLM 开源项目,并打造下一代 AI 推理引擎。

vLLM创造者成立Inferact,完成1.5亿美元种子轮融资,估值8亿美元,由Andreessen Horowitz和Lightspeed共同领投。项目2023年起源于UC Berkeley Ion Stoica实验室,致力于将vLLM发展为全球AI推理引擎,持续投入开源社区并构建商业推理引擎。

相关链接:


DeepMind招聘经济学家研究AGI经济 #17

Google DeepMind 联合创始人 Shane Legg 正在招聘一名高级经济学家,负责领导团队研究 AGI 时代的经济学问题。

DeepMind联合创始人Shane Legg招聘高级经济学家,研究AGI后经济学领域。

相关链接:


cURL因LLM垃圾报告取消赏金计划 #18

cURL 维护者取消漏洞赏金计划,因大量由 LLM 生成的低质量报告泛滥,部分来自学生为作业或简历美化。社区担忧滥用行为,OWASP 等组织也面临类似问题。

cURL维护者因LLM低质漏洞报告取消赏金计划以减少滥用。据社区讨论,OWASP等也面临学期初大量无法复现的报告,部分疑为学生作业或简历 embellishment。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误