
AI 早报 2026-02-06
概览
产品应用
模型发布
开发生态
- Claude Code 推出实验性功能 Agent teams ↗
#5 - OpenAI 推出企业 AI Agent平台 Frontier ↗
#6 - OpenAI 推出 Trusted Access for Cyber 试点项目 ↗
#7 - GitHub升级Copilot并简化模型访问 ↗
#8 - Kiro CLI 引入 Agent Client Protocol 支持 ↗
#9 - 讯飞星辰 MaaS平台推出模型限免优惠 ↗
#10 - Google推出原生自适应无障碍框架 ↗
#11
技术与洞察
- OpenAI揭晓Codex核心架构 ↗
#12 - Cursor发布多智能体编程研究框架 ↗
#13 - Anthropic揭示基础设施配置影响 Agent 评估 ↗
#14 - AI2发布OpenScholar攻克学术“幻觉” ↗
#15 - OpenAI与Ginkgo合作推出AI实验室降低合成成本40% ↗
#16
行业动态
前瞻与传闻
产品应用
Figma推出位图AI矢量化工具Vectorize #1
Figma 推出 AI 工具 Vectorize,可将光栅图像转为可编辑矢量图,并支持颜色控制。
Figma推出AI工具Vectorize,可将光栅图像转为可编辑矢量图形,并简化颜色输出。该功能已在Figma Design和Draw中向已启用AI功能的Professional、Organization、Enterprise套餐Full-seat用户开放,每次操作消耗AI credits。使用流程:拖放图像到画布,选择Vectorize转换,生成的矢量图形可调整大小、形状、颜色和构图。三大应用场景:手绘草图转矢量插画(可通过color variables更新调色板)、书法文字转可修改logo(可用bounding boxes优化字母)、纹理照片转可复用叠加层。仅限Full-seat用户,需团队启用AI功能。

相关链接:
魔搭推出 Singularity Cinema 视频生成器 #2
魔搭开源发布 SingularityCinema,一个基于大语言模型的轻量短视频生成工具。它支持从文本生成故事板、配音、图文及视频,最终合成完整视频。
魔搭ModelScope在其ms-agent框架下推出了短视频生成器SingularityCinema。该工具基于大语言模型生成台本与分镜,并自动合成配音、字幕、图片及可选的文生视频,最终输出短视频。其能将文档或提示转换为故事板,并通过Manim/Remotion双引擎生成超过5分钟的视频。

相关链接:
- https://github.com/modelscope/ms-agent/tree/main/projects/singularity_cinema
- https://x.com/ModelScope2022/status/2019443081461002520
模型发布
Anthropic发布Claude Opus 4.6 #3
Anthropic 发布 Claude Opus 4.6,定位为最强 Agent 与编程模型。支持 1M token 上下文,最大输出达 128K。引入自适应思考模式与 Effort 参数,优化长对话处理。已在 claude.ai、API、云平台及各种第三方编程工具中上线。
Anthropic 发布 Claude Opus 4.6 模型,该模型定位为目前最智能的 Agent 与编程模型。Claude Opus 4.6 默认支持 200K 上下文窗口,并以 Beta 形式提供 1M token 上下文支持,最大输出能力从前代的 64K 提升至 128K。该版本引入了 Adaptive thinking(自适应思考)模式与 Effort 参数控制,支持通过 Context compaction(上下文压缩)功能处理长时对话。目前 Claude Opus 4.6 已在 claude.ai、Claude API 及主要云平台上线,并同步接入 GitHub Copilot、Cursor 和 Windsurf 等集成开发环境。
Claude Opus 4.6 在长上下文处理与输出能力上进行了显著调整。模型支持 1M token 的上下文窗口(Beta 阶段),对于超过 200K 部分的 prompt,输入与输出价格调整为每百万 token 分别支付 10 美元与 37.50 美元。最大输出 token 数翻倍至 128K,能够生成更长的报告、代码审查或多文件编辑内容。由于输出长度增加,SDK 要求对大 max_tokens 请求使用 streaming 模式以避免 HTTP 超时。此外,新引入的 Context compaction 功能处于 Beta 阶段,当对话接近窗口限制时,API 会自动在服务器端总结早期内容并替换原始上下文,从而支持长路径的 Agent 任务。
Adaptive thinking 成为该模型的推荐思考模式。通过设置 thinking: {type: "adaptive"},Claude 可以根据问题的复杂度动态决定思考深度,在默认的 high 级别下,模型几乎始终开启思考,而在较低 effort 级别下,简单任务可能会跳过思考。Effort 参数现在已正式可用,提供 low、medium、high(默认)和 max 四个级别。其中新推出的 max 级别提供最高性能支持。与此同时,旧有的 thinking: {type: "enabled"} 和 budget_tokens 参数已被标记为弃用(deprecated),虽然目前仍可运行,但将在未来版本中移除。
在产品集成方面,Claude Code 推出了 Agent teams(研究预览版),支持用户启动多个 Agent 并行协作并自动协调任务。该功能适用于代码库审查等读密集型任务,用户可通过 Shift+Up/Down 或 tmux 直接接管子 Agent。在办公场景中,Claude in Excel 增加了预先规划功能,支持摄取非结构化数据并自动推断结构,可一次性处理多步骤变更。Claude in PowerPoint 以侧边栏形式开启研究预览(面向 Max、Team 和 Enterprise 套餐),模型可读取幻灯片布局、字体和母版,支持根据描述生成符合品牌风格的完整幻灯片。
性能测试数据显示,Claude Opus 4.6 在多个 benchmark 中取得 SOTA 成绩。在衡量金融、法律等专业领域知识工作能力的 GDPval-AA 评估中,Claude Opus 4.6 以 1606 的 Elo 分数领先 GPT-5.2 约 144 分,胜率接近 70%。在代理编码测试 Terminal-Bench 2.0、多学科推理测试 Humanity’s Last Exam 以及搜索基准 BrowseComp 中均位列行业首位。针对长上下文检索的 MRCR v2 测试显示,在 1M token 范围下,该模型得分从 Sonnet 4.5 的 18.5% 提升至 76%,显著降低了“上下文腐烂(context rot)”现象。在 AGI 相关的测试中,模型在 ARC-AGI-1 达到 93.0% 准确率,在 ARC-AGI-2 达到 68.8%。而在 SWE-bench Verified 评估中,通过 prompt 修改,模型得分达到 81.42%。
在 API 接口与配置上,Claude Opus 4.6 存在多项变动。模型支持通过 inference_geo 参数控制数据驻留,用户可选择 global(默认)或 us 路由,美国境内推理价格为标准价格的 1.1 倍。原本用于 interleaved thinking 的 beta header 已弃用,Adaptive thinking 模式会自动启用该功能。此外,该模型不支持 assistant 消息预填(last-assistant-turn prefills),包含此类消息的请求将返回 400 错误,建议改用结构化输出或系统提示词(System prompt)。模型在工具调用参数的 JSON 字符串转义上可能与前代略有不同,开发者需确保使用标准 JSON 解析器。
安全与防御方面,Claude Opus 4.6 在自动化行为审计中表现出较低的误对齐率和过度拒绝率。Anthropic 为其开发了六种新的网络安全探测器,用于监测恶意使用行为。模型被用于协助修复开源软件漏洞,未来可能引入实时干预机制以阻断滥用。
目前 Claude Opus 4.6 的 API 定价维持在每百万输入/输出 token 分别为 5 美元与 25 美元。Claude 订阅用户可以在 2 月 19 日前通过 settings > usage 页面领取价值 50 美元的 API 额度,该额度可直接用于测试 Claude Opus 4.6 模型。


相关链接:
- https://www.anthropic.com/news/claude-opus-4-6
- https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6
- https://x.com/claudeai/status/2019467372609040752
OpenAI发布GPT-5.3-Codex #4
OpenAI 发布 GPT-5.3-Codex,整合模型编码与推理能力,速度提升25%,支持实时交互与中途引导。模型已在 Codex 上线,API 将陆续开放。该模型在多项编码与安全测试中表现优异,并首次用于自身开发过程中。
OpenAI 发布 GPT-5.3-Codex。该模型将 GPT-5.2-Codex 的编码性能与 GPT-5.2 的推理及专业知识能力整合至单一系统,运行速度较前代提升 25%。GPT-5.3-Codex 能够处理涉及研究、工具调用及复杂执行的长周期技术任务,支持用户在模型运行过程中进行实时交互、获取决策更新并实施中途引导(mid-turn steering),而无需中断任务流。目前该模型已在付费 ChatGPT 套餐中开放,覆盖 App、CLI、IDE 插件及网页端,后续将提供 API 访问。
GPT-5.3-Codex 是首个在自身开发过程中发挥关键作用的模型。OpenAI 开发团队利用该模型的早期版本进行训练任务调试、部署管理以及测试评估结果的诊断。该模型基于 NVIDIA GB200 NVL72 系统进行联合设计、训练与服务提供,通过基础架构与推理栈的优化,使 Codex 用户的交互与结果生成速度得以提升。据官方说明,在超高(xhigh)推理努力程度下,得益于 Token 效率与推理优化的结合,GPT-5.3-Codex 的实际运行效率比 GPT-5.2-Codex 提升约 60% 至 70%。在处理相同任务时,该模型消耗的 Token 数量不到 GPT-5.2-Codex 的一半。
在多项 Agent 能力与硬核编码基准测试中,GPT-5.3-Codex 均达到性能高点: (1)SWE-Bench Pro:在超高推理努力下达到 56.8% 的准确率。该测试涵盖四种语言,具有更强的抗污染性与行业相关性。 (2)Terminal-Bench 2.0:得分 77.3%,用于衡量编码 Agent 必需的终端操作技能。 (3)OSWorld-Verified:在视觉桌面环境的生产力任务测试中达到 64.7%,该测试涉及对 Ubuntu、Windows 和 macOS 的操作。 (4)GDPval:胜率或平率为 70.9%,匹配 GPT-5.2 的专业知识水平。 (5)Cybersecurity Capture The Flag:得分 77.6%。 (6)SWE-Lancer IC Diamond:得分 81.4%。
在网页开发场景中,GPT-5.3-Codex 能够利用内置的网页游戏开发技能,通过“修复 Bug”或“改进游戏”等模糊反馈,在数日内从零构建复杂的应用程序或游戏。在处理 underspecified 的网站提示词时,模型具有更强的默认意图理解能力。例如,它能自动将年度订阅计划转换为折算后的月度价格显示,并能自主生成带有自动切换功能的评价轮播组件。此外,该模型的 Agent 能力已扩展至整个软件生命周期及通用办公场景,包括调试、部署、监测、撰写 PRD、编辑文案、进行用户研究、生成演示文稿、处理电子表格分析及构建数据流水线。在处理数千个数据点时,该模型能在 3 分钟内完成关键见解的摘要。
在交互体验方面,用户可以在 Codex App 的“设置 > 通用 > Follow-up behavior”中启用中途引导功能。模型在执行任务时会实时解释其操作逻辑并响应反馈,使用户能够随时调整解决方案。
针对网络安全,GPT-5.3-Codex 是 OpenAI 预备框架(Preparedness Framework)下首个被评为“高能力(High capability)”等级的模型,也是首个直接针对软件漏洞识别进行训练的模型。OpenAI 部署了包含安全训练、自动化监测、高级功能受信任访问以及结合威胁情报的强制执行流水线。为加强防御生态建设,OpenAI 采取了以下动作: (1)启动 Trusted Access for Cyber 试点项目,加速网络防御研究。 (2)扩展安全研究 Agent Aardvark 的私测范围,将其作为 Codex Security 产品线的首个工具。 (3)为 Next.js 等开源项目提供免费的代码库扫描服务。 (4)承诺投入 1000 万美元 API 信用额度,通过 Cybersecurity Grant Program 支持开源软件与关键基础设施的防御研究。
GPT-5.3-Codex 目前已在所有支持 Codex 的环境中上线。官方计划在确保安全性的前提下尽快开放 API 访问权限。



相关链接:
- https://openai.com/index/introducing-gpt-5-3-codex/
- https://openai.com/index/gpt-5-3-codex-system-card/
- https://openai.com/index/trusted-access-for-cyber/
开发生态
Claude Code 推出实验性功能 Agent teams #5
Claude Code 推出实验性功能 Agent teams,支持多模型并行协作。该功能需手动启用,支持任务分配与实时通信,目前处于 Research Preview 阶段。
Anthropic在Claude Code中推出实验性“Agent teams”功能,允许多个Claude实例并行协作处理复杂工程任务。该功能处于Research Preview阶段,旨在应对超出单Agent能力的挑战。
在一次压力测试中,Anthropic研究员Nicholas Carlini领导的一个由16个Agent组成的团队,在两周内基于Opus 4.6模型,从零构建了一个包含10万行代码、以Rust编写的C编译器。该编译器支持x86、ARM与RISC-V架构,已成功编译Linux 6.9内核、Doom、SQLite及Redis等项目,并在GCC torture test suite中达到99%的通过率。
Agent teams架构由一个Lead和多个Teammates组成。Lead负责任务分配与审批,Teammates在独立窗口中运行并可直接通信。系统通过共享任务列表和文件锁定机制防止任务冲突,并在编译Linux内核等巨型任务时,引入GCC作为“Oracle”辅助定位Bug。整个构建过程消耗了近20亿Input tokens与1.4亿Output tokens,API成本接近2万美元。
目前该系统仍有限制:不支持恢复Teammates会话状态,生成的代码执行效率低于GCC,且因缺少16位代码生成器,尚不能独立引导Linux脱离实模式。此功能默认关闭,需通过设置环境变量启用。

相关链接:
- https://www.anthropic.com/engineering/building-c-compiler
- https://github.com/anthropics/claudes-c-compiler
- https://code.claude.com/docs/en/agent-teams
OpenAI 推出企业 AI Agent平台 Frontier #6
OpenAI 推出企业级 AI 平台 Frontier,支持企业构建、部署和管理 AI Agent。平台提供共享业务上下文、权限治理与持续学习机制,已向部分客户开放。
OpenAI 推出企业级平台 OpenAI Frontier,为企业提供构建、部署及管理 AI Agent 的端到-端基础设施,旨在解决其在企业环境中的孤岛化、缺乏业务上下文及权限治理难题。平台通过提供共享上下文、持续学习机制和明确权限边界,将 AI 能力转化为可处理实际业务流程的协作系统。目前,该平台已向部分客户开放,预计在未来几个月内扩大供应范围。

相关链接:
OpenAI 推出 Trusted Access for Cyber 试点项目 #7
OpenAI 推出 Trusted Access for Cyber 试点项目,向防御方提供其最强推理模型 GPT-5.3-Codex,并配套 1000 万美元 API 积分支持网络安全工作。
OpenAI推出“Trusted Access for Cyber”试点项目,这是一个基于身份和信任的框架,旨在为防御方优先提供前沿网络能力,同时加强安全保障以防范滥用。该框架的核心是OpenAI迄今最具网络能力的模型GPT-5.3-Codex。作为配套支持,OpenAI还通过其网络安全拨款计划承诺投入1000万美元的API积分,以加速防御性网络安全应用。
为确保能力被正确使用,该框架设定了差异化访问路径:个人可验证身份获取访问,企业可为团队申请,而安全研究团队则可申请仅限受邀参与的特定项目以获取更强权限。安全保障上,模型内置了拒绝执行恶意请求的缓解措施,并辅以自动化分类器监控系统。OpenAI指出,在策略校准期间,这些措施可能影响部分合法安全工作。该项目目前处于试点阶段,OpenAI计划根据反馈进行完善。

相关链接:
GitHub升级Copilot并简化模型访问 #8
GitHub 更新 Copilot 产品线,网页端支持聊天记录导出与工具调用详情查看。Github Copilot 模型启用流程已简化,用户现可自动使用最新模型,无需额外设置。
GitHub更新Copilot产品线以增强透明度与用户体验。网页端Copilot Chat新增实时工具调用详情显示、聊天记录导出(支持JSON/Markdown格式)及仓库搜索优化。与此同时,Github Copilot 模型启用流程已简化,Pro+、Pro及Free用户可自动使用最新模型,无需额外设置,亦可手动选择特定模型或启用Auto mode自动选择。

相关链接:
Kiro CLI 引入 Agent Client Protocol 支持 #9
Kiro CLI 已支持 Agent Client Protocol(ACP),使其 AI 功能可在 Eclipse、Emacs、JetBrains 等多款编程工具中运行。
Kiro CLI 新增对 Agent Client Protocol (ACP) 的支持,用户可将 Kiro 的 AI 功能带入 Eclipse、Emacs、JetBrains IDEs、Neovim、Toad、Zed 等 IDE。未来计划支持 Xcode、Android Studio、RStudio、Jupyter 等专业环境。

相关链接:
讯飞星辰 MaaS平台推出模型限免优惠 #10
讯飞星辰MaaS平台推出开发者福利,提供DeepSeek-v3.2五折、GLM-4.7系列及即将上线的MiniMax-M2.1、Kimi-K2.5等模型限时免费。
讯飞星辰 MaaS平台为开源 AI Agent 项目 OpenClaw 推出开发者专属福利活动,活动内容显示,Deepseek-v3.2 模型提供高并发持续5折优惠。GLM-4.7 与 GLM-4.7-flash 模型限时免费,即将上线的 MiniMax-M2.1 与 Kimi-K2.5 模型同样提供限免,这两项优惠的有效期均至3月5日。

相关链接:
Google推出原生自适应无障碍框架 #11
Google 推出 NAI 框架,旨在将无障碍功能从设计之初就融入产品。通过 AI 智能重构,为不同用户提供个性化体验。
Google 推出 Natively Adaptive Interfaces (NAI) 框架,旨在利用人工智能从产品设计之初便将无障碍能力作为默认特性,而非后续附加。该框架通过一个主 AI agent 在用户指导下理解总体目标,并与多个专业 agent 协作,智能重构界面以实现个性化和无障碍体验。
其功能包括调整用户界面与文本缩放、为盲人用户生成音频描述、为注意力缺陷多动障碍(ADHD)用户简化页面布局。这种设计常产生“路缘效应”,即为特定需求开发的功能最终对更广泛的用户有益。
相关链接:
技术与洞察
OpenAI揭晓Codex核心架构 #12
OpenAI 详细介绍了 Codex 的核心架构,其核心是双向 JSON-RPC API “Codex App Server”。该架构为网页版、CLI、IDE 扩展等提供统一支持。
OpenAI 详细介绍支持其 Codex 产品的核心架构细节,重点引入 Codex App Server 这一双向 JSON-RPC API。该架构作为 Codex 各类交互界面的核心链路,为 Codex 网页版、CLI、IDE 扩展(包括 VS Code、Xcode、JetBrains 插件)以及 macOS 原生应用提供统一的底层支持。同时,OpenAI 调整了其 GitHub 仓库的参与规则,正式将代码贡献模式转为邀请制(invitation-only model),旨在优化 AI 辅助开发环境下的项目维护效率。

相关链接:
- https://github.com/openai/codex/discussions/9956
- https://openai.com/index/unlocking-the-codex-harness/
Cursor发布多智能体编程研究框架 #13
Cursor 推出多智能体编程研究框架预览版,支持数千编程 agent 并行运行。系统通过递归式规划结构提升吞吐量,峰值达每小时 1000 次提交。
Cursor推出一个多智能体研究框架的预览版本,该框架是一个用于编排数千个编程agent的agent harness。该系统能够支持长时间运行,在一次为期一周的内部测试中,其峰值吞吐量达到每小时约1000次commit,完成了1000万次工具调用。Cursor将向部分用户开放此框架以供试用。

相关链接:
Anthropic揭示基础设施配置影响 Agent 评估 #14
Anthropic 发布研究报告指出,基础设施配置显著影响 Agent 编码评估结果。研究发现,内存配额和容器执行策略是关键干扰因素,严格配置易引发 OOM 错误,而放宽限制可提升成功率。
Anthropic 发布研究报告,量化了基础设施配置对 Agent 编码能力评估结果的影响。研究指出,在 Google Kubernetes Engine (GKE) 环境下,资源配额、内存限制等基础设施的差异可导致基准测试得分波动最高达 6 个百分点(p < 0.01),这一幅度常超过顶尖模型间的领先优势。该影响源于容器资源预留量和硬限制阈值间的策略差异。在严格配置下,容器因缺乏对瞬时资源峰值的缓冲,会错误终止 Agent 进程,导致评估结果失准。

相关链接:
- https://www.anthropic.com/engineering/infrastructure-noise
- https://x.com/AnthropicAI/status/2019501512200974686
AI2发布OpenScholar攻克学术“幻觉” #15
华盛顿大学与艾伦人工智能研究所发布开源模型OpenScholar,解决AI学术“编造论文”问题。该模型整合4500万篇论文,采用RAG技术实时检索文献并规范引用。
华盛顿大学与艾伦人工智能研究所(AI2)发布开源模型OpenScholar,通过整合4500万篇学术论文库与检索增强生成(RAG)技术,可实时查阅最新文献并以标准格式引用,旨在解决AI学术引用"幻觉"难题。目前模型代码、数据集及演示版本已全面开放,研发团队表示将继续迭代,计划推出支持多步骤检索与信息聚合的新版本。
相关链接:
OpenAI与Ginkgo合作推出AI实验室降低合成成本40% #16
OpenAI 与 Ginkgo Bioworks 合作,利用 GPT-5 和云实验室平台,通过六轮闭环实验,测试超三万六千种反应组合,成功将无细胞蛋白质合成成本降低 40%。
OpenAI与Ginkgo Bioworks合作推出AI驱动自主实验室,结合GPT-5与云自动化平台,在六轮闭环实验中将无细胞蛋白质合成成本降低40%,试剂成本降低57%。系统测试超过36,000种反应组合,覆盖580个孔板,针对sfGFP蛋白建立新基准。GPT-5通过设计-执行-分析闭环迭代,在获得工具与论文访问权限后,发现人类此前未测试过的低成本反应组分,并识别出适应自动化条件的协同组合。但当前成果仅在单一蛋白系统上验证,泛化能力有待确认,且操作仍需人工监督。OpenAI计划将该方法扩展至其他生物工作流,并将通过Preparedness Framework评估和缓解生物安全风险。

相关链接:
行业动态
生数科技完成超6亿元A+轮融资 #17
北京多模态生成技术企业生数科技完成超6亿元A+轮融资,创中国视频生成领域单笔融资纪录。该公司核心产品为视频生成大模型Vidu系列。
北京生数科技完成超6亿元A+轮融资,创中国视频生成领域单笔融资新高,超越爱诗科技4.3亿元纪录。本轮融资由中关村科学城、星连资本领投,万兴科技、视觉中国、拓尔思战略投资,启明创投、北京市人工智能产业投资基金等原有股东跟投。
相关链接:
Fundamental完成融资并推出表格模型 #18
AI实验室Fundamental完成2.55亿美元A轮融资,估值12亿美元,并推出了专为处理企业结构化数据设计的大型表格模型Nexus。
AI实验室Fundamental完成2.55亿美元融资,估值12亿美元,并推出大型表格模型Nexus。该模型专为企业结构化数据分析设计,与处理非结构化数据的语言模型形成区别。Nexus采用非Transformer架构,具有确定性特点,可处理数十亿行数据。Fundamental与AWS达成战略合作,支持用户直接部署。
相关链接:
阿里千问大模型成为冬奥首个官方大模型 #19
国际奥委会携手千问大模型,打造奥运史上首个官方AI助手,将于2026年米兰冬奥会正式启用。与此同时,阿里统一AI品牌为"千问大模型"(英文为Qwen)
国际奥委会推出奥运史上首个官方大模型,基于阿里巴巴千问(Qwen),确定将于2026米兰冬奥会正式投入使用,覆盖专业赛务与公众服务。与此同时,阿里统一AI品牌为"千问大模型"(英文Qwen),通义实验室负责研发。
相关链接:
前瞻与传闻
ChatGPT安卓版测试看广告加额度 #20
据报道,OpenAI 在 ChatGPT Android 公测版中测试新功能,免费用户可选择观看广告换取更多消息额度,或降低限额免广告使用。
有用户发现,OpenAI在ChatGPT Android客户端v1.2026.034公测版中测试针对免费用户的广告配置功能,提供三种选择:观看广告换取更多消息额度、降低使用限额免广告,或升级Plus订阅解除限制。该功能目前仅在该公测版本中发现,尚未披露具体广告形式、展示频率、单次广告增加的消息条数及全球推行计划。

相关链接:
Gemini 3 Pro GA 或已在 Arena 测试 #21
Google 已将 Gemini 3 Pro GA 版本接入大模型评测平台 Arena,用户可匿名参与随机对战,该模型被抽中概率为 25%。目前界面标识存在差异,但该版本已进入广泛可用阶段,主要用于性能基准测试。
Google已将Gemini 3 Pro GA版本加入大模型基准测试平台Arena。该版本处于正式发布阶段,已整合进Arena对战系统,抽中概率为25%。用户可匿名触发对战,与其他模型对比性能。版本识别方面,无Google图标的实例通常被视为GA版,但据社媒称,带图标的也可能属于GA版,UI标识尚不明确。目前该版本仅在Arena测试接口开放,用于收集众包基准测试数据,标志着其进入广泛可用阶段。
相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。