关键功能

在 GDPval 等专业知识工作基准测试中实现了最先进的性能,在演示文稿和电子表格等明确定义任务上,GPT-5.2 Thinking 在 44 个职业中匹配或超越了专家级人类的输出。
长上下文推理能力显著提高,在高达 256k token 的上下文长度下,在 MRCR 4-needle 变体等具有挑战性的长文档评估中实现了接近完美的准确性。
更强大的软件工程能力,在 SWE-Bench Pro 和 SWE-bench Verified 上得分领先,能够更可靠地进行调试、重构和跨多种编程语言的端到端生产质量代码实现。
增强的视觉理解能力,将图表推理和软件界面基准测试的错误率降低了大约一半,提高了对仪表板、图表、产品屏幕截图和复杂视觉布局的性能。
一流的工具调用和代理编排能力,在 Tau2-bench Telecom 上达到 98.7%,支持跨越多种工具的稳健多步骤工作流程,如客户服务解决、数据检索和复杂分析。
在 GPQA Diamond 和 FrontierMath 等先进科学和数学领域表现出色,并在 AIME 2025 和 HMMT February 2025 等竞赛中取得了完美或接近完美的结果。
多种专业变体——Instant、Thinking 和 Pro——每种都针对速度、推理深度和可靠性的不同组合进行了微调,并且可以通过 ChatGPT 付费套餐和 API 访问。
企业级安全性和可靠性改进,包括与 GPT-5.1 相比幻觉率降低,对敏感心理健康相关提示的处理能力更强,以及与 Microsoft Azure 和 NVIDIA 的基础设施合作以实现可扩展、稳健的部署。

对于企业和技术团队来说,GPT-5.2 大幅升级了日常工作流程,例如构建电子表格和财务模型、起草复杂的演示文稿、对数十万个 token 进行深度文档分析,以及协调依赖工具和 API 的多步骤项目。特别是 GPT-5.2 Thinking 针对结构化、长视野推理进行了优化:它可以整合跨越大型报告、合同、研究论文或多文件代码库中的信息,然后生成更具连贯性且事实错误更少的精美输出,如模型、幻灯片和决策备忘录,优于 GPT-5.1。


GPT-5.2 在软件工程、视觉和基于工具的代理方面也带来了巨大提升,使其成为编码副驾驶、自主代理以及嵌入现有产品中的企业副驾驶的坚实基础。在 SWE-Bench Pro 和 SWE-bench Verified 上,GPT-5.2 Thinking 取得了领先分数,这转化为更可靠的调试、功能实现、大型代码库的重构,以及仅凭一个提示生成复杂的前端界面(包括丰富的 3D UI)。其视觉能力降低了图表推理和 UI 理解的错误率,而工具调用性能在 Tau2-bench Telecom 等长轮次代理基准测试中达到了 98.7% 的准确率,使得具有大型工具集的单一“超级代理”能够比先前的多代理系统更稳健地执行端到端工作流程。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!