GPT-5.2

Paid 效率企业工具

网站推广

关键功能

在 GDPval 等专业知识工作基准测试中实现了最先进的性能，在演示文稿和电子表格等明确定义任务上，GPT-5.2 Thinking 在 44 个职业中匹配或超越了专家级人类的输出。

长上下文推理能力显著提高，在高达 256k token 的上下文长度下，在 MRCR 4-needle 变体等具有挑战性的长文档评估中实现了接近完美的准确性。

更强大的软件工程能力，在 SWE-Bench Pro 和 SWE-bench Verified 上得分领先，能够更可靠地进行调试、重构和跨多种编程语言的端到端生产质量代码实现。

增强的视觉理解能力，将图表推理和软件界面基准测试的错误率降低了大约一半，提高了对仪表板、图表、产品屏幕截图和复杂视觉布局的性能。

一流的工具调用和代理编排能力，在 Tau2-bench Telecom 上达到 98.7%，支持跨越多种工具的稳健多步骤工作流程，如客户服务解决、数据检索和复杂分析。

在 GPQA Diamond 和 FrontierMath 等先进科学和数学领域表现出色，并在 AIME 2025 和 HMMT February 2025 等竞赛中取得了完美或接近完美的结果。

多种专业变体——Instant、Thinking 和 Pro——每种都针对速度、推理深度和可靠性的不同组合进行了微调，并且可以通过 ChatGPT 付费套餐和 API 访问。

企业级安全性和可靠性改进，包括与 GPT-5.1 相比幻觉率降低，对敏感心理健康相关提示的处理能力更强，以及与 Microsoft Azure 和 NVIDIA 的基础设施合作以实现可扩展、稳健的部署。

对于企业和技术团队来说，GPT-5.2 大幅升级了日常工作流程，例如构建电子表格和财务模型、起草复杂的演示文稿、对数十万个 token 进行深度文档分析，以及协调依赖工具和 API 的多步骤项目。特别是 GPT-5.2 Thinking 针对结构化、长视野推理进行了优化：它可以整合跨越大型报告、合同、研究论文或多文件代码库中的信息，然后生成更具连贯性且事实错误更少的精美输出，如模型、幻灯片和决策备忘录，优于 GPT-5.1。

GPT-5.2 在软件工程、视觉和基于工具的代理方面也带来了巨大提升，使其成为编码副驾驶、自主代理以及嵌入现有产品中的企业副驾驶的坚实基础。在 SWE-Bench Pro 和 SWE-bench Verified 上，GPT-5.2 Thinking 取得了领先分数，这转化为更可靠的调试、功能实现、大型代码库的重构，以及仅凭一个提示生成复杂的前端界面（包括丰富的 3D UI）。其视觉能力降低了图表推理和 UI 理解的错误率，而工具调用性能在 Tau2-bench Telecom 等长轮次代理基准测试中达到了 98.7% 的准确率，使得具有大型工具集的单一“超级代理”能够比先前的多代理系统更稳健地执行端到端工作流程。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

GPT-5.2

关键功能

Subscribe to the AI Search Newsletter