OpenAI发布GPT-5

OpenAI发布GPT-5

TLDR : Sam Altman 发布了 GPT-5,一个人工智能模型,被誉为实现通用人工智能的重大进步,提供博士级专家能力。该模型比其前代更快更准确,现在是 ChatGPT 的默认模型,免费开放使用。
正如本周初所暗示的那样,Sam Altman昨日傍晚发布了GPT-5。这个模型被他称为通用人工智能(AGI)的一大进步和一个重要的里程碑(这一承诺需要谨慎对待),据称具备博士水平的专家能力。更令人惊喜的是,由于它现在是ChatGPT的默认模型,免费用户也可以使用。
 

使用体验:更快的速度、更多的上下文、更少的幻觉

很难再引起“哇”的惊叹:表面上看,之前的GPT版本似乎能够做任何事情,展现出令人信服的自信,能让许多人惊叹不已。因此,Sam Altman最近几天不得不多次发表声明,传递这样的信息:GPT-5是一个新的重大进展。
第一个明显的特点是GPT-5的内容生成速度比以前的版本更高。我们刚一上线就进行了开发测试:GPT-5在1分钟内解决了一个框架冲突问题,而GPT-4o和Claude 4 Sonnet在这个问题上反复无常。OpenAI似乎将开发者市场份额作为优先事项,证明了与Cursor的合作伙伴关系,以及在推出阶段向用户免费提供GPT-5。

合理化:GPT-5,全能的新默认模型

从理论上讲,GPT-5结合了一个快速模型用于简单问题,一个深度推理模型用于复杂问题,还有一个智能路由器根据对话类型选择使用哪个模型。这是简化用户体验和优化成本的好方法。
与GPT-4o一样,ChatGPT中GPT-5的免费和付费访问之间的区别在于使用量。当免费用户达到其配额时,他们会被自动重定向到GPT-5 mini,这是一个精简但性能卓越的模型,根据OpenAI的说法。Plus订阅者的使用限额要高得多,而Pro订阅者可以无限制访问GPT-5,并可以激活GPT-5 Pro,其推理能力已得到扩展。
GPT-5还通过公司的API提供,开发者可以选择三种变体:gpt-5、gpt-5-mini和gpt-5-nano,以平衡性能、成本和延迟。

性能

该模型的上下文窗口扩展到256,000个标记,使其能够处理大量文档或跟踪长时间交换而不失去连贯性。它不仅比前代更快,而且其幻觉率据称已显著降低,增强了其响应的可靠性。
据OpenAI称,它在数学(AIME 2025中达到94.6%)、现实世界编码(SWE-bench Verified中达到74.9%,Aider Polyglot中达到88%)、多模态理解(MMMU中达到84.2%)和健康(HealthBench Hard中达到46.2%)领域设立了新的标准。
在安全方面,该模型经过与CAISI和英国AISI等专业机构合作的5,000小时严格测试。公司已实施了强有力的保护措施:
“尽管我们没有明确证据表明该模型可能显著帮助新手造成严重生物危害,但我们为高能力定义的门槛,我们采取预防措施,立即启动所需的保护措施,以便在这些能力可用时更好地做好准备。”
Microsoft已经将GPT-5集成到大多数产品中:Copilot、Microsoft 365 Copilot(Word、Excel、Outlook...)、GitHub Copilot、Visual Studio Code或Azure AI Foundry。

可靠性仍然远非完美

从理论上讲,减少幻觉的承诺似乎是GPT-5最显著的改进之一。但实际上,不到5分钟就能使OpenAI的新旗舰模型出错。而且,如果模型在美国总统的问题上犯错,那么在更具体的问题上,答案很可能仍然充满错误。