ChatGPT Agent面临极限：一个有前途的工具，但距离“按需工作”仍遥远

TLDR : Lancé récemment par OpenAI, ChatGPT Agent est un outil d'IA capable de naviguer sur le web et d'exécuter des tâches complexes. Bien qu'innovant, son efficacité est limitée par une sandbox sécurisée qui entrave ses interactions web. Face à lui, Manus de Future AGI offre une approche plus audacieuse, mais reste peu accessible.

ChatGPT Agent于2025年7月中旬推出，标志着OpenAI迈向自主导航网络、执行脚本和完成复杂任务的自动助手的愿望。被称为“按需工作”的工具在初期用户中引起了同样的热情和挫败感。

真正的能力但表现参差不齐

在理论上，ChatGPT Agent凭借其执行任务各阶段的能力令人印象深刻：在线信息收集、组织和综合、生成文档（报告、演示文稿、电子表格），该工具结合了Operator和DeepResearch功能，这些功能已经在平台上可用数月。对于结构明确、模棱两可的任务，多个测试者报告显著的时间节省，代理能够将某些研究和交付准备时间缩短一半甚至更多。
然而，随着任务变得更复杂，限制很快显现出来。许多Reddit和LinkedIn上的反馈指出明显的速度缓慢、重复的动作循环和某些网络互动上的高失败率。

沙盒：安全或束缚？

ChatGPT Agent的运行依赖于一个沙盒：由OpenAI托管的虚拟环境，集成了浏览器和虚拟桌面。这种方法旨在降低安全风险并保持对代理操作的控制，但它极大地限制了代理的能力。

许多网站阻止访问或将代理检测为机器人，阻碍预订、购买或复杂互动。

代理经常在动态表单、交互性强的网站、由CAPTCHA或Cloudflare等服务保护的网站上失败，使其无法实现纸面上最吸引人的承诺。

这种保护性的方法使得代理可用于研究和综合，但对于高级或关键的网络操作不太可靠。

试图赶超Manus

与ChatGPT Agent相比，Future AGI开发的Manus提供了一种更大胆的方法。利用多代理架构（规划、执行、验证）和更完整的沙盒环境（高级浏览器、终端、多模式生成），一些人认为Manus在复杂任务和自主工作流程上表现更好。

然而，Manus仍然难以获取（访问受限、信用成本高、可用性有限），这限制了其采用。用户反馈提到频繁的错误和在失败情况下大量的信用消耗，引发了挫折感。其自主性意味着实时控制较少，这可能导致代理在意外方向上的偏移。

走向浏览器集成的代理？

另一种途径可能会解决部分限制：通过扩展或本地模块将代理转移到用户的浏览器中。

这种模型可以提供：

通过摆脱虚拟化实现更快的执行。
与本地工具和数据（CRM、消息、文档）的直接集成。
与现代网站更好的兼容性，因为它会像真正的人类浏览器一样行动。

但这种选择会带来两个主要挑战：

安全性：一个可以访问cookie、账户和本地数据的代理将成为滥用的首选目标。
市场定位：本地代理更像是个人自动化工具，而不是OpenAI的“外包劳动力”，改变了其商业承诺。

仍在磨合中的产品

目前，ChatGPT Agent仍然是一个创新但不成熟的工具：对于加速某些明确任务有用，但对于更雄心勃勃的任务有限。“AI劳动力”的愿景更多是营销承诺而非技术现实。

AI代理市场的演变可能会通过混合妥协来实现：能够在安全环境中工作的代理，同时将某些交互委托给本地浏览器，具有更强的控制和保护措施。

与此同时，用户应将ChatGPT Agent视为处于测试阶段的智能助手，而不是人类员工的真正替代品。

面对代理的网络未来？

互联网一直允许软件和计算机系统之间进行通信。大多数网站至少实现一个或多个API，即软件之间的通信接口。如今，代理旨在将人类可用的网络表面部分转变为自然语言的软件接口。

问题不在于技术能力，而在于发布者是否同意让其内容可被软件访问。代理的理论承诺基于一个代理可以访问所有内容的世界。一个显而易见的首要后果将是广告模式的加速崩溃，这一模式已经开始崩溃。

这也可能引发市场变化的问题：如何设想像Le bon coin或Vinted这样的面向个人的广告网站的优惠不会被系统性地由少数参与者预先占据？

如果我们都使用同一个价格比较器，会对竞争和产品多样性造成什么影响？出版商被卡在其使用政策的规避和渐进的隐形之间。

翻译自 ChatGPT Agent face à ses limites : un outil prometteur, mais encore loin de la “workforce à la demande”