ChatGPT Agentが直面する限界: 有望なツールだが「オンデマンドの労働力」にはまだ遠い

ChatGPT Agentが直面する限界: 有望なツールだが「オンデマンドの労働力」にはまだ遠い

TLDR : OpenAIが最近リリースしたChatGPT Agentは、ウェブをナビゲートし、複雑なタスクを実行できるAIツールです。革新的であるものの、安全なサンドボックスにより制約され、ウェブインタラクションが制限されています。Future AGIのManusはより大胆ですが、アクセスは限定的です。

2025年7月中旬にリリースされたChatGPT Agentは、ウェブをナビゲートし、スクリプトを実行し、複雑なタスクをエンドツーエンドで実行できる自律型アシスタントへの道を切り開こうとするOpenAIの意欲を示しています。「オンデマンドの労働力」として紹介され、このツールは最初のユーザーからのフィードバックによれば、期待とフラストレーションの両方を引き起こしています。

実際の能力と対照的なパフォーマンス

理論上、ChatGPT Agentはミッションのステップを連続して実行する能力で印象を与えます:オンライン情報の収集、整理と統合、ドキュメントの生成(レポート、プレゼンテーション、スプレッドシート)、このツールは数ヶ月前からプラットフォームで利用可能なOperatorとDeepResearchの機能を組み合わせています。構造化された曖昧さの少ないタスクでは、いくつかのテスターが大幅な時間節約を報告しており、エージェントは特定の調査や納品物の準備に必要な時間を半分、あるいはそれ以上に短縮することができました。しかし、タスクがより複雑になると、限界がすぐに現れます。多くのRedditやLinkedInのフィードバックでは、顕著な遅さ、繰り返しのアクションループ、特定のウェブインタラクションでの高い失敗率が指摘されています。

サンドボックス:安全か、それとも束縛か?

ChatGPT Agentの動作はサンドボックスに基づいています:OpenAIによってホストされる仮想環境で、ブラウザと仮想デスクトップを統合しています。このアプローチはセキュリティリスクを制限し、エージェントの行動をコントロールすることを目的としていますが、その能力を大幅に制限しています。

多くのサイトがアクセスをブロックするか、エージェントをボットとして検出し、予約、購入、複雑なインタラクションを妨げています。

エージェントは動的フォームや非常にインタラクティブなサイト、CAPTCHAによって保護されたサイト、Cloudflareのようなサービスに対して定期的に失敗します。そのため、最も魅力的な紙上の約束のほとんどを果たすことができません。

保護的なアプローチにより、エージェントは調査や統合には使用可能ですが、高度なウェブアクションや重要なアクションには信頼性が低いです。

Manusに追いつこうとする試み

ChatGPT Agentに対して、Future AGIが開発したManusはより大胆なアプローチを提供します。マルチエージェントアーキテクチャ(計画、実行、検証)とより完全なサンドボックス環境(高度なブラウザ、ターミナル、マルチモーダル生成)を使用して、Manusは複雑なタスクや自律的なワークフローでよりパフォーマンスが高いと一部の人々に認識されています。

しかし、Manusはアクセスが制限されており、クレジットの高額なコスト、限られた利用可能性のため、採用は制限されています。ユーザーレビューでは、頻繁なバグと失敗時のクレジットの大量消費が報告されており、フラストレーションを引き起こしています。その自律性はリアルタイムのコントロールを減少させ、予期しない方向に進むときに逸脱を引き起こす可能性があります。

ブラウザに統合されたエージェントに向けて?

別の方法は、エージェントをユーザーのブラウザに移すことで制限の一部を解消できるかもしれません。拡張機能やローカルモジュールを通じて。

このようなモデルは以下を提供します:

  • 仮想化から解放されたより高速な実行。
  • ローカルツールやデータとの直接統合(CRM、メッセージング、ドキュメント)。
  • 人間のブラウザとして振る舞うことで、現代のサイトとの互換性が向上。

しかし、この選択は二つの主要な課題を提起します:

  • セキュリティ:クッキー、アカウント、ローカルデータにアクセスするエージェントは、悪用のための優れたターゲットになります。
  • マーケティングのポジショニング:ローカルエージェントは個人の自動化ツールに近くなり、「外部委託された労働力」というOpenAIの商業的約束を変えてしまいます。

まだ成熟していない製品

現状では、ChatGPT Agentは革新的だが未熟なツールとして存在しています:特定のうまく定義されたタスクを加速するのには役立つが、より野心的なミッションには制限があります。「AI労働力」というビジョンは、技術的な現実よりもマーケティングの約束に近いです。

AIエージェント市場の進化は、よりセキュアな環境で作業できるエージェントが、ローカルブラウザに一部のインタラクションを委任し、増加したコントロールと安全策を備えたハイブリッドな妥協を通じて進む可能性があります。

それまでの間、ユーザーはChatGPT Agentをテスト段階にあるインテリジェントアシスタントと見なし、人間の同僚の真の代替品ではないと考えるべきです。

エージェントに直面するウェブの未来は?

インターネットは常にソフトウェアとコンピュータシステムが互いに通信できるようにしてきました。ほとんどのウェブサイトは、少なくとも1つ以上のAPI、ソフトウェア間のコミュニケーションインターフェースを実装しています。今日、エージェントは、人間が利用可能なウェブの表面部分を自然言語のソフトウェアインターフェースに変えることを目指しています。

技術的な能力の問題ではなく、ソフトウェアにコンテンツを提供するための出版社の同意があるかどうかの問題です。エージェントの理論上の約束は、エージェントがすべてにアクセスできる世界に基づいています。最も明白な最初の結果の1つは、すでに始まっている広告モデルの崩壊の加速です。

これは、特にマーケットプレイスの文脈での変化に関する質問をも引き起こす可能性があります:Le bon coinやVintedのような個人向けの広告サイトの良い取引がいくつかのアクターによって体系的に完全に占有されないようにどのように想定することができるでしょうか?

すべてが同じ価格比較ツールを使用すると、競争や提供の多様性はどのようになるのでしょうか?出版社は彼らの利用ポリシーの回避と、進行する不可視化の間に挟まれています。