OpenAI führt Codex ein: Auf dem Weg zu einer agentengestützten Softwareentwicklung

Nach Operator (Webnavigation) und Deep Research (Informationssynthese) hat OpenAI am Freitag einen neuen Agenten vorgestellt, der der Softwareentwicklung gewidmet ist: Codex (nicht zu verwechseln mit der ersten Version von Codex, die 2021 eingeführt wurde). Dieser Agent, der in die ChatGPT-Oberfläche integriert ist, wurde entwickelt, um bestimmte Programmieraufgaben wie Codegenerierung, Fehlererkennung und -korrektur, Testschreiben oder das Erstellen von Pull-Requests zu automatisieren.

Im Gegensatz zu klassischen Code-Assistenzsystemen, die lediglich Vervollständigungen oder Vorschläge anbieten, arbeitet dieser Agent autonomer. Die Aufgaben werden in einer isolierten, cloudbasierten Umgebung ausgeführt, die mit dem vom Benutzer bereitgestellten technischen Kontext konfiguriert ist (insbesondere dem Inhalt seines Code-Repositories). Dies ermöglicht es dem Agenten, komplexe Operationen sequentiell oder parallel durchzuführen und dabei ein gewisses Maß an interner Überprüfung sicherzustellen: Er kann beispielsweise Code ausführen, die Ergebnisse analysieren, seine eigenen Änderungen anpassen und Ausgabedokumente wie Pull-Requests erstellen, die bereit zur Überprüfung sind.

Diese Arbeitsweise basiert auf einem Modell namens codex-1, einer Variante des GPT-4-Denkmodells (intern bei OpenAI als "o3" bezeichnet). Dieses Modell wurde spezifisch durch verstärkendes Lernen auf Szenarien der Softwareentwicklung verfeinert, mit dem Ziel, lesbaren Code zu erzeugen, der mit dem Stil des Projekts übereinstimmt und bewährte Praktiken respektiert.

Funktionalität und Verfügbarkeit

Codex ist über die Seitenleiste von ChatGPT zugänglich (für Benutzer der Pro, Team und Enterprise Tarife). Es gibt zwei Haupteingaben:

„Code“ um die Durchführung einer Aufgabe zu beantragen (Implementierung, Korrektur usw.)
„Ask“ um den Agenten zu einem vorhandenen Datei- oder Struktur (Funktion, Klasse, Abhängigkeit usw.) zu befragen

Die zur Ausführung benötigte Zeit hängt von der Komplexität der Aufgabe ab und variiert laut OpenAI von wenigen Minuten bis zu einer halben Stunde. Mehrere Unternehmen, darunter Cisco, Superhuman, Temporal und Kodiak, experimentieren mit dem Tool in realen Anwendungsszenarien wie der Wartung von Legacy-Code, der Generierung automatisierter Tests oder der Dokumentation von Projekten.

Der Dienst ist derzeit auf zahlende Abonnenten beschränkt, und die Erweiterung auf Nutzer des "Plus"-Angebots ist für ein späteres Datum angekündigt.

Stephane Nachez

ActuIA-Redaktion — Nachrichten, Daten und Analysen zur künstlichen Intelligenz für Entscheidungsträger.

OpenAI führt Codex ein: Auf dem Weg zu einer agentengestützten Softwareentwicklung

Funktionalität und Verfügbarkeit

Solaria-3: Gladia liegt bei Produktionsaudio laut eigenen Messungen vorn

Der Preprint ExpGraph schlägt ein selbst-evolvierendes Graphenspeicher für LLM-Agenten vor

Claude Opus 4.8: Anthropic betont ein ehrlicheres Modell im Umgang mit eigenen Fehlern