İçindekiler
Anthropic'in 28 Mayıs 2026'da yayınladığı Claude Opus 4.8 için vurgulanan iyileştirme, bir metrikte yatmaktadır: Yayıncıya göre model, ürettiği kodda kusurları fark etmeden geçirme olasılığı dört kat daha azdır. Bu rakam, Alignment ekibi tarafından sağlanmış ve kamuya açıklanmayan bir protokole dayanmaktadır. Model, claude-opus-4-8 kimliği altında API üzerinden ve claude.ai'de, Opus 4.7 ile uyumlu standart fiyatlandırma ile (girişte milyon token başına 5 dolar, çıkışta milyon token başına 25 dolar) hemen kullanılabilir. Opus 4.8'in, standart modun hızının 2,5 katı çalışan 'hızlı mod'u, girişte milyon token başına 10 dolar ve çıkışta 50 dolardan ücretlendirilmekte olup, resmi açıklamaya göre önceki Opus modellerinin hızlı modlarından üç kat daha ucuzdur.
Claude Opus 4.8 - API fiyatları lansmanda (28 Mayıs 2026)
| Mod | Giriş ($/M tokens) | Çıkış ($/M tokens) | Not |
|---|---|---|---|
| Standart | 5 $ | 25 $ | Opus 4.7 ile aynı |
| Hızlı mod (2,5×) | 10 $ | 50 $ | Önceki hızlı moddan 3× daha ucuz |
Kaynak: Anthropic resmi duyurusu, anthropic.com/news/claude-opus-4-8
Çıkışa Eşlik Eden Üç Operasyonel Kaldıraç
Modelin ötesinde, Opus 4.8'in çok aşamalı görevleri kendi başına organize eden bir iş ajanı postasına nasıl entegre olacağını değiştiren üç özellik vardır. 'Dinamik iş akışları' adı verilen ve geliştirici erken erişiminde (araştırma önizlemesi) dağıtılan ilk özellik, Claude Code'u çok büyük ölçekli projelere genişletir: ajan işi planlar, aynı oturumda yüzlerce alt ajanı paralel olarak başlatır ve ardından sonuçları teslim etmeden önce çıktıları doğrular. Anthropic, kullanım örneği olarak mevcut test setini referans alarak birkaç yüz bin satır kod ölçeğinde bir kod tabanının başlatma ve birleştirme arasında taşınmasını öne sürüyor. Özellik, Claude Code'un Enterprise, Team ve Max planları için ayrılmıştır. İkinci özellik, 'çaba kontrolü', claude.ai'deki model seçicisinin yanına dördü seviyeli bir kaydırıcı ekler: 'düşük', 'varsayılan', 'ekstra' ve 'maksimum', tüm abonelik planları için erişilebilir. Anthropic, ağır görevler ve uzun süreli asenkron akışlar için 'ekstra' ayarını önerir. Üçüncü özellik, Mesajlar API tarafında, görev sırasında messages tablosuna sistem girdilerinin kullanıcı turu geçişi olmadan ve istemci önbelleğini bozmadan eklenmesine izin verir, bu da bir ajan çalışırken izinlerin, token bütçelerinin veya ortam bağlamının sıcak güncellenmesini açar.
Sanayi Standartı Olarak Yükselen Bir Metakognisyon Metrisi
Bildirilmemiş kusurlar üzerindeki dört kat faktör, duyurunun en yapılandırıcı unsuru ve bir alıcı için en hassas olanıdır. Metrik, modelin güvenlik kartında (System Card) belgelenmiş, ancak bir üçüncü taraf değerlendirmeci tarafından değil, Anthropic'in Alignment ekibi tarafından üretilmiştir ve protokol, yayıncının ortamı dışında tekrar edilebilir durumda değildir. Aynı ekibe göre, Opus 4.8, Opus 4.7'ye kıyasla ve en iyi hizalanmış modeli Claude Mythos Preview'a yakın, aldatma veya kötüye kullanıma işbirliği gibi uyumsuz davranış oranları sunmaktadır. Metrik, bir faktör dört kendi kendine beyan edilen protokol üzerinde zayıf bir taahhüt olsa da, değerlendirme ekseninin kaydırılmasını: Anthropic artık modelin metakognisyonunu (ne yapamayacağını bilmesi, üretimlerinde kendi belirsizliklerini belirtmesi) bir ajan modelini nitelemek için merkezi bir kriter olarak sunmaktadır. İleri gitmek için bu eksik olan parça: yayıncı, bildirilmeyen kusurların sayım formülünü, test edilen kod kümesinin üretim protokolünü veya bozulma koşullarını yayınlamıyor. Bağımsız çalışmalar, Aithos AI Research Foundation'ın araştırma günlüğünde 9 Şubat 2026'da yayınlanan, Anthropic'in değerlendirme senaryolarını tekrarlayan çalışmalar, 'Yayınlanmış test senaryoları, Claude'un yeni modelleri için neredeyse mükemmel bir uyum gösteriyor, ancak rahatsızlıklar kalıcı uyum boşluklarını ortaya çıkarıyor' ("Published testing scenarios show near-perfect alignment for newer Claude models, but perturbations reveal persistent compliance gaps") şeklinde kaleme alınmıştır. Gözlem, Opus 4.6'yı hedef alıyordu; bu, dört kat metrik ile tek başına silahlanmamış bir senaryo çizmektedir.
« Yayınlanmış test senaryoları, Claude'un yeni modelleri için neredeyse mükemmel bir uyum gösteriyor, ancak rahatsızlıklar kalıcı uyum boşluklarını ortaya çıkarıyor. »
Aithos AI Research Foundation - Daan Henselmans, Arno Libert, Lennard Zwart (Şubat 2026, İngilizceden çeviri). Opus 4.6 ile ilgili çalışma; yazarlar henüz Opus 4.8'i değerlendirmemiştir.
Mythos Kopmasını Öncesi Bir Aralık Taşı
Opus 4.8, Claude ailesinin hızlı iterasyon temposunda yer alıyor: ActuIA, Claude Opus 4'ün Mayıs 2025'te kodlama ve ajanlar tarafından otomasyon odaklı bir nesil olarak lansmanını zaten belgeliyordu, ardından Claude Sonnet 4.5'in programlama ekseni takip edildi. Yayıncı, bunu Opus 4.7 üzerinde 'mütevazı ama somut bir iyileştirme' olarak sunuyor ve üst sınıf bir modelin gelmesi bekleniyor. Bu sınıf, zaten Project Glasswing (Nisan 2026'da başlatılan savunma siber güvenlik girişimi) kapsamında sınırlı erişimde dağıtılan Claude Mythos Preview'dır. Bir ay içinde, Anthropic ve 'yaklaşık 50 ortak', AWS, Apple, Cisco, Google, Microsoft ve NVIDIA dahil olmak üzere, Mythos Preview kullanarak sistem açısından önemli yazılımlarda yüksek veya kritik önem derecesine sahip on binden fazla güvenlik açığı tespit ettiklerini bildirmektedir. Mythos'un genel lansmanı 'önümüzdeki haftalarda', geliştirilmiş güvenlik önlemlerinin dağıtılmasına bağlı olarak duyurulmuştur. Opus 4.8'in performanslarının okunması, şu an için ikinci bir filtreye bağımlı kalmaktadır: Anthropic tarafından yayınlanan on kadar sayısal tanıklığın yalnızca biri, Induced AI'nin Online-Mind2Web'de %84 ilan ettiği, bir kamu akademik benchmarkına dayanmaktadır. Bu benchmark, Ohio State University OSU-NLP-Group tarafından MIT lisansı altında sürdürülen, referans kağıdının başlığı 'Bir İlerleme Yanılsaması mı? Web Ajanlarının Mevcut Durumunun Değerlendirilmesi' olarak belirlenmiş, akademik yazarların editoryal tercihi, web ajanları üzerindeki zafer dolu puanları ölçülü bir şekilde ele almanın gerekliliğine işaret etmektedir. Diğer ilan edilen performanslar (Relevance AI'nin Süper-Ajan Benchmark'ı, Harvey'nin Legal Ajan Benchmark'ı, Cursor'un CursorBench'i) yayınlanmamış özel protokollere dayanmaktadır.
