Claude Opus 4.8 : Anthropic تركز على نموذج أكثر صدقًا في مواجهة أخطائه الخاصة

التحسين الذي أبرزته Anthropic لنموذج Claude Opus 4.8، الذي تم نشره في 28 مايو 2026، يعتمد على مقياس واحد: حيث يُقال أن النموذج، وفقًا للناشر، أقل عرضة بأربع مرات من سلفه للسماح بمرور العيوب في الشيفرة التي أنتجها دون الإشارة إليها. الرقم يُعلن عنه ذاتيًا، وقد تم إنتاجه بواسطة فريق Alignment الداخلي ويعتمد على بروتوكول لم يتم نشره. النموذج متاح فورًا عبر API تحت المُعرف claude-opus-4-8 وعلى claude.ai، مع تسعير قياسي متوافق مع Opus 4.7 (5 دولارات لكل مليون tokens في الإدخال، 25 دولارًا لكل مليون في الإخراج). يتم تسعير وضع fast mode في Opus 4.8، الذي يعمل بسرعة 2.5 مرة مقارنة بالوضع القياسي، بـ 10 دولارات لكل مليون tokens في الإدخال و50 دولارًا في الإخراج، أي وفقًا لـ البيان الرسمي، أقل بثلاث مرات من fast mode للنماذج السابقة لـ Opus.

Claude Opus 4.8 - API أسعار الإطلاق (28 مايو 2026)

الوضع	الإدخال ($/M tokens)	الإخراج ($/M tokens)	ملاحظة
قياسي	5 $	25 $	لم يتغير عن Opus 4.7
Fast mode (2.5×)	10 $	50 $	أقل ثلاث مرات من fast mode السابق

المصدر: البيان الرسمي لـ Anthropic، anthropic.com/news/claude-opus-4-8

ثلاث رافعات تشغيلية ترافق الإصدار

إلى جانب النموذج، ثلاث ميزات تغير الطريقة التي يندمج بها Opus 4.8 في محطة عمل وكيل (مصممة لتنظيم مهام متعددة المراحل بشكل مستقل). الأولى، المسماة "dynamic workflows" والتي تم نشرها في وصول مبكر للمطورين (research preview)، توسع Claude Code لمشاريع ضخمة: يقوم الوكيل بتخطيط العمل، ويطلق عدة مئات من الوكلاء الفرعيين بالتوازي في جلسة واحدة، ثم يتحقق من مخرجاته قبل تقديم النتيجة. تذكر Anthropic كباقة استخدام هجرة قاعدة شيفرة على نطاق مئات الآلاف من الأسطر، من الإطلاق إلى الدمج، مع مجموعة الاختبارات الحالية كمرجع. الميزة مخصصة لخطط Enterprise, Team و Max في Claude Code. الثانية، التحكم في الجهد ("effort control")، يضيف بجانب محدد النموذج على claude.ai منزلق بأربع مستويات: "low", "default", "extra" و "max", متاح لجميع خطط الاشتراك. توصي Anthropic بإعداد "extra" للمهام الثقيلة وتدفقات غير المتزامنة طويلة الأمد. الثالثة، على جانب رسائل API، تسمح الآن بإدخال مدخلات النظام داخل جدول messages خلال المهمة، دون كسر ذاكرة التخزين المؤقت للموجه أو المرور بجولة مستخدم، مما يفتح التحديث الفوري للأذونات، وميزانيات tokens أو سياق البيئة لوكيل قيد التشغيل.

مقياس التفكير الذاتي كنقطة مرجعية صناعية

العامل الرباعي المعلن على العيوب غير المبلغ عنها هو العنصر الأكثر هيكلية للإعلان، والأكثر حساسية للتعامل معه من قبل المشترين. تم توثيق المقياس في بطاقة أمان النموذج (System Card) التي نُشرت في نفس اليوم، ولكن تم إنتاجه بواسطة فريق Alignment لـ Anthropic، وليس من قبل مقيم خارجي، والبروتوكول غير قابل لإعادة التشغيل خارج بيئة الناشر. وفقًا لنفس الفريق، يُظهر Opus 4.8 معدلات سلوك غير محاذية، مثل الخداع أو التعاون في إساءة الاستخدام، أقل بكثير من تلك الخاصة بـ Opus 4.7 وقريبة من تلك الخاصة بنموذجه الأكثر توافقًا، Claude Mythos Preview. ما يوثقه المقياس هو أقل من الحقيقة - عامل رباعي مُعلن ذاتيًا على بروتوكول غير منشور يلتزم بشكل ضعيف - من تحويل محور التقييم: تقترح Anthropic الآن التفكير الذاتي للنموذج (معرفة ما لا يمكنه القيام به، الإشارة إلى عدم اليقين في إنتاجاته الخاصة) كمعيار رئيسي لتأهيل نموذج وكيل. هذه هي الحلقة المفقودة للذهاب أبعد: لا ينشر الناشر صيغة حساب العيوب غير المبلغ عنها، ولا بروتوكول توليد مجموعة اختبار الشيفرة، ولا شروط الاضطراب. ومع ذلك، أظهرت أعمال مستقلة نُشرت على دفتر أبحاث Aithos AI Research Foundation في 9 فبراير 2026، من خلال تكرار سيناريوهات التقييم لـ Anthropic، أن "السيناريوهات المنشورة تُظهر توافقًا شبه مثالي لنماذج Claude الحديثة، ولكن الاضطرابات تكشف عن ثغرات امتثال مستمرة" (ترجمة حرة لـ "Published testing scenarios show near-perfect alignment for newer Claude models, but perturbations reveal persistent compliance gaps"). كانت الملاحظة تشير إلى Opus 4.6؛ وهي ترسم السيناريو الذي لا يكون فيه المقياس 4×، بحد ذاته، مسلحًا بشكل كافٍ.

"السيناريوهات المنشورة تُظهر توافقًا شبه مثالي لنماذج Claude الحديثة، ولكن الاضطرابات تكشف عن ثغرات امتثال مستمرة."

Aithos AI Research Foundation - Daan Henselmans, Arno Libert, Lennard Zwart (فبراير 2026، مترجم من الإنجليزية). دراسة عن Opus 4.6; لم يقيم المؤلفون بعد Opus 4.8.

نقطة مرجعية قبل كسر Mythos

يدخل Opus 4.8 في إيقاع سريع لتكرارات عائلة Claude: كانت ActuIA توثق بالفعل إطلاق Claude Opus 4 في مايو 2025 كجيل يركز على البرمجة والأتمتة بواسطة الوكلاء، وهو المسار الذي واصلته بعد ذلك Claude Sonnet 4.5 على محور البرمجة. يقدم الناشر نفسه Opus 4.8 كـ "تحسين متواضع ولكنه ملموس" على Opus 4.7، قبل الوصول المعلن لفئة أعلى. هذه الفئة هي Claude Mythos Preview، التي تم نشرها بالفعل في وصول محدود كجزء من Project Glasswing (مبادرة دفاعية للأمن السيبراني أطلقت في أبريل 2026). في غضون شهر، أعلنت Anthropic و "حوالي 50 شريكًا"، من بينهم AWS، Apple، Cisco، Google، Microsoft و NVIDIA، أنهم حددوا باستخدام Mythos Preview أكثر من عشرة آلاف ثغرة أمنية ذات شدة عالية أو حرجة في البرامج التي تعتبر مهمة نظاميًا. يتم الإعلان عن الإصدار العام لـ Mythos "في الأسابيع المقبلة"، رهناً بنشر الضمانات المعززة. تبقى قراءة أداء Opus 4.8 خاضعة في الوقت الحالي لفلتر ثانٍ: من بين العشرة شهادات المرقمة المنشورة بواسطة Anthropic، فإن الشهادة الوحيدة التي تعتمد على معيار أكاديمي عام هي لشركة Induced AI، التي تعلن عن 84% على Online-Mind2Web. يتم الحفاظ على هذا المعيار بواسطة OSU-NLP-Group بجامعة أوهايو تحت ترخيص MIT، ويحمل عنوان الورقة المرجعية "هل هو وهم التقدم؟ تقييم الحالة الحالية للوكلاء على الويب"، وهو اختيار تحريري من المؤلفين الأكاديميين الذي يدعو إلى التعامل مع الدرجات العالية على الوكلاء على الويب بحذر. تعتمد العروض الأخرى المزعومة (Super-Agent Benchmark لـ Relevance AI، Legal Agent Benchmark لـ Harvey، CursorBench لـ Cursor) على بروتوكولات ملكية غير منشورة.

Stephane Nachez

هيئة تحرير ActuIA — أخبار وبيانات وتحليلات حول الذكاء الاصطناعي لصنّاع القرار.

Claude Opus 4.8 : Anthropic تركز على نموذج أكثر صدقًا في مواجهة أخطائه الخاصة

ثلاث رافعات تشغيلية ترافق الإصدار

مقياس التفكير الذاتي كنقطة مرجعية صناعية

نقطة مرجعية قبل كسر Mythos

Anthropic تُجبر على تعليق Fable 5 وMythos 5 بعد توجيه صادر عن الحكومة الأمريكية

Siri AI: Gemini comme professeur, pas comme moteur — ce que la WWDC n’a pas dit

نفس النموذج، لكن بضمانات مختلفة: ما الذي يكشفه إطلاق Claude Fable 5 وMythos 5