TLDR : قدمت Hugging Face نموذج SmolVLA، وهو نموذج مفتوح المصدر للروبوتات VLA، يتميز بخفة الوزن والكفاءة، مما يجعله متاحاً للاستخدام على أجهزة الحاسوب العادية، مع تقديم أداء مميز دون المساس بالجودة.
قدمت Hugging Face في 3 يونيو SmolVLA، وهو نموذج مفتوح المصدر للروبوتات Vision-Language-Action. هذا النموذج المدمج الذي يحتوي على 450 مليون بارامتر فقط، يمكن تشغيله على أجهزة الحاسوب العادية، مثل MacBook أو GPU قياسي، بينما يقدم أداءً مقاربًا للنماذج الأكبر بكثير.
يشهد الذكاء الاصطناعي المطبق على الروبوتات نمواً بفضل التقدم في الرؤية الحاسوبية ومعالجة اللغة الطبيعية والتعلم المعزز. وقد ازداد هذا التقدم مع ظهور نماذج VLA، القادرة على تحليل البيئة، وفهم التعليمات البشرية، والعمل بشكل مستقل في البيئات المعقدة.
ولكن هذه الوعود التقنية تواجه عدة قيود. من ناحية، فإن معظم نماذج VLA الحالية ضخمة للغاية، وغالباً ما تحتوي على مليارات البارامترات، مما يؤدي إلى تكاليف تدريب باهظة ويحد من اعتمادها في الظروف الواقعية. من ناحية أخرى، فإن التقدمات الأخيرة تبقى بشكل كبير ملكية خاصة: حيث تنشر الأوزان أحياناً، لكن تفاصيل التدريب والمكونات المنهجية الأساسية تظل غالباً بعيدة عن المتناول.
يأتي SmolVLA كإجابة على هذه التحديات : حيث يقدم بديلاً خفيفاً ومفتوحاً وقابلاً للتكرار، دون المساس بالأداء.
الهيكلية والتصميم
تم تدريب SmolVLA حصرياً على مجموعات بيانات تم جمعها من قبل المجتمع، عبر منصة LeRobot المستضافة على Hugging Face. يعتمد على هيكلية معيارية تتضمن مكونين رئيسيين:
- SmolVLM-2، نموذج خفيف وفعال، مُحسّن لمعالجة الصور المتعددة والفيديو. يربط بين وحدتين مكملتين: SigLIP المُشفِّر البصري وSmolLM2 المُفكِّك اللغوي، مما يسمح للنظام بفهم البيئة البصرية للروبوت وتوليد فهم بلغة طبيعية؛
- خبير الإجراءات، محول يحتوي على 100 مليون بارامتر يتنبأ بالإجراءات التي يجب أن يتخذها الروبوت، استناداً إلى المعلومات المقدمة من VLM.
تساهم اختيارات التصميم المستهدفة في كفاءة النموذج:
- تقليل عدد الوحدات البصرية يسرع الاستنتاج دون المساس بالجودة؛
- تخطي الطبقات يسمح بتنفيذ أسرع بتجنب بعض طبقات النموذج؛
- الاهتمام المتشابك يحسن تدفق المعلومات بين الوسائط؛
- الاستنتاج غير المتزامن يسمح بتنبؤ إجراء أثناء تنفيذ السابق.
كل هذه العوامل تساهم في تحسين الأداء مع التحكم في العبء الحسابي. من خلال فتح المصدر للنموذج، قاعدة الأكواد، مجموعات بيانات التدريب، والمواد الروبوتية، مع توفير تعليمات مفصلة لضمان تكرار كامل، تهدف Hugging Face إلى ديموقراطية الوصول إلى نماذج VLA وتسريع البحث حول وكلاء الروبوتات الشاملة.