Kısa : SmolVLA, performanstan ödün vermeden hafif, açık ve tekrarlanabilir bir alternatif sunarak VLA modellerine erişimi demokratikleştirmeyi hedefliyor.
Hugging Face, 3 Haziran'da SmolVLA adlı açık kaynaklı bir Vision-Language-Action robotik modeli tanıttı. Sadece 450 milyon parametreye sahip bu kompakt model, bir MacBook veya standart bir GPU gibi tüketici donanımlarında çalışabilirken, çok daha büyük modellerle karşılaştırılabilir performans sunuyor.
Bilgisayarla görme, doğal dil işleme ve pekiştirmeli öğrenmedeki ilerlemeler sayesinde robotik alanda uygulanan yapay zeka gelişiyor. Bu ilerleme, çevresini analiz edebilen, insan talimatlarını anlayabilen ve karmaşık ortamlarda bağımsız bir şekilde hareket edebilen VLA modelleriyle yoğunlaştı.
Ancak bu teknik vaat birkaç sınıra çarpıyor. Bir yandan, mevcut VLA modellerinin çoğunluğu son derece büyük, genellikle milyarlarca parametreye sahip, bu da eğitim maliyetlerini yasaklayıcı hale getiriyor ve gerçek dünya koşullarında benimsenmelerini sınırlandırıyor. Diğer yandan, son gelişmeler büyük ölçüde tescilli kalıyor: ağırlıklar bazen yayınlanıyor, ancak eğitim detayları ve kritik metodolojik bileşenler çoğunlukla ulaşılamaz durumda.
SmolVLA, bu sınırlamalara bir yanıt olarak konumlanıyor : performanstan ödün vermeden hafif, açık ve tekrarlanabilir bir alternatif sunmak.
Mimari ve Tasarım
SmolVLA, topluluk tarafından toplanan veri setleri üzerinde, Hugging Face üzerinde barındırılan LeRobot platformu aracılığıyla eğitildi. İki ana bileşenden oluşan modüler bir mimariye dayanıyor:
- SmolVLM-2, çoklu görüntü ve video işleme için optimize edilmiş hafif ve güçlü bir model. Robotun görsel ortamını çözümlemesini ve doğal dilde bir anlayış oluşturmasını sağlayan SigLIP görsel kodlayıcı ve SmolLM2 dil kod çözücü olmak üzere iki tamamlayıcı yapı taşı içeriyor;
- Action Expert, VLM tarafından sağlanan bilgilere dayanarak robotun yapması gereken eylemleri tahmin eden 100 milyon parametreli bir dönüştürücü.
Tasarımda yapılan hedefli seçimler modelin verimliliğine katkıda bulunuyor:
- görsel token sayısının azaltılması kaliteyi tehlikeye atmadan çıkarımı hızlandırıyor;
- layer skipping modelin bazı katmanlarının atlanarak daha hızlı çalışmasını sağlıyor;
- iç içe geçmiş dikkat, modaliteler arasındaki bilgi akışını optimize ediyor;
- eşzamanlı olmayan çıkarım, bir eylemin öncekini yürütürken tahmin edilmesine izin veriyor.
Tüm bu etmenler, hesaplama yükünü kontrol altında tutarken performansı iyileştirmeye katkıda bulunuyor. Modelin, kod tabanı, eğitim veri setleri ve robot donanımını açık kaynak yaparak, tam bir tekrarlanabilirliği garanti etmek için ayrıntılı talimatlar sağlayarak, Hugging Face, VLA modellerine erişimi demokratikleştirmeyi ve genel robotik ajanlar araştırmasını hızlandırmayı hedefliyor.