TLDR : Hugging Face hat SmolVLA, ein kompaktes Open-Source-Modell für Vision-Language-Action in der Robotik, eingeführt, das auf handelsüblicher Hardware läuft und hohe Leistung zu geringen Kosten bietet.
Hugging Face stellte am 3. Juni SmolVLA vor, ein Open-Source-Modell für Vision-Language-Action in der Robotik. Dieses kompakte Modell, das nur 450 Millionen Parameter umfasst, kann auf handelsüblicher Hardware wie einem MacBook oder einer Standard-GPU betrieben werden und bietet dennoch Leistungen, die mit denen viel größerer Modelle vergleichbar sind.
Die auf Robotik angewandte KI erlebt dank Fortschritten in der Computer Vision, der natürlichen Sprachverarbeitung und im verstärkenden Lernen einen Aufschwung. Diese Entwicklung wurde durch VLA-Modelle verstärkt, die in der Lage sind, ihre Umgebung zu analysieren, menschliche Anweisungen zu verstehen und autonom in komplexen Umgebungen zu agieren.
Doch dieses technische Versprechen stößt auf mehrere Grenzen. Einerseits sind die meisten bestehenden VLA-Modelle extrem groß, oft mit mehreren Milliarden von Parametern ausgestattet, was zu prohibitiv hohen Trainingskosten führt und ihre Anwendung in realen Bedingungen einschränkt. Andererseits bleiben die jüngsten Fortschritte weitgehend proprietär: Die Gewichte werden manchmal veröffentlicht, aber die Trainingsdetails und wesentlichen methodologischen Komponenten bleiben meist unerreichbar.
SmolVLA positioniert sich als Antwort auf diese Einschränkungen : eine leichte, offene und reproduzierbare Alternative zu bieten, ohne Kompromisse bei der Leistung einzugehen.
Architektur und Design
SmolVLA wurde ausschließlich auf von der Gemeinschaft gesammelten Datensätzen trainiert, über die Plattform LeRobot, die auf Hugging Face gehostet wird. Es basiert auf einer modularen Architektur mit zwei Hauptkomponenten:
- SmolVLM-2, ein leichtes und leistungsstarkes Modell, optimiert für die Verarbeitung von Multi-Image- und Video. Es kombiniert zwei komplementäre Bausteine: den visuellen Encoder SigLIP und den Sprachdecoder SmolLM2, die es dem System ermöglichen, die visuelle Umgebung des Roboters zu entschlüsseln und ein Verständnis in natürlicher Sprache zu generieren;
- Action Expert, ein Transformer mit 100 Millionen Parametern, der die vom Roboter auszuführenden Aktionen basierend auf den vom VLM bereitgestellten Informationen vorhersagt.
Zielgerichtete Designentscheidungen tragen zur Effizienz des Modells bei:
- Die Reduzierung der visuellen Tokens beschleunigt die Inferenz, ohne die Qualität zu beeinträchtigen;
- Das Layer Skipping ermöglicht eine schnellere Ausführung, indem bestimmte Schichten des Modells umgangen werden;
- Die verwobene Aufmerksamkeit optimiert den Informationsfluss zwischen Modalitäten;
- Die asynchrone Inferenz erlaubt die Vorhersage einer Aktion während der Ausführung der vorherigen.
All diese Hebel tragen dazu bei, die Leistung zu verbessern und gleichzeitig die Rechenlast zu kontrollieren. Indem das Modell, sein Quellcode, die Trainingsdatensätze und die Hardware der Roboter als Open Source bereitgestellt werden, zusammen mit detaillierten Anweisungen zur vollständigen Reproduzierbarkeit, beabsichtigt Hugging Face, den Zugang zu VLA-Modellen zu demokratisieren und die Forschung an generischen robotischen Agenten zu beschleunigen.