TLDR : Hugging Faceは、軽量でオープンなSmolVLAモデルを発表し、VLA技術の民主化を目指しています。
Hugging Faceは6月3日にSmolVLAを発表しました。これはオープンソースのロボティクスVision-Language-Actionモデルであり、450百万パラメータというコンパクトな設計で、MacBookや標準的なGPUなどの一般的なハードウェアで動作し、より大規模なモデルと比較しても同等の性能を提供します。
ロボティクスにおけるAIは、コンピュータビジョン、自然言語処理、強化学習の進歩により急速に発展しています。この進化は、環境を分析し、人間の指示を理解し、複雑な環境で自律的に行動できるVLAモデルの登場によってさらに加速しています。
しかし、この技術的な約束にはいくつかの制約があります。一方で、現在のVLAモデルの大半は非常に大規模で、しばしば数十億のパラメータを持ち、トレーニングコストが非常に高いため、実際の条件下での採用が制限されています。さらに、最近の進展は主にプロプライエタリであり、モデルの重みが公開されることはあっても、トレーニングの詳細や重要な方法論的要素はほとんど手の届かないところにあります。
SmolVLAはこれらの制約に対する解決策として 、軽量でオープンかつ再現可能な代替案を提供し、性能を犠牲にすることなく提案されています。
アーキテクチャと設計
SmolVLAは、Hugging FaceにホストされているLeRobotプラットフォームを介してコミュニティによって収集されたデータセットのみを使用してトレーニングされています。二つの主要コンポーネントからなるモジュラーアーキテクチャに基づいています:
- SmolVLM-2、マルチイメージおよびビデオ処理に最適化された軽量で高性能なモデルです。ビジュアルエンコーダSigLIPと言語デコーダSmolLM2の二つの補完的なブロックを組み合わせており、ロボットの視覚環境を解読し、自然言語での理解を生成します;
- Action Expert、100百万パラメータのトランスフォーマーで、VLMから提供された情報に基づいてロボットが実行すべきアクションを予測します。
設計上の選択がモデルの効率性に貢献します:
- 視覚トークン数の削減により、品質を損なうことなく推論を加速します;
- レイヤースキッピング により、モデルの一部のレイヤーを回避してより高速な実行を可能にします;
- インターレースドアテンションがモダリティ間の情報の流れを最適化します;
- 非同期推論が、前のアクションの実行中に次のアクションの予測を許可します。
これらの多くのレバーが、計算負荷を制御しながら性能を向上させるのに寄与しています。Hugging Faceは、モデル、コードベース、トレーニングデータセット、ロボットハードウェアをオープンソース化し、完全な再現性を保証するための詳細な指示を提供することで、VLAモデルへのアクセスを民主化し、一般的なロボティクスエージェントの研究を加速させることを目指しています。