Hugging Face renforce son infrastructure IA avec l’acquisition de XetHub

La licorne franco-américaine Hugging Face a annoncé récemment l’acquisition de XetHub, une start-up américaine spécialisée dans la gestion de fichiers pour les projets d’IA, ce qui lui permettra d’améliorer ses capacités de stockage et de gestion des données afin de répondre aux besoins croissants de modèles toujours plus grands et complexes.

Fondé en 2021 à Seattle par Yucheng Low, Ajit Banerjee, et Rajat Arya, tous anciens membres de l’équipe de machine learning (ML) d’Apple, XetHub s’est donné pour mission de simplifier l’expérimentation de données à grande échelle. Sa plateforme peut gérer des fichiers individuels de plus de 1 To (téraoctet) et des référentiels dont la taille totale dépasse 100 To, une nette amélioration par rapport à Git LFS, qui limite la taille des fichiers à 5 Go et celle des référentiels à 10 Go.

La start-up s’est démarquée en adaptant Git pour gérer des référentiels de données massifs, une compétence essentielle pour les équipes travaillant avec des modèles ML complexes et volumineux. Sa technologie permet non seulement de stocker efficacement ces énormes fichiers, mais aussi de faciliter la collaboration en permettant aux équipes de travailler simultanément sur ces ensembles de données.

Yucheng Low, cofondateur de XetHub, explique :

“L’objectif de XetHub est de permettre aux équipes de ML de fonctionner comme des équipes logicielles, en adaptant le stockage de fichiers Git aux To, en permettant de manière transparente l’expérimentation et la reproductibilité, et en fournissant les capacités de visualisation nécessaires pour comprendre comment les ensembles de données et les modèles évoluent”.

L’impact de XetHub sur le développement d’Hugging Face

La plateforme collaborative Hub de Hugging Face stocke 1,3 million de modèles d’IA, 450 000 jeux de données, 680 000 espaces et reçoit chaque jour 1 milliard de requêtes.

En 2020, lors de la création de la première version du Hub, l’équipe a choisi d’utiliser Git LFS (Large File Storage), une solution de stockage permettant de gérer des fichiers volumineux de manière efficace, mais qui montre désormais ses limites face à l’augmentation exponentielle de la taille des modèles d’IA. La technologie de XetHub permettra de passer à une solution de stockage plus adaptée, optimisant non seulement la capacité, mais aussi l’efficacité des mises à jour et des collaborations.

Grâce à cette acquisition, Hugging Face prévoit de remplacer Git LFS par une version optimisée de son propre système de stockage et de gestion de versions, intégrant les avancées technologiques de XetHub. Les utilisateurs du Hub pourront ainsi bénéficier d’une réduction significative de la bande passante et du temps de téléchargement lors de la mise à jour de fichiers volumineux.

Des cas d’utilisation concrets

Les innovations majeures que XetHub apporte sont la gestion des fichiers fragmentés et la déduplication. Par exemple, dans un scénario où un fichier Parquet de 10 Go nécessite une mise à jour d’une seule ligne, les utilisateurs ne devront plus télécharger l’intégralité du fichier, mais seulement les fragments modifiés. Cette fonctionnalité est cruciale à une époque où les modèles d’IA atteignent des tailles inédites, comme le nouveau modèle BigLlama-3.1-1T de Maxime Labonne.

De même, la mise à jour de fichiers de modèle GGUF, où une simple modification de métadonnées dans un dépôt Llama 3.1 405B pouvait auparavant nécessiter le téléchargement de plusieurs gigaoctets, sera désormais possible en quelques secondes.

Yucheng Low conclut :

“Avec toute l’équipe de XetHub, je suis très enthousiaste à l’idée de rejoindre Hugging Face et de poursuivre cette mission visant à faciliter la collaboration et le développement de l’IA – en intégrant la technologie XetHub dans Hub – et à proposer ces fonctionnalités à la plus grande communauté ML au monde !”

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.