Site icon Syrus

Amazon SageMaker HyperPod facilite l’entraînement des modèles de Langage à Grande Échelle

Lors de la conférence re:Invent, Amazon Web Services (AWS), la division cloud d’Amazon, a annoncé le lancement de SageMaker HyperPod, un nouveau service spécialement conçu pour l’entraînement et le raffinement de modèles de langage à grande échelle (LLM). SageMaker HyperPod est maintenant disponible pour tous les utilisateurs.

Amazon a toujours misé sur SageMaker, son service pour la construction, l’entraînement et le déploiement de modèles d’apprentissage automatique, comme le fer de lance de sa stratégie d’apprentissage automatique. Avec l’avènement de l’intelligence artificielle générative, il n’est pas surprenant qu’Amazon se repose sur SageMaker comme le prototype principal pour simplifier l’entraînement et l’affinement des modèles LLM.

Le socle de la stratégie d’apprentissage automatique

Ankur Mehrotra, directeur général de SageMaker chez AWS, a déclaré dans une interview que ‘SageMaker HyperPod offre la possibilité de créer un cluster distribué avec des instances accélérées optimisées pour l’entraînement distribué. Il fournit les outils pour distribuer efficacement des modèles et des données dans votre cluster, accélérant ainsi le processus d’entraînement‘.

En outre, SageMaker HyperPod permet aux utilisateurs de sauvegarder fréquemment des points de contrôle, leur permettant de mettre en pause, d’analyser et d’optimiser le processus d’entraînement sans avoir à recommencer depuis le début. Le service comprend également une série de mécanismes de sécurité de manière à ce que si une unité de traitement graphique (GPU) devait cesser de fonctionner pour une raison quelconque, l’ensemble du processus d’entraînement ne soit pas compromis.

Avantages de SageMaker HyperPod

Pour une équipe de machine learning, SageMaker HyperPod offre une expérience d’entraînement sans problème, étant un cluster qui se constitue automatiquement en cas de besoins. Cette caractéristique se traduit en une ‘expérience de preuve d’erreur‘ pour les utilisateurs et permet d’entraîner des modèles jusqu’à 40% plus rapidement. Cet avantage est significatif si l’on considère les coûts et le temps de mise sur le marché de la solution.

Les utilisateurs peuvent choisir d’utiliser des puces personnalisées Trainium d’Amazon ou des instances GPU basées sur Nvidia, y compris celles qui utilisent le processeur H100. Amazon promet que HyperPod peut accélérer le processus d’entraînement jusqu’à 40%. La société a déjà de l’expérience dans l’utilisation de SageMaker pour la construction de modèles LLM. Par exemple, le modèle Falcon 180B a été entraîné sur SageMaker en utilisant un cluster de GPU A100. AWS a pu tirer parti de cette expérience et de l’expérience précédente avec la scalabilité de SageMaker pour construire HyperPod.

Témoignage des utilisateurs

Arvind Srinivas, co-fondateur et CEO de Perplexity AI, a déclaré avoir eu un accès anticipé au service pendant la phase beta privée. Initialement, son équipe était sceptique quant à l’utilisation d’AWS pour l’entraînement et le raffinement des modèles. Cependant, après avoir testé le service gratuitement, ils ont découvert qu’AWS avait une infrastructure excellente pour l’entraînement de modèles de grande envergure. Srinivas a également souligné la facilité d’obtenir le support d’AWS et l’accès à un nombre suffisant de GPU pour l’usage de Perplexity AI. Cela a été d’une grande aide car l’équipe était déjà familière avec l’utilisation d’AWS pour l’inférence de modèles.

Srinivas a également souligné que l’équipe de HyperPod d’AWS s’est beaucoup concentrée sur l’optimisation des interconnexions entre les cartes graphiques Nvidia. ‘Ils ont optimisé les primitives de Nvidia qui permettent de communiquer ces gradients et paramètres entre les différents nœuds‘, a-t-il expliqué.

Quitter la version mobile