Phi-2 : La puissance surprenante des petits modèles linguistiques
15 décembre 2023
Les modèles linguistiques ont considérablement évolué ces dernières années, grâce à l’augmentation de leur taille. Toutefois, l’innovation et la recherche de modèles plus petits mais tout aussi puissants sont encore possibles. L’équipe » Machine Learning Foundations » de Microsoft Research a développé une série de modèles de langage appelés« Phi » qui démontrent des performances exceptionnelles sur différents bancs d’essai. En particulier, Phi-2, le modèle le plus récent avec 2,7 milliards de paramètres, se distingue par ses capacités de raisonnement et de compréhension du langage.
Les principales caractéristiques de Phi-2
L’objectif de l’équipe de recherche de Microsoft est de développer des modèles linguistiques dont les performances sont comparables à celles de modèles beaucoup plus importants. Pour ce faire, deux éléments clés ont été identifiés :
- La qualité des données d’entraînement joue un rôle essentiel dans les performances du modèle. En particulier, des données de formation de haute qualité sont essentielles pour enseigner au modèle le raisonnement de bon sens et les connaissances générales. Microsoft Research a créé des ensembles de données synthétiques spécialement conçus pour enseigner à Phi-2 le raisonnement de bon sens, qui comprend la science, les activités quotidiennes et la théorie de l’esprit. En outre, les données du web ont été soigneusement sélectionnées en fonction de leur valeur éducative et de la qualité de leur contenu.
- L’utilisation de techniques innovantes pour mettre le modèle à l’échelle. Phi-2 a été développé à partir du modèle Phi-1.5, qui compte 1,3 milliard de paramètres. Ce transfert de connaissances a permis d’accélérer la convergence de la formation et d’améliorer les performances de Phi-2 sur les benchmarks.
Détails de la formation Phi-2
Phi-2 est un modèle basé sur un transformateur dont l’objectif est de prédire le mot suivant dans le texte. Il a été entraîné sur 1,4 trillion de tokens provenant d’ensembles de données synthétiques et web. L’entraînement de Phi-2 a duré 14 jours en utilisant 96 GPU A100. Il est important de souligner que Phi-2 est un modèle de base qui n’a pas été soumis à une amélioration par apprentissage par renforcement ou par entraînement spécifique. Malgré cela, Phi-2 montre un meilleur comportement en termes de toxicité et de biais que d’autres modèles open-source ayant fait l’objet d’améliorations similaires.
Évaluation de Phi-2
Phi-2 a été évalué sur plusieurs benchmarks académiques, démontrant des performances supérieures à celles de modèles plus importants tels que Mistral et Llama-2. Par exemple, sur des tâches de raisonnement complexes telles que la programmation et les mathématiques, Phi-2 surpasse le modèle Llama-2-70B, qui est 25 fois plus grand. En outre, Phi-2 obtient des résultats comparables à ceux du modèle Google Gemini Nano 2, malgré sa taille plus petite.
Il est important de souligner que l’évaluation des modèles de langage présente encore des difficultés, car de nombreux critères de référence publics peuvent avoir fait l’objet de fuites dans les données d’apprentissage. Cependant, Microsoft Research a mené une étude exhaustive pour garantir la qualité des données d’entraînement de Phi-2, éliminant ainsi toute contamination possible.
Test de cas d’utilisation concrets
Pour évaluer les capacités de Phi-2, de nombreux tests ont été effectués sur des cas d’utilisation spécifiques. Par exemple, Phi-2 a été capable de résoudre correctement un problème de physique, démontrant ainsi ses capacités de raisonnement scientifique. En outre, Phi-2 a été testé sur des messages-guides courants utilisés par la communauté des chercheurs, et a obtenu des résultats conformes aux performances constatées dans les tests de référence.