Site icon Syrus

AI21 Labs : Un nouveau modèle d’intelligence artificielle capable de gérer plus de contextes que la plupart des autres

L’industrie de l’intelligence artificielle s’oriente de plus en plus vers des modèles génératifs avec des contextes plus larges. Toutefois, ces modèles ont tendance à être très gourmands en ressources informatiques. Or Dagan, chef de produit chez AI21 Labs, une start-up spécialisée dans l’intelligence artificielle, affirme que ce n’est pas forcément le cas, et son entreprise publie un modèle génératif pour le prouver.

Les contextes, ou fenêtres contextuelles, désignent les données d’entrée (par exemple, du texte) qu’un modèle prend en compte avant de générer la sortie (plus de texte). Les modèles dotés de petites fenêtres contextuelles ont tendance à oublier le contenu de conversations même très récentes, alors que les modèles dotés de contextes plus larges évitent ce problème et, en outre, comprennent mieux le flux de données qu’ils traitent.

Le nouveau modèle de génération et d’analyse de texte d’AI21 Labs, appelé Jamba, peut effectuer un grand nombre des mêmes tâches que des modèles tels que ChatGPT d’OpenAI et Gemini de Google. Formé à partir d’une combinaison de données publiques et propriétaires, Jamba peut écrire des textes en anglais, en français, en espagnol et en portugais.

L’une des caractéristiques uniques de Jamba est sa capacité à traiter jusqu’à 140 000 jetons avec un seul GPU doté d’au moins 80 Go de mémoire, tel qu’un puissant Nvidia A100. Cela correspond à environ 105 000 mots, soit 210 pages, une taille adéquate pour un roman de bonne taille.

En comparaison, Llama 2 de Meta a une fenêtre contextuelle de 32 000 tokens, une taille plus petite selon les normes actuelles, mais ne nécessite qu’un GPU d’environ 12 Go de mémoire pour fonctionner. (Les fenêtres contextuelles sont généralement mesurées en jetons, qui sont des fragments de texte brut et d’autres données).

À première vue, Jamba peut sembler un modèle ordinaire. Il existe de nombreux modèles d’intelligence artificielle générative librement disponibles et téléchargeables, tels que le DBRX récemment publié par Databricks et le Llama 2 mentionné plus haut.

Ce qui rend Jamba unique, c’est ce qui se cache sous le capot. Il utilise une combinaison de deux architectures de modèles : les transformateurs et les modèles d’espace d’état (SSM).

Les transformateurs sont l’architecture préférée pour les tâches de raisonnement complexes et alimentent des modèles tels que le GPT-4 et le Google Gemini susmentionné. Ils présentent plusieurs caractéristiques uniques, mais la caractéristique distinctive des transformateurs est sans aucun doute leur« mécanisme d’attention« . Pour chaque donnée d’entrée (par exemple, une phrase), les transformateurs« pèsent » la pertinence de toutes les autres données d’entrée (d’autres phrases) et s’en inspirent pour générer la sortie (une nouvelle phrase).

Les MSS, quant à eux, combinent différentes qualités d’anciens types de modèles d’intelligence artificielle, tels que les réseaux neuronaux récurrents et les réseaux neuronaux convolutifs, afin de créer une architecture plus efficace sur le plan informatique, capable de traiter de longues séquences de données.

Les SSM ont leurs limites. Toutefois, certaines de leurs premières incarnations, dont un modèle open source appelé Mamba développé par des chercheurs de Princeton et de Carnegie Mellon, peuvent traiter des entrées plus importantes que leurs équivalents basés sur des transformateurs et les surpasser dans les tâches de génération de langage.

Jamba utilise Mamba dans le cadre du modèle de base, et M. Dagan affirme qu’il offre un débit trois fois plus élevé sur les longs contextes que les modèles à base de transformateurs de taille comparable.

Bien qu’il existe quelques premiers exemples académiques de modèles SSM, il s’agit du premier modèle de production de qualité commerciale« , a déclaré M. Dagan lors d’un entretien avec le magazine Tech.

a déclaré M. Dagan dans une interview accordée à TechCrunch.

« Cette architecture, en plus d’être innovante et intéressante pour les recherches ultérieures de la communauté, ouvre de grandes possibilités en termes d’efficacité et de débit. »

Bien que Jamba ait été publié sous la licence Apache 2.0, une licence open source avec peu de restrictions d’utilisation, Dagan souligne qu’il s’agit d’une publication à des fins de recherche et qu’elle n’est pas destinée à un usage commercial. Le modèle ne comporte pas de garde-fous pour empêcher la génération de textes toxiques ni de mesures d’atténuation pour remédier à d’éventuels biais ; une version affinée et prétendument « plus sûre » sera mise à disposition dans les semaines à venir.

Cependant, M. Dagan estime que Jamba démontre déjà le potentiel de l’architecture SSM, même à ce stade précoce.

« Laparticularité de ce modèle, tant par sa taille que par son architecture innovante, est qu’il peut être facilement adapté à un seul GPU« , a-t-il déclaré.

a-t-il déclaré.

« Nous pensons que les performances s’amélioreront encore avec d’autres optimisations de Mamba.

Avantages des modèles d’intelligence artificielle dans un contexte large

À mesure que le secteur de l’intelligence artificielle continue d’évoluer, il s’oriente de plus en plus vers l’adoption de modèles génératifs avec des contextes plus larges. Ces modèles, tels que Jamba d’AI21 Labs, permettent de prendre en compte davantage d’informations avant de générer le résultat souhaité.

Les modèles à contexte large présentent plusieurs avantages par rapport à ceux dont les fenêtres contextuelles sont plus petites. Tout d’abord, les modèles à contexte large ont une plus grande capacité à comprendre et à stocker des informations importantes provenant de conversations antérieures. Cela signifie que le modèle peut créer un résultat plus cohérent et plus précis, en évitant les répétitions ou les erreurs dues au manque de contexte.

En outre, les modèles à contexte large sont mieux à même de saisir le flux de données qu’ils examinent. Cela signifie qu’ils peuvent mieux comprendre le contexte général et créer des résultats qui correspondent mieux au contexte spécifique dans lequel ils sont utilisés.

Un exemple pratique de l’utilité des modèles à contexte large est le domaine des chatbots. Les chatbots basés sur des modèles à contexte large peuvent mieux comprendre les conversations précédentes et répondre de manière plus précise et plus cohérente aux questions des utilisateurs. L’expérience de l’utilisateur s’en trouve améliorée et plus satisfaisante.

En outre, les modèles à contexte large peuvent être utilisés dans une variété de secteurs et d’applications. Par exemple, ils peuvent être utilisés pour générer automatiquement des textes, traduire d’une langue à l’autre, créer des dialogues réalistes pour des jeux vidéo ou des films, et bien d’autres choses encore.

Jamba : le potentiel des modèles SSM

Un aspect intéressant du modèle Jamba d’AI21 Labs est l’utilisation d’une combinaison de deux architectures de modèles : les transformateurs et les modèles d’espace d’état (SSM). Les transformateurs sont connus pour être très efficaces dans les tâches de raisonnement complexes, tandis que les modèles d’espace d’état sont capables de traiter des séquences de données plus longues.

L’utilisation combinée de ces deux architectures permet à Jamba d’obtenir le meilleur des deux mondes. Les transformateurs fournissent des capacités de raisonnement complexes, telles que l’analyse du contexte et la génération de textes cohérents, tandis que les SSM permettent de traiter des séquences de données plus longues sans sacrifier les performances.

Il a été démontré que cette approche hybride offre un débit trois fois plus élevé pour les contextes longs que les modèles de taille comparable équipés uniquement de transformateurs. Cela signifie que Jamba est capable de générer un texte cohérent et de haute qualité sur de longues séquences de données, offrant ainsi un avantage significatif par rapport aux autres modèles disponibles sur le marché.

Source de l’article ici.

Quitter la version mobile