Science

L’expérience DeepMind montre que l’IA doit devenir plus intelligente, pas seulement

L’approche dominante pour créer des intelligences artificielles plus avancées consiste simplement à augmenter leur puissance de calcul, mais la société d’IA DeepMind dit que nous atteignons un point de rendement décroissant


La technologie


8 décembre 2021

Salle des serveurs

Former de grandes intelligences artificielles nécessite beaucoup de puissance de calcul

Sefa Ozel/Getty Images

DeepMind dit qu’enseigner aux machines à imiter de manière réaliste le langage humain est plus complexe que de simplement jeter des quantités croissantes de puissance de calcul sur le problème, bien que ce soit le problème. stratégie prédominante dans le domaine.

Ces dernières années, la plupart des progrès dans la construction d’intelligences artificielles (IA) sont venus de l’augmentation de leur taille et de leur formation avec toujours plus de données sur le plus gros ordinateur disponible. Mais cela rend les IA coûteuses, lourdes et avide de ressources. Un système récent créé par Microsoft et Nvidia a nécessité plus d’un mois d’accès au supercalculateur et près de 4500 cartes graphiques haute puissance pour s’entraîner, au prix de millions de dollars.

Dans le but de trouver des alternatives, la société d’IA DeepMind a créé un modèle qui peut rechercher des informations dans une vaste base de données, de la même manière qu’un humain utiliserait un moteur de recherche. Cela évite d’avoir à intégrer toutes ses connaissances pendant la formation. Les chercheurs de l’entreprise affirment que cette stratégie peut créer des modèles qui rivalisent avec les outils de pointe tout en étant beaucoup moins complexes.

Les IA linguistiques ont semblé faire un grand pas en avant l’année dernière avec la sortie de GPT-3, un modèle développé par la société américaine OpenAI qui a surpris les chercheurs par sa capacité à générer des flux de texte fluides. Depuis lors, les modèles sont devenus de plus en plus gros : GPT-3 a utilisé 175 milliards de paramètres pour son réseau de neurones, tandis que le modèle récent de Microsoft et Nvidia, le Megatron-Turing Natural Language Generation, compte 530 milliards de paramètres.

Mais il y a des limites à l’échelle – Megatron a réussi à pousser les repères de performance à peine plus haut que GPT-3 malgré son énorme augmentation des paramètres. Sur un point de référence, où une IA est nécessaire pour prédire le dernier mot des phrases, GPT-3 avait une précision allant jusqu’à 86,4 %, tandis que Megatron atteignait 87,2 %.

Les chercheurs de DeepMind ont initialement étudié les effets d’échelle sur des systèmes similaires en créant six modèles de langage, allant de 44 millions de paramètres à 280 milliards. Il a ensuite évalué leurs capacités sur un groupe de 152 tâches diverses et a découvert que l’échelle conduisait à une amélioration des capacités. Le plus grand modèle a battu le GPT-3 dans environ 82 % des tests. Dans un test de compréhension de lecture de référence commun, il a obtenu 71,6, ce qui est supérieur aux 46,8 de GPT-3 et aux 47,9 de Megatron.

Mais l’équipe DeepMind a constaté que, bien qu’il y ait eu des gains d’échelle significatifs dans certains domaines, d’autres, tels que le raisonnement logique et mathématique, en voyaient beaucoup moins d’avantages. La société affirme maintenant que l’échelle à elle seule n’est pas la façon dont elle entend atteindre son objectif de créer un modèle de langage réaliste qui peut comprendre des déclarations logiques complexes, et a publié un modèle appelé Retrieval-Enhanced Transformer (RETRO) qui recherche des informations plutôt que de les mémoriser. .

RETRO possède 7 milliards de paramètres, 25 fois moins que GPT-3, mais peut accéder à une base de données externe d’environ 2 000 milliards d’informations. DeepMind affirme que le modèle plus petit prend moins de temps, d’énergie et de puissance de calcul pour s’entraîner, mais peut toujours rivaliser avec les performances du GPT-3.

Dans un test par rapport à un modèle de langage standard avec un nombre similaire de paramètres mais sans possibilité de rechercher des informations, RETRO a obtenu un score de 45,5 dans un test de référence sur la réponse précise à des questions en langage naturel, tandis que le modèle de contrôle n’a obtenu que 30,4.

« Être capable de rechercher des éléments à la volée à partir d’une vaste base de connaissances peut souvent être utile au lieu d’avoir à tout mémoriser », explique Jack Rae chez DeepMind. « L’objectif est juste d’essayer d’imiter le comportement humain à partir de ce qu’il peut voir sur Internet. »

Cette approche présente également d’autres avantages. Alors que les modèles d’IA sont généralement des boîtes noires dont le fonctionnement interne est un mystère, il est possible de voir à quelles données externes RETRO fait référence. Cela peut permettre une citation et quelques explications de base sur la façon dont il est arrivé à des résultats particuliers.

Il permet également de mettre à jour le modèle plus facilement par simple ajout aux données externes ; par exemple, un modèle traditionnel formé en 2020 peut répondre à une question sur le vainqueur de Wimbledon en disant « Simona Halep », mais RETRO serait en mesure de parcourir de nouveaux documents et de savoir que « Ashleigh Barty » était une réponse plus contemporaine.

Samuel Bowman à l’Université de New York, affirme que les idées derrière RETRO ne sont pas nécessairement nouvelles, mais sont importantes en raison de l’influence de DeepMind dans le domaine de l’IA. « Il reste encore beaucoup de choses que nous ne savons pas sur la façon de gérer de manière sûre et productive les modèles aux échelles actuelles, et cela va probablement devenir plus difficile avec l’échelle à bien des égards, même si cela devient plus facile dans certains cas. »

L’une des préoccupations est que le coût élevé de l’IA à grande échelle pourrait en faire l’apanage des grandes entreprises. « Il semble attentionné de leur part de ne pas essayer de repousser les limites ici, car cela pourrait renforcer une dynamique de course aux armements », explique Bowman.

Plus sur ces sujets :




Source link

Articles similaires

Bouton retour en haut de la page