Meta Properties, propriétaire de Facebook, Instagram et WhatsApp, a dévoilé mercredi son dernier effort en matière de traduction automatique, un opus de 190 pages décrivant comment il a utilisé des formes de deep learning de réseaux neuronaux pour doubler la traduction de pointe pour les langues à 202 langues, dont beaucoup sont des langues dites « à faibles ressources » comme l’oromo, une langue de la région d’Oromia en Éthiopie, le tamasheq, parlé en Algérie et dans plusieurs autres régions d’Afrique du Nord, et le waray, la langue du peuple Waray des Philippines.
Le rapport d’une équipe de chercheurs du Meta, ainsi que d’universitaires de l’UC Berkeley et de Johns Hopkins, intitulé « No Language Left Behind : Scaling Human-Centered Machine Translation », est publié sur le site de recherche sur l’IA de Facebook, ainsi qu’un billet de blog complémentaire (et les deux devraient être lus obligatoirement pour la richesse des détails sur la question).
« Les systèmes de traduction automatique largement accessibles prennent en charge environ 130 langues ; notre objectif est de porter ce nombre à 200 », écrivent-ils dans leur déclaration de mission.
Pour une vue d’ensemble, consultez le rapport de synthèse publié sur ZDNet.com. Comme l’explique l’article, Meta met en libre accès ses ensembles de données et le code de son modèle de réseau neuronal sur GitHub, et offre également 200 000 dollars aux utilisations extérieures de la technologie. La société s’est associée aux propriétaires de Wikipédia, la Wikimedia Foundation, pour améliorer la traduction des articles de Wikipédia.
La barrière de la qualité
Ce que montre le rapport en creux, c’est que malgré une amélioration mesurable sur un plus grand groupe de langues, comme l’indiquent les systèmes de notation automatique, lorsqu’il s’agit de l’évaluation humaine de la qualité des traductions, le réseau neuronal des chercheurs, connu sous le nom affectueux de « No Language Left Behind » (NLLB), ne parvient pas à montrer une grande amélioration dans un certain nombre de langues. Cela compris non seulement les langues à faibles ressources comme l’oromo, mais aussi les langues avec un matériel de traduction répandu comme le grec et l’islandais.
La leçon à tirer est qu’en dépit de la possibilité d’améliorer les scores moyens, les subtilités de la création de traductions qui sont « signifiantes », du moins dans la mesure où un humain considère la traduction, ne peuvent pas être simplement automatisées. Les auteurs ont constaté que, lorsqu’ils ont agrandi leur filet numérique, ce qui devrait signifier une plus grande puissance, ils ont en fait constaté des rendements décroissants lors de la traduction de phrases de l’anglais vers une autre langue, et certains effets négatifs lors de la traduction entre des phrases non anglaises.
L’équipe a pris de nombreuses mesures pour améliorer la traduction, notamment en interrogeant des centaines de locuteurs natifs de langues à faibles ressources – les entretiens durent en moyenne une heure et demie – afin d’évaluer les besoins et les préoccupations des locuteurs. (L’éthique d’un tel travail de terrain et l’éthique de l’intégration de langues à faibles ressources qui pourraient être submergées par un flot d’attention font l’objet d’une discussion approfondie ; cette discussion dans le document mérite une attention particulière).
Mix de l’automatisation et de l’humain
Mais le cœur du travail réside dans le fait qu’ils se sont donné beaucoup de mal pour compiler un nouvel ensemble de données afin d’entraîner leur réseau neuronal, allant jusqu’à inventer de nouvelles méthodes pour effectuer l’identification de la langue sur les documents web, afin d’identifier les tests appartenant à une langue.
Ils utilisent des méthodes automatisées pour compiler un ensemble de données de paires de phrases bilingues pour toutes leurs langues cibles. Les statistiques de cet ensemble de données sont assez impressionnantes. « Au total, il y a 1220 paires de langues ou 2440 directions (xx-yy et yy-xx) pour la formation. Ces 2440 directions représentent un total de plus de 18 milliards de paires de phrases […] la majorité des paires ont moins d’un million de phrases et sont des directions à faibles ressources » disent les auteurs.
Les chercheurs utilisent ces données pour entraîner le réseau neuronal NLLB, mais ils utilisent également un ensemble de données artisanales de traductions réalisées par des traducteurs humains. L’élément humain, l’ensemble de données « NLLB-Seed », s’avère être assez important. « Malgré la taille considérablement plus importante des données d’entraînement disponibles dans le public, l’entraînement sur NLLB-Seed conduit à des performances nettement supérieures en moyenne », écrivent-ils.
Un intérêt pour la traduction multilingue partagé par Google
Il est à noter que l’équipe de Meta n’est pas la seule à déployer ce type d’efforts sur des ensembles de données géants. Les scientifiques de Google ont dévoilé en mai un effort similaire de traduction massive multilingue, où ils ont pu parcourir le Web pour trouver plus d’un million de phrases dans plus de 200 langues et plus de 400 000 phrases dans plus de 400 langues.
Ces ensembles de données de formation sont utilisés pour construire leur réseau neuronal, NLLB-200. Ils commencent par le modèle linguistique Transformer de Google, omniprésent, qui sous-tend la plupart des traductions linguistiques actuelles.
Ils utilisent un Transformer de 54 milliards de paramètres, ce qui n’est pas énorme (certains modes approchent le trillion de paramètres), mais ils apportent une modification essentielle.
Entre les différentes couches du réseau, les auteurs intercalent des branches d’exécution conditionnelle, appelées « mélange d’exportations à faible densité ». En gros, les experts peuvent choisir de désactiver ou d’activer certains de ces 54 milliards de paramètres lorsqu’ils font des prédictions, de sorte que le réseau neuronal peut changer de nature à chaque tâche.
« Les modèles de mélange d’experts (MoE) à gestion éparse sont un type de modèles de calcul conditionnel qui activent un sous-ensemble de paramètres du modèle par entrée, par opposition aux modèles denses qui activent tous les paramètres du modèle par entrée », expliquent-ils. L’intérêt des MoE, expliquent-ils, est qu’ils « débloquent une capacité de représentation importante tout en maintenant les mêmes efficacités d’inférence et de formation en termes de FLOPs [opérations en virgule flottante par seconde] par rapport à l’architecture dense de base. »
FLORES-200, un nouvel ensemble de données de référence
Parallèlement à l’ensemble de formation, les auteurs développent un nouvel ensemble de données de référence, FLORES-200, un ensemble de données de référence many-to-many de haute qualité qui double la couverture linguistique d’un effort précédent connu sous le nom de « Flores- 101 ». L’ensemble de données est « créé avec des traducteurs humains professionnels qui traduisent l’ensemble de données source FLORES dans les langues cibles et un groupe distinct de réviseurs de traduction indépendants qui effectuent des évaluations de la qualité des traductions humaines et fournissent des commentaires sur les traductions aux traducteurs ».
Ensuite, ils testent les résultats de la NLLB sur FLORES-200.
Les résultats sont une amélioration de 44% par rapport aux programmes de traduction antérieurs, comme mesuré par des scores automatisés communs tels que BLUE et chrF. Ils font des comparaisons approfondies entre les différentes versions de ces scores.
En plus des scores automatiques, les auteurs ont demandé à des humains de lire les traductions et de les noter, et c’est là que certaines failles apparaissent. À l’aide d’un protocole suggéré pour la première fois en 2012 par Eneko Agirre et ses collègues, appelé « Semantic Textual Similarity », l’équipe Meta utilise une variante appelée « XSTS », qu’elle a présenté dans un article séparé en mai.
XSTS demande aux humains d’évaluer les traductions sur une échelle de 1 à 5, 1 étant le pire, les deux phrases n’ont rien à voir l’une avec l’autre, et 5 étant le meilleur, elles disent à peu près la même chose selon une personne.
« En bref, XSTS est un protocole d’évaluation humaine qui se concentre sur la préservation du sens bien plus que sur la fluidité », écrivent-ils. « Pour les langues à faibles ressources, les traductions sont généralement de moins bonne qualité, et nous nous concentrons donc beaucoup plus sur les traductions utilisables (préservant le sens), même si elles ne sont pas totalement fluides. »
Le score global n’est pas mauvais si l’on compare les résultats d’un transformateur de base pour les traductions de et vers l’anglais et une autre langue, mais ils constatent en fait des résultats plus mauvais sur une paire, de l’anglais vers le grec : « Dans l’ensemble, NLLB-200 obtient un score XSTS moyen de 4,15 pour les directions hors de l’anglais et de 3,75 pour les directions vers l’anglais. Par rapport au modèle dense de base, la performance de NLLB-200 est plus forte. Certaines directions présentent une différence significative, telles que rus_Cyrl-tgk_Cyrl [Russian to Tagalog] et eng_Latn-gla_Latn [English to Scottish Gaelic]. Nous remarquons également que NLLB-200 est plus performant que la ligne de base dans toutes les directions testées, à la seule exception de eng_Latn-ell_Grek [anglais vers grec] où les performances étaient légèrement moins bonnes. »
Des limites sur de nombreuses paires de langues
Mais si l’on creuse un peu plus, d’autres fissures apparaissent. Un effort aussi gigantesque est une entreprise statistique, et dans tout chantier statistique, la distribution des scores est plus révélatrice qu’une moyenne ou une médiane.
Sur de nombreuses paires de langues, comme l’arménien vers l’anglais, l’oromo vers l’anglais, l’amharique, la langue la plus utilisée en Éthiopie, traduite en arménien, le français traduit en wolof et l’hindi traduit en chhattisgarhi, qui est une langue principale de l’État du même nom dans le centre de l’Inde, ils constatent que l’amélioration par rapport au modèle de base est faible, voire nulle.
Ces exemples isolés, qui surgissent parmi les succès – une grande amélioration du russe traduit en tagalog, une langue dominante aux Philippines, par exemple – indiquent une vérité plus profonde, à laquelle les scientifiques réfléchissent.
Sans interpréter les évaluations humaines, les auteurs examinent les cas d’échec dans les scores automatisés BLUE et chrF, et ils émettent l’hypothèse de certaines limitations ou lacunes de leur approche. Soit, écrivent-ils, les paires de langues avec beaucoup de ressources, y compris le grec, ne bénéficient pas de l’ajout de l’approche du mélange d’experts, soit leur programme devient si puissant qu’ils se heurtent à l' »over-fitting », où un réseau neuronal a simplement mémorisé quelques exemples sans former une représentation productive – ce qui signifie qu’il n’a rien « appris » du tout, en réalité.
Comme le disent les auteurs, « les paires à ressources élevées auront probablement une capacité suffisante dans le modèle dense de 1,3 milliard de pixels (compte tenu de la taille et de la nature de notre ensemble de données sur l’ablation) et ne bénéficieront pas autant de la capacité supplémentaire des modèles MoE. »
Favoriser une approche multidisciplinaire
Les auteurs proposent certaines mesures qui peuvent être prises pour atténuer l’over-fitting, comme une sorte de « masquage » de diverses entrées, et un « routage conditionnel » dans le mélange d’experts.
Le rapport contient tellement d’autres détails sur les différents montages expérimentaux qu’il est impossible de résumer tous les résultats. Il suffit de dire que les auteurs espèrent que la voie du code source ouvert – et les 200 000 dollars – convaincront « la communauté d’examiner les pratiques actuelles et d’améliorer ce qui n’a pas marché, dans le cadre d’une mission visant à atteindre l’objectif de l’étoile polaire, à savoir « aucune langue laissée pour compte ».
En particulier, l’ensemble de données de traduction conservées, FLORES-200, est coûteux à assembler en faisant appel à des traducteurs professionnels. « L’extension de Flores-200 à des langues à faibles ressources encore plus nombreuses à l’avenir pourrait être difficile », observent-ils.
Dans l’ensemble, ils concluent qu’une approche multidisciplinaire sera importante. « Le partage de la NLLB avec la grande communauté scientifique et de recherche permettra à ceux qui ont des compétences diverses de contribuer à l’avancement du projet. De bien des façons, la composition de l’effort de la NLLB témoigne de la centralité de l’interdisciplinarité dans l’élaboration de notre vision. La traduction automatique se trouve à l’intersection du développement technologique, culturel et sociétal, et nécessite donc des chercheurs ayant une formation et des points de vue différents pour comprendre pleinement chaque angle. Nous espérons que dans les itérations futures, la NLLB continuera à s’étendre pour inclure des chercheurs de domaines sous-représentés dans le monde de la traduction automatique et de l’IA, en particulier ceux issus des sciences humaines et sociales. Plus important encore, nous espérons que les équipes développant de telles initiatives seront issues d’un large éventail d’origines, de genres et d’identités culturelles, à l’image des communautés dont nous cherchons à améliorer la vie. »
Source : ZDNet.com
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));