Les nouvelles méthodes de travail de Google sur son « méga moteur » de traduction automatique
Dans la lignée de nos publications sur les innovations linguistiques et les modèles multilingues de Facebook, Google adopte une nouvelle approche dans la construction et l’entrainement de son moteur de traduction automatique.
Selon l’article de Slator et le rapport publié par les chercheurs, des langues disposant de très peu de données linguistiques ont été entrainées par des modèles multilingues en y injectant des données monolingues, sans pour autant bénéficier de données parallèles (ce qui est pourtant habituellement la norme) : c’est justement cette structure multilingue qui permet au moteur d’apprendre de lui-même à partir de données monolingues.
L’équipe de chercheurs définit son modèle comme : « une combinaison entre des données monolingues et des « self-supervised objectives » (des données qui ne sont pas annotées) qui permettent au moteur d’apprendre la langue dans un premier temps, et des « supervised translations » (données annotées et vérifiées) qui proviennent de différentes combinaisons linguistiques, qui apprennent au moteur à traduire grâce à l’apprentissage par transfert (« transfer learning ») ».
La vraie différence avec le modèle créé par Facebook est que celui-ci n’utilise pas l’anglais comme langue pivot pour toutes les combinaisons. Tout a justement été fait pour ne pas passer par l’anglais afin de favoriser un modèle d’apprentissage pour les langues ayant peu de ressources disponibles sur le Web.
Les résultats des tests menés par les chercheurs sont très intéressants à analyser (à retrouver ici : https://arxiv.org/abs/2201.03110) car le modèle « sans ressources » (donc sans données linguistiques existantes) a été comparé au modèle de données « parallèles » entièrement supervisé : dans le cas du modèle entièrement supervisé, les langues avec peu de données existantes ont eu de moins bons résultats que dans le cas du modèle sans ressource. L’ajout de données monolingues au modèle multilingue élaboré a donc permis d’améliorer les performances d’apprentissage de la langue du moteur en traduction et par conséquent, la qualité des traductions fournies.
Toutefois, cet ajout de données monolingues a tendance à diminuer les performances de toutes les autres langues du moteur. Au contraire, l’ajout de données parallèles les améliorent, étant donné que les langues sans ressources apprennent aussi de ces données supervisées.
Le résultat sera-t-il vraiment meilleur que ce qui existe aujourd’hui ? A confirmer lorsque ce moteur sera mis à disposition du grand public car, comme le souligne l’article de Slator, plus de 4 milliards d’internautes ne parlent pas anglais…
Sources :
https://slator.com/google-research-brings-multilingual-machine-translation-to-200-languages/
https://aclanthology.org/N19-1388/
https://arxiv.org/abs/2201.03110
https://slator.com/whats-so-massive-about-googles-massively-multilingual-neural-machine-translation/