FlauBERT à la rescousse du traitement automatique du français

Résultats scientifiques Informatique

De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google.

À la croisée de la linguistique et de l’informatique, le traitement automatique du langage naturel scrute la parole et les écrits pour différentes applications : saisie par la voix, traduction et correction automatiques, recherche intelligente dans un corpus de textes ou sur Internet… Les mots sont alors transformés en objets mathématiques afin d’être utilisés par une intelligence artificielle, en particulier par des réseaux de neurones.

Le traitement automatique du langage naturel a été chamboulé en 2018 par la publication de BERT1 , un modèle de langue proposé par Google. « Avant, chaque mot était manipulé sous forme d’un vecteur unique, explique Laurent Besacier, professeur à l’université Grenoble Alpes. Des modèles comme Word2vec décrivaient de façon unique des mots pourtant polysémiques, comme “avocat”. »

À l’inverse, BERT adapte sa représentation vectorielle des mots en fonction du contexte et fait ainsi la différence selon que l’on parle d’un fruit ou d’un juriste. C’est d’ailleurs ainsi qu’il s’entraîne : le modèle prend une phrase et masque un ou plusieurs mots au hasard, qu’il tente ensuite de deviner. Ce principe le rend extrêmement performant, mais BERT a besoin d’être modifié pour chaque langue autre que l’anglais.

Des chercheurs du Laboratoire d’informatique de Grenoble (LIG, CNRS/Univ. Grenoble Alpes), du Laboratoire d’analyse et modélisation de systèmes pour l’aide à la décision (LAMSADE, CNRS/Université Paris Dauphine-PSL) et du Laboratoire de linguistique formelle (LLF, CNRS/Université Paris Diderot) ont donc développé FlauBERT2 , une version française de BERT.

  • 1Bidirectional encoder representations from transformers, représentations d’encodeurs bidirectionnels
  • 2FlauBERT n’est pas un acronyme, mais un jeu de mots sur Gustave Flaubert.
« FlauBERT, appris selon un entraînement non supervisé, évite aux développeurs de partir de zéro lorsqu’ils développent de nouvelles tâches de traitement automatique du langage naturel : c’est le concept du préentraînement. »

Ils l’ont entraîné à partir d’un corpus de 71 gigaoctets de textes dans la langue de Molière, composés de tout Wikipédia en français, de plusieurs années du journal le Monde, des ouvrages francophones du projet Gutenberg (dont bien entendu du Flaubert) ou encore des transcriptions des débats du Parlement européen. « Tout est précisément renseigné, insiste Laurent Besacier, car les chercheurs ont besoin de savoir comment FlauBERT a appris afin de mieux s’en servir. » Dans un même souci d’accessibilité, son benchmark est librement disponible en ligne.

Pour la phase d’apprentissage, les chercheurs ont pu utiliser le supercalculateur Jean Zay, implanté par GENCI à l’Institut du développement et des ressources en informatique scientifique du CNRS (IDRIS). L’imposante machine, qui effectue jusqu’à 14 millions de milliards d’opérations en virgule flottante par seconde, était alors en cours de rodage et un appel à projets avait été lancé pour le tester. Comme l’explique Alexandre Allauzen, chercheur dans l’équipe MILES du LAMSADE et Professeur à l’ESPCI, « il fallait sauter sur cette occasion unique de créer une ressource pour le français de cette envergure. Pour cela nous avons monté l’équipe FlauBERT pour exploiter cette puissance de calcul indispensable au projet mais qui nous était inaccessible et malheureusement réservée jusqu’ici au GAFAM. »

« Nous avons échangé très efficacement pour signaler les bugs, tout en étant soutenus lorsque nous avons dû adapter nos algorithmes à Jean Zay», détaille Didier Schwab, maître de conférences à l’université Grenoble Alpes et membre du LIG comme Laurent Besacier. Les chercheurs ont également mis au point FLUE3 , un banc de test qui permet d’évaluer les performances des systèmes automatiques de traitement du français.

« FLUE teste la capacité des modèles à accomplir certaines tâches, comme la désambiguation de sens, la capacité à paraphraser ou l’analyse de sentiments dun texte, c’est-à-dire savoir si une revue de produit est positive ou négative » précise Didier Schwab. Les chercheurs espèrent à présent voir leur communauté se saisir de ces outils novateurs pour faire avancer le traitement automatique du langage naturel en français.

 

Références

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab. FlauBERT: Unsupervised Language Model Pre-training for French. 2019

https://arxiv.org/abs/1912.05372

https://github.com/getalp/Flaubert

  • 3French Language Understanding Evaluation.

Contact

Alexandre Allauzen
Professeur à l’ESPCI, membre du LAMSADE
Laurent Besacier
Professeur à l'Université de Grenoble Alpes, membre du LIG
Didier Schwab
Professeur à l'Université de Grenoble Alpes, membre du LIG