Comment les "BigTech" investissent la recherche en Traitement automatique des langues ?

Résultats scientifiques Informatique

Le traitement automatique des langues (TAL) fait désormais partie de la vie quotidienne de millions de gens dans le monde. ChatGPT en est l'avatar le plus récent et le plus connu. Cet agent conversationnel a été développé par OpenAI, une de ces nombreuses grandes entreprises privées qui investissent massivement le domaine depuis une quinzaine d'années. Ces grandes entreprises de la technologie, communément appelées « BigTech », sont pour la plupart sont très connues (Google, Amazon, Microsoft, etc.). Elles sont désormais très présentes dans les conférences du domaine, dont elles sont de fidèles sponsors. Préoccupés par cet état de fait, Karën Fort, maîtresse de conférences à Sorbonne Université et membre du Laboratoire lorrain de recherche en informatique et ses applications (Loria - CNRS/Inria/Université de Lorraine), et ses collègues ont utilisé leurs méthodes d’analyse automatique de textes pour estimer la place des entreprises dans les publications de conférences du domaine.

Afin de répondre à cette question, Karën Fort, maîtresse de conférences à Sorbonne Université et membre du Loria, et ses collègues ont utilisé leurs propres technologies pour analyser automatiquement les 78 187 articles publiés dans le domaine du traitement automatique des langues entre 1965 et 2022. Ils se sont intéressés aux affiliations des 23 606 auteurs et autrices, le pays où ils sont employés, les sujets dont traitent les articles et dans quelle mesure ceux-ci sont cités.

Outre cette analyse automatique, une analyse manuelle approfondie a été réalisée sur l’édition 2022 de la conférence ACL, la plus prestigieuse du domaine. Karën Fort et ses collaboratrices et collaborateurs ont pour cela sélectionné une personne au hasard parmi la liste d'auteurs de chaque publication (soit 701 auteurs) et cherché son CV en ligne pour l’analyser selon une grille comprenant : l'année de soutenance de thèse, le pays d'emploi, l'affiliation, le titre, les emplois et stages précédents et les financements obtenus auprès d'entreprises.

Les scientifiques ont été surpris par l'ampleur et la rapidité de progression des affiliations d’auteurs à des entreprises : durant les cinq dernières années, le domaine est passé de 5 % (2017) d'auteurs affiliés à une « BigTech » à 14 % (2022), soit une augmentation de 180 %. Parmi les 45 entreprises identifiées, Microsoft est celle présentant le plus d'auteurs (12 %), suivie par IBM (8 %), Meta et Amazon (5 %), Alibaba et Tencent (3 %). Ces entreprises sont principalement basées aux États-Unis (29 %) et en Chine (8 %). D'ailleurs, 35 % des auteurs basés aux États-Unis sont affiliés à une de ces entreprises, 31 % pour la Chine et 19 % pour l'Europe.

Pourcentage de papiers avec une affiliation avec une industrie
© Karën Fort

Leur étude montre que 66 % des auteurs d'ACL 2022 dont le CV a été analysé, ont reçu des financements privés et jusqu'à 72 % pour les auteurs basés aux États-Unis et 69 % pour ceux basés en Chine (38 % en Europe). En outre, parmi les auteurs étudiants, 74 % ont obtenu un financement d'une « BigTech », dont 81 % aux États-Unis, 75 % en Chine et 65 % en Europe.

L'influence des entreprises dans le TAL est très significative et touche en particulier les jeunes chercheurs et chercheuses. L’autrice et les co-auteurs de l’article sont préoccupés par les conséquences qui peuvent en découler, en termes d’inégalité d’accès aux données et aux infrastructures, de place de la recherche fondamentale et de potentielles menaces sur le principe de relecture par les pairs. Ils suggèrent de mettre en place un suivi des liens et conflits d'intérêt dans le domaine du traitement automatique des langues.

Publication

Mohamed Abdalla, Jan Philip Wahle, Terry Lima Ruas, Aurélie Névéol, Fanny Ducel, Saif Mohammad, and Karen Fort. The Elephant in the Room: Analyzing the Presence of Big Tech in Natural Language Processing Research. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 13141–13160, 2023, Toronto, Canada.