Camille Roth : « On veut savoir ce que les gens disent et pas juste de quoi ils parlent »
Directeur de recherche CNRS au Centre d’analyse et de mathématique sociales (CAMS - CNRS/EHESS) et directeur d’études à l’EHESS, Camille Roth combine informatique et sociologie pour développer des approches hybrides quali-quantitatives. Son dernier projet européen, l’ERC Proof of concept HYPERQUEST, vise à démontrer l’applicabilité des hypergraphes sémantiques pour extraire des informations à partir de textes.
À la croisée de l’informatique et des sciences sociales, Camille Roth est directeur de recherche au CNRS en informatique, directeur d’études à l’EHESS en sociologie et il dirige le CAMS. Il a débuté par une formation en sciences formelles, avec des mathématiques, de la physique et de l’informatique, mais s’est aussi intéressé aux processus de cognition. Cela l’a amené à explorer la cognition sociale, pour comprendre comment les groupes traitent l’information, puis à divers champs de la sociologie.
« Au début j’ai étudié les réseaux scientifiques, puis je suis allé voir du côté des communautés en ligne et de la sociologie d’Internet, explique Camille Roth. Nous menons par exemple des entretiens auprès des développeurs d’algorithmes, soit une approche sociologique, mais je vais aussi réaliser des travaux quantitatifs autour des données d’usage, avec la construction d’outils de mesure, de collecte et de transformation des données pour décrire quantitativement le fonctionnement de ces mêmes algorithmes. »
Cette approche originale a permis à Camille Roth de mener un projet de recherche ambitieux : l’ERC Consolidator Grant « SOCSEMICS – Socio-semantic bubbles of internet communities ». Le programme s'est intéressé aux chambres d’écho et aux clusters socio-sémantiques dans les communautés en ligne. « Ce travail a porté sur les réseaux sociaux, où les personnes peuvent être fortement liées à d’autres utilisateurs aux mêmes opinions, précise le chercheur. Ces gens forment des clusters, que l’on qualifie de sémantiques car les utilisateurs y partagent des idées similaires. »
De SOCSEMICS est né un second projet ERC, de type Proof of concept afin de transformer un résultat ERC en innovation utilisable. Ce projet est nommé HYPERQUEST – Hypergraphes sémantiques et recherche d’information augmentée. Tout un pilier de ce programme est consacré à la linguistique computationnelle, avec le traitement des contenus au niveau des phrases plutôt que des mots. Cela permet d’identifier de véritables opinions, et non plus seulement de connaître le sujet des échanges.
« SOCSEMICS a été lancé à une période où les grands modèles de langage (LLM) n’étaient pas aussi efficaces qu’aujourd’hui, nous manquions alors d’outils pour appréhender les contenus sous forme de phrases, reconnaît Camille Roth. Nous pouvions savoir si deux individus parlaient du même sujet, mais pas s’ils en disaient la même chose. Nous avons donc utilisé des hypergraphes sémantiques, qui sont des généralisations des graphes qui traitent les phrases comme des échafaudages de concepts emboîtés. Ça n’a finalement pas été la piste idéale pour nos travaux sur les clusters, mais nous nous sommes rendu compte que les hypergraphes sémantiques sont très efficaces pour extraire de l’information structurée. »
HYPERQUEST vise donc à appliquer ces outils et à les rendre plus ergonomiques. Un prototype d’application est en cours de développement et sera utilisable par des usagers lambdas. « Notre innovation répond à des besoins de taille moyenne, quand il est à la fois trop coûteux d’utiliser du machine learning et impossible de trier l’information à la main », détaille Camille Roth.