La bioinformatique avec Sarah Cohen-Boulakia, lauréate d'une chaire IUF
Sarah Cohen-Boulakia est professeure à l’Université Paris-Saclay et membre du Laboratoire interdisciplinaire des sciences du numérique (LISN - CNRS/Université Paris-Saclay). Bioinformaticienne, ses travaux portent sur l’intégration de données biologiques et médicales en suivant une approche reproductible. Elle est nommée membre senior de l’Institut universitaire de France (IUF) en 2025.
« Parvenir à un résultat reproductible est moins facile qu’on peut le croire », confie Sarah Cohen-Boulakia. Et de fait, en sciences de la vie, les données disponibles peuvent être issues de sources très différentes : registres d’essais cliniques, publications scientifiques ou encore bases de données médicales. Disparates, parfois incomplètes, ces données ne sont pas toujours décrites avec le même niveau de précision et nous en savons souvent trop peu sur comment elles ont été obtenues. Le risque : qu’un résultat obtenu par une équipe ne puisse pas être reproduit par une autre. « Il est important de documenter l’histoire d’un jeu de données. C’est cette traçabilité qui va permettre au scientifique de l’interpréter pour ensuite prendre une décision, comme poser un diagnostic » insiste-t-elle. Alors, depuis près de 20 ans, Sarah Cohen-Boulakia tente de faire parler le même « langage » à ces données biologiques.
Ces grandes quantités de données hétérogènes sont ainsi rassemblées, triées et manipulées par des processus informatiques automatisés appelés workflows. Ces workflows permettent de mettre en musique toute une série d’étapes d’analyses des données biologiques, comme l’analyse de gènes impliqués dans un cancer. Sarah Cohen-Boulakia développe ainsi des méthodes pour manipuler ces workflows qui sont du code informatique, décrits dans des articles scientifiques et représentés par des graphes d’étapes d’analyse. Les enjeux sont nombreux : réconcilier les différentes formes d’un workflow (code, article et graphe), identifier les similarités entre workflows, garantir leur reproductibilité, assurer leur partage et permettre leur réutilisation.
En 2020, au début de la pandémie liée au Sars-Cov-2, Sarah Cohen-Boulakia a pu éprouver ses outils. Sollicitée par le CNRS en tant que directrice du groupement de recherche MaDICS pour aider une équipe d’épidémiologistes submergée par l’afflux d’essais cliniques sur la Covid-19, elle pilote, aux côtés d’Isabelle Boutron, professeur à l'Université Paris Cité et membre du Centre de recherche en épidémiologie et statistiques (CRESS - Inserm/Université Paris Cité/Université Sorbonne Paris Nord/INRAe), le volet « intégration des données » du projet international COVID-NMA, qui analyse l’ensemble des essais en cours. Ce travail a permis de produire une cartographie dynamique des traitements et méthodes de prévention. Depuis 2023, elle pilote aussi l’un des axes du programme exploratoire prioritaire de recherche (PEPR) Santé numérique, ShareFair, qui regroupe 10 partenaires nationaux, dont l’objectif est de bâtir une vaste bibliothèque de workflows d’analyses de données, fiables, reproductibles et réutilisables.
Avec l’essor de la science ouverte et face à l'avènement de l’intelligence artificielle, Sarah Cohen-Boulakia reste optimiste « on observe une lumière au fond du tunnel grâce à la science ouverte dont la France est pionnière et le CNRS un acteur clé : les publications avec données ouvertes sont plus citées que les autres ! ». Autrement dit, cette dynamique pourrait annoncer un changement de paradigme : inciter les scientifiques à publier sur un temps plus long au profit de contributions dont la reproductibilité est éprouvée et les données disponibles en ligne consolidées.
Après une médaille d’argent en 2024, sa nomination comme membre sénior à l’IUF en octobre 2025 va lui permettre de consacrer davantage de temps à ses travaux. « J’adore enseigner mais l’IUF me donne cinq années recentrées sur mes recherches ». Sarah Cohen-Boulakia n’a d’ailleurs pas attendu sa nomination officielle pour initier de nouvelles collaborations : elle part pour Berlin puis Barcelone dans les prochaines semaines. Membre du comité de pilotage du Réseau Français de la recherche reproductible et directrice adjointe de l’institut DataIA, elle entend aussi continuer d’ouvrir ses outils au-delà de la bioinformatique, à toutes les communautés de recherche pluridisciplinaires.
En savoir plus
Portrait BD de Sarah Cohen-Boulakia : détective publique des données biologiques, actualité publiée dans le cadre de la BD « Les décodeuses du numérique » (06/01/2022)
Science des données et interdisciplinarité : Sarah Cohen-Boulakia récompensée par le CNRS, actualité publiée dans le cadre de la médaille d'argent du CNRS (05/04/2024)