Francis Bach lauréat du prix d’optimisation Jean-Jacques Moreau de l’Académie des sciences
Avec l’effervescence actuelle de la recherche en intelligence artificielle, les algorithmes ont besoin d’être toujours plus rapides et efficaces. Francis Bach, chercheur Inria au département d’informatique de l’École Normale Supérieure, travaille ainsi à leur optimisation pour et grâce au machine learning.
Malgré la puissance de calcul dont nous disposons, l’intelligence artificielle est un domaine particulièrement gourmand. Francis Bach, directeur de recherche Inria au département d’informatique de l’École Normale Supérieure (DI ENS, CNRS/ENS Paris/Inria), lie optimisation et apprentissage automatique, ou machine learning, afin de limiter la consommation computationnelle et énergétique de l’IA. Ses travaux lui ont valu le prix Jean-Jacques Moreau de l’Académie des sciences1 , qui récompense un mathématicien de moins de 45 ans explorant les thèmes de la décision et de l’optimisation.
« Le machine learning supervisé se formule depuis une quarantaine d’années comme un problème d’optimisation, où l’on veut minimiser le nombre d’erreurs commises par le modèle observé, avance Francis Bach. Plus particulièrement, on cherche à réduire une moyenne d’erreurs. » Des algorithmes très génériques ont d’abord été utilisés pour cela, puis ils ont été progressivement spécialisés.
Le travail sur une moyenne d’erreurs pousse Francis Bach à développer des algorithmes de gradient stochastique. Ces derniers parcourent les données au hasard, et donc sans avoir à toutes les manipuler à la fois, en quête d’une erreur qu’ils corrigent. Ils passent ensuite à la suivante jusqu’à ce que le modèle soit suffisamment optimisé.
- 1Le prix a été créé par le Société de mathématiques appliquées et industrielles (SMAI) et la Société mathématique de France (SMF).
Cette approche vise principalement à accélérer les algorithmes d’apprentissage. « Réduire le temps de calcul permet d’élargir les modèles, d’intégrer davantage de données tout en économisant de l’énergie, énumère le chercheur. Si on divise le temps par dix, l’énergie demandée est quasiment réduite d’autant. »
Francis Bach a particulièrement travaillé dans les cas où les fonctions à optimiser sont convexes, c’est-à-dire dont la courbe entre deux points se situe en dessous du segment de ces deux points. Il résout ces difficultés en utilisant des algorithmes proximaux, qui calculent à répétition le minimum d’une fonction convexe, un domaine justement initié par les travaux de Jean-Jacques Moreau.
Francis Bach a également conçu des algorithmes qui convergent vers l’optimum à une vitesse exponentielle au fur et à mesure de leurs passages sur les données. Ils sont ainsi mille fois plus rapides lors du milieu passage que du premier. Ils permettent en plus d’estimer à l’avance le temps qu’ils mettront à réussir leur optimisation.
Le chercheur traite également de problèmes de parcimonie structurée. « Si on veut lister les gènes d’une personne pour prédire les risques de maladie, mieux vaut d’abord identifier quels gènes sont les plus importantes, prend comme exemple Francis Bach. Un modèle est parcimonieux s’il se focalise sur peu de gènes, mais les plus utiles. »
Ces travaux ont notamment été conduits sous la forme de deux bourses ERC. De 2009 à 2014, une Starting Grant a été dédiée à la parcimonie structurée. Elle est suivie depuis 2016 par une Consolidator Grant consacrée aux algorithmes à grande échelle. Très actuel, ce dernier enjeu cherche encore une fois à accélérer le machine learning, mais cette fois en travaillant sur plusieurs machines à la fois et avec des données stockées, par exemple, sur un cloud. « Quand on utilise dix machines à la fois, divers problèmes font que nous n’allons malheureusement pas dix fois plus vite », résume Francis Bach qui se concentre à présent sur ce paradoxe avec l’aide de ses collègues.
« Même si le prix est décerné sur mon nom, il récompense le travail de toute mon équipe au sein du DI-ENS que je dirige, insiste Francis Bach. Obtenir un prix en optimisation valide le fait que, si le machine learning a d’abord été un utilisateur d’algorithmes d’optimisation, il est aussi capable d’en fournir. Avec ses contraintes spécifiques, il mérite des méthodes dédiées. »