Lueurs d'explicabilité : au-delà de l’interprétabilité des réseaux de neurones profonds pour la vision
La thèse de Thomas Fel, chercheur à l’Université d’Harvard (institut Kempner), réalisée au sein de l’institut ANITI et du Centre de recherche cerveau et cognition (CerCo – CNRS/Université de Toulouse), propose des outils pour commencer à comprendre les modèles de vision par ordinateur. Cette recherche, menée sous la supervision de Thomas Serre, professeur à l’Université de Brown et chercheur à l'institut ANITI, a été financée par la SNCF et a reçu le prix de thèse Signal, image et vision 2025 du GDR IASIS.
Les modèles de vision par ordinateur sont aujourd’hui utilisés pour piloter des robots, analyser l’activité cérébrale, ou encore interpréter des images satellites. Bien qu’ils capturent des structures abstraites complexes, leurs mécanismes internes restent largement opaques (c'est l’effet « boîte noire »). La thèse de Thomas Fel s’inscrit dans le domaine en plein essor de l’intelligence artificielle interprétable, qui vise à rendre les décisions des modèles intelligibles, vérifiables et contrôlables. Comprendre un réseau de neurones ne se limite pas à inspecter ses paramètres : il s’agit d’interroger ses stratégies, d’identifier les éléments de l’entrée qui influencent sa prédiction et de révéler les représentations qu’il manipule.
Réalisée en partie au sein de l’institut ANITI, la thèse a permis des collaborations interdisciplinaires notamment en neurosciences et en intelligence artificielle. ANITI, Artificial and Natural Intelligence Toulouse Institute, est l’institut interdisciplinaire d’intelligence artificielle de Toulouse, labellisé successivement par l’État 3IA puis IA-cluster. Il regroupe plus de 300 chercheurs et chercheuses issus de l’écosystème toulousain (le CNRS et l’Université de Toulouse étant deux des 60 partenaires du projet) menant des recherches dont les secteurs stratégiques d’application sont la mobilité et le transport, l’industrie 4.0 et l’environnement.
Thomas Fel s’intéresse à l’intelligence artificielle interprétable (Explainable AI), discipline en pleine essor qui vise à rendre les décisions des modèles intelligibles, vérifiables et contrôlables. Comprendre un réseau de neurones ne se limite pas à inspecter ses paramètres : il s’agit d’interroger ses stratégies, d’identifier les éléments de l’entrée qui influencent sa prédiction et de révéler les représentations qu’il manipule.
Thomas Fel s'est penché sur les méthodes d’attribution visuelle, qui cherchent à localiser les régions de l’image les plus influentes dans la décision d’un modèle. Ces techniques produisent des cartes de chaleur censées répondre à la question « où le modèle regarde-t-il ?» pour prendre sa décision. Toutefois, ces méthodes d’attribution se sont révélées limitées dans des contextes ambigus ou complexes. Ainsi le travail collaboratif de Thomas Fel a montré que, dans de nombreuses situations, les cartes de chaleur peinent à restituer une stratégie compréhensible pour un humain.
Cette limite a motivé une première hypothèse : l’explicabilité est plus efficace si le modèle adopte des stratégies proches de celles des humains.
La deuxième hypothèse portée par la thèse de Thomas Fel est un changement de paradigme : au lieu de se demander où le modèle regarde, il faut chercher à comprendre ce qu’il voit. En collaboration avec Agustin Picard, ingénieur de recherche à l’IRT Saint Exupéry et membre de l’institut ANITI, Louis Béthune, ingénieur de recherche chez Apple et Thibaut Boissin, doctorant à l’institut ANITI, Thomas Fel a conçu CRAFT, un algorithme d’extraction automatique de concepts internes et MACO, un outil de visualisation qui les rend accessibles sous forme d’images synthétiques. Ces outils donnent accès au quoi, c’est-à-dire les représentations intermédiaires que le modèle construit durant le processus d’apprentissage.
Une conclusion plus théorique émerge de ces travaux, la plupart des méthodes d’explicabilité modernes reposent, de manière implicite, sur le principe ancien du codage parcimonieux, un domaine dans lequel l’expertise française est historiquement forte. Autrement dit, expliquer un modèle revient souvent à découvrir son « dictionnaire interne », les unités sémantiques qu’il emploie pour structurer ses représentations et ses décisions. En proposant une synthèse nouvelle entre apprentissage profond et modélisation parcimonieuse, cette relecture pose les bases d’un cadre cohérent : attribution, alignement attentionnel et extraction de concepts s’articulent de manière complémentaire pour éclairer différents aspects des réseaux de neurones.
Ce cadre culmine dans une interface interactive, LENS, qui permet d’explorer visuellement les concepts internes extraits par les modèles, révélant leur univers sémantique de manière accessible et intuitive, une première Lueur d’explicabilité.
Pour ces travaux, Thomas Fel a reçu le prix de thèse 2025 « Signal, image et vision », décerné par le club EEA, le GRETSI et le GDR IASIS. Ce prix souligne l’importance croissante de l’interprétabilité en intelligence artificielle et l’ambition de faire de ces systèmes des partenaires plus fiables et plus compréhensibles.