Un nouveau modèle de diffusion probabiliste pensé pour les artistes

Résultats scientifiques Image

Développé au Groupe de recherche en informatique, image, automatique et instrumentation de Caen (GREYC - CNRS/ENSICAEN/Université de Caen Normandie), SIMuLDiTex est un modèle neuronal de diffusion probabiliste frugal. Il génère pour l’instant des textures complexes, y compris à très haute résolution, et fait de la stylisation d’images. D’autres fonctionnalités sont en cours d’ajout.

Les IA génératives d’images reposent souvent sur de lourds modèles aux centaines de millions de paramètres, mais d’autres approches sont aussi explorées. David Tschumperlé, directeur de recherche CNRS au Groupe de recherche en informatique, image, automatique et instrumentation de Caen (GREYC - CNRS/ENSICAEN/Université de Caen Normandie), élabore ainsi des algorithmes pour le traitement d’images et s’intéresse, depuis quelques années, à l’aide à la création pour les artistes.

«Je développe depuis plus de quinze ans le logiciel libre G’MIC, qui permet à chacun d’utiliser quelques-uns des algorithmes développés au GREYC, explique David Tschumperlé. Comme G’MIC est téléchargé plus de mille fois par jour, il nous a fait entrer en contact avec beaucoup d’artistes, permis de comprendre leurs problématiques et de les relier à des questions de recherche.» 

Une connaissance précieuse qu’il met à profit dans le cadre du projet Label Excellence IArtist, financé par la région Normandie. Ce travail s’inscrit dans une dynamique collective portée au sein du GREYC, avec l’implication de Julien Rabin, maître de conférences à l’ENSICAEN, et de Pierrick Chatillon, postdoctorant, qui ont largement contribué au développement de SIMuLDiTex1 .

Il s’agit d’un modèle de diffusion, c’est-à-dire une IA capable de générer une illustration voulue à partir d’une simple image de bruit aléatoire. SIMuLDiTex compte seulement un million de paramètres, ce qui en fait un modèle frugal. En comparaison, l’IA populaire StableDiffusion en possède plus de huit cents millions.

  • 1Single image multi-scale & light-weight diffusion texture model.
Le but est d’explorer les algorithmes à réseaux de neurones légers pour aider à la création artistique.

« Nous voulons que les artistes aient la main sur les données d’apprentissage, affirme David Tschumperlé. Or les méthodes actuelles, quasiment toutes basées sur des réseaux de neurones, ont besoin d’énormément de données qu’elles obtiennent en aspirant, sans autorisation, des milliards d’images. Nous préférons une approche plus frugale, avec des petits réseaux de neurones capables d’apprendre sur des jeux de données limités. Dans l’idéal, ils le feraient à partir des seules données et travaux de l’artiste, afin de générer des images dans son propre style. »

Pour l’instant, SIMuLDiTex permet de la resynthèse de textures complexes. Il s’agit, grosso modo, de prendre une image et d’en apprendre ses caractéristiques géométriques. L’IA peut ainsi utiliser la photo de quelques briques isolées pour produire l’image de murs entiers, sans que ce soit une simple répétition des briques de base. Des textures infinies de tapis, de rouille et de crêpe ont été ainsi reproduites. SIMuLDiTex y parvient d’ailleurs à n’importe quelle résolution, y compris en Ultra HD.

Lorsqu’une IA générative parvient à s’entraîner avec un petit nombre de données, on parle de few-shot learning.

« Comme notre modèle est beaucoup plus petit que ce qui se fait d’habitude, il peut générer des textures en moins d’une seconde, note David Tschumperlé. Sur un ordinateur personnel, il parvient à le faire en résolution 8K Ultra HD en moins d’une minute. À ma connaissance, aucune autre méthode n’est aussi rapide. » SIMuLDiTex est également capable de faire de la stylisation d’images. Le projet avance vite car Pierrick Chatillon a été recruté en octobre dernier, sachant qu’un second post-doctorant doit aussi bientôt l’être. Une première publication scientifique a été soumise à la prestigieuse International conference on computer vision (ICCV).

Les scientifiques veulent à présent permettre à SIMuLDiTex de synthétiser des images plus complexes que des textures et de faire de l’inpainting. Cette technique consiste à pouvoir combler un vide, par exemple après avoir enlevé un objet ou une personne d’une photo, sans que cela ne se voie. Il y aura aussi de la super-résolution au menu, c’est-à-dire pouvoir agrandir fortement une image sans perdre de détails ou d’ajouter de flou. SIMuLDiTex offrira alors une belle palette de fonctions pour les artistes.

Images avec des textures générées par SIMuLDiTex
Images avec des textures générées par SIMuLDiTex

Contact

David Tschumperlé
Directeur de recherche CNRS au GREYC