PEPR MoleculArXiv

Piloté par le CNRS, le Programme et Équipement Prioritaire de Recherche (PEPR) exploratoire MoleculArXiv (Stockage de données massives sur ADN et polymères artificiels) vise à inventer de nouveaux dispositifs de stockage de données sur support moléculaire, à la fois ADN et polymères artificiels. Il est doté d’un budget de 20 millions d’euros sur 7 ans. Quatre projets ciblés vont démarrer dès l’été 2022 pour initier des recherches pluridisciplinaires en chimie, microfluifique, théorie du signal, bioinformatique, biologie du séquençage et chimie des polymères nécessaires pour réaliser les ambitions du projet.

Contexte

La mémoire de l'humanité repose sur notre capacité à gérer des quantités de données de plus en plus importantes. En 2040, on estime ainsi à plusieurs milliers de zettaoctets (1021 octets) la quantité de données qu’il faudra conserver, sur des périodes de temps allant de quelques années à plusieurs siècles. Dans ce contexte, les technologies actuelles de stockage sont unanimement considérées comme insuffisantes pour garantir dans le futur la conservation d’une telle masse de données. Leur stockage et archivage dans des centres de données ne sera pas soutenable, que ce soit en termes de ressources nécessaires pour construire et alimenter les centres de données mais aussi en termes de gestion de l’obsolescence du matériel. L'une des alternatives les plus prometteuses est fournie par un stockage de l'information sous forme d'ADN, à l'instar de ce que réalisent les êtres vivants pour le codage de leur génome. L’ADN fournit en effet un moyen de stockage très stable sur de très longues périodes avec des conditions simples de mise en œuvre. En effet, l'ADN est stable à température ordinaire durant plusieurs millénaires, sans consommation énergétique. Il peut être multiplié ou détruit à volonté. Sa technologie ne deviendra pas obsolète car l’ADN est à la base du vivant.

© DNA Data Storage Alliance
Processus d’écriture/lecture sur ADN © DNA Data Storage Alliance

Dans un contexte international compétitif, le PEPR MoleculArxiv vise à inventer de futurs dispositifs de stockage de données sur support moléculaire, ADN et polymères artificiels, en agissant non seulement sur la parallélisation des dispositifs de synthèse mais surtout en découvrant de nouvelles molécules et technologies d’information pour accélérer la synthèse des supports, leur codage et décodage, et en explorant divers supports moléculaires.

Quel coût acceptable pour la synthèse et la lecture de l'ADN ?

Pour promouvoir et amplifier l’utilisation de ces technologies, la question du coût de la synthèse et de la lecture de l’ADN est crucial.

  • À un coût de 1€ par megaoctet de données synthétisées et lues en 24h, le stockage sur support moléculaire devient compétitif pour l’archivage de données à forte valeur ajoutée auxquelles on accède rarement. Cela pourrait constituer une formidable opportunité pour les dépositaires légaux tels que la Bibliothèque nationale de France, qui est tenue par la loi de conserver une copie de tout document publié en France depuis 1537.
  • À un coût de 1€ par gigaoctet de données synthétisées et lues en 24h - une étape ambitieuse espérée d’ici quelques années par les experts - l'équilibre économique commence à pencher en faveur des molécules plutôt que des supports électroniques : le stockage moléculaire devient une solution intéressante pour l'archivage général, car il réduit le volume et augmente la durabilité. On pourrait alors stoker sur ADN les 3 000 mètres linéaires de l'unité des archives historiques du parlement européen ou des archives vidéo nationales, ou encore les 60 petaoctets de contenu multimédia conservées par l’Institut français de l'audiovisuel (INA).
  • À un coût de 1€ par teraoctet de données synthétisées et lues en 24h - objectif fixé par les experts pour le milieu de la prochaine décennie - le stockage moléculaire pourrait modifier fondamentalement l'économie du stockage et de la distribution des données car il devient une alternative crédible aux centres de données, aux plateformes de streaming vidéo ou même aux câbles sous-marins.

Objectif du PEPR

L’objectif à 5 ans du PEPR est de déployer les recherches et infrastructures nécessaires pour accélérer d’un facteur 100 la vitesse du cycle d’écriture et de lecture d’ADN actuellement possible en réduisant son coût d’un facteur équivalent. Pour arriver à réaliser cet objectif, il est nécessaire de développer des travaux pluridisciplinaires en chimie, informatique, microfluidique, nanotechnologies et biologie pour inventer de nouvelles technologies : nouvelle génération d’enzymes de synthèse et de parallélisation, nouvelle génération de méthodes de compression et d’accès à l’information, nouveaux polymères synthétiques pour le support de l’information. Des applications seront mises en place avec des utilisateurs tels que la Bibliothèque Nationale de France ou encore l’Institut National de l’Audiovisuel dans le cadre de l’archivage de données froides (une image, un texte, une vidéo), du calcul et de l’ingénierie moléculaire.

Projets ciblés

Quatre projets ciblés, d’un budget compris entre 2 et 5 millions d’euros, vont être initiés d’ici 2023.

Le premier concevra des technologies de synthèse d’ADN de nouvelle génération : le développement de nouveaux blocs chimiques spécifiquement conçus pour mieux contrôler la synthèse de l'ADN, la création d'outils enzymatiques dédiés pour manipuler ces blocs de construction, et l'intégration de cette nouvelle biochimie dans un processus microfluidique hautement parallélisé et miniaturisé.

Le deuxième projet ciblé rendra le stockage efficace en étudiant différentes stratégies de compression développées sur mesure pour tenir compte des caractéristiques physico-chimiques impliqués dans l’écriture et la lecture de l'ADN. La question de l’accès aux données stockées (indexation), de la durabilité à long-terme des solutions de codage/décodage, et de l’adaptation du fonctionnement des séquenceurs aux problèmes de décodage de séquences synthétiques seront aussi prises en compte.

Le troisième projet ciblé cherchera à généraliser le support de stockage d’information sur des polymères synthétiques (non-ADN). Bien que ces polymères aient été introduits assez récemment, leur potentiel en termes d’écriture, de lecture et d'effacement est prometteur. Pour les exploiter, il faut cependant augmenter la vitesse d'écriture et la longueur des chaînes synthétisables sur ces supports et élargir et améliorer les méthodes de séquençage pour l'analyse de ces polymères synthétiques.

Enfin, le but du quatrième projet ciblé sera de rendre le stockage moléculaire pratique, sûr et exploitable. Le stockage à froid de l'ADN sera exploré avec des partenaires institutionnels, et des outils seront développés pour manipuler les bases de données ADN. Un des objectifs est d'archiver et de récupérer des archives d'intérêt historique dans des conditions réalistes. L'utilisation du filigrane ADN sera également explorée pour retracer la contamination des échantillons dans les laboratoires, ou la microscopie ADN pour "photocopier" la surface des disques optiques.

Capsules hermétiques contenant de l’ADN synthétique. Ces capsules peuvent être conservées à température ambiante pendant des décennies, voire davantage. © Imagine
Capsules hermétiques contenant de l’ADN synthétique. Ces capsules peuvent être conservées à température ambiante pendant des décennies, voire davantage. © Imagene

En plus des quatre projets ciblés, des appels à projets ou manifestation d'intérêt seront lancés afin de toucher un plus grand nombre de laboratoires français susceptibles d'être intéressés par le stockage de données sur les polymères ADN ou non-ADN.

Journée de lancement du PEPR MoleculArXiv

Le PEPR MoleculArXiv a été officiellement lancé le 30 mai 2022 au siège du CNRS à Paris, en présence d'Antoine Petit, PDG du CNRS, de Claire Giry, directrice générale de la recherche et de l’innovation et Bruno Bonnell, secrétaire général pour l’investissement en charge de France 2030.

Chiffres-clés

20 laboratoires impliqués de différentes disciplines
20 millions d'euros de budget sur 7 ans
4 projets ciblés

- Concevoir des technologies de synthèse d’ADN de nouvelle génération
en étudiant différentes stratégies de compression

- Généraliser le stockage d’information sur des polymères synthétiques (non-ADN)

- Rendre le stockage moléculaire pratique, sûr et exploitable

- Rendre le stockage efficace

3 plateformes renforcées

- Synthèse d’ADN et criblage d’enzyme

- Séquençage dédié à l’ADN synthétique

- Synthèse de polymères non ADN

Le PEPR soutiendra des projets de recherches interdisciplinaires et le recrutement de jeunes chercheurs, sur appel ouvert. Il permettra aussi de financer la montée en TRL des innovations scientifiques soutenues par des preuves de concept d’applications à impact. Enfin, le PEPR se positionnera dans l’animation des communautés françaises et européennes.

L’objectif de ce PEPR est donc de positionner l’écosystème de recherche académique (informatique, chimie, biologie, nanotechnologies, microfluidique) et industriel français comme un acteur incontournable du stockage sur polymère (ADN et non-ADN) à l’échelle internationale.

Ressources complémentaires

Contact

Marc Antonini
Directeur de recherche CNRS à l'I3S, directeur de programme du PEPR MoleculArXiv pour le CNRS