« Il faut garder des copies en papier et pas seulement ça. La société, en général, est trop prête à mettre quoique ce soit sous le contrôle de l’ordinateur branché à internet », affirme à Siècle Digital Richard Stallman, le développeur à l’origine du système d’exploitation libre GNU. À juste titre, comme le témoignent l’incendie du data center d’OVH et la perte de données qui s’en est accompagnée.

Aujourd’hui, l’heure est à la numérisation et cela demande l’assurance que les données ne soient jamais effacées. Néanmoins, il ne faut pas oublier qu’une « machine fait ce qu’on lui dit et finit toujours par se casser », rappelle à Siècle Digital Gautier Crépin, solution architect manager chez Scaleway. En moyenne, un serveur se remplace tous les 3 à 5 ans et cela représente un enjeu de taille pour la pérennité des données. À chaque changement, il faut s’assurer que les données soient transférées et surtout qu’elles ne soient jamais perdues.

La sauvegarde des données a toujours été une partie intégrante du quotidien des directeurs des systèmes d’information (DSI). Si un serveur lâche et que les données sont stockées uniquement en son sein, les données sont perdues. Ainsi, la sauvegarde des données se fait sur la base de leur réplication. C’est-à-dire que la même donnée est présente sur plusieurs serveurs. Ainsi, la règle 3-2-1- pour la sauvegarde des données est très importante quant à la pérennité et la disponibilité de celles-ci. Soit, 3 copies de la même sauvegarde, stockage sur 2 supports différents et 1 copie de la sauvegarde conservée hors site. « Je ne mets pas tout de le même panier », image à Siècle Digital le DSI du service départemental d’incendie et de secours du Nord Pas de Calais Frédéric Van Camp.

« Beaucoup d’information, personnelle, médicale, scientifique, technique, administrative, est en danger réel de disparition»

Sur cette question de conservation des données, l’archivage, ou cold storage, est particulièrement important. Il désigne le stockage de données pour lesquelles l’accès n’est pas récurrent, mais qui nécessitent d’être conservées sur le long terme. Les données d’archivage sont appelées données froides. Un rapport du groupe de pérennité des supports numériques, commun à l’Académie des sciences et à l’Académie des technologies, publié en mars 2010, s’inquiétait des conditions de conservation des données.

« Nos sociétés génèrent des masses toujours plus grandes d’informations, alors que la durée de vie des supports disponibles pour la conserver n’a jamais été aussi courte. Si ce problème est correctement pris en compte dans quelques organismes publics spécialisés, il est très largement ignoré du grand public ainsi que de la majorité des institutions ou entreprises. Beaucoup d’information, personnelle, médicale, scientifique, technique, administrative, etc. est en danger réel de disparition », avertit le rapport Longévité de l’information numérique – Les données que nous voulons garder vont-elles s’effacer ? du groupe de pérennité des supports numériques.

Si la sauvegarde sur plusieurs serveurs prévient d’éventuels accidents de disque et est aujourd’hui abordable grâce à des prix accessibles, archiver sur des décennies ou des siècles de cette manière n’est pas pérenne. Pour cause, dès qu’un disque arrive en fin de vie, il est impératif de recopier les données vers un nouveau support. Cependant, les supports évoluent et cette évolution est difficile à anticiper. Par conséquent « seul un suivi constant des données permet d’en assurer l’archivage, avec un coût d’organisation important », estime le rapport du groupe de pérennité des supports numériques. Par ailleurs, les technologies de chiffrement des données font face aux mêmes problématiques. Si des données conservées sur le long terme sont chiffrées, il faut être certain de toujours avoir accès à la clé de chiffrement plusieurs années plus tard.

L’ADN comme solution pour l’archivage de données

En octobre 2020, 10 ans après la publication sur la longévité de l’information numérique, un nouveau rapport de l’Académie des technologies intitulé Archiver les mégadonnées au-delà de 2040 : la piste de l’ADN dresse le même constat : « Le stockage et archivage des mégadonnées numériques (« big data », le carburant de l’intelligence artificielle) par l’approche actuelle des centres de données ne sera pas soutenable au-delà de 2040 ».

Alors que de l’ADN se trouve encore dans du cartilage de dinosaure vieux de 75 millions d’années, il va sans dire que la durée de vie de ce support est largement supérieure à celle des serveurs actuels. Ainsi, l’ADN se présente comme une alternative intéressante pour l’archivage de données. Le stockage par ADN est actuellement réalisé in vitro, c’est-à-dire en dehors de leur contexte naturel, et donc pas dans un être vivant. Vulgairement, l’ADN utilisé à des fins de stockage est conservé dans des tubes.

Présentation des technologies de stockage de l'ADN pour des données froides.

Présentation des technologies de stockage de l’ADN. Source : Académie des technologies

La piste de l’ADN dans le domaine de l’archivage, fait l’objet de recherches aux États-Unis, en Israël, au Royaume-Uni, en Irlande, en Allemagne, en France, et probablement en Chine. Probablement, car le rapport de l’académie des technologies estime qu’en « Chine, il est difficile d’obtenir une image claire de la situation, mais il semble que Huawei et BGI Genomics soient impliqués dans ce domaine ». Selon le rapport, Microsoft a conçu avec l’université de Washington « le projet le plus abouti à ce jour ». Le prototype a permis de stocker et récupérer 1 Go de données, ce qui équivaut à une petite clé USB.

« En principe oui [on peut stocker dans de l’ADN humain], mais pourquoi le mettre dedans ? »

En Europe, le projet OligoArchive, financé en 2019 pour une durée de trois ans par l’European Innovation Council, travaille à la conception d’un « appareil de paillasse utilisant l’ADN comme support de stockage d’information ». Trois laboratoires français y participent. Une étude portée par le chimiste Jean-François Lutz, directeur de recherche du CNRS à l’Institut Charles Sadron de Strasbourg, s’est penchée sur l’usage de copolymères non-ADN [ndr : l’ADN est un polymère] pour stocker des données. Les résultats de l’étude sont concluants : « C’est une chaîne formée avec deux monomères, pouvant être agencés en une séquence précise. Nous avons créé un langage moléculaire, c’est-à-dire qu’à chaque monomère est attribué un 0 ou un 1. Comme dans le système binaire informatique », explique Jean-François Lutz sur le site de la recherche de l’université de Strasbourg.

L’entreprise française DNA Script est reconnue dans le domaine de la synthèse enzymatique d’ADN qui est essentielle pour stocker des données. L’entreprise de biotechnologies est membre d’un consortium de recherche et développement sur le stockage de données dans l’ADN comprenant Illumina, leader mondial du marché du séquençage, des chercheurs du MIT et de Harvard. L’Intelligence Advanced Research Projects Activity (IARPA), une organisation du Bureau du directeur du renseignement national des États-Unis, a financé le groupe à hauteur de 23 millions de dollars. Les recherches de l’IARPA sont appliquées par la CIA, le FBI et la NSA. L’entreprise Imagene, basée à Bordeaux, est reconnue pour ses solutions de préservation de l’ADN.

L’ADN est présent dans toutes les cellules humaines, et de ce point de vue le stockage par l’ADN peut avoir des allures de dystopies. Il est donc important de souligner à nouveau le caractère in vitro des technologies actuelles. Aussi, il faut se demander quel serait le but de stocker des données dans l’être humain, car, comme Richard Stallman le fait remarquer : « En principe oui [on peut stocker dans de l’ADN humain], mais pourquoi le mettre dedans ? Il est beaucoup plus simple de stocker les données dans un centre de données où l’on peut faire de l’informatique avec ».