Vers l'archivage de données pratiques et robuste basé sur l'ADN à l'aide du système de codec yin - yang

L'ADN est un porteur d'informations ancienne et efficace dans les organismes vivants.À l'heure actuelle, on pense qu'il a un grand potentiel en tant que support de stockage alternatif car les supports de stockage standard ne peuvent plus répondre aux demandes d'archivage de données croissantes exponentielles. Compared with common information carriers, the DNA molecule exhibits multiple advantages, including extremely high storage density (estimated physical density of 455 EB per gram of DNA¹), extraordinary durability (half-life >500 years (refs. ^2,3)) and the capacity for cost-efficient information amplification.

Many strategies have been proposed for digital information storage using organic molecules, including DNA, oligopeptides and metabolomes^4,5,6,7,8.Étant donné que la technologie actuelle de séquençage d'ADN présente des avantages en termes de coût et de débit, le stockage des informations numériques utilisant des molécules d'ADN reste la stratégie la plus acceptée.Dans cette approche, les informations binaires de chaque fichier sont transcodées directement en séquences d'ADN, qui sont synthétisées et stockées sous forme d'oligonucléotides ou de fragments d'ADN double brin in vitro ou in vivo.Ensuite, la technologie de séquençage est utilisée pour récupérer les informations numériques stockées. In addition, several different molecular strategies have been proposed to implement selective access to portions of the stored data, to improve the practicality and scalability of DNA data storage^9,10,11.

However, the use of basic transcoding rules (that is, converting [00, 01, 10, 11] to [A, C, G, T]) generates some specific patterns in DNA sequences that result in challenges regarding synthesis and sequencing^9,12,13. For example, single-nucleotide repeats (homopolymers) longer than 5 nt might introduce a higher error rate during synthesis or sequencing^14,15.Entre-temps, en raison de la nature de l'appariement de base complémentaire (avec un appariement à t et g à c), les molécules d'ADN peuvent former des structures telles que des épingles à cheveux ou des pseudoknots topologiques (I.e., structure secondaire), qui peut être prédite en calculant l'énergie libre à partir de sa séquence. It is reported that DNA sequences with stable secondary structure can be disadvantageous for sequencing or when using PCR for random access to and backup of stored information^16,17,18,19. Additionally, DNA sequences with GC content <40% or >60% are often difficult to synthesize. Therefore, the length of homopolymers (in nt), the secondary structure (represented by the calculated free energy in kJ mol⁻¹) and the GC content (in %) are three primary parameters for evaluating the compatibility of coding schemes.

Des études antérieures sur le développement d'algorithmes de transcodage ont tenté d'améliorer la compatibilité des séquences d'ADN générées.Les premiers efforts, y compris ceux de Church et al.et Grass et al., introduced additional restrictions in the transcoding schemes to eliminate homopolymers, but this came at the expense of reduced information density^1,20,21.Les études ultérieures ont été les pionniers d'autres règles de conversion de base sans compromettre la densité d'informations.Par exemple, l'algorithme de la fontaine d'ADN a adopté des codes de transformation Luby pour améliorer la fidélité des informations en introduisant une faible redondance ainsi que des contraintes de dépistage sur la durée des homopolymères et le contenu GC tout en maintenant une densité d'information de 1.57 bits nt⁻¹ (refs. ^6,22).Cependant, l'inconvénient majeur est le risque de décodage infructueux lorsqu'il s'agit de caractéristiques binaires particulières en raison de problèmes fondamentaux avec les codes de transformation Luby.Cette approche repose sur l'introduction d'une redondance logique suffisante, c'est-à-dire au niveau du codage, pour une tolérance aux erreurs pour assurer un décodage réussi. This is different from physical redundancy, which refers to the synthesis of excess DNA molecules, that is, increasing the copy number of DNA molecules for each coding sequence^23,24. Reducing the logical redundancy could lead to a high probability of decoding failure, but excessive logical redundancy will decrease the information density and significantly increase the cost of synthesis²⁵.De plus, des modèles binaires spécifiques utilisant ces premiers algorithmes peuvent également créer des séquences d'ADN inadaptées, avec une teneur en GC extrême ou des homopolymères longs (tableau supplémentaire 1). Therefore, developing a coding algorithm that can achieve high information density but, more importantly, perform robust and reliable transcoding for a wide variety of data types in a cost-effective manner is necessary for the development of DNA-based information storage in practical applications^25,26,27.

Pour atteindre cet objectif, nous proposons ici l'algorithme de codage du codec yin - yang (YYC), inspiré du concept traditionnel chinois de Yin et Yang, représentant deux règles différentes mais complémentaires et interdépendantes, et nous démontrons ses performances par simulation et validation expérimentale.L'avantage du YYC est que l'incorporation des règles Yin et Yang conduit enfin à 1 536 schémas de codage qui peuvent convenir à divers types de données.Nous démontrons que YYC peut éliminer efficacement la génération de longues séquences d'homopolymères tout en maintenant la teneur en GC des séquences d'ADN générées dans des niveaux acceptables.Deux formats de fichiers représentatifs (.jpg et.txt) ont été choisis pour le stockage comme pools d'oligo in vitro et un fragment d'ADN de 54 kbps in vivo dans les cellules de levure pour évaluer la robustesse de la récupération des données.Les résultats montrent que YYC présente de bonnes performances pour un stockage fiable de données ainsi qu'une densité physique atteignant l'échelle d'EB par gramme.