Published September 12, 2024
| Version v1
Publication
Coding algorithms for long-term storage of digital images on synthetic DNA molecules
Description
The current digital world is facing a number of issues, some of them linked to the amount of data that is being stored. The current technologies available as an offer to store data are not enough to store the totality of the storage demand. For this reason, new data storage technologies have to be developed. DNA molecules are one of the candidates available for novel data storage methods. The long lifespan of these molecules make it a good fit for the archival of data that is rarely accessed but needs to be stored for long periods of time. This data, often called "cold", represents approximately 80% of the data in our digital universe. But DNA uses 4 symbols (A,C,G and T) to encode data against the usual binary code (0,1). For this reason, storing data into DNA requires a specific encoding system capable of translating a binary data stream into a quaternary data stream. In this thesis we will focus on new encoding methods from the Deep Learning state of the art, and we will adapt those methods for the encoding, decoding, compression and decompression of images on synthetic DNA.
Abstract (French)
L'ADN, de par sa durée de vie élevée (plusieurs siècles), est désormais considéré comme un candidat sérieux pour l'archivage de données dites "froides", des données rarement consultées qui représentent la majorité de l'espace de stockage actuel (environ 80% de l'espace de stockage global). Cependant, l'ADN est une molécule qui utilise 4 symboles pour coder ses données (A,C,G,T) au lieu du système binaire (0,1) utilisé dans le monde du numérique. Stocker des données dans de l'ADN exige donc de mettre en place des systèmes capables de traduire les données binaires en données dites quaternaires adaptées aux molécules d'ADN. L'objectif de cette thèse est d'étudier de nouvelles techniques d'encodage issues du monde du Deep Learning et de trouver les méthodes permettant d'adapter ces techniques à l'encodage et au décodage, ainsi qu'à la compression et à la décompression d'images sur ADN synthétique.Additional details
Identifiers
- URL
- https://theses.hal.science/tel-04808336
- URN
- urn:oai:HAL:tel-04808336v1
Origin repository
- Origin repository
- UNICA