Les avancées technologiques dans le domaine du séquençage haut débit permettent de produire de grands volumes de données biologiques à moindre coût et à différentes échelles du vivant. Les données massives ainsi obtenues sont à la fois de grande dimension et de nature hétérogène.

Depuis quelques années, on parle beaucoup du phénomène « Big Data », ou science des données massives (voir notre dossier dans Tangente 181, 2018). En biologie, les Big Data font référence aux données omiques.

 

 

Séquencer le génome

 

Les techniques de séquençage ont pour objectif de déterminer l’enchaînement en nucléotides d’un fragment d’acide désoxyribonucléique (ADN) faisant partie de notre génome. Les données produites sont appelées lectures ou séquences. Elles sont représentées sous la forme d’une chaîne de caractères dont le dictionnaire est composé des quatre lettres correspondant aux quatre nucléotides formant l’ADN : A (adénine), C (cytosine), T (thymine) et G (guanine).

Depuis la fin du séquençage du premier génome humain en 2003, des progrès considérables ont été réalisés dans ce domaine. L’évolution des technologies a permis d’augmenter la quantité de données générées tout en diminuant les coûts de production. En effet, le premier séquençage du génome humain complet (qui a bénéficié d’un grand retentissement médiatique) a coûté environ trois milliards de dollars et a duré plus de dix ans pour séquencer un peu plus de trois milliards de nucléotides. Aujourd’hui, on peut séquencer n’importe quel génome humain en quelques jours pour moins de mille euros !

L’apport de ces avancées technologiques ne s’arrête pas ... Lire la suite