Scaffolding de génome basé sur la technologie Hi-C / Omni-C
L’Hi-C (high-throughput chromatin conformation capture) est une technique qui permet d’explorer la structure tri-dimensionnelle du génome en combinant une méthode de ligation des régions chromosomiques en fonction de leur proximité physique et le séquençage haut débit.
Utilisées en complément du séquençage HiFi PacBio, les données Hi-C permettent de : (i) corriger les assemblages, (ii) d’orienter et ordonner les contigs. Le but est d’organiser les séquences de génomes à l’échelle des chromosomes.
Nous travaillons avec les kits Proximo Hi-C plant Kit de Phase Genomics ( https://phasegenomics.com/products/proximo/) et le kit Omni-C de Dovetail ( https://cantatabio.com/dovetail-genomics/products/omni-c/).
La première étape de la préparation des librairies consiste à isoler les noyaux et à fixer l’ADN dans sa conformation 3D. L’ADN est ensuite fragmenté par digestion enzymatique (HindIII ou nucléase séquence indépendante) et les extrémités cohésives des sites de restriction sont comblées avec des nucléotides biotinylés. Après ligation des nouvelles extrémités franches, une purification sur billes streptavidine permet d’isoler spécifiquement l’ADN des régions en contacts.
L’ADN isolé est ligué avec des adaptateurs de type Illumina. Un séquençage en faible profondeur est réalisé pour s'assurer de la qualité de la librairie (1M de reads PE150). Après validation de ce contrôle qualité par alignement des reads sur le génome, le séquençage principal produit 30X de données nécessaires au scaffolding des contigs PacBio.
L’alignement des données Hi-C sur le génome génère des cartes de contacts qui permettent de visualiser les interactions spatiales entre différentes régions des chromosomes. Ces cartes de contacts sont des outils puissants pour faire scaffolding final du génome séquencé en ordonnant les contigs en fonction de leurs proximités spatiales.
Exemple d’une carte de contacts pour la reconstruction des 19 chromosomes d’un génome d’Orobanche :
Les axes horizontaux et verticaux représentent les positions le long du génome. Chaque carré représente un chromosome. Chaque pixel de la matrice correspond à l'interaction entre deux positions spécifiques du génome. Les couleurs des pixels indiquent l'intensité des interactions entre les positions du génome. Les régions les plus rouges représentent les interactions plus fréquentes, tandis que les régions plus claires indiquent des interactions moins fréquentes.
La diagonale principale de la matrice (de haut à gauche à bas à droite) représente les interactions intrachromosomiques, montrant comment différentes parties du même chromosome s’ordonnent.