Informations

Poids moléculaire moyen exact d'une paire de bases d'ADNdb

Poids moléculaire moyen exact d'une paire de bases d'ADNdb


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'essaie de calculer le poids exact d'un ADNdb donné.

Sur Internet et la littérature, différentes valeurs pour l'av. poids moléculaire d'une paire de bases sont donnés :

  • 660 g/mol (probablement faux),
  • d'autres sources disent 617,96 g/mol
  • Thermofisher donne 607,4 g/mol
    (https://www.thermofisher.com/de/de/home/references/ambion-tech-support/rna-tools-and-calculators/dna-and-rna-molecular-weights-and-conversions.html)

J'ai essayé de calculer le poids moyen en utilisant les poids moléculaires suivants :

molécule.poids
2'-Déoxyadénosine-5'-monophosphatehumide331,22 g/mol
2'-désoxycytidine-5'-monophosphatedCMP307 197 g/mol
2'-Déoxyguanosine 5'-monophosphatedGMP347.2212 g/mol
2'-Désoxythymidine-5'-monophosphatedTMP321,2005 g/mol
l'eauH2O18 01528 g/mol

additionner les nucléosides monophosphates correspondants ensemble et soustraire une eau pour chaque condensation de liaison peptidique (une du côté sens ; une du côté antisens) ; J'obtiens la formule suivante pour le poids moyen de la paire de bases dsDNA : $$ moyenne.BP.poids = frac {(dAMP+dTMP-ce{2H2O})+(dGMP+dCMP-ce{2H2O})} {2} $$

résultant en : $$ frac {(331,22+321.2005-36,03056)+(347.2212+307,197 -36,03056)} {2} = 617,3892 frac{g}{mol} $$

ce qui est très proche mais reste inférieur de 0,57081 à la "meilleure" valeur de la littérature.

Qu'est-ce que je rate?; J'essaye d'avoir ce calcul le plus précis possible.

Peut-être que je n'ai pas pris en compte de l'hydrogène ou des protons dans les liaisons ?

Merci d'avance!


Les différentes formes de protonations sont considérées dans le Mw moyenné.
La suppression de deux H2O est l'étape qui rend votre moyenne différente de la traditionnelle 650 Da par paire de bases. Mais vous devez vous rappeler que la dernière paire de bases de la séquence aura son groupe OH, vous devez donc ajouter 17,008 gr/mol * 2 = 34,016 gr/mol.

L'effet de cela change avec la longueur de votre séquence, voici un graphique le montrant. La ligne bleue est votre calcul et la ligne rouge est celle de la littérature.
La littérature 1 est réalisée autour de 60bp (j'ai calculé Mw(63bps) = 617,93) et le vôtre à 10^6,6 (Mw(10^6,6) = 617.3892085)

Pourquoi avez-vous besoin que ce calcul soit si précis ? Connaître la longueur de votre séquence et de votre région peut vous aider. N'oubliez pas que certaines régions sont plus riches en un type de nucléotides (îlots CpG, sites de codage en épingle à cheveux)


Chapitre X Détermination du poids moléculaire de l'ADN par nucléoïde bactérien

Il est nécessaire de connaître le poids moléculaire de l'ADN par nucléoïde bactérien car l'information donne un aperçu du potentiel génétique de l'organisme. En divisant le poids moléculaire de l'ADN bactérien par le poids moléculaire d'une paire de nucléotides moyenne liée en tant que sel de sodium, on obtient le nombre total de paires de nucléotides. Comme une moyenne d'environ 1500 paires de nucléotides constitue un cistron, le nombre total maximum de cistrons/nucléoïde peut être estimé. Une partie de l'ADN bactérien peut ne pas être exprimée phénotypiquement, à cause, par exemple, de gènes inutilisés ou d'ADN non-sens, bien que cette partie non exprimée semble être plutôt petite. Quelques données sur le poids moléculaire de l'ADN bactérien par nucléoïde sont disponibles. Ils montrent que les valeurs peuvent varier d'au moins 10 fois. La quantité d'ADN est déterminée chimiquement dans un certain volume de suspension bactérienne, contenant un nombre connu de cellules bactériennes. Dans des préparations séparées, les cellules sont colorées pour révéler les nucléoïdes, et le nombre moyen de nucléoïdes/cellule est déterminé. Le poids moléculaire de l'ADN par nucléoïde peut alors être facilement calculé.


Comment calculer le poids moléculaire de l'ADN ?

Si vous avez une grosse molécule d'ADN, vous la couperez probablement en fragments plus petits à l'aide d'une enzyme de restriction d'ADN.

Étape 2. Électrophorèse sur gel

Ensuite, vous placerez des échantillons correctement préparés de la solution d'acide nucléique dans les puits d'un système d'électrophorèse sur gel d'agarose et appliquerez une tension pendant une durée spécifiée.

Dans l'un des puits, vous placez également une « échelle d'ADN » : un échantillon qui contient des fragments d'ADN avec un nombre connu de paires de bases.


(À partir de www.slideshare.net)

Le gel fini pourrait ressembler à ceci :

Les voies à chaque extrémité sont les échelles. Les distances parcourues sont proportionnelles aux masses molaires des fragments.

Étape 3. Calculez le nombre de paires de bases dans vos fragments

Créez une courbe standard à partir de vos échelles en traçant le log (paires de bases) (pb) en fonction de la distance parcourue (d).

Vous obtiendrez un graphique comme celui-ci :

Si un de vos fragments avait migré 1,80 cm, vous auriez calculé

#log("pb")= "-0,4637×1,80 + 4,3366" = 3,501#

Étape 4. Calculer la masse molaire du fragment.

La masse moyenne d'une paire de bases est de 650 u.

Par conséquent, la masse du fragment est

#3176 couleur(rouge)(annuler(couleur(noir)("bp"))) × "650 u"/(1 couleur(rouge)(annuler(couleur(noir)("bp"))))) = 2,06 × 10^6couleur(blanc)(l) "u"#


Calculateur de poids moléculaire d'ARN

Le poids moléculaire de l'ARN est un paramètre important pour la biologie moléculaire. Lorsque vous effectuez une PCR ou exécutez un gel, il est essentiel de connaître le poids moléculaire de l'ARN des échantillons. Ce calculateur pourrait déterminer le poids moléculaire d'ARN d'une ou plusieurs séquences FASTA simultanément qui sont entrées directement ou téléchargées avec l'extension de fichier txt ou fasta. De plus, il donne le contenu GC, les moles et les copies d'ARNss que vous entrez, qui sont également utiles pour déterminer les caractéristiques de l'ARN.

Remarque : les séquences sont traitées comme de l'ARN linéaire simple brin avec un triphosphate 5'. Chacune des multiples séquences FASTA commençant par ">", les séquences peptidiques ou protéiques est écrite une par une. Pas plus de 3 000 000 de caractères sont recommandés.

Remarque : MWsens, MWanti-sens et MWles deux représente le poids moléculaire du brin sens, du brin antisens et du double brin respectivement.


Limites

La détermination de la longueur, du poids et de la teneur relative en GC du génome est soumise à la précision de l'assemblage du génome et à la variabilité existant entre les individus [41]. Concernant l'ADNmt, bien que sa séquence ait été exactement déterminée, le nombre de copies de la molécule d'ADNmt par cellule est difficile à estimer [52]. En ce qui concerne la teneur en GC aux niveaux d'ARNm et de transcriptomique, l'analyse est limitée aux gènes pour lesquels une valeur d'expression ainsi que la séquence nucléotidique d'ARNm la plus longue correspondante sont accessibles au public. Enfin, la région 5' de l'ARNm est connue pour avoir un biais de composition [53] et une meilleure délimitation de cette séquence peut être nécessaire [54].


Produits biochimiques

Les produits biochimiques ont un impact direct sur la qualité et la reproductibilité de vos résultats. Les tampons, détergents, antibiotiques et substrats sont indispensables pour tout laboratoire. Chaque technique ou flux de travail en biologie moléculaire, analyse cellulaire, séparation chromatographique et détection de protéines nécessite des produits biochimiques spécifiques avec des caractéristiques spécifiques. Nos produits biochimiques sont proposés à des prix compétitifs et soutenus par notre service client supérieur et notre engagement envers la qualité.

Nous proposons des lipides de haute qualité, notamment des acides gras, des glycérides, des sphingolipides et des lipides bioactifs, pour tous vos besoins d'analyse des lipides, de l'isolement et la séparation à l'identification et la quantification.

Notre vaste gamme de tampons biologiques de haute pureté dans divers formats de formulation et d'emballage offre une stabilité supérieure de la solution et un contrôle du pH tout au long de vos applications de flux de production de bioprocédés.

Des détergents et tensioactifs biologiques, y compris des alternatives biodégradables conformes à REACH, sont disponibles pour la lyse cellulaire, l'électrophorèse d'ADN/ARN, le transfert Western, la transfection et de nombreuses autres applications de recherche en sciences de la vie.

Nous proposons une large gamme de produits d'agarose avec différentes forces de gel, températures de fusion, températures de gélification et niveaux d'électroendosmose (EEO) pour soutenir vos applications de recherche.


Le modèle Watson-Crick

Une structure moléculaire pour l'ADN a été proposée par Watson et Crick. 15 Il a fait l'objet d'un raffinement préliminaire 16 sans altération de ses caractéristiques principales et s'appuie sur des études physiques et chimiques. 17 La structure est constituée de deux chaînes polynucléotidiques enroulées en hélice autour d'un axe commun. La base azotée (adénine, guanine, thymine ou cytosine) à chaque niveau sur une chaîne est liée hydrogène à la base au même niveau sur l'autre chaîne. Les exigences structurelles permettent l'apparition des seules paires de bases à liaison hydrogène adénine-thymine et guanine-cytosine, résultant en une complémentarité détaillée entre les deux chaînes. Cela a suggéré à Watson et Crick 18 une hypothèse définie et structurellement plausible pour la duplication de la molécule d'ADN. Selon cette idée, les deux chaînes se séparent, exposant les sites de liaison hydrogène des bases. Ensuite, en accord avec les restrictions d'appariement des bases, chaque chaîne sert de modèle pour la synthèse de son complément. En conséquence, chaque molécule fille contient l'une des chaînes parentales appariées avec une chaîne nouvellement synthétisée (Fig. 6).

Illustration du mécanisme de duplication de l'ADN proposé par Watson et Crick. Chaque molécule fille contient l'une des chaînes parentales (le noir) associé à une nouvelle chaîne (blanche). Lors de la duplication continue, les deux chaînes parentales d'origine restent intactes, de sorte qu'il y aura toujours deux molécules avec chacune une chaîne parentale.

Les résultats de la présente expérience sont en accord exact avec les attentes du modèle Watson-Crick pour la duplication de l'ADN. Cependant, il faut souligner qu'il n'a pas été montré que les sous-unités moléculaires trouvées dans la présente expérience sont des chaînes polynucléotidiques simples ni même que les molécules d'ADN étudiées ici correspondent à des molécules d'ADN simples possédant la structure proposée par Watson et Crick. Cependant, certaines informations ont été obtenues sur les molécules et leurs sous-unités, elles sont résumées ci-dessous.

Les molécules d'ADN dérivées de E. coli par lyse induite par un détergent ont une densité de flottabilité en CsCl de 1,71 g. cm. -3 , dans la région des densités trouvées pour l'ADN des bactériophages T2 et T4, et pour l'ADN purifié de thymus de veau et de sperme de saumon. Une solution hautement visqueuse et élastique d'ADN N 14 a été préparée à partir d'un lysat de sulfate de dodécyl de E. coli par la méthode de Simmons 19 suivie d'une déprotéinisation au chloroforme. Une purification supplémentaire a été réalisée par deux cycles de centrifugation préparative à gradient de densité dans une solution de CsCl. Cet ADN bactérien purifié s'est avéré avoir la même densité de flottabilité et le même poids moléculaire apparent, 7 × 10 6 , que l'ADN des lysats bactériens entiers (figures 7, 8).

Traçage au microdensitomètre d'une photographie d'absorption ultraviolette montrant la densité optique dans la région d'une bande de N 14 E. coli ADN à l'équilibre. Environ 2 g. d'ADN purifié comme décrit dans le texte a été centrifugé à 31 410 tr/min à 25° dans 7,75 molal de CsCl à pH 8,4. Le gradient de densité est essentiellement constant sur la région de la bande et est de 0,057 g/cm. 4 . La position du maximum indique une densité de flottabilité de 1,71 g. cm. -3 Dans ce tracé, la densité optique au-dessus de la ligne de base est directement proportionnelle à la concentration d'ADN dans la cellule de centrifugation rotative. La concentration d'ADN au maximum est d'environ 50 µg/ml.

Le carré de la largeur de la bande de la figure 7 tracé en fonction du logarithme de la concentration relative d'ADN. Les divisions le long de l'abscisse mettent en évidence des intervalles de 1 mm. 2 . En l'absence d'hétérogénéité de densité, la pente en tout point d'un tel tracé est directement proportionnelle au poids moléculaire moyen en poids de l'ADN situé à la position correspondante dans la bande. La linéarité de ce graphique indique la monodispersité de l'ADN en bandes. La valeur de la pente correspond à un poids moléculaire apparent pour le sel Cs·ADN de 9,4 × 10 6 , correspondant à un poids moléculaire de 7,1 × 10 6 pour le sel de sodium.


Qu'est-ce que le séquençage de l'ADN ?

Le séquençage consiste à déterminer l'ordre exact des paires de bases dans un segment d'ADN. Les chromosomes humains varient en taille d'environ 50 000 000 à 300 000 000 de paires de bases. Étant donné que les bases existent sous forme de paires et que l'identité de l'une des bases de la paire détermine l'autre membre de la paire, les scientifiques n'ont pas à déclarer les deux bases de la paire.

La principale méthode utilisée par le HGP pour produire la version finale du code génétique humain était le séquençage basé sur une carte, ou basé sur le BAC. BAC est l'acronyme de "chromosome artificiel bactérien". L'ADN humain est fragmenté en morceaux relativement gros mais toujours de taille gérable (entre 150 000 et 200 000 paires de bases). Les fragments sont clonés dans des bactéries, qui stockent et répliquent l'ADN humain afin qu'il puisse être préparé en quantités suffisamment importantes pour le séquençage. S'ils sont soigneusement choisis pour minimiser le chevauchement, il faut environ 20 000 clones BAC différents pour contenir les 3 milliards de paires de bases du génome humain. Une collection de clones BAC contenant l'intégralité du génome humain est appelée « bibliothèque BAC ».

Dans la méthode basée sur BAC, chaque clone BAC est « cartographié » pour déterminer d'où provient l'ADN des clones BAC dans le génome humain. L'utilisation de cette approche garantit que les scientifiques connaissent à la fois l'emplacement précis des lettres d'ADN qui sont séquencées à partir de chaque clone et leur relation spatiale avec l'ADN humain séquencé dans d'autres clones BAC.

Pour le séquençage, chaque clone BAC est découpé en fragments encore plus petits d'environ 2 000 bases de long. Ces pièces sont appelées "sous-clones". Une « réaction de séquençage » est réalisée sur ces sous-clones. Les produits de la réaction de séquençage sont ensuite chargés dans la machine de séquençage (séquenceur). Le séquenceur génère environ 500 à 800 paires de bases de A, T, C et G à partir de chaque réaction de séquençage, de sorte que chaque base est séquencée environ 10 fois. Un ordinateur assemble ensuite ces courtes séquences en séquences contiguës représentant l'ADN humain dans le clone BAC.

Le séquençage consiste à déterminer l'ordre exact des paires de bases dans un segment d'ADN. Les chromosomes humains varient en taille d'environ 50 000 000 à 300 000 000 de paires de bases. Étant donné que les bases existent sous forme de paires et que l'identité de l'une des bases de la paire détermine l'autre membre de la paire, les scientifiques n'ont pas à déclarer les deux bases de la paire.

La principale méthode utilisée par le HGP pour produire la version finale du code génétique humain était le séquençage basé sur une carte ou basé sur le BAC. BAC est l'acronyme de "chromosome artificiel bactérien". L'ADN humain est fragmenté en morceaux relativement gros mais toujours de taille gérable (entre 150 000 et 200 000 paires de bases). Les fragments sont clonés dans des bactéries, qui stockent et répliquent l'ADN humain afin qu'il puisse être préparé en quantités suffisamment importantes pour le séquençage. S'ils sont soigneusement choisis pour minimiser le chevauchement, il faut environ 20 000 clones BAC différents pour contenir les 3 milliards de paires de bases du génome humain. Une collection de clones BAC contenant l'intégralité du génome humain est appelée « bibliothèque BAC ».

Dans la méthode basée sur BAC, chaque clone BAC est « cartographié » pour déterminer d'où provient l'ADN des clones BAC dans le génome humain. L'utilisation de cette approche garantit que les scientifiques connaissent à la fois l'emplacement précis des lettres d'ADN qui sont séquencées à partir de chaque clone et leur relation spatiale avec l'ADN humain séquencé dans d'autres clones BAC.

Pour le séquençage, chaque clone BAC est découpé en fragments encore plus petits d'environ 2 000 bases de long. Ces pièces sont appelées "sous-clones". Une « réaction de séquençage » est réalisée sur ces sous-clones. Les produits de la réaction de séquençage sont ensuite chargés dans la machine de séquençage (séquenceur). Le séquenceur génère environ 500 à 800 paires de bases de A, T, C et G à partir de chaque réaction de séquençage, de sorte que chaque base est séquencée environ 10 fois. Un ordinateur assemble ensuite ces courtes séquences en séquences contiguës représentant l'ADN humain dans le clone BAC.


Poids moléculaire moyen exact d'une paire de bases d'ADNdb - Biologie

Question : Une amplification en chaîne par polymérase (PCR) a été assemblée dans un final : 321868

Une réaction en chaîne par polymérase (PCR) a été assemblée dans un volume final de 25 HL à exécuter pendant 25 cycles. La réaction comprenait a. 1 amorces directes HL et 1 amorces inverses HL b. 1 ADN matrice HL c. Autres composants, qui ne sont pas pertinents pour cet exercice l. Calculez le nombre de molécules de chaque amorce et le nombre de molécules d'ADN matrice qui ont été ajoutées à la réaction 2. Calculez le rapport amorce sur matrice (amorce : matrice) 3. Le rapport semble-t-il raisonnable d'après votre compréhension de ce qui une réaction PCR ? Pour effectuer les calculs, vous avez besoin d'informations supplémentaires a. Le stock de travail de

chaque amorce était de 10 HM b. L'ADN matrice était un plasmide de 5 000 pb dans une solution de 10 ng ul. c. Les deux amorces avaient la même Tm. L'amorce directe avait une longueur de 23 nt et l'amorce inverse avait une longueur de 24 nt d. Le poids moléculaire moyen d'une paire de bases peut être estimé à 660 molécules de plasmide matrice molécules de l'amorce 1 molécules de l'amorce 2 rapport des molécules amorce : matrice Oui Non Pourquoi ? 4. Calculer le nombre théorique de molécules de produit de la réaction, en supposant une efficacité de 100%


Fond

La méthylation de la cytosine de l'ADN joue un rôle important dans la régulation des gènes des mammifères, la structure et l'empreinte de la chromatine au cours du développement normal et du développement de conditions pathologiques telles que le cancer. Avec l'augmentation spectaculaire du débit rendue possible par les technologies de séquençage de l'ADN de nouvelle génération, la conversion au bisulfite de sodium suivie d'un séquençage massivement parallèle (Bisulfite-seq) est devenue une méthode de plus en plus populaire pour étudier les profils épigénétiques dans le génome humain (examiné dans [1]). . Plusieurs stratégies de séquençage ont été appliquées qui varient en termes de coût et de régions du génome couvertes. Représentation réduite Bisulfite-Seq (RRBS [2]) utilise la sélection de la taille des fragments de restriction pour sélectionner une partie du génome enrichie pour les îles CpG et les séquences de régulation des gènes. Les sondes à cadenas au bisulfite (BSPP [3]) ou la capture par hybridation basée sur une solution (Agilent, Inc., Santa Clara, CA, États-Unis) peuvent être conçues pour une sélection personnalisable de centaines de milliers de régions du génome. Whole-Genome Bisulfite-Seq (WGBS [4]) est la technique la plus complète, couvrant plus de 90 % des cytosines du génome humain. Le bisulfite-seq est bien adapté à l'étude des changements épigénétiques à partir d'échantillons de tissus cliniques [5, 6] et peut être appliqué à de très petites quantités d'ADN [7], y compris des échantillons fixés au formol [8]. Les données WGBS et RRBS ont été utilisées pour profiler un certain nombre de lignées cellulaires et de tissus humains par de grands consortiums de séquençage, notamment le projet ENCODE [9], le NIH Epigenomics Roadmap et The Cancer Genome Atlas (TCGA), et ces ensembles de données sont accessibles au public pour Télécharger.

Le traitement au bisulfite de l'ADN convertit les cytosines non méthylées en uraciles, qui sont remplacés par des thymines lors de l'amplification. Ce changement radical dans la composition des séquences nécessite un logiciel spécialisé pour presque toutes les tâches d'analyse de séquences. En règle générale, la première étape du traitement des données de séquençage à haut débit consiste à cartographier et à aligner chaque lecture à l'emplacement correct dans le génome de référence (cartographie du génome), et un certain nombre d'outils puissants ont été développés pour cartographier les lectures converties au bisulfite (examinés dans [dix]). L'étape suivante consiste à identifier les différences entre le génome de référence et le génome échantillon, y compris les polymorphismes mononucléotidiques (SNP) et les événements d'insertion/suppression (indels). L'identification des SNP a été un domaine de recherche actif et un certain nombre d'outils statistiques puissants ont été développés pour l'appel SNP de données de séquençage non bisulfite [11–13]. L'appel SNP des données de séquençage du bisulfite a des complications importantes. Premièrement, les lectures des deux brins génomiques ne sont pas complémentaires, et cette hypothèse de complémentarité est faite par tous les algorithmes d'appel SNP. Deuxièmement, les vrais SNP C>T (évolutifs) dans l'échantillon ne peuvent pas être distingués des substitutions C>T causées par la conversion du bisulfite, et peuvent donc être identifiés à tort comme des C non méthylés. Par conséquent, l'identification de ces SNP est importante pour une quantification précise des niveaux de méthylation, d'autant plus que C>T est la substitution la plus courante dans la population humaine (65% de tous les SNP dans dbSNP) et ceux-ci se produisent généralement dans le contexte CpG [14 ].

Un appel SNP précis aux positions entourant immédiatement une cytosine est tout aussi important. Les nucléotides situés à une ou deux positions 3' de la cytosine sont particulièrement critiques, car ils sont soumis à la spécificité de méthyltransférases particulières. Ces positions contextuelles spécifiques à la méthyltransférase peuvent être spécifiques à un organisme ou à un type cellulaire. Chez les mammifères, les dinucléotides CpG sont souvent fortement méthylés dans la plupart des types cellulaires, tandis que les dinucléotides CpA ont des niveaux de méthylation beaucoup plus faibles et sont restreints au type cellulaire [4, 15]. Chez les plantes, en revanche, les trinucléotides CHG sont souvent méthylés [16, 17]. D'autres séquences dans un voisinage génomique légèrement plus large peuvent également avoir de fortes cis effets sur la méthylation, peut-être en raison de la présence de motifs régulateurs clés [18]. Les SNP hétérozygotes à proximité des cytosines peuvent être utilisés pour révéler des modèles de méthylation spécifiques aux allèles répandus [19] et des changements réglementaires importants tels que la perte d'empreinte [20–22].

Malgré le grand intérêt pour Bisulfite-seq et la disponibilité d'un certain nombre d'outils pour la cartographie génomique, aucun logiciel adéquat n'existe pour l'appel SNP [10]. Afin de surmonter la difficulté d'identifier les SNP dans les séquences traitées au bisulfite, certains groupes se sont appuyés sur des données de séquençage non-bisulfite appariées dans le même échantillon [23-25]. D'autres ont utilisé des puces à ADN sans bisulfite [26, 27], ou ont utilisé des modèles d'étude reposant sur des souches de souris isogéniques avec des génotypes parentaux connus [22, 24].

Une propriété clé de certains protocoles liés au bisulfite est que les nucléotides G sur le brin opposé à un C ne sont pas affectés par la conversion. Ce principe de spécificité de brin a été exploité afin de distinguer la conversion au bisulfite des SNP C>T [28]. Le protocole basé sur Illumina actuellement utilisé dans la plupart des études de bisulfite-seq a cette propriété importante, et il a donc été classé comme un directionnel protocole bisulfite-seq [10]. Non directionnel des protocoles (ceux qui entraînent également des substitutions G>A) ont été utilisés [17], mais n'ont pas été largement adoptés. La figure 1 illustre le protocole directionnel, où environ la moitié des lectures à une position donnée de la cytosine (celles qui correspondent au « brin C ») peuvent être utilisées pour la quantification de la méthylation mais ne peuvent pas distinguer les SNP C>T. L'autre moitié (ceux qui correspondent au « brin G », encadré sur la figure 1a) ne donne aucune information sur la méthylation mais peut être utilisée pour identifier les SNP C>T. Lorsque ces SNP C>T sont hétérozygotes, ils peuvent être utilisés dans l'analyse de la méthylation spécifique des allèles (Fichier supplémentaire 1).

Détection de polymorphismes de nucléotides simples à partir de données de bisulfite-seq. Les données hypothétiques de séquençage au bisulfite sont affichées, avec le génome de référence en haut, le génome de l'individu séquencé (non observé) au milieu, et le séquençage au bisulfite se lit en bas. (une) montre trois positions de cytosine de référence, la première étant une correspondance avec le génome de référence et les deux autres étant homozygote polymorphismes mononucléotidiques. Le premier cas montre un vrai génotype C:G, et toutes les lectures sur le même brin que le C (le « brin C ») sont lues comme T, indiquant un état non méthylé (indiqué en bleu). Étant donné que le protocole Illumina Bisulfite-seq est «directionnel», les lectures sur le brin opposé (le «brin G») sont lues comme le vrai génotype, G («les lectures de «génotype» sur le brin G sont encadrées dans cette figure). Le deuxième cas illustre un véritable SNP C>T, qui peut être distingué par les lectures A présentes sur le brin G. Dans ce cas, les lectures sur le brin C sont déduites d'un vrai « T » et devraient ne pas être utilisé pour l'appel de méthylation (barré ici). Le troisième cas montre un SNP T>C, qui à nouveau peut être identifié sur la base des lectures du brin G. (b) Une position cytosine avec 50 % de lectures non méthylées (T) et 50 % méthylées (C) peut être associée à un SNP hétérozygote sur les mêmes lectures de séquençage. Dans ce cas, les lectures non méthylées sont celles du chromosome de l'allèle « A » (ici montré comme étant maternel) et les lectures méthylées sont celles du chromosome de l'allèle « T ».

La directivité inhérente d'Illumina Bisulfite-seq n'a jusqu'à présent été utilisée que dans un nombre limité et ad hoc manière. Le groupe du Salk Institute a filtré les cytosines qui n'avaient pas un ou plusieurs C non convertis sur le brin C, mais cette approche peut entraîner une perte d'informations sur les cytosines complètement non méthylées (qui jouent un rôle crucial dans la régulation des gènes) [4, 29]. Notre propre groupe a filtré les références C si les lectures opposées contenaient As, mais le nombre de telles lectures A requis était quelque peu arbitraire [6]. Un troisième groupe a supprimé toutes les lectures C/T sur le brin C et a appelé les SNP en exigeant un nombre minimum de lectures contenant deux allèles différents [30]. Il est important de noter qu'aucune de ces approches dites « k-allèles » n'a tiré parti des scores de qualité d'appel de base, qui se sont avérés extrêmement importants pour distinguer les vrais SNP des erreurs de séquençage [31]. D'autres ont utilisé diverses méthodes qui n'ont pas tenté d'identifier C/T ou d'autres SNP apparaissant au niveau des cytosines [3, 20, 21]. De telles méthodes peuvent être utiles pour analyser les modèles spécifiques aux allèles de manière limitée, mais ne répondent pas au besoin d'améliorer la quantification de la méthylation en identifiant les SNP.

Ici, nous décrivons un appelant SNP probabiliste, Bis-SNP , basé sur des méthodes qui ont fait leurs preuves dans l'appel SNP non-bisulfite [12, 13]. Bis-SNP utilise l'inférence bayésienne pour évaluer un modèle d'appels de base spécifiques au brin et les scores de qualité d'appel de base, ainsi que des informations antérieures sur les fréquences SNP de la population, l'efficacité de conversion du bisulfite spécifique à l'expérience et les estimations de méthylation de l'ADN spécifiques au site. Il tire également parti du recalibrage du score de qualité des appels de base, un ajout qui a considérablement amélioré les appels SNP dans le contexte non bisulfite [12]. Bis-SNP est open-source et basé sur le framework GATK [32], qui tire parti de la stratégie de calcul parallèle Map-Reduce et fournit des temps d'exécution pratiques. Bis-SNP accepte les données Bisulfite-seq mappées à une seule extrémité ou à deux extrémités sous la forme de fichiers BAM et génère des informations sur le SNP et la méthylation à l'aide de formats de fichier standard. Nous montrons que Bis-SNP est un outil pratique qui peut à la fois (1) améliorer la précision d'appel de la méthylation de l'ADN en détectant les SNP au niveau des cytosines et des positions adjacentes, et (2) identifier les SNP hétérozygotes qui peuvent être utilisés pour étudier la méthylation et les polymorphismes de l'ADN mono-allélique. dans les séquences cis-régulatrices.


NOTES DE BAS DE PAGE

Cet article a été publié en ligne avant impression dans MBoC in Press (http://www.molbiolcell.org/cgi/doi/10.1091/mbc.E10-08-0668) le 9 décembre 2010.

Contributions des auteurs : H. Maruyama, M. Shin et R. Matsumi ont conçu et réalisé des expériences. K. Shirahige et T. Itoh ont réalisé et analysé un séquençage massivement parallèle de l'ADN. T. Oda et R. L. Ohniwa ont effectué des analyses bioinformatiques. T. Imanaka, H. Atomi et K. Takeyasu ont conçu et supervisé le projet. H. Maruyama, R. L. Ohniwa, S. H. Yoshimura et K. Takeyasu ont interprété les données et rédigé l'article.


Voir la vidéo: Average Molecular Weight Derivation (Juillet 2022).


Commentaires:

  1. Gogo

    Et quoi, j'ai aimé. Merci!

  2. Chibale

    la question très amusante

  3. Tlazopilli

    C'est dommage que maintenant je ne peux pas exprimer - il n'y a pas de temps libre. Je reviendrai - j'exprimerai nécessairement l'opinion sur cette question.



Écrire un message