Informations

Comment fonctionne l'épissage alternatif ?

Comment fonctionne l'épissage alternatif ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'essaie de savoir ce qui contrôle quels exons sont épissés, et je continue de tomber sur le terme régulateur cis, mais je n'arrive pas à trouver une explication claire de ce qui se passe…

Merci d'avance :)

EDIT : pour clarifier, j'ai essayé de lire l'article de Wikipedia sur l'épissage alternatif et j'ai l'idée principale (certains exons étant coupés de l'ARNm avec les introns pour produire l'ARNm mature, je pense…) mais je ne comprends pas la section « mécanisme », c'est-à-dire Qu'est-ce qui contrôle quels exons seront coupés ? Et quelles enzymes « collent » l'ARNm - comment le font-elles au bon endroit et recollent-elles l'ARNm ?


21joanna12, examinez les snRNP. Ce sont des parties de l'appareil splicosomal et certains d'entre eux (les snRNP U1 et U2, U11 et U12) sont également les balises qui se lient près des jonctions d'épissage à l'extrémité des introns. Ceux-ci aident à guider l'appareil d'épissage vers les sites d'épissage. Il existe également des protéines qui se lient à l'ARN et interagissent avec l'appareil d'épissage pour changer l'épissage alternatif, telles que les protéines SP.
https://en.wikipedia.org/wiki/SnRNP
https://en.wikipedia.org/wiki/SR_protein
https://en.wikipedia.org/wiki/Exonic_splicing_enhancer

Voici une revue récente qui pourrait servir d'entrée dans la littérature : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4232567/


Une revue de Penalva et Sánchez explique un exemple de la façon dont l'épissage alternatif est régulé au niveau moléculaire. Il existe d'autres mécanismes possibles dont je ne suis que vaguement conscient.

https://www.ncbi.nlm.nih.gov/pmc/articles/pmid/12966139/

La détermination du sexe chez Drosophila melanogaster est largement contrôlée par une cascade d'événements d'épissage alternatif.

Dans un résumé bref (et certes incomplet), le ou les produits d'un gène (protéine de liaison à l'ARN) reconnaissent un site d'épissage particulier dans un transcrit en aval. Lors de la liaison, ce site n'est plus disponible en tant que site accepteur d'épissage et le mécanisme d'épissage est « forcé » de fonctionner avec le prochain site accepteur disponible. Cela conduit à l'excision de l'ancien exon, qui est maintenant devenu un intron.

Ce processus est représenté graphiquement dans la revue citée ci-dessus sur la figure 3A où le produit Sxl féminin/fonctionnel (lorsqu'il est présent) bloque une autre protéine de liaison à l'ARN (U2AF) qui est impliquée dans l'épissage par défaut, et lui dit de passer au prochain accepteur disponible placer. (Je voudrais inclure la figure 3A ici mais je ne sais pas comment. Cela vous aidera peut-être : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC193869/figure/f3/)

Le produit du gène sexuel létal existe sous des formes spécifiques aux mâles et aux femelles, produit par (qui l'aurait deviné ?) l'épissage alternatif du transcrit Sxl. Le transcrit spécifique au mâle a un codon d'arrêt précoce et produit une protéine non fonctionnelle. La forme femelle modifie l'épissage du produit du gène transformateur pour produire une version (fonctionnelle) spécifique à la femelle de l'ARNm transformateur. La version non modifiée (mâle) produit à nouveau une protéine non fonctionnelle. La version spécifique à la femelle du produit du gène tra (attendez-la !) modifie l'épissage du transcrit double sexe pour produire une protéine double sexe spécifique à la femelle. Le transcrit dsx d'épissage non modifié/par défaut produit une protéine spécifique au mâle. Ces protéines spécifiques aux mâles et aux femelles conduisent à l'expression spécifique aux mâles et aux femelles d'un ensemble de gènes plus en aval. Soit dit en passant, le produit du gène Sxl affecte non seulement le transcrit tra, mais il modifie également l'épissage DE SON PROPRE TRANSCRIPTION pour maintenir l'expression Sxl après son apparition initiale. Il joue également un rôle dans la définition du niveau global de transcription du chromosome X pour obtenir une "compensation de dose".

J'espère que cela t'aides.


Comment l'épissage alternatif de l'ARN affecte-t-il l'expression des gènes

L'expression génique fait référence à un processus par lequel l'information génétique d'un gène est transférée à une séquence d'acides aminés d'une protéine fonctionnelle. Le flux d'informations génétiques de l'ADN à l'ARN se fait par transcription. L'ARN est décodé pour produire la séquence d'acides aminés d'un polypeptide par traduction. Chez les eucaryotes, la régulation de l'expression des gènes passe par de nombreuses étapes entre la transcription et la traduction. Généralement, les gènes eucaryotes sont plus complexes que les gènes procaryotes car ils contiennent des séquences supplémentaires, interrompant la séquence codante. La séquence codante peut être trouvée dans les exons tandis que les séquences d'interruption sont les introns. Ces introns sont éliminés lors des modifications post-transcriptionnelles dans un processus connu sous le nom d'épissage d'ARN. L'épissage alternatif d'ARN est impliqué dans la production de différentes protéines via la recombinaison d'exons dans différents modèles.

Domaines clés couverts

1. Qu'est-ce que l'épissage d'ARN
– Définition, mécanisme d'épissage de l'ARN
2. Comment l'épissage alternatif de l'ARN affecte-t-il l'expression des gènes
– La production de différentes protéines fonctionnelles dans l'épissage alternatif

Termes clés: exons, introns, protéines multiples, épissage d'ARN, modifications post-transcriptionnelles, spliceosome A


Il y a plus d'une façon d'épisser un gène

Les chercheurs de l'UConn étudient comment l'épissage alternatif joue un rôle clé dans l'inflammation, un élément clé de la réponse immunitaire.

L'inflammation fait partie de la réponse naturelle du corps à une blessure ou à une infection. Il aide à éliminer la cause des lésions cellulaires, à éliminer les cellules mortes et à initier la réparation des tissus. Bien que l'inflammation soit généralement bénéfique, si elle n'est pas contrôlée, elle peut endommager les systèmes clés, y compris le système cardiovasculaire.

Lorsque la réponse inflammatoire tourne mal, elle peut contribuer à des lésions vasculaires. Ces lésions jouent un rôle dans l'anévrisme, les convulsions, les accidents vasculaires cérébraux, l'athérosclérose et d'autres maladies.

Les chercheurs d'UConn Health, Patrick Murphy, professeur adjoint au Center for Vascular Biology, et Anthony "Tony" Vella, professeur et président du département d'immunologie, ont reçu une subvention de 2,7 millions de dollars des National Institutes of Health pour étudier le rôle de la liaison à l'ARN protéines et épissage alternatif dans la régulation de l'inflammation.

Au cours de son travail postdoctoral au MIT, Murphy a découvert que les cellules endothéliales tapissant les artères répondaient au recrutement de cellules immunitaires dans les premiers stades d'une lésion vasculaire en modifiant la composition de l'ARNm par un processus connu sous le nom d'épissage alternatif.

Le message pré-ARNm dérivé d'un seul gène peut être découpé de différentes manières et inclure différents exons, ou morceaux codants d'ARN. Selon les exons inclus dans le transcrit final, une protéine différente sera produite. Grâce à l'épissage alternatif, un seul gène peut coder pour plusieurs protéines.

Les cellules endothéliales sont les gardiennes de l'infiltration immunitaire dans les tissus, comme la paroi artérielle. Murphy a découvert que le blocage de l'épissage alternatif d'un gène augmentait le risque de dissection artérielle et d'altération de la fonction des cellules immunitaires. Cela a conduit Murphy à émettre l'hypothèse que l'épissage alternatif régule la nature de l'interaction entre le système immunitaire et la paroi artérielle.

Soutenu par des fonds des National Institutes of Health, de l'American Heart Association et des fonds de démarrage de l'UConn School of Medicine, Murphy a créé in vitro approches de dépistage et in vivo modèles pour s'attaquer à cette question dans son nouveau laboratoire.

Une équipe talentueuse, dirigée par les étudiantes diplômées en sciences biomédicales Jessica Hensel et Sarah-Anne Nicholas, et l'assistante de recherche Amy Kimble, a utilisé des écrans CRISPR-KO pour identifier un ensemble de protéines de liaison à l'ARN - facteurs d'épissage - régulant ces réponses d'épissage et, de manière inattendue, l'activation inflammatoire des cellules endothéliales.

Étonnamment, bon nombre de ces protéines de liaison à l'ARN se sont également liées à la séquence de transposon dans les introns, des zones de transcrit pré-ARNm normalement épissées pour créer le message d'ARNm final. Les transposons sont des morceaux d'ADN auto-répliquants qui sautent d'un endroit du génome à un autre. Bien que peu de transposons soient actifs actuellement, le génome est jonché de leurs restes, constituant environ 50 % de nos génomes.

Murphy pense qu'en déterminant combien de cette séquence dérivée du transposon est incorporée dans un message d'ARNm, ce petit ensemble de facteurs d'épissage a entraîné l'évolution de nos réponses inflammatoires.

La question clé était alors : les facteurs d'épissage de liaison au transposon modulent-ils les réponses inflammatoires ? in vivo? C'est là que Murphy a reçu l'aide critique de Vella.

"Dans ma recherche de faculté, j'avais ciblé des environnements de recherche avec une force en immunologie", explique Murphy. «Je suis heureux de dire que j'ai bien compris celui-ci. Ce travail n'aurait pas été possible avec les connaissances et l'aide du Groupe Immuno-Cardiovasculaire, et de Tony Vella en particulier. »

Le groupe Immuno-Cardiovascular, organisé par le Dr Annabelle Rodriquez-Oquendo et dirigé par Vella et Beiyan Zhou, a attiré les meilleurs chercheurs dans le domaine cardiovasculaire, dont Zhichao Fan et Alison Kohan. Ils appliquent leur expertise et leurs compétences collectives pour s'attaquer à un problème fondamental des maladies cardiovasculaires, à savoir que la plupart des personnes souffrant d'une crise cardiaque ou d'un accident vasculaire cérébral ont déjà des taux de lipides bien contrôlés.

Les plaques d'athérosclérose qui provoquent une crise cardiaque et un accident vasculaire cérébral se produisent par une accumulation de lipides, de matières grasses dans la paroi artérielle. Alors que les agents hypolipémiants, comme les statines, ont fait des progrès significatifs dans la réduction des risques de ces lésions, les «cicatrices» vasculaires persistent même après avoir fait baisser les taux de lipides. La crise cardiaque et l'accident vasculaire cérébral thrombotique sont les principales causes de décès aux États-Unis.

Il est encourageant de constater que des travaux récents ont montré que ces lésions peuvent être ciblées en modulant directement l'inflammation, indiquant que ce sera probablement la prochaine frontière dans leur traitement.

Le petit ensemble de facteurs d'épissage de liaison au transposon identifiés par Murphy est corrélé au risque de maladie dans les artères coronaires humaines.

Murphy travaille avec Vella pour tester l'hypothèse selon laquelle les facteurs d'épissage de liaison au transposon jouent un rôle important dans la détermination de l'issue des réponses inflammatoires dans la plaque. Ils appliqueront des outils d'analyse unicellulaire de pointe pour examiner la plaque athérosclérotique dans des modèles animaux avec inactivation de ces gènes - des techniques mises en évidence dans leurs travaux récemment publiés.

Leurs travaux aideront les chercheurs et les cliniciens à mieux comprendre pourquoi certaines lésions athéroscléreuses peuvent lentement couver pendant des décennies, tandis que d'autres plaques s'enflamment de manière instable, entraînant une crise cardiaque et un accident vasculaire cérébral. À terme, ces connaissances pourraient être utilisées pour identifier les patients à risque ainsi que de nouvelles approches thérapeutiques.

Patrick Murphy est titulaire d'un doctorat. en sciences biomédicales de l'Université de Californie à San Francisco. Il a suivi une formation postdoctorale au Massachusetts Institute of Technology. Son laboratoire étudie les interactions entre les cellules immunitaires recrutées et les parois artérielles à l'aide de modèles génétiques inductibles.

Tony Vella a terminé une formation postdoctorale au Centre national juif d'immunologie et de médecine respiratoire. Son laboratoire étudie la biologie des lymphocytes T et de l'inflammation en se concentrant sur les adjuvants vaccinaux, la costimulation des lymphocytes T et les maladies inflammatoires intestinales pédiatriques.


Épissage alternatif des protéines SNARE

La machinerie SNARE contrôle l'interaction entre les v-SNARE vésiculaires (VAMP) et les t-SNARE cibles (tels que les SNAP et les syntaxines) pendant la fusion des vésicules (Fig. 3A). Plusieurs composants de la machinerie SNARE subissent un épissage alternatif, comme indiqué ci-dessous.

Épissage alternatif des protéines liées à SNARE. (A) Étapes de l'exocytose à médiation vésiculaire qui nécessitent l'assemblage du complexe SNARE. La machinerie SNARE contrôle l'interaction entre les v-SNARE vésiculaires et les t-SNARE cibles pendant la fusion des vésicules. (B-D) Plusieurs composants de la machinerie SNARE subissent un épissage alternatif, y compris la protéine 25 associée aux synaptosomes (SNAP25) (B), la syntaxine-3 (STX3) (C) et la protéine membranaire associée aux vésicules-7 (VAMP7) (D). CELF, CUGBP Elav-like family member-1 LD, domaine Longin SM, motif SNARE TM, domaine transmembranaire.

Épissage alternatif de protéines liées à SNARE. (A) Étapes de l'exocytose à médiation vésiculaire qui nécessitent l'assemblage du complexe SNARE. La machinerie SNARE contrôle l'interaction entre les v-SNARE vésiculaires et les t-SNARE cibles pendant la fusion des vésicules. (B-D) Plusieurs composants de la machinerie SNARE subissent un épissage alternatif, y compris la protéine 25 associée aux synaptosomes (SNAP25) (B), la syntaxine-3 (STX3) (C) et la protéine membranaire associée aux vésicules-7 (VAMP7) (D). CELF, CUGBP Elav-like family member-1 LD, domaine Longin SM, motif SNARE TM, domaine transmembranaire.

SNAP

La protéine 25 associée aux synaptosomes (SNAP25) relie les vésicules synaptiques à la membrane plasmique pendant l'exocytose. Chez les vertébrés supérieurs, deux exons mutuellement exclusifs, 5a et 5b, donnent naissance aux isoformes SNAP25-a et SNAP25-b (Bark et Wilson, 1994) (Fig. 3B). Ces variants diffèrent par neuf résidus situés au centre, dont deux modifient le positionnement relatif des cystéines en cluster dont la palmitoylation contrôle l'ancrage membranaire (Vogel et Roche, 1999). Snap25 les souris null présentent des défauts dans les pools de vésicules amorcées et une libération rapide déclenchée par le calcium dans les cellules chromaffines. Ici, la réexpression de SNAP25-b entraîne des pools de vésicules amorcées plus grands que ceux observés lors de la réexpression de SNAP25-a, suggérant que l'épissage alternatif régule la capacité de SNAP25 à stabiliser les vésicules amorcées (Sørensen et al., 2003). Une transition développementale de l'isoforme SNAP25-a fœtale vers SNAP25-b adulte se produit dans le cerveau (Bark et al., 1995), et son altération induit la létalité chez la souris trois à cinq semaines après la naissance (Bark et al., 2004). L'expression exclusive de l'isoforme SNAP25-a par le remplacement de l'exon 5b par une copie de l'exon 5a entraîne des anomalies du développement, des crises spontanées, une altération de la plasticité synaptique à court terme, des altérations morphologiques de l'hippocampe adulte, des modifications de l'expression des neuropeptides et une altération de l'apprentissage spatial (Johansson et al., 2008). De plus, lorsqu'elles reçoivent une alimentation riche en graisses, ces souris développent un syndrome métabolique accompagné d'une prise de poids, liant ainsi le défaut neuronal de la machinerie d'exocytose à une dyslipidémie et à une perturbation de l'homéostasie du glucose (Valladolid-Acebes et al., 2015). Un manque de l'isoforme SNAP25-b dans les cellules endocrines augmente la sécrétion d'insuline et modifie la dynamique du calcium (Daraio et al., 2017). Récemment, des lysats hippocampiques ont révélé que SNAP25-a est moins efficace que SNAP25-b pour former des complexes avec Munc18-1 et les sous-unités Gβ1 et Gβ2 des protéines G hétérotrimériques. Comme ces interactions jouent un rôle important dans l'inhibition présynaptique, les résultats suggèrent un rôle moins inhibiteur de SNAP25-a (Daraio et al., 2018).

SNAP23 est un homologue de SNAP25 qui est exprimé de manière presque ubiquitaire et a été impliqué dans la sensibilité à l'insuline (Boström et al., 2007), les actions des radeaux lipidiques (Puri et Roche, 2006 Yoon et al., 2016) et l'exocytose endothéliale du von Willebrand. (Zhu et al., 2015). L'humain SNAP23 Le gène contient huit exons et différentes isoformes d'épissage ont été rapportées, par exemple, SNAP23-a diffère de SNAP23-b par 53 résidus codés par l'exon 6 (Mollinedo et Lazo, 1997). Cette région contient des sites pour l'acylation post-traductionnelle des acides gras, suggérant des différences dans l'interaction membranaire entre les isoformes. In vitro, les deux isoformes se lient à la syntaxine-6 ​​(STX6), mais SNAP23-b a une affinité apparemment plus élevée (Lazo et al., 2001). De plus, le variant SNAP23-c est dépourvu des exons 5 à 7, donnant lieu à une protéine tronquée à 50 résidus. Une autre isoforme, SNAP23-d, est dépourvue des exons 6 et 7, et, ici, un décalage du cadre de lecture modifie l'extrémité C-terminale de la protéine. L'isoforme SNAP23-e manque également des exons 6 et 7, mais elle utilise un site d'épissage 5' alternatif dans l'exon 8 et partage les mêmes huit derniers résidus que SNAP23-a et SNAP23-b (Shukla et al., 2001). Toutes les isoformes, à l'exception de SNAP23-c, contiennent le domaine riche en cystéine qui est palmitoylé. SNAP23-a et SNAP23-b transfectés se localisent principalement à la membrane plasmique, tandis que les autres isoformes présentent également des localisations intracellulaires (Shukla et al., 2001).

Syntaxines

Dans le cerveau, l'épissage alternatif des syntaxines est régulé par la famille CUGBP Elav-like (CELF) des RBP. Dans Caenorhabditis elegans, l'homologue CELF UNC-75 favorise l'expression de l'isoforme neuronale de la syntaxine UNC-64A, qui comprend l'exon 8a, et réprime la variante non neuronale UNC-64B, qui comprend l'exon 8b. Ces isoformes diffèrent par leurs ancres membranaires hydrophobes C-terminales (Ogawa et al., 1998 Saifee et al., 1998). Les mutants manquant unc-75 n'expriment que UNC-64B et présentent des défauts de régénération axonale et de locomotion similaires à ceux observés dans unc-64 mutants à perte de fonction. Alors que la surexpression des isoformes UNC-64A ou UNC-64B sauve les défauts de régénération axonale, seul UNC-64A sauve les défauts de locomotion (Chen et al., 2016 Norris et al., 2014). Les protéines CELF contrôlent également la régénération axonale chez les rongeurs. Les Celf2- la souris knockout présente des défauts de régénération axonale et un mauvais épissage de plusieurs syntaxines (Stx1a, Stx2, Stx16 et Stx18) et des protéines liant la syntaxine (Stxbp1, Stxbp2 et Stxbp5), suggérant que l'épissage régulé par le CELF des syntaxines est un mécanisme évolutif conservé impliqué dans la régénération axonale (Chen et al., 2016 Norris et al., 2014).

STX3 est fortement exprimé dans la rate, les poumons, les reins, la rétine et le cerveau, et fonctionne dans le trafic des vésicules. La souris Stx3 gène contient plusieurs exons mutuellement exclusifs : 3ab et 3c, 9a et 9b, 10a et 10b, et 11a et 11b, générant quatre variantes d'épissage (illustrées sur la figure 3C) qui diffèrent par leur organisation de domaine et leurs propriétés biochimiques (Ibaraki et al., 1995). STX3-A et STX3-B partagent le N-terminal mais diffèrent dans la seconde moitié du domaine SNARE et le domaine transmembranaire C-terminal. Dans STX3-D, l'inclusion des deux exons 3ab et 3c introduit un codon stop prématuré et produit ainsi une protéine tronquée (Curtis et al., 2008). STX3-A est la seule isoforme détectée dans le rein avec des fonctions proposées dans le trafic membranaire des cellules épithéliales, tandis que STX3-B est la variante exclusive trouvée dans les synapses à ruban rétinien (Curtis et al., 2008) où elle est nécessaire pour l'exocytose des vésicules synaptiques ( Curtis et al., 2010). Récemment, une étude translatome dans des cellules rétiniennes de souris a révélé que les axones et le soma utilisent des derniers exons différents dans le Stx3 gène, conduisant à des différences dans l'extrémité C-terminale des protéines STX3 codées et le 3'UTR. Notamment, l'exon spécifique à l'axone est suffisant pour promouvoir la traduction de l'ARNm axonal, fournissant la preuve d'un mécanisme potentiel sous-jacent à la traduction sélective et dynamique de l'ARNm dans les axones (Shigeoka et al., 2016).

VAMP

Humain VAMP7 (anciennement connu sous le nom SYBL1) code pour la protéine v-SNARE VAMP7, qui contrôle le trafic intracellulaire (Galli et al., 1998). Dans l'isoforme VAMP7-a pleine longueur, les exons 2 à 4 codent pour le domaine Longin N-terminal, qui régule négativement la fusion membranaire et l'excroissance des neurites (Martinez-Arca et al., 2000, 2001), tandis que les exons 5 à 8 codent le région transmembranaire et le motif SNARE (Fig. 3D). Le saut de l'exon 3 et l'utilisation d'un site d'épissage 5' alternatif dans l'exon 2 conduisent respectivement aux protéines tronquées VAMP7-d et VAMP7-h (Vacca et al., 2011). VAMP7-c utilise le même site d'épissage 5' dans l'exon 2 que VAMP7-h, mais manque l'exon 3. Ainsi, en comparaison avec VAMP7-a, VAMP7-c manque de 40 résidus dans le domaine Longin, perdant l'interaction avec l'adaptateur la protéine AP3 et son ciblage vers les endosomes tardifs (Martinez-Arca et al., 2003). L'épissage des exons 5 et 6 génère trois isoformes supplémentaires avec des domaines Longin intacts, mais des domaines SNARE altérés. VAMP7-b manque d'exon 6, et a donc un C-terminal différent de VAMP7-a. Dans VAMP7-i, le saut de l'exon 5 introduit un codon stop prématuré, et donc seul le domaine Longin est exprimé. Dans VAMP7-j, le saut des deux exons maintient le cadre de lecture d'origine. Par conséquent, en plus du domaine Longin, VAMP7-j contient une courte région charnière et les régions de queue transmembranaires et intra-vésiculaires d'origine (Vacca et al., 2011) (Fig. 3D). Les différentes isoformes de VAMP7 présentent des localisations subcellulaires et tissulaires différentielles. VAMP7-b est largement distribué, alors que VAMP7-i est la seule isoforme nucléaire. De plus, VAMP7-a est l'isoforme principale dans la plupart des tissus, tandis que d'autres variantes présentent une certaine spécificité tissulaire (Vacca et al., 2011).

Sur la base de toutes les études discutées ci-dessus, il est clair que l'épissage alternatif régule différents membres de la machinerie SNARE et contribue ainsi au contrôle de l'exocytose.


Immunoglobulines solubles vs. membranaires

Les immunoglobulines se présentent sous deux formes principales : les anticorps solubles et les anticorps liés à la membrane. (Ces derniers contiennent une région transmembranaire hydrophobe.) L'épissage alternatif régule la production d'anticorps sécrétés et de récepteurs de cellules B liés à la surface dans les cellules B.

Les immunoglobulines liées à la membrane sont associées de manière non covalente à deux peptides accessoires, formant le complexe récepteur antigénique des cellules B. Les premiers récepteurs antigéniques exprimés par les cellules B sont les IgM et les IgD. Le récepteur est un prototype de l'anticorps que la cellule B est préparée à produire. Le récepteur des cellules B (BCR) ne peut lier que les antigènes. C'est l'hétérodimère d'Ig alpha et d'Ig bêta qui permet à la cellule de transduire le signal et de répondre à la présence d'antigènes à la surface cellulaire. Le signal généré provoque la croissance et la prolifération des lymphocytes B et la production d'anticorps à l'intérieur du plasmocyte.

Apprendre encore plus


Comprendre le rôle physiologique du bruit dans le traitement de l'ARN

Pour comprendre un rôle fonctionnel potentiel de la variabilité (stochastique ou autre) dans la séquence d'ARN, un point de départ potentiel est l'évaluation des produits protéiques. La proposition «un gène, plusieurs protéines» est enracinée dans les premiers jours peu après la découverte de l'épissage alternatif. Pourtant, il existe un débat sur la mesure dans laquelle l'épissage alternatif peut modifier le réservoir de protéines. Bien sûr, il existe de nombreux exemples montrant que des protéines fonctionnellement distinctes sont générées à partir d'isoformes d'épissage alternatif. Plus récemment, en utilisant le profilage des ribosomes, il a été montré que plus de 75 % des exons de cassettes alternatives d'abondance moyenne à élevée sont occupés par des ribosomes [101]. Plus de 60 % de ces exons de cassette préservent le cadre de lecture, en accord avec l'observation selon laquelle les exons de cassette courts et préservant le cadre sont plus évolutivement favorisés [102]. Un point de vue opposé est que bien que des milliers d'isoformes d'épissage alternatif soient identifiées par RNA-seq, seule une petite partie d'entre elles sont identifiées par spectrométrie de masse à grande échelle [103]. Aux premiers jours de GENCODE, Tress et al. [104] ont examiné le nombre limité d'événements d'épissage alternatif signalés. Ils ont conclu que de nombreux transcrits épissés alternatifs, s'ils étaient traduits, changeraient radicalement la structure et la fonction des produits protéiques. Néanmoins, il est difficile de prédire la structure de la protéine qui résulterait de certaines isoformes, ou si la séquence entraînerait un état de repliement instable [104]. L'étude de suivi, basée sur une analyse de base de données de protéomique humaine à grande échelle, suggère que les gènes les plus fortement exprimés ont une isoforme dominante [105]. Néanmoins, en raison de la sensibilité limitée de la protéomique basée sur la spectrométrie de masse, nous ne savons toujours pas quelle proportion d'isoformes d'épissage alternatif entraînera des protéines fonctionnelles.

Les systèmes biologiques ont-ils évolué pour supprimer le bruit d'épissage ? Sinon, le système a-t-il évolué pour exploiter ce bruit ? Le mécanisme de régulation de réduction du bruit le plus courant est la rétroaction négative. Les systèmes de contrôle de la qualité de l'ARN, tels que la désintégration non-sens (NMD), la désintégration non-stop (NSD) et la désintégration no-go (NGD), ont évolué pour atténuer les erreurs dans le traitement de l'ARN [106]. En plus de la rétroaction négative, la relecture cinétique joue également un rôle dans l'amortissement du bruit d'épissage [107, 108]. D'autre part, l'épissage bruyant a été proposé pour donner lieu à une hétérogénéité de la population et peut être essentiel dans la neurogenèse [109, 110], l'immunité innée [111] et l'évolution [112, 113]. Notamment, des travaux récents ont également démontré une altération globale de l'épissage dans les cancers qui impliquent des mutations dans les sous-unités spliceosomales centrales telles que U2AF1 et SF3B1 [114]. Des efforts de séquençage intensifs à partir d'échantillons de patients ont fait valoir que les changements d'épissage chez ces patients sont mineurs et très variables [115,116,117]. À ce jour, il a été difficile d'attribuer le phénotype du cancer ou le pronostic aux changements isoformes affectant un ensemble spécifique de gènes. Le cancer est une maladie évolutive et ces mutations spliceosomales surviennent souvent à un stade précoce [118,119,120]. Une possibilité pourrait être que les mutations des protéines spliceosomales fonctionnent comme un amplificateur du bruit d'épissage, comme cela a été suggéré pour les altérations de l'épissage dans d'autres états pathologiques [121]. Les isoformes à faible abondance générées par le bruit d'épissage peuvent permettre de tester la nouvelle variante de manière évolutive et pourraient bénéficier à la progression tumorale de manière hétérogène.


Le code d'épissage

Les façons dont les épissures d'ARN se produisent se sont multipliées en complexité, à l'instar d'autres processus de régulation. Au début, les modes simples ci-dessus étaient considérés comme communs. Maintenant, la recherche montre qu'il existe des centaines de caractéristiques de structures d'ARN et de particules régulatrices, qui peuvent être des protéines ou des microARN, qui déterminent comment ces épissages alternatifs se produisent.

Par exemple, on pensait autrefois que les codes aux bords de l'intron sont les plus pertinents. Maintenant, il semble que les structures situées en profondeur dans l'intron, loin de la coupure, puissent être tout à fait pertinentes. Il existe des différences dramatiques dans l'épissage déclenché au cours des différentes phases du développement embryonnaire. De nombreuses différences se produisent entre les différents types de cellules tissulaires. D'autres facteurs qui affectent les modèles d'épissage comprennent les taux de transcription, les niveaux de machinerie d'épissage central, la compétition entre les sites d'épissage, la structure de la chromatine affectant le taux de transcription, les modifications des histones et les modifications locales de la chromatine.

Des articles récents tentant de définir un code d'épissage ont découvert que la régulation de ces nombreuses variables différentes pourrait prendre des directions d'ADN de la taille de nombreux génomes supplémentaires. Il a été constaté que dans de nombreux cas d'épissage, il y a plusieurs étapes, ce qui rend les choses beaucoup plus complexes.

Le nombre de variables est maintenant si grand qu'il est devenu un autre vaste problème de calcul similaire au problème de repliement de la protéine et de la régulation du génome dans ENCODE. Veuillez consulter l'article sur le repliement des protéines où il a été noté qu'à un milliard de plis par seconde, il faudrait dix milliards d'années pour essayer tous les plis possibles d'une protéine de taille moyenne.


RÉSULTATS

Assemblage de jeu de données

Pour tenter de mieux comprendre le mécanisme de sélection des AA, nous avons analysé des paires d'AA conservées au cours de l'évolution à des distances allant de 3 à 100 nt. Ceux-ci incluent tous les événements dans lesquels à la fois le 3'SS proximal (en amont) et un 3'SS distal (en aval) sont évidemment impliqués dans l'épissage dans les génomes humain et murin, sur la base de l'existence de transcrits EST et ARNm dans les deux espèces ( 1). Le nombre d'événements AS conservés représente une limite inférieure des événements AS chez l'homme, néanmoins, on s'attend à ce qu'ils soient biologiquement significatifs (34). Il est généralement admis que deux accepteurs d'épissage putatifs qui sont situés à proximité sont très compétitifs (6, 7, 9). Pour tester la dépendance entre l'emplacement du site d'épissage putatif et la sélection du site d'épissage, nous avons divisé les données en quatre ensembles distincts en fonction de la distance entre les paires de sites d'épissage. Les groupes ont été désignés : FAR, MID, CLOSE et NAGNAG. Les groupes FAR, MID et CLOSE étaient composés de paires AA séparées par 40-100, 13-39, 4-12 nt, respectivement. Le groupe NAGNAG ne comprenait que des paires AA placées en tandem. Alors que dans les jeux de données CLOSE et NAGNAG, nous nous attendons à ce que l'AA soit placé en aval du BP, qui se trouve généralement entre 18 et 40 nt en amont du site d'épissage (6, 7, 9, 11), le jeu de données FAR comprenait des séquences dans lequel le premier site d'épissage devrait être en amont du BP. Cependant, comme indiqué dans Gooding et al. (9), dans certains cas, le BP pourrait être situé en amont du site proximal également dans le groupe FAR. Les cas limites ont été regroupés dans le jeu de données MID. De plus, nous avons compilé une série d'ensembles de contrôle contenant des accepteurs constitutifs (CA) séparés d'un concurrent potentiel en amont ou d'un pseudo-accepteur (PA) par un tronçon appauvri en AG de longueurs variables. Les séquences pour l'ensemble de contrôle ont été délibérément sélectionnées de sorte que la distribution des distances entre l'AC et l'AP dans les ensembles de contrôle sera équivalente à celle de l'ensemble de données alternatif correspondant.

Les caractéristiques uniques des AA

Afin d'étudier les couples AA et de les comparer à 3′SS qui sont constitutivement choisis, nous avons analysé une série de propriétés introniques calculées pour chaque groupe. Parmi les caractéristiques que nous avons incluses figuraient la force du site d'épissage, la conservation évolutive intronique (à l'exclusion des sites d'épissage), la longueur et le score du PPT et sa position par rapport aux sites d'épissage, le score BP et la distance aux sites d'épissage, le contenu GC, ESE/ESS densité et la présence d'autres dinucléotides AG (voir la section Méthodes). Ces derniers se sont avérés auparavant affecter la reconnaissance des sites d'épissage lorsqu'ils se produisent dans les régions introniques en amont (7, 8). Comme dans la majorité des cas [hors classe des BP distales (9)], les éléments régulateurs d'épissage étant proches du 3′SS, nous avons restreint l'analyse à 100 nt en amont du site proximal.

Les propriétés ci-dessus ont été calculées pour toutes les séquences dans chaque sous-ensemble AA et comparées au sous-ensemble correspondant de paires CA/PA. Dans le cas du groupe NAGNAG, les comparaisons ont été menées contre deux ensembles indépendants de paires CA/PA : les motifs NAGNAG dans lesquels le site distal est épissé constitutivement et le proximal est un pseudo-accepteur compétitif (NAGNAG-distal) et le cas inverse où le le site proximal est épissé de manière constitutive et le NAG distal sert de pseudo-accepteur (NAGNAG-proximal). Bien que les sites compétitifs soient généralement placés en amont du site d'épissage (6, 7), dans le cas unique de NAGNAG, nous avons choisi de tester les deux ensembles de contrôle car, dans les accepteurs en tandem, les sites distaux et proximaux ont été précédemment suggérés pour contribuer à la compétition. De plus, ces motifs NAGNAG présentent un intérêt particulier car ils sont largement distribués dans tout le génome humain (10, 14).

Pour chacune des propriétés analysées, nous avons réalisé une analyse statistique appliquée à tous les couples de jeux de données (AA versus CA/PA). Un résumé de l'analyse statistique est donné dans le tableau 1 (les résultats détaillés sont donnés dans le tableau 1S). Fait intéressant, dans chaque sous-groupe (défini par la distance du site d'épissage), nous avons trouvé un ensemble différent de caractéristiques qui s'écartaient entre les paires AA et CA/PA. Par exemple, les caractéristiques du site d'épissage n'étaient discriminantes que dans le groupe NAGNAG, à la fois en le comparant au NAGNAG-proximal et au NAGNAG-distal (tableaux 1SA et B). Ceci est en accord avec des études précédentes qui ont observé une corrélation entre la force du site d'épissage et le modèle d'épissage au motif NAGNAG (10, 13). De plus, conformément à nos résultats précédents (10), la conservation intronique dans les 100 nt en amont du site d'épissage proximal était significativement plus élevée dans les NAGNAG alternatifs par rapport au groupe NAGNAG-proximal (P-la valeur pour F-test = 4.E−04). Il est intéressant de noter que la conservation des introns ne semble pas différer de manière significative lorsque l'on compare les NAGNAG alternatifs au groupe NAGNAG-distal. Ces derniers groupes démontrent tous deux une conservation intronique élevée qui peut suggérer des contraintes réglementaires similaires (10). De plus, nous avons observé une différence significative dans la teneur en GC entre les NAGNAG alternatifs et le groupe NAGNAG-distal. Étonnamment, la teneur élevée en GC dans le groupe NAGNAG-distal était supérieure à la teneur moyenne en GC trouvée généralement en amont des sites accepteurs constitutifs (tableau 1S).

P-valeurs pour les étudiants t- et F-tests comparant des accepteurs alternatifs à des accepteurs constitutifs/pseudo basés sur les caractéristiques suivantes : sites d'épissage distaux (Dist SS), sites d'épissage proximaux (Prox SS), conservation intronique moyenne dans 100 nt en amont du site d'épissage proximal (IC100), longueur du PPT, score PPT, distance du PPT au site distal (PPT∼D) et au site proximal (PPT∼P), densité ESE/ESS, pseudo sites HAG et contenu GC

Caractéristique . NAGNAG-P. NAGNAG-D. PROCHE . MILIEU. LOIN .
. . . . . .
. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val.
Dist SS 2.E−160.215 1.E−092.E−160.371 0.183 0.321 0.005 0.003 0.049
Proximité SS 2.E−061.E−070.236 0.026 0.730 0.241 0.083 0.169 0.063 0.260
CI1004.E−040.144 0.007 0.037 0.013 0.435 2.E−100.373 3.E−060.465
Longueur PPT 0.226 0.344 0.996 0.030 0.823 0.004 0.001 2.E14 0.061 2.E10
Score PPT 0.525 0.748 0.211 0.199 0.012 6.E−134.E−088.E−073.E−073.E10
PPT∼D 0.054 0.233 0.901 0.516 5.E−090.002 0.854 0.038 1.E−050.161
PPT∼P n / A n / A n / A n / A 1.E−060.007 0.986 0.055 0.023 0.001
score PA 0.525 0.748 0.2388 0.2338 0.289 0.539 0.4418 0.239 0.4564 0.550
BP∼D 0.054 0.233 0.6724 0.9282 8.88E−070.017 0.002 0.154 1.30E−050.021
BP∼P n / A n / A n / A n / A 2.90E04 0.031 1.22E−040.143 0.005 2.85E−04
ESE 0.042 0.020 0.850 0.812 0.708 0.618 0.031 0.331 0.042 0.020
ESS.hex2 0.873 0.252 0.582 0.948 0.721 0.186 0.064 0.157 0.176 0.135
ESS.hex3 0.350 0.023 0.710 0.779 0.985 0.170 0.606 0.112 0.324 0.428
VIEILLE SORCIÈRE 0.888 0.561 0.601 0.023 0.023 0.723 2.E−040.490 1.E−040.868
CG 0.265 0.512 1.E−040.714 2.E−040.711 0.044 0.999 0.149 0.312
Caractéristique . NAGNAG-P. NAGNAG-D. PROCHE . MILIEU. LOIN .
. . . . . .
. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val.
Dist SS 2.E−160.215 1.E−092.E−160.371 0.183 0.321 0.005 0.003 0.049
Proximité SS 2.E−061.E−070.236 0.026 0.730 0.241 0.083 0.169 0.063 0.260
CI1004.E−040.144 0.007 0.037 0.013 0.435 2.E−100.373 3.E−060.465
Longueur PPT 0.226 0.344 0.996 0.030 0.823 0.004 0.001 2.E14 0.061 2.E10
Score PPT 0.525 0.748 0.211 0.199 0.012 6.E−134.E−088.E−073.E−073.E10
PPT∼D 0.054 0.233 0.901 0.516 5.E−090.002 0.854 0.038 1.E−050.161
PPT∼P n / A n / A n / A n / A 1.E−060.007 0.986 0.055 0.023 0.001
Score PA 0.525 0.748 0.2388 0.2338 0.289 0.539 0.4418 0.239 0.4564 0.550
BP∼D 0.054 0.233 0.6724 0.9282 8.88E−070.017 0.002 0.154 1.30E−050.021
BP∼P n / A n / A n / A n / A 2.90E04 0.031 1.22E−040.143 0.005 2.85E−04
ESE 0.042 0.020 0.850 0.812 0.708 0.618 0.031 0.331 0.042 0.020
ESS.hex2 0.873 0.252 0.582 0.948 0.721 0.186 0.064 0.157 0.176 0.135
ESS.hex3 0.350 0.023 0.710 0.779 0.985 0.170 0.606 0.112 0.324 0.428
VIEILLE SORCIÈRE 0.888 0.561 0.601 0.023 0.023 0.723 2.E−040.490 1.E−040.868
CG 0.265 0.512 1.E−040.714 2.E−040.711 0.044 0.999 0.149 0.312

Les résultats sont affichés pour les différents jeux de données : FAR, MID, CLOSE, NAGNAG-proximal et NAGNAG-distal. Les valeurs significatives (basées sur la correction Westfall–Young) sont indiquées en gras.

P-valeurs pour l'étudiant t- et F-tests comparant des accepteurs alternatifs à des accepteurs constitutifs/pseudo basés sur les caractéristiques suivantes : sites d'épissage distaux (Dist SS), sites d'épissage proximaux (Prox SS), conservation intronique moyenne dans 100 nt en amont du site d'épissage proximal (IC100), longueur du PPT, score PPT, distance du PPT au site distal (PPT∼D) et au site proximal (PPT∼P), densité ESE/ESS, pseudo sites HAG et contenu GC

Caractéristique . NAGNAG-P. NAGNAG-D. PROCHE . MILIEU. LOIN .
. . . . . .
. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val.
Dist SS 2.E−160.215 1.E−092.E−160.371 0.183 0.321 0.005 0.003 0.049
Proximité SS 2.E−061.E−070.236 0.026 0.730 0.241 0.083 0.169 0.063 0.260
CI1004.E−040.144 0.007 0.037 0.013 0.435 2.E−100.373 3.E−060.465
Longueur PPT 0.226 0.344 0.996 0.030 0.823 0.004 0.001 2.E14 0.061 2.E10
Score PPT 0.525 0.748 0.211 0.199 0.012 6.E−134.E−088.E−073.E−073.E10
PPT∼D 0.054 0.233 0.901 0.516 5.E−090.002 0.854 0.038 1.E−050.161
PPT∼P n / A n / A n / A n / A 1.E−060.007 0.986 0.055 0.023 0.001
score PA 0.525 0.748 0.2388 0.2338 0.289 0.539 0.4418 0.239 0.4564 0.550
BP∼D 0.054 0.233 0.6724 0.9282 8.88E−070.017 0.002 0.154 1.30E−050.021
BP∼P n / A n / A n / A n / A 2.90E04 0.031 1.22E−040.143 0.005 2.85E−04
ESE 0.042 0.020 0.850 0.812 0.708 0.618 0.031 0.331 0.042 0.020
ESS.hex2 0.873 0.252 0.582 0.948 0.721 0.186 0.064 0.157 0.176 0.135
ESS.hex3 0.350 0.023 0.710 0.779 0.985 0.170 0.606 0.112 0.324 0.428
VIEILLE SORCIÈRE 0.888 0.561 0.601 0.023 0.023 0.723 2.E−040.490 1.E−040.868
CG 0.265 0.512 1.E−040.714 2.E−040.711 0.044 0.999 0.149 0.312
Caractéristique . NAGNAG-P. NAGNAG-D. PROCHE . MILIEU. LOIN .
. . . . . .
. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val. t P-val. F P-val.
Dist SS 2.E−160.215 1.E−092.E−160.371 0.183 0.321 0.005 0.003 0.049
Proximité SS 2.E−061.E−070.236 0.026 0.730 0.241 0.083 0.169 0.063 0.260
CI1004.E−040.144 0.007 0.037 0.013 0.435 2.E−100.373 3.E−060.465
Longueur PPT 0.226 0.344 0.996 0.030 0.823 0.004 0.001 2.E14 0.061 2.E10
Score PPT 0.525 0.748 0.211 0.199 0.012 6.E−134.E−088.E−073.E−073.E10
PPT∼D 0.054 0.233 0.901 0.516 5.E−090.002 0.854 0.038 1.E−050.161
PPT∼P n / A n / A n / A n / A 1.E−060.007 0.986 0.055 0.023 0.001
Score PA 0.525 0.748 0.2388 0.2338 0.289 0.539 0.4418 0.239 0.4564 0.550
BP∼D 0.054 0.233 0.6724 0.9282 8.88E−070.017 0.002 0.154 1.30E−050.021
BP∼P n / A n / A n / A n / A 2.90E04 0.031 1.22E−040.143 0.005 2.85E−04
ESE 0.042 0.020 0.850 0.812 0.708 0.618 0.031 0.331 0.042 0.020
ESS.hex2 0.873 0.252 0.582 0.948 0.721 0.186 0.064 0.157 0.176 0.135
ESS.hex3 0.350 0.023 0.710 0.779 0.985 0.170 0.606 0.112 0.324 0.428
VIEILLE SORCIÈRE 0.888 0.561 0.601 0.023 0.023 0.723 2.E−040.490 1.E−040.868
CG 0.265 0.512 1.E−040.714 2.E−040.711 0.044 0.999 0.149 0.312

Les résultats sont affichés pour les différents jeux de données : FAR, MID, CLOSE, NAGNAG-proximal et NAGNAG-distal. Les valeurs significatives (basées sur la correction Westfall–Young) sont indiquées en gras.

Néanmoins, dans le groupe CLOSE dans lequel les sites d'épissage sont très proches les uns des autres mais non adjacents (tableau 1SC), les caractéristiques qui étaient significativement différentes entre les paires AA et CA/PA étaient la distance du PPT et du BP aux sites d'épissage. et le score PPT (qui était statistiquement significatif dans le groupe CLOSE lors de l'application du F test). Généralement, dans les paires AA, le PPT et la BP semblaient plus proches à la fois des sites proximaux et distaux et le PPT présentait une plus grande variance des scores. Comme dans le groupe NAGNAG-distal, dans le groupe CLOSE nous avons également observé une teneur en GC relativement plus faible en amont des paires AA. Contrairement au groupe NAGNAG, dans le groupe CLOSE, nous n'avons pas observé de différences significatives ni dans la composition des sites d'épissage ni dans la conservation intronique entre les paires AA et CA/PA. Dans le groupe MID, nous avons observé des PPT plus faibles (c'est-à-dire un score PPT inférieur) dans AA par rapport aux paires CA/PA. De plus, les niveaux de conservation intronique étaient plus élevés en amont des paires AA et les dinucléotides AG étaient légèrement sous-représentés (tableau 1S D). Parmi les caractéristiques les plus discriminantes dans le groupe FAR figuraient le score et la position relative du PPT et de la BP. Celles-ci se sont avérées plus faibles dans les paires AA et plus éloignées du site d'épissage distal. De plus, la conservation intronique était significativement plus élevée dans les paires AA et l'occurrence des AG introniques était sous-représentée.

Dans l'ensemble, nos résultats suggèrent que ce n'est que lorsque les deux sites d'épissage sont placés en tandem (NAGNAG) que la composition du site d'épissage, à savoir l'identité du nucléotide précédant l'AG conservé, semble être discriminante.En revanche, lorsque la distance entre les sites d'épissage est plus grande, les différences dans la composition du PPT et l'emplacement relatif du PPT et du BP par rapport aux sites d'épissage semblent jouer un rôle important. De manière cohérente, le niveau de conservation intronique semble être discriminant dans les groupes MID et FAR dans lesquels la distance AA est >12 nt (tableau 1S, figure 1). Cependant, il est important de noter que, dans le groupe unique des accepteurs NAGNAG, la conservation intronique s'est également avérée statistiquement significative (bien que dans une moindre mesure) uniquement lorsque l'on compare les accepteurs en tandem au groupe NAGNAG proximal et non par rapport à le groupe distal. De même, nous avons observé que la conservation évolutive intronique dans le groupe CLOSE est relativement élevée (bien que non statistiquement significative) pour les paires AA par rapport à la conservation intronique moyenne en amont des sites d'épissage constitutifs choisis au hasard (figure 1A). Une conservation intronique relativement élevée a également été détectée dans les paires CA/PA uniquement dans la région proche adjacente au site de pseudo-épissage (Figure 1). Les niveaux élevés de conservation intronique trouvés généralement en amont du site d'épissage alternatif sont cohérents avec d'autres études suggérant l'existence d'éléments régulateurs impliqués dans la sélection du site d'épissage (29). Néanmoins, la conservation intronique relativement élevée à proximité du site d'épissage dans les paires CA/PA, en particulier dans le groupe CLOSE, pourrait être due à la présence d'éléments régulateurs qui peuvent être impliqués dans le contrôle de l'épissage constitutif lorsque des concurrents potentiels sont présents. Il est important de noter que dans notre ensemble de données, les pseudo sites d'épissage (PA) eux-mêmes ne sont pas conservés de manière évolutive et donc la conservation intronique plus élevée observée ne peut pas être liée à une conservation globale élevée du site ou à un artefact d'alignement.

Conservation évolutive homme-souris montrée pour le CLOSE (UNE) et LOIN (B) groupes. La conservation a été calculée pour les 30 nt en amont du site d'épissage proximal (ou pseudo) dans des fenêtres de chevauchement de longueur 10. Les cercles gris représentent les paires d'accepteurs alternatifs (AA), les triangles noirs pour les paires constitutives/pseudo accepteurs (CA/PA) et le croix grises pour un ensemble de 1000 accepteurs constitutifs (AC) choisis au hasard. Pour l'ensemble CA, la conservation a été calculée en amont du site d'épissage constitutif.

Conservation évolutive homme-souris montrée pour le CLOSE (UNE) et LOIN (B) groupes. La conservation a été calculée pour les 30 nt en amont du site d'épissage proximal (ou pseudo) dans des fenêtres de chevauchement de longueur 10. Les cercles gris représentent les paires d'accepteurs alternatifs (AA), les triangles noirs pour les paires constitutives/pseudo accepteurs (CA/PA) et le croix grises pour un ensemble de 1000 accepteurs constitutifs (AC) choisis au hasard. Pour l'ensemble CA, la conservation a été calculée en amont du site d'épissage constitutif.

Analyse PPT

Le PPT est un élément clé de la réglementation de l'épissage. Auparavant, il a été montré que la composition et la distance du PPT peuvent influencer la sélection du site d'épissage (19). Le PPT est communément identifié par des facteurs d'épissage tels que le répresseur d'épissage PTB et l'amplificateur d'épissage U2AF65. Des rapports récents démontrent que les deux facteurs peuvent entrer en concurrence pour lier le PPT (35). Bien que ces protéines soient considérées comme des facteurs d'épissage de base, il a été suggéré qu'elles jouent également un rôle important dans la régulation des sites d'épissage 3' alternatifs (36). Comme décrit dans la section précédente, nous avons mené une analyse complète du PPT dans les paires AA et CA/PA dans les différents sous-ensembles. Les figures 2A et B illustrent la relation entre les distances du PPT au site d'épissage distal et la distance entre le site d'épissage proximal et le site d'épissage distal dans les paires AA et dans les paires CA/PA, respectivement (dans les paires CA/PA, CA est équivalent à distal et PA à proximal). Chaque point représente la relation dans une séquence. Comme indiqué, lorsque la distance entre les sites d'épissage proximaux et distaux est de 3 (dans le sous-ensemble NAGNAG) dans les sites d'épissage alternatifs et constitutifs, un PPT se trouve n'importe où entre 0 et 90 nt en amont des sites d'épissage. Cependant, lorsque les sites d'épissage ne sont pas en tandem, dans les paires AA, le PPT prédit se trouve à proximité du site d'épissage distal uniquement lorsque les sites d'épissage sont relativement proches les uns des autres, séparés par <40 nt (figure 2A). Ceci est très probablement lié à la dépendance entre le site proximal et le PPT dans les paires AA. Comme le montrent les points situés le long de la diagonale de la figure 2A, dans la majorité des paires AA, le PPT prédit tombe à proximité immédiate du site d'épissage proximal. Dans les paires CA/PA (Figure 2B), bien que nous observions une grande proportion de PPT situés à proximité du site distal, nous n'avons pu détecter aucune relation claire entre l'emplacement du PPT et de l'AP. Pour garantir que ces résultats ne sont pas dus à la plus petite taille d'échantillon des paires AA, nous avons sélectionné au hasard parmi l'ensemble complet de tous les événements constitutifs 1000 ensembles de taille égale au groupe AA. Pour chaque série, nous avons calculé le nombre de cas dans lesquels le PPT était adjacent au site distal (<5 nt d'intervalle) dans des paires CA/PA séparées par ≤40 et >40 nt et l'avons comparé à la distribution dans l'ensemble AA. Nous avons appliqué une série de tests Fisher-exact comparant chaque ensemble aléatoire à l'ensemble AA et tous les cas ont montré une différence significative entre les groupes (en utilisant la correction de Bonferroni P < 5*10 -5 ). Ces résultats ont confirmé que la dépendance entre la distance « site distal-PPT » et la distance « distale-proximale » est limitée à l'ensemble AA.

Diffusion PPT. (UNE) La distance entre le nt le plus en aval du PPT et la position -1 (ou site N) au site NAG distal est tracée en fonction du nombre de nts entre la position -1 du site d'épissage proximal et distal. (B) Un ensemble de contrôle dans lequel la distance PPT-site d'épissage constitutif est tracée en fonction de la distance du site d'épissage constitutif-pseudo. La diagonale indique les positions pour lesquelles le PPT est adjacent au site d'épissure proximal (ou pseudo).

Diffusion PPT. (UNE) La distance entre le nt le plus en aval du PPT et la position -1 (ou site N) au site NAG distal est tracée en fonction du nombre de nts entre la position -1 du site d'épissage proximal et distal. (B) Un ensemble de contrôle dans lequel la distance PPT-site d'épissage constitutif est tracée en fonction de la distance du site d'épissage constitutif-pseudo. La diagonale indique les positions pour lesquelles le PPT est adjacent au site d'épissure proximal (ou pseudo).

Nous avons en outre mené une analyse détaillée de la proximité entre le plus grand PPT et le site d'épissage proximal. Bien que l'analyse ait été menée sur tous les sous-groupes, nous nous sommes concentrés spécifiquement sur le groupe FAR dans lequel la distance entre le site d'épissage permet la détection de PPT pleine grandeur. L'analyse a révélé un nombre étonnamment élevé de paires AA dans lesquelles le PPT chevauchait complètement le site d'épissage proximal (∼57 %). Ce phénomène n'a pas été retrouvé dans l'ensemble des paires CA/PA, où nous n'avons trouvé que 8 % des cas dans lesquels le PPT prédit chevauchait le site PA (tableau S2). En revanche, dans 65% des événements constitutifs, le PPT a été prédit en aval du pseudo site d'épissage (proche du site d'épissage constitutif) tandis que dans seulement ∼13% des paires AA, le PPT a été trouvé en aval du site proximal. Dans les deux groupes, nous observons une proportion similaire d'événements dans lesquels le PPT a été trouvé relativement loin, en amont du site d'épissage proximal (ou pseudo). Il est important de mentionner que dans la plupart des cas où le PPT chevauche les sites d'épissage, ceux-ci étaient intégrés dans le PPT généralement dans la moitié 5' mais pas au bord (la fréquence des événements montrant la position du site d'épissage par rapport au PPT est donné sur la figure 1S).

Des études antérieures ont suggéré qu'une répression efficace par la PTB dépend de l'existence de deux sites de liaison qui peuvent médier la formation d'une structure tige-boucle par des interactions protéine-protéine entre les monomères de la PTB, connue sous le nom de modèle de « bouclage » (37). Ce mécanisme a été initialement suggéré afin d'expliquer la régulation des exons alternatifs, cependant, les BP ont également été proposés pour être mis en boucle et évités par la machinerie d'épissage (38). De plus, une étude informatique récente a signalé l'existence de deux PPT flanquant le site d'épissage en amont lorsque les 3′SS alternatifs sont séparés par ≥8 nt (39). Pour identifier davantage les caractéristiques qui pourraient être utilisées pour différencier les accepteurs d'épissage alternatifs et constitutifs au niveau génomique, nous avons recherché l'existence d'un tronçon de polypyrimidine supplémentaire dans la région de 100 nt en amont du site d'épissage (autour de AA et CA/PA paires). La définition utilisée pour attribuer automatiquement le deuxième PPT est décrite en détail dans la section Méthodes. Généralement, l'attribution des PPT a été effectuée en fonction de leur taille relative, PPT1 étant le tronçon le plus long. Dans l'ensemble, nous n'avons pas observé de différence claire entre les sites d'épissage alternatifs et constitutifs en considérant simplement la longueur de PPT2 (P = 0,060) ou sa force relative (P = 0,596). Il est important de noter que dans environ 20 % des paires AA CA/PA, nous n'avons pas pu trouver de PPT supplémentaire, tandis que dans 19 % des paires AA et 27 % des paires CA/PA, nous avons trouvé les deux PPT en amont ou en aval de le site d'épissage (tableau S3).

Par la suite, nous avons évalué la position relative des deux PPT dans toutes les paires AA et CA/PA, en nous concentrant sur le groupe FAR. Nous avons constaté que dans 53% des paires AA, un PPT chevauchait le site d'épissage et l'autre était trouvé en amont de celui-ci [PPT-PPT(p)]. En revanche, ce modèle ne représentait que ∼ 6 % de toutes les paires CA/PA (Figure 3). Ces observations renforcent le fait que la fréquence élevée de chevauchement entre le site d'épissage proximal et le PPT ne se limite pas aux paires de sites d'épissage proches, dans lesquels le site proximal tombe par défaut dans le PPT en raison de la restriction de l'espace comme dans les groupes CLOSE et MID (Figure 2S). Ces résultats sont également cohérents avec les observations précédentes de Dou et al. (39). De plus, dans la plupart des paires AA analysées dans notre étude, le PPT qui chevauchait le site d'épissage était le plus grand parmi les deux PPT (tableau 4S). En outre, nous avons observé qu'environ 54 % des sites de pseudo-épissage dans les paires CA/PA étaient flanqués (mais ne se chevauchent pas) de deux PPT (PPT-p-PPT). Ce modèle n'a été observé que dans environ 17 % des paires AA (Figure 3). Généralement, dans les paires AA, les PPT ont toujours été trouvés en amont du site d'épissage proximal ou chevauchant le site d'épissage, mais jamais en aval du site proximal (Figures 3 et 2S). Le fait que les PPT n'aient pas été détectés entre les paires AA pourrait être dû au potentiel de codage de cette région. Néanmoins, cela pourrait suggérer qu'un PPT en aval à lui seul n'est pas capable de réguler un site d'épissage en amont.

Position des PPT par rapport au site d'épissage proximal dans le groupe FAR. Les barres indiquent le pourcentage d'observations dans les données. I-III sont des cas dans lesquels un seul PPT a été trouvé en amont (I), chevauchant (II) ou en aval (II) le site d'épissage proximal. IV-VI sont des cas dans lesquels deux PPT ont été observés (IV) flanquant le site proximal, (V) un PPT chevauchant le site d'épissage et le second en amont et (VI) un PPT chevauchant le site d'épissage et le second en aval du site d'épissure proximal. Les barres grises représentent des paires d'accepteurs alternatifs et les barres noires représentent des paires constitutives/pseudo-accepteurs dans lesquelles le pseudo site d'épissage imite le site proximal. Le nombre d'occurrences est indiqué entre parenthèses.

Position des PPT par rapport au site d'épissage proximal dans le groupe FAR. Les barres indiquent le pourcentage d'observations dans les données. I-III sont des cas dans lesquels un seul PPT a été trouvé en amont (I), chevauchant (II) ou en aval (II) le site d'épissage proximal. IV-VI sont des cas dans lesquels deux PPT ont été observés (IV) flanquant le site proximal, (V) un PPT chevauchant le site d'épissage et le second en amont et (VI) un PPT chevauchant le site d'épissage et le second en aval du site d'épissure proximal. Les barres grises représentent des paires d'accepteurs alternatifs et les barres noires représentent des paires constitutives/pseudo-accepteurs dans lesquelles le pseudo site d'épissage imite le site proximal. Le nombre d'occurrences est indiqué entre parenthèses.

Combinaison de fonctionnalités pour la classification des sites d'épissure

Pour tester si la combinaison de fonctionnalités décrites ci-dessus peut mieux séparer les paires AA des paires CA/PA, nous avons construit un classificateur SVM pour chacun des ensembles de données : NAGNAG, CLOSE, MID et FAR. SVM est un algorithme d'apprentissage automatique supervisé qui est entraîné à séparer deux ensembles de données. Il a été précédemment appliqué pour identifier automatiquement des exons alternatifs sur la base des propriétés exoniques et introniques, y compris la conservation évolutive, la longueur du PPT et la composition des sites d'épissage (23). De plus, une étude récente a appliqué la SVM pour différencier les sites d'épissage 3′/5′ alternatifs et constitutifs en fonction de paramètres tels que le PPT, la composition du site d'épissage et la préservation de la trame (25). Ici, nous avons appliqué l'algorithme SVM pour distinguer les événements 3′ss alternatifs par rapport aux événements constitutifs dans chaque sous-ensemble indépendamment. L'ensemble de caractéristiques était composé de caractéristiques introniques calculées dans la section précédente, notamment la composition du site d'épissage, les propriétés PPT, la conservation intronique, l'occurrence du pseudo-site d'épissage et le contenu GC (voir la section Méthodes pour plus de détails). Étant donné que la position de la PA prédite par rapport au site d'épissage s'est avérée fortement corrélée avec la position relative du PPT (corrélation de Pearson ∼ 0,9), nous n'avons pas inclus ce paramètre dans l'ensemble de fonctionnalités SVM. De plus, nous n'avons pas inclus les densités ESE et ESS en tant que paramètres pour la SVM, car elles ne se sont révélées statistiquement significatives dans aucun des sous-ensembles. Pour estimer les performances de notre méthode, nous avons effectué un test de validation croisée « hold one out » (également appelé test « jackknife »). Pour chaque test, nous avons tracé un tracé des caractéristiques de fonctionnement de la réception (ROC) et calculé l'aire sous la courbe (AUC), la sensibilité, la spécificité, la précision totale et le coefficient de corrélation de Matthews (tableau 2). Comme indiqué, la meilleure performance SVM a été obtenue pour le classificateur AA FAR versus CA/PA FAR, pour lequel l'AUC était de 0,94, suivi par le MID (AUC = 0,91), le CLOSE (AUC = 0,80) et enfin le NAGNAG-P (ASC = 0,78) (Figure 4 et Tableau 2). Comme le montre le classificateur NAGNAG-D, nous avons rencontré une diminution notable des performances SVM (AUC = 0,69). Ces résultats sont en accord avec nos précédents rapports montrant une similitude des propriétés génomiques entre les motifs NAGNAG épissés alternatifs et le motif NAGNAG dans lequel le site distal est choisi de manière constitutive (10). Globalement en accord avec l'étude récente de Xia et al. (25) nous observons que les performances de la SVM augmentent en fonction de la distance entre les paires de sites d'épissage. Différent de Xia et al. (25), dans la présente étude, nous avons également obtenu une performance considérablement élevée pour la classification des paires de sites d'épissage très proches, avec une sensibilité variant entre 60 et 85 % dans les différents sous-groupes ( Tableau 2). La différence de performance SVM obtenue pour les sites proches dans les différentes études est probablement due aux caractéristiques uniques qui ont été sélectionnées pour l'étude.

Graphique ROC résumant les résultats de la SVM : le taux de faux positifs est représenté par rapport au taux de vrais positifs pour les accepteurs alternatifs par rapport aux paires d'accepteurs constitutifs/pseudo dans le FAR (ligne noire), MID (pointillé rouge), CLOSE (ligne verte), NAGNAG-proximal ( points bleus) et les groupes NAGNAG-distal (points noirs).

Graphique ROC résumant les résultats de la SVM : le taux de faux positifs est représenté par rapport au taux de vrais positifs pour les accepteurs alternatifs par rapport aux paires d'accepteurs constitutifs/pseudo dans le FAR (ligne noire), MID (pointillé rouge), CLOSE (ligne verte), NAGNAG-proximal ( points bleus) et les groupes NAGNAG-distal (points noirs).

. PF. FN. TP. TN. SN. SP. TA. MCC. AUC.
LOIN 12 7 40 129 85.106 91.489 89.894 0.741 0.936
MILIEU 37 14 63 194 81.818 83.983 83.442 0.608 0.913
PROCHE 51 22 53 174 70.667 77.333 75.667 0.437 0.802
NAGNAG-P 121 47 150 276 76.142 69.521 71.717 0.432 0.785
NAGNAG-D 53 75 122 124 61.929 70.056 65.775 0.32 0.698
. PF. FN. TP. TN. SN. SP. TA. MCC. AUC.
LOIN 12 7 40 129 85.106 91.489 89.894 0.741 0.936
MILIEU 37 14 63 194 81.818 83.983 83.442 0.608 0.913
PROCHE 51 22 53 174 70.667 77.333 75.667 0.437 0.802
NAGNAG-P 121 47 150 276 76.142 69.521 71.717 0.432 0.785
NAGNAG-D 53 75 122 124 61.929 70.056 65.775 0.32 0.698

Le tableau affiche le nombre de faux positifs (FP), vrais positifs (TP), faux négatifs (FN), vrais négatifs (TN), sensibilité (SN), spécificité (SP), précision totale (TA) ainsi que The Matthews coefficient de corrélation (MCC) et la valeur AUC pour les différents jeux de données.

. PF. FN. TP. TN. SN. SP. TA. MCC. AUC.
LOIN 12 7 40 129 85.106 91.489 89.894 0.741 0.936
MILIEU 37 14 63 194 81.818 83.983 83.442 0.608 0.913
PROCHE 51 22 53 174 70.667 77.333 75.667 0.437 0.802
NAGNAG-P 121 47 150 276 76.142 69.521 71.717 0.432 0.785
NAGNAG-D 53 75 122 124 61.929 70.056 65.775 0.32 0.698
. PF. FN. TP. TN. SN. SP. TA. MCC. AUC.
LOIN 12 7 40 129 85.106 91.489 89.894 0.741 0.936
MILIEU 37 14 63 194 81.818 83.983 83.442 0.608 0.913
PROCHE 51 22 53 174 70.667 77.333 75.667 0.437 0.802
NAGNAG-P 121 47 150 276 76.142 69.521 71.717 0.432 0.785
NAGNAG-D 53 75 122 124 61.929 70.056 65.775 0.32 0.698

Le tableau affiche le nombre de faux positifs (FP), vrais positifs (TP), faux négatifs (FN), vrais négatifs (TN), sensibilité (SN), spécificité (SP), précision totale (TA) ainsi que The Matthews coefficient de corrélation (MCC) et la valeur AUC pour les différents jeux de données.

Sélection de fonctionnalité

Afin d'estimer la contribution des différents paramètres au processus d'apprentissage, nous avons effectué une procédure de sélection de caractéristiques simple (en arrière) par laquelle nous excluons un ensemble de caractéristiques dans chaque exécution SVM et évaluons le changement de performance. Un seul ensemble de caractéristiques a été défini comme un ensemble de tous les paramètres qui ont une propriété commune et sont hautement interdépendants, par exemple, la conservation des introns a été calculée pour cinq fenêtres qui se chevauchent, les valeurs de conservation moyennes pour chaque fenêtre séparément et la moyenne sur toutes les fenêtres ensemble ont été prises en compte. comme des caractéristiques uniques dans le vecteur tandis qu'un ensemble de toutes ces caractéristiques ensemble était considéré comme un ensemble de caractéristiques, nommé « conservation des introns ». Pour chaque ensemble, nous avons calculé un AUC, qui est la différence entre la valeur AUC globale obtenue avec le vecteur complet et la valeur AUC atteinte lorsque l'ensemble spécifique a été éliminé.

Comme le montre la figure 5, les caractéristiques qui se sont avérées contribuer principalement aux performances SVM dans les groupes FAR et MID étaient la conservation intronique (en particulier dans le groupe MID) et les caractéristiques PPT, y compris à la fois la longueur PPT et la distance relative de le PPT au site d'épissage. Fait intéressant, l'effet de la suppression du PPT ou des ensembles de caractéristiques de conservation intronique du groupe FAR était très similaire, suggérant qu'ils sont tous deux importants dans ce dernier groupe.En revanche, la suppression de l'ensemble de conservation du groupe MID a eu un effet remarquable par rapport à la suppression de l'ensemble PPT, suggérant que dans ce sous-ensemble, la contribution de chacun des paramètres au processus d'apprentissage est différente. Ce résultat pourrait être dû au fait que le groupe MID comprend les séquences limites et peut représenter une distribution mixte. Dans le groupe CLOSE, le changement le plus significatif de la valeur AUC est survenu lorsque les caractéristiques PPT ont été éliminées. De plus, nous avons observé une réduction plus faible des performances SVM lors de l'élimination de chacune des autres fonctionnalités du classificateur CLOSE. Cela indique que dans le groupe CLOSE (différent du groupe FAR et MID), le processus d'apprentissage est principalement régi par un ensemble de fonctionnalités unique. Dans le groupe NAGNAG-proximal, les caractéristiques les plus notables étaient les sites d'épissage suivis de la conservation intronique. Ceci est en accord avec les résultats de l'analyse statistique de la présente étude et des observations précédentes (10, 13). Dans l'ensemble, le test de sélection des caractéristiques était cohérent avec l'analyse statistique. Néanmoins, ces derniers résultats renforcent le fait que les différences entre AS et CS ne reposent pas sur des paramètres uniques, mais plutôt sur une combinaison de plusieurs caractéristiques de séquence.

Les valeurs ΔAUC pour les différents ensembles de caractéristiques sont tracées pour les groupes FAR (noir), MID (rouge), CLOSE (vert) et NAGNAG-proximal (bleu). Les ensembles de caractéristiques sont les sites d'épissage (SS), la conservation intronique (CON), le tractus polypyrimidine (PPT), les pseudo sites d'épissage (PSE) et le contenu GC (GC).

Les valeurs ΔAUC pour les différents ensembles de caractéristiques sont tracées pour les groupes FAR (noir), MID (rouge), CLOSE (vert) et NAGNAG-proximal (bleu). Les ensembles de caractéristiques sont les sites d'épissage (SS), la conservation intronique (CON), le tractus polypyrimidine (PPT), les pseudo sites d'épissage (PSE) et le contenu GC (GC).


Partie 2 : Structure et dynamique des spliceosomes

00:00:00.02 Bonjour, je suis Melissa Moore de la faculté de médecine de l'Université du Massachusetts.
00:00:03.24 et le Howard Hughes Medical Institute et dans cette conférence
00:00:06.28 Je vais vous parler de certains travaux de notre propre laboratoire
00:00:09.27 sur la structure et la dynamique des spliceosomes. Alors comme nous l'avons vu dans
00:00:14.15 la première conférence, les gènes eucaryotes sont divisés, en ce sens qu'ils
00:00:20.00 ont exprimé des régions ou des exons, ici, et des introns.
00:00:26.13 Et les introns doivent être supprimés et dans mon précédent
00:00:30.21 dessin animé Je viens d'utiliser des ciseaux et du ruban adhésif. Alors dans cette conférence
00:00:34.15 nous allons parler de "Quelle est la nature de ces
00:00:36.27 des ciseaux et du ruban adhésif, et comment réagissent-ils réellement ? »
00:00:39.25 Parlons d'abord de la façon dont l'épissage se produit réellement.
00:00:45.17 Et cela se produit en deux étapes chimiques. Dans la première étape
00:00:50.18 de l'épissage, le site de la succursale--donc nous en avons parlé, c'est un
00:00:54.11 a conservé l'adénosine dans l'intron près du site d'épissage 3 premiers.
00:00:58.19 Le 2 premier hydroxyle du site de ramification attaque le phosphate
00:01:05.07 sur le site d'épissage 5 premier, et cela génère un intermédiaire lariat,
00:01:10.11 qui a un 2 premiers, et 5 premiers et un 3 premiers phosphates
00:01:13.23 tout sort de cette adénosine. Et il libère le 5 prime
00:01:17.23 exon. Maintenant que 5 premiers exons ne flottent pas, ça va être
00:01:24.10 retenu par les machines d'épissage, dont nous allons parler
00:01:27.09 dans un instant. La deuxième étape de l'épissage - voici donc les intermédiaires
00:01:33.22 dans la réaction. Ce 3 hydroxyle premier qui a été généré
00:01:38.15 dans la première étape sur l'exon 5 premier - il attaque maintenant le
00:01:42.16 phosphate sur le site d'épissure 3 premier, et maintenant il s'éteint
00:01:47.28 l'intron et ligature les deux exons ensemble. Maintenant nous
00:01:53.09 sachez que c'est la chimie et que ceux-ci se produisent comme un seul
00:01:57.27 réactions de transestérification. Les deux étapes de l'épissage
00:02:01.28 sont catalysés par un grand complexe dans la cellule appelé spliceosome.
00:02:09.06 Le spliceosome est sans doute la machine macromoléculaire la plus compliquée
00:02:13.26 dans la cellule, comme nous le verrons dans un instant. Et le spliceosome consiste
00:02:17.24 de quatre gros morceaux, de gros morceaux, des sous-unités qui doivent
00:02:23.23 se réunissent à chaque tour d'épissage dans ce complexe
00:02:27.04 danse appelée le cycle des spliceosomes dont nous allons parler
00:02:30.07 en quelques diapositives. Mais ce que je veux te montrer ici c'est que
00:02:34.12 les morceaux du spliceosome, les morceaux principaux sont ceux-ci
00:02:38.13 composants appelés U1, U2, le triple snRNP U4/5/6 et le complexe NineTeen,
00:02:46.00 ou le NTC. Maintenant, quelles sont ces choses ?
00:02:49.17 Maintenant, quelles sont ces choses U1, U2 que je vous ai montrées dans la dernière diapositive ?
00:02:57.06 Eh bien, ce sont des soi-disant snRNP pour les petits complexes nucléaires de protéines d'ARN.
00:03:03.21 Et donc chacun de ces snRNP se compose d'un petit ARN nucléaire
00:03:07.27 quelque part entre une centaine et quelques centaines de nucléotides.
00:03:12.19 C'est un ARN stable complexé avec un ensemble de protéines. Donc pour
00:03:17.00 exemple, U1 snRNP contient U1 snRNA et un ensemble de protéines de base
00:03:23.05 appelé les protéines Sm. Il y a sept protéines. Ils font un
00:03:26.08 structure en forme d'anneau, et vous pouvez voir qu'ils sont communs à
00:03:29.18 beaucoup de snRNPS. Et puis quelques protéines spécifiques
00:03:32.26 qui sont communs à U1 snRNP et dans le cas de U1--70K, A et C.
00:03:38.03 U2 est plus compliqué, et ce sont toutes les protéines qui sont
00:03:42.10 associé à U2 snRNP. Et puis avec le triple snRNP,
00:03:46.09 un soi-disant triple snRNP parce qu'il a trois petits nucléaires
00:03:50.14 Il contient des ARN, et il contient encore plus de protéines.
00:03:55.17 En plus des snRNP, il y a le complexe NineTeen, donc
00:04:00.12 nommé parce qu'il contient une protéine appelée Prp19 et
00:04:05.15 ses facteurs associés. C'est donc comme un snRNP sauf qu'il
00:04:10.02 ne contient pas de composant ARN. Et puis en plus
00:04:13.25 à ces principaux composants stables, il y a aussi des choses appelées
00:04:18.11 facteurs d'épissage et ce sont des protéines qui vont et viennent,
00:04:22.10 mais ne sont pas associés de manière stable à un seul snRNP.
00:04:26.05 Et inclus dans cette classe sont les hélicases à ARN qui modifient le
00:04:32.29 structure des ARN ou peut changer la structure des complexes de protéines d'ARN.
00:04:39.02 Il existe certainement des protéines de liaison à l'ARN, nous en avons parlé
00:04:42.12 deux des classes de ceux de la dernière leçon - les protéines SR
00:04:46.06 et les protéines hnRNP. Et il y a des protéines inattendues
00:04:51.05 comme les isomérases cis/trans prolyl et les ubiquitine ligases.
00:04:54.25 Au total, la liste complète des pièces du spliceosome telle que nous la comprenons maintenant
00:05:01.23 se compose de 5 snRNA (U1, U2, U4, U5 et U6) et d'une centaine
00:05:09.26 protéines dans la levure, une centaine de protéines différentes, et environ
00:05:12.25 trois cents protéines différentes chez l'homme. Et la raison pour laquelle le
00:05:17.13 les machines d'épissage humain sont tellement plus compliquées
00:05:19.17 que les machines d'épissage de levure, vous pouvez imaginer
00:05:22.11 pourquoi parce que nous avons tellement d'introns différents, et nous faisons tout
00:05:25.07 cet épissage alternatif que la levure ne fait pas. Et donc la plupart
00:05:28.08 de ces protéines, les extras, sont impliquées dans l'épissage alternatif.
00:05:32.00 Maintenant, laissez-moi vous parler un peu des snRNA. Ils s'appellent
00:05:36.03 "U" snRNA parce que ce sont des ARN riches en uridine, et leur
00:05:40.23 la numérotation est venue de - si l'on purifie simplement tous les ARN stables
00:05:47.27 hors du noyau et les exécute sur un gel, le plus abondant
00:05:53.01 l'un est U1, le deuxième plus abondant est U2, et ainsi de suite.
00:05:57.06 Et il s'avère que U3 existe, mais il est impliqué dans la biogenèse des ribosomes
00:06:03.28 comme U7. Mais les cinq autres des six plus abondants
00:06:09.29 sont tous impliqués dans l'épissage pré-ARNm, ou le spliceosome.
00:06:14.13 Nous voici au spliceosome, de retour au cycle du spliceosome,
00:06:17.15 et nous allons regarder cela d'un peu plus près car
00:06:20.18 Je vais vous parler de quelques expériences que nous avons récemment
00:06:22.29 fait pour tester ce cycle. Ainsi, dans la première partie du cycle,
00:06:27.24 au début de l'assemblage du spliceosome, U1 snRNP interagit avec
00: 06: 33.23 le 5 site d'épissage principal et le snRNA U1 en fait des paires de bases
00:06:38.22 et reconnaît le 5 site d'épissage principal. De même, U2 snRNA
00:06:44.29 paires de bases avec et reconnaît la séquence consensus du site de branche,
00:06:49.22 et le snRNA U2, lorsqu'il rejoint le snRNA U1, forme un complexe.
00:06:56.03 Le complexe E signifie complexe "précoce", puis A, B et C sont...
00:07:02.21 nous verrons dans une minute - ont été nommés par l'endroit où ils ont couru
00:07:06.07 sur un gel. Donc, un complexe vient en premier, puis le prochain gros morceau
00:07:11.12 du spliceosome qui entre est le triple snRNP--
00:07:15.17 U4/5/6. Une fois que le triple snRNP est là, nous avons le complexe B.
00:07:21.10 Ensuite, il y a un réarrangement structurel, où U1 snRNP est en fait
00:07:26.24 éjecté. C'est expulsé, et d'une manière ou d'une autre les choses sont réarrangées comme
00:07:31.20 que le snRNA U6 interagit avec le site d'épissage 5 prime. Dans un autre réarrangement
00:07:38.27 U4 snRNP est expulsé, puis le complexe NineTeen arrive,
00:07:47.17 et maintenant nous avons le spliceosome catalytiquement actif, où la première étape
00:07:53.18, puis la deuxième étape de l'épissage se produit. Une fois la deuxième étape de l'épissage
00:07:58.01 est terminé, le produit d'épissage est libéré et l'intron épissé
00:08:05.21 part avec le reste du spliceosome. Cette machine à épisser doit se démonter,
00:08:10.27 et puis il est remonté à chaque nouvelle série d'épissage, donc ergo
00:08:15.29 le cycle des spliceosomes. Alors, comment savons-nous beaucoup de ces détails du mécanisme
00:08:22.04 dont je vous ai parlé ? Eh bien, l'un des moyens que nous connaissons est par
00:08:25.19 effectuer des réactions d'épissage in vitro. Ainsi, dans une réaction d'épissage in vitro,
00:08:31.15 nous prenons un morceau d'ARN, généralement un morceau d'ARN qui serait un couple
00:08:37.19 centaines de nucléotides qui consisteraient en un exon avec un intron
00:08:42.16 suivi d'un exon en aval. Et le petit astérisque ici, les astérisques rouges,
00:08:49.01 doivent indiquer que cet ARN serait marqué radioactivement, donc nous
00:08:53.04 transcrivez-le in vitro et placez des nucléotides radioactifs partout.
00:08:59.23 Nous mélangeons ensuite cet ARN avec l'un ou l'autre des extraits de cellules entières si nous travaillons sur le spliceosome de levure
00:09:05.08 ou extrait nucléaire si nous travaillons sur le spliceosome humain. Et par exemple, nous
00:09:09.20 pourrait l'obtenir des cellules HeLa, qui est une cellule de culture tissulaire très courante pour les humains.
00:09:15.01 Et puis aussi l'ATP parce que l'ATP est essentiel pour l'épissage parce que la plupart des
00:09:21.21 transitions spliceosome que je vous montrais ici toutes celles
00:09:26.12 après la formation du complexe E, chacune de ces étapes nécessite de l'ATP et
00:09:32.07 en faisant également le tour de l'arrière ici. Maintenant, pourquoi utilisons-nous un extrait de cellules entières
00:09:38.01 ou extrait nucléaire ? Eh bien, je viens de vous dire que la machine à épisser est
00:09:43.08 incroyablement compliqué. Il a dans la levure une centaine de polypeptides différents
00:09:48.15 chez l'homme, trois cents polypeptides différents. Il n'y a vraiment tout simplement pas
00:09:51.26 manière dont nous pouvons purifier chacune de ces protéines, ayez cela
00:09:56.23 dans un tube à essai et reconstituer entièrement la machinerie. Alors en ce moment, le
00:10:01.10 la meilleure façon d'étudier le spliceosome est tout simplement presque dans sa forme native
00:10:04.12, et c'est dans un extrait cellulaire non fractionné. Donc si on prend alors
00:10:11.16 ces réactions d'épissage et retirer les points de temps, puis purifier
00:10:17.23 l'ARN radioactif et l'exécuter sur un gel dénaturant--et dans ce cas un
00:10:22.07 gel dénaturant à pourcentage assez élevé - ce que nous pouvons voir, c'est que c'est fini
00:10:26.16 (et ce temps va d'environ zéro à soixante minutes
00:10:31.23 in vitro) on voit le substrat disparaître progressivement. Et puis au début
00:10:40.11 points de temps, les deux intermédiaires de l'épissage apparaissent, le lariat intermédiaire
00:10:44.11 et l'exon 5 premiers. Et puis vous pouvez voir à des moments ultérieurs le
00:10:49.18 produit lariat, le produit intron et le produit exon épissé
00:10:56.22 apparaissent. Et la raison pour laquelle les lariats débordent de gel, même si
00:11:01.26 ils sont plus petits que l'ARN pré-messager, c'est qu'ils ont ce
00:11:06.21 structure circulaire, et à cause de cette structure inhabituelle, ils sont retardés
00:11:11.17 dans le gel plus qu'un ARN linéaire et donc ils courent en fait plus haut que
00:11:16.16 vous attendez. Mais maintenant si à la place nous prenons cette même réaction d'épissage
00:11:23.27 mais ne purifiez pas l'ARN et exécutez-le simplement sur un gel natif, alors maintenant nous sommes
00:11:30.05 en regardant les complexes qui contiennent l'ARN. Ici, nous pouvons voir ceux
00:11:35.12 complexes dont je vous ai déjà parlé. Voici donc le complexe E, le premier complexe,
00:11:39.18 A, B et C et ils s'accumulent et disparaissent avec le temps, comme vous pouvez vous y attendre.
00:11:45.29 Et c'est de là que viennent les noms de ces différents complexes,
00:11:49.10 simplement par leur migration sur le gel. Bon, maintenant ces différents
00:11:57.05 les complexes peuvent être purifiés. Ils sont stables. Ils sont suffisamment stables pour
00:12:01.11 survivre à un gel natif, et il y a eu de nombreuses façons différentes de concevoir maintenant
00:12:07.13 pour purifier les différents complexes. Voici un exemple de mon laboratoire.
00:12:11.17 Ce que nous avons fait, c'est que nous avons pris un substrat d'épissage, où nous avons muté
00:12:15.20 le site d'épissure 3 principal, de sorte que les machines d'épissage pourraient s'accumuler sur
00:12:19.28 l'ARN. Il pourrait faire la première étape, mais il ne pourrait pas faire la deuxième étape
00:12:24.11 parce que le site d'épissage 3 premiers a été muté. Et dans cet intron, nous avons construit
00:12:30.04 tiges-boucles reconnues par la protéine MS2, qui est une enveloppe virale
00:12:35.06 protéine qui se lie très étroitement à sa séquence de reconnaissance. Ce manteau viral
00:12:40.09 une protéine appelée MS2 que nous avons liée à une protéine de liaison au maltose. Liaison de maltose
00:12:45.13 la protéine aime se lier à la résine d'amylose, nous pourrions donc l'utiliser comme affinité
00:12:50.12 tag pour éliminer ces spliceosomes et les purifier. Et vous pouvez voir ici
00:12:56.07 une image EM de ces spliceosomes et les spliceosomes sont tous
00:13:02.24 environ 20-30 Angströms en taille. Maintenant, à partir de ces images EM, vous pouvez faire
00:13:11.07 reconstruction d'une seule particule pour commencer à obtenir les structures de la machine d'épissage.
00:13:17.27 Et à ce stade, par rapport au ribosome, par exemple, le
00:13:25.08 les informations structurelles dont nous disposons pour le spliceosome sont plutôt limitées.
00:13:30.13 Nous avons maintenant des structures cristallines -- deux structures cristallines différentes de U1 snRNP,
00:13:36.20 qui est le plus courant des snRNP. Et ceux-ci sont à 5,5 et 4,4
00:13:43.08 Résolution en Angström, donc assez pour voir l'ARN et les protéines.
00:13:49.13 Mais pour les plus gros complexes, on est encore à la microscopie électronique
00:13:54.09, et donc par exemple, voici quelques images du labo de Reinhardt Luhrmann
00:13:57.28 des complexes d'épissage de levure - le complexe B, le complexe B activé
00:14:04.04 puis le complexe C, qui est le spliceosome qui a des intermédiaires
00:14:08.12 dedans. Et donc dans les années à venir, nous sommes vraiment - la communauté de l'épissage - est
00:14:14.08 vraiment du mal mais j'ai hâte d'avoir des structures haute résolution
00:14:19.09 parce que nous aimerions vraiment voir où toutes ces parties se lient
00:14:22.19 et comment ils s'assemblent tous pour former ces machines vraiment remarquables.
00:14:27.09 En attendant, c'est là où nous en sommes sur le front structurel. Dans
00:14:34.11 en plus de la structure de tout complexe ou machine biochimique, vous
00:14:38.29 vraiment besoin de noter quelque chose sur leur dynamique, donc j'ai passé en revue cela
00: 14: 42.29 tout le cycle d'épissage avec vous, mais comme je l'ai expliqué précédemment, le cycle d'épissage est
00:14:47.17 basé sur des complexes suffisamment stables pour être résolus
00:14:54.14 sur un gel ou vous pouvez les purifier par affinité. Mais il ne vous parle pas de
00:15:00.19 la cinétique des choses qui vont et viennent. Alors par exemple, est-ce que ça va être vrai
00:15:07.00 que sur chaque intron U1 doit venir avant U2, et ces deux doivent-ils venir avant
00:15:14.01 le triple snRNP ? Et toutes ces flèches que nous montrons ici sont à sens unique
00:15:19.12 flèches, mais la plupart des réactions biochimiques et des réactions chimiques sont vraiment
00:15:23.11 bidirectionnel. Alors, ces flèches sont-elles vraiment à sens unique : est-ce une rue à sens unique ?
00:15:28.07 Ou ce processus est-il réversible d'une manière ou d'une autre ? Donc pour obtenir cette information
00:15:34.07 mon laboratoire a récemment collaboré avec le laboratoire de Jeff Gelles
00:15:39.02 à l'Université Brandeis et Virginia Cornish à l'Université Columbia
00:15:43.29 ainsi que certains collègues de New England Biolabs pour développer de nouveaux
00:15:48.12 pour étudier la dynamique du spliceosome. Le principal
00:15:53.27 méthode que nous avons utilisée est appelée réflectance interne totale.
00:15:59.08 Voici une expérience que vous pouvez essayer chez vous. C'est donc simplement un laser
00:16:03.21 pointeur qui va dans un aquarium d'eau. Et si vous positionnez correctement
00:16:11.12 le pointeur laser à l'angle critique, quand il y a un changement de
00:16:15.23 indice de réfraction, dans ce cas entre l'eau et l'air, puis tout le laser
00:16:20.23 la lumière sera complètement réfléchie, c'est ce qu'on appelle la réflectance interne totale.
00:16:25.05 Sauf qu'à l'endroit où le laser entre en contact, il y a un peu de
00:16:34.15 énergie qui passe de l'autre côté, appelée onde évanescente.
00:16:38.13 Donc l'onde évanescente - dans ce cas maintenant nous allons avoir les lasers
00:16:44.26 venir dans les airs jusqu'à une lame de microscope. Voici donc le changement
00: 16: 49.02 en indice de réfraction va de la lame de microscope à l'eau
00:16:56.14 couche au-dessus de la lame de microscope. L'onde évanescente ira
00:17:00.05 cent nanomètres dans la solution au-dessus de la lame du microscope.
00:17:05.25 Imaginez donc avoir non pas un seul laser mais disons trois couleurs différentes
00:17:11.17 de lasers. Il s'avère que nous pouvons maintenant faire cinq lasers. Je vais seulement vous en montrer trois,
00:17:16.05 trois aujourd'hui. Mais imaginez avoir trois couleurs différentes de lasers
00: 17: 23.23 à leurs angles critiques, et ayant quelque chose attaché à la surface
00:17:27.25 dans ces 100 nanomètres et ayant des molécules fluorescentes
00:17:34.07 dans les couleurs excitées par vos trois lasers différents. Donc les molécules
00:17:41.14 qui sont en solution au-dessus de l'onde évanescente ne sont pas fluorescents
00:17:45.25 parce qu'ils sont en dehors de la zone où se trouve l'énergie lumineuse. Et donc
00:17:51.10 seules les molécules qui sont attachées à la surface vont être fluorescentes.
00:17:55.07 Nous pouvons donc utiliser ceci pour demander tout ce qui est attaché à la surface
00:18:01.02 quelles différentes molécules colorées à un moment donné sont associées au
00:18:05.13 molécule attachée à la surface. Voyons donc à quoi cela ressemble.
00:18:09.04 Alors imaginez que vous regardez cette surface et que nous allons être
00:18:13.27 en regardant les molécules à la surface. On appelle donc cette technique la colocalisation
00:18:20.21 de spectroscopie de molécules uniques, ou CoSMos. Et cette technique était
00:18:25.13 lancé par Jeff Gelles et son collègue Larry Friedman chez Brandeis
00:18:29.00 Université. Nous examinons donc ici la fluorescence, et chacun des
00: 18: 35.29 ces taches sont une seule molécule sur une lamelle de verre qui a différentes couleurs
00:18:42.21 choses dessus. Dans ce cas, les molécules sont un brin d'ADN, et le
00: 18: 49.16 les choses colorées sont des oligos différents qui sont complémentaires à ce brin d'ADN,
00:18:53.22 mais ils ont des fluorophores différents dessus. Et ainsi vous pouvez voir pour
00: 18: 57.12 exemple que cette molécule d'ADN avait les trois oligos liés à elle
00:19:04.18 mais cette molécule d'ADN n'avait que celle-ci--seulement avait le vert et le
00:19:10.04 bleu lié à celui-ci. Et tu peux voir, en voici un qui n'avait que le bleu
00:19:13.19 molécule qui y est liée. C'est donc très simple car tout ce que nous faisons c'est
00:19:18.25 nous examinons ceci, disons, des constellations, différentes constellations de taches
00:19:23.17 et nous allons apprendre quelque chose sur notre système biologique.
00:19:27.09 Et en particulier si nous pouvons regarder comment ces taches changent au fil du temps,
00:19:33.13 nous pouvons en apprendre davantage sur la dynamique du système. Maintenant afin de
00:19:37.19 utiliser ceci pour étudier le spliceosome, nous avons dû développer un certain nombre de
00:19:42.01 technologies différentes ou nouvelles pour nous permettre d'étiqueter des parties du spliceosome
00:19:46.22 pour que nous puissions les voir. Et donc l'une des choses que nous devions faire
00: 19: 51.18 était de créer des pré-ARNm marqués par fluorescence parce que nous devons savoir
00:19:57.21 où les pré-ARNm sont à la surface. Nos pré-ARNm doivent également
00:20:02.26 ont un moyen d'être attaché à la surface. La façon dont nous le faisons est de
00:20:06.13 mettre une molécule de biotine à une extrémité, et puis nous avons aussi de la biotine sur le
00:20:12.05 surface vitrée. Nous avons du PEG biotinylé - du polyéthylène glycol.
00:20:17.19 Et puis nous faisons un sandwich, où nous avons de la streptavidine. Streptavidine
00:20:21.24 peut lier quatre molécules de biotine, vous pouvez donc l'utiliser pour faire un
00:20:25.11 sandwich et lier votre ARN là-bas. Maintenant, l'autre chose que nous devions
00:20:30.07 développer étaient d'autres moyens de marquer les snRNP parce que ce que nous avons vraiment
00:20:33.27 voulait faire était de regarder les snRNP aller et venir en temps réel.
00:20:37.22 Donc, la façon dont nous marquons les snRNP utilise deux marqueurs protéiques.
00:20:44.22 L'une est la balise SNAP qui a été développée par Kai Johnsson et qui est maintenant
00:20:49.17 disponible via New England Biolabs. SNAP est basé sur une protéine qui
00: 20: 55.12 est une enzyme suicide qui élimine les groupes alkyle des nucléotides de guanine
00:21:01.23 d'ADN. Et ainsi, il transfère ces groupes alkyle à lui-même. Alors dans ce cas
00:21:08.03 si vous avez de la benzyle guanine--donc voici la guanine et puis il y a un groupe benzyle
00:21:13.19 dessus et si vous y attachez un colorant fluorescent, la protéine du tag SNAP
00:21:20.05 transférera ce colorant sur lui-même, et si vous avez créé une protéine de fusion
00:21:25.21 entre le tag SNAP et votre protéine d'intérêt - dans ce cas un
00:21:30.08 protéine snRNP - vous pouvez alors étiqueter spécifiquement votre protéine snRNP.
00:21:34.29 Ici, l'autre étiquette que nous avons utilisée est la DHFR d'E. coli,
00: 21: 42.03 étiquette dihydrofolate réductase, et la dihydrofolate réductase bactérienne se lie
00:21:50.08 très étroitement au triméthoprime--cette molécule ici. C'est un non covalent
00:21:54.15 interaction. Le triméthoprime est un inhibiteur de la DHFR d'E. coli mais cette molécule
00:21:59.29 ne se lie pas au DHFR eucaryote. Mais il s'agit d'une interaction très étroite et
00:22:07.29 à nouveau si nous attachons un colorant avec cela, ce colorant interagira avec notre DHFR
00:22:13.14 et nous permet d'étiqueter cette protéine. Et cette technologie était
00:22:19.18 développé par Virginia Cornish et ses collègues de l'Université Columbia.
00:22:23.22 Alors comment obtenir ces balises sur nos snRNP ? La façon dont nous procédons est
00:22:29.17 nous utilisons le système de levure et nous utilisons la recombinaison homologue.
00:22:33.16 Nous fabriquons donc des versions de différents gènes de protéines que nous voulons
00:22:38.09 tag - dans ce cas, deux protéines U1 et une protéine U2. Nous plaçons ensuite la balise
00:22:45.22 d'intérêt à l'extrémité C-terminale de cette protéine, ou le gène de cette protéine
00:22:50.00 et puis nous avons un fabricant sélectionnable. Et nous utilisons homologue
00:22:54.25 recombinaison pour mettre ces gènes modifiés dans la levure haploïde. Et
00: 23: 01.11 cela signifie que le seul gène qui code cette protéine dans la levure est
00:23:07.17 notre protéine d'intérêt - notre protéine étiquetée. Alors de ces levures
00:23:13.15 souches, nous pouvons faire un extrait de cellule entière. Et dans ce cas on a U1
00:23:18.15 ayant deux balises DHFR sur deux protéines différentes, ou U1 ayant deux balises
00:23:26.03 et U2 ayant une étiquette SNAP dessus, donc une souche à triple étiquette. Nous avons ensuite
00:23:33.06 prenez ces extraits et nous pouvons simplement ajouter le TMP à l'étiquette
00:23:40.17 le DHFR ou pour étiqueter le tag SNAP, nous prenons notre Benzylguanine qui a un
00:23:46.15 étiquette fluorescente dessus. Nous réagissons avec l'extrait cellulaire entier. Nous supprimons
00:23:52.07 l'excès de colorant par filtration sur gel et maintenant nous pouvons ajouter notre TMP. Et donc
00:23:58.04 ce qui est vraiment génial avec ce système, c'est tout d'abord que nous savons que le
00:24:04.00 les protéines que nous marquons sont actives car 1) elles sont la seule copie de
00:24:08.09 la protéine dans la cellule et nous ne marquons que les protéines essentielles.
00:24:14.29 De nombreuses protéines du spliceosome sont essentielles, et nous savons donc
00:24:20.07 que si les cellules se développent, parce que l'épissage est essentiel, alors cette protéine
00:24:24.06 doit être actif. Deuxièmement, il n'y a absolument aucune reconstitution de protéines
00:24:29.04 requis, donc nous ne fabriquons pas de protéines recombinantes, nous les purifions
00:24:32.25 et les remettre. Nous utilisons les protéines endogènes. Nous venons
00:24:36.08 a ajouté une petite étiquette de protéine à la chose. Voyons maintenant comment ces
00:24:43.03 les expériences vont continuer. Nous allons donc avoir notre pré-ARNm
00:24:50.18 qui est attaché à la surface via ce sandwich biotine-streptavidine.
00:24:54.12 Il contient un fluorophore pour que nous puissions savoir où se trouve le pré-ARNm
00:24:58.24 molécules le sont. Et c'est en fait une vue au microscope de
00:25:04.09 à quoi ressemble un champ de ces pré-ARNm, où chacun de ces spots
00:25:08.21 est une seule molécule de pré-ARNm. Et dans les films je vais montrer
00: 25: 15.11 vous, nous allons examiner la liaison du snRNP U1 à ces pré-ARNm
00:25:21.20 au fil du temps dans les réactions d'épissage. Une des choses à propos d'une molécule unique
00:25:27.09 réactions est que vous voyez vraiment tout ce qui se passe--
00:25:36.11 tout ce qui est fluorescent, tout type de poussière ou tout ce que vous pouvez voir,
00:25:41.01 donc vous devez vraiment faire beaucoup de contrôles pour vous assurer que vous savez ce que
00:25:44.21 vous regardez. Alors la première chose que je vais te montrer est un film
00:25:48.19 où nous faisons quelques contrôles, où soit nous avons laissé le
00:25:54.13 ARN fluorescent, ou nous n'avons pas les tags sur U1 snRNP (et donc nous
00:26:00.28 ne s'attendrait pas à un signal) ou nous avons la réaction complète où nous
00:26:04.19 ont l'ARN marqué par fluorescence et le snRNP marqué par fluorescence.
00:26:09.07 Alors regardons ce film. Ce film montre deux champs de vision de contrôle
00:26:19.21 puis un champ de vision expérimental sur la droite. Le champ de vision
00:26:24.28 tout à gauche, nous avons le pré-ARNm de type sauvage présent.
00:26:31.21 Nous ne pouvons pas voir cela dans ce champ de vision parce que nous ne regardons pas dans ce
00:26:35.13 canal. Nous regardons le canal Cy3, qui est le canal TMP.
00:26:39.18 Et nous avons aussi le Cy3-TMP dans l'extrait, mais il n'y a pas de tag
00:26:44.05 protéine. Vous pouvez donc voir que nous avons un peu d'expérience avec
00:26:48.07 matériel lié de manière non spécifique à la diapositive et c'est pourquoi c'est important
00:26:55.07 pour faire ces contrôles, pour s'assurer que votre arrière-plan n'est pas trop élevé.
00:26:59.06 Dans le panneau du milieu, nous avons maintenant le tag U1 et le Cy3-TMP
00:27:07.24 mais nous n'avons aucun pré-ARNm sur la diapositive, donc encore une fois nous ne voyons que
00:27:11.26 reliure d'arrière-plan. Et puis dans le panneau le plus à droite, qui est celui
00:27:16.14 avec toutes les lumières clignotantes, nous avons les trois composants. Nous avons donc
00:27:21.05 marqué U1. Nous avons le pré-ARNm à la surface et nous avons Cy3-TMP.
00:27:28.11 Maintenant, une chose que vous pouvez voir immédiatement, c'est que l'interaction U1
00:27:35.03 avec les ARN est très dynamique. Donc même en l'absence d'ATP, U1
00:27:40.27 se lie et libère plusieurs fois de chaque pré-ARNm. Maintenant que nous
00:27:48.28 sachez que notre système fonctionne, faisons vraiment quelques expériences. Et le
00:27:53.09 ce qui est vraiment cool à propos de ces expériences, c'est que vous pouvez juste voir
00:27:58.09 la réponse avec vos yeux. Alors je vais te montrer des films
00:28:04.15 ensuite, où nous avons mis deux balises fluorescentes sur chacun des principaux sous-complexes
00:28:10.00 Donc dans un extrait, dans un quadrant, vous allez voir extraire que
00:28:16.08 a des étiquettes sur U1 snRNP, comme vous l'avez déjà vu sur deux protéines différentes.
00:28:20.25 Ensuite, nous avons un autre extrait qui a des étiquettes sur U2 snRNP, sur le composant U5
00:28:26.21 du triple snRNP, et aussi sur le complexe NineTeen. Et dans cette première série de
00:28:34.12 films, nous n'aurons pas d'ATP présent, donc en l'absence d'ATP
00:28:40.27 nous savons d'après les études sur les gels que le seul complexe qui devrait
00:28:49.15 forme ce complexe E, donc seul U1 devrait être capable d'interagir de manière stable avec
00:28:55.02 l'ARN. Alors maintenant, regardons et voyons si c'est le cas.
00:29:02.22 Voici un film, montrant quatre extraits différents avec un snRNP différent
00:29:11.02 étiqueté dans chaque extrait - soit U1 dans le coin supérieur gauche, le triple snRNP
00:29:17.27 dans le coin inférieur gauche, U2 dans le coin supérieur droit ou le
00:29:22.06 NTC dans le coin inférieur droit. Et en l'absence d'ATP, que
00:29:28.05 vous pouvez voir comme nous l'avons vu dans les films précédents, que U1 arrive et se lie
00:29:34.18 de manière réversible, mais pour tous les autres snRNP, nous ne voyons aucune liaison significative
00:29:41.04 en arrière-plan. Si nous prenons les données de chacun de ces champs de vision
00:29:46.26 et comptez simplement le nombre de spots au fil du temps - le nombre total de spots
00:29:53.20 au fil du temps - ce que vous pouvez voir, c'est qu'en l'absence d'ATP, seul U1
00:29:58.27 s'accumule. Et aucun des autres snRNP ou NTC n'a vraiment beaucoup
00:30:05.07 occupation à tout moment en l'absence d'ATP. Alors maintenant, exécutons le
00:30:12.16 tout le cycle du spliceosome, alors maintenant nous allons ajouter de l'ATP et voir ce qui se passe.
00:30:19.17 Ce film est maintenant dans le même ordre qu'avant mais maintenant nous avons ajouté ATP
00:30:25.19 à la réaction. Et si vous regardez très attentivement, vous pouvez voir le
00:30:32.06 ordre apparent d'addition des snRNP. Si tôt dans le film,
00:30:37.03 et le film tourne en boucle, vous pouvez voir que U1 est contraignant
00:30:42.10 et va et vient. Le prochain snRNP à construire est U2, puis
00:30:52.02 après U2, nous commençons à voir U4, 5 et 6 monter. Et puis le NTC, nous
00:30:59.10 en voir moins, mais cela s'accumule beaucoup plus tard dans la réaction.
00:31:03.24 Donc, ce que vous pouvez voir dans ce film, c'est que nous pouvons voir en temps réel
00: 31: 12.04 les quatre de ces snRNP se lient à la surface recouverte de
00: 31: 16.22 molécules de pré-ARNm. Et comme je vais vous le montrer dans la diapositive suivante, nous pouvons voir
00: 31: 23.10 que tous les snRNP sont liés dynamiquement - c'est-à-dire qu'ils arrivent
00:31:27.08 et aller, qu'aucun d'entre eux ne vient et ne reste en permanence.
00:31:32.07 L'une des choses que vous pouvez voir dans ces films n'est pas seulement que nous pouvons
00: 31: 37.18 voir que tous les snRNP se lient en présence d'ATP, mais contrairement
00:31:42.11 le cycle du spliceosome que je vous ai montré auparavant avec toutes les flèches à sens unique,
00:31:47.12 tous les snRNP sont liés de manière réversible. Et nous pouvons voir cela par - voici en train de regarder
00: 31: 52.24 une molécule d'ARN individuelle, et nous examinons simplement l'intensité au fil du temps pour cela
00:32:00.07 une molécule d'ARN et vous pouvez voir pour U1 qu'elle s'est liée deux fois. Voici un ARN
00:32:05.16 molécule où deux molécules d'U2 se sont liées, U5 et le NTC. La raison
00:32:11.08 nous ne voyons pas seulement deux événements de liaison souvent surtout pour U1, nous allons
00:32:16.00 voir trois, parfois jusqu'à dix événements de liaison. La raison pour laquelle nous montrons
00:32:21.19 ces traces particulières est-ce qu'il vous montre que cette liaison est due à réversible
00:32:27.09 obligatoire et non due au photoblanchiment. Le photoblanchiment est donc toujours un problème
00: 32: 31.08 dans ces réactions à molécule unique car sous la lumière laser intense
00:32:36.09 les colorants peuvent souvent photoblanchir, puis ils deviennent blancs et quand
00:32:41.04 le signal disparaît vous ne savez pas si c'est parce que votre complexe a
00:32:44.13 est sorti de la vague évanescente ou votre teinture a photoblanchi. Alors ceci est
00:32:49.02 pourquoi nous avons attaché deux fluorophores différents à chaque snRNP parce que
00: 32: 53.13 lorsque nous voyons le comportement de progression, cela est soit dû à la libération de colorant
00:32:58.27 parce que nous utilisons le tag DHFR ou c'est dû au photoblanchiment. Mais ça
00:33:03.26 signifie que cette molécule qui est partie en une seule étape devait vraiment être un
00:33:08.26 molécule qui est partie. Tout le complexe a disparu. Parce que c'est très
00:33:14.28 improbable que vous ayez deux ou deux étapes de photoblanchiment simultanées
00:33:20.02 étapes de teinture simultanées. Et aussi vous pouvez voir qu'il est parti et puis
00:33:27.28 un autre est revenu. Encore une fois, c'est un autre des contrôles qui
00:33:32.13 que vous devez faire lorsque vous faites des expériences sur une seule molécule. Bien
00:33:36.14 alors en repensant à ces films, si nous comptons le nombre total de
00:33:41.16 spots dans chaque image et tracez simplement ce nombre ici, et ce serait le
00:33:46.19 nombre de colorants par molécule de pré-ARNm. Vous pouvez voir maintenant dans le
00:33:51.02 la présence d'ATP U1 s'accumule d'abord, puis U2, puis U5, puis le NTC
00:33:58.11 après ça. Cela nous donne donc un processus ordonné apparent pour le spliceosome
00:34:04.05, et c'est cohérent avec ça. Mais cela ne nous dit rien
00:34:09.13 une molécule que l'assemblage du spliceosome a été commandé. Mais nous pouvons
00:34:15.14 testez cela directement avec nos méthodes à molécule unique simplement en suivant
00:34:20.07 deux snRNP à la fois. Alors maintenant, nous allons faire des expériences en trois couleurs.
00:34:24.04 Donc une couleur sur le pré-ARNm, une couleur sur--dans ce cas--U2 snRNP,
00:34:30.25 et une autre couleur sur U1. Et dans la même expérience, en observant ces snRNPs
00:34:36.13 simultanément, nous pouvons voir est-ce que U1 vient en premier ou U2 vient en premier ?
00:34:43.25 Et voici à quoi ressemblent ces données. Voici donc encore un de ces
00: 34: 48.22 traces individuelles de molécule unique, mais il s'agit d'une molécule de pré-ARNm où
00:34:53.06 U1 et U2 sont arrivés au même pré-ARNm dans le même extrait. Et tu peux voir
00:34:59.22 très clairement que U1 est venu en premier, puis U2 est venu. Mais nous pouvons quantifier cela en
00:35:07.26 en mesurant le temps de marche pour U2 et U1 et en prenant cette différence,
00:35:14.00 l'heure d'arrivée de U2 moins l'heure d'arrivée de U1, et c'est le
00:35:20.10 délai entre les deux. Donc, si ce nombre est positif, cela signifie
00:35:24.24 U2 est venu après U1. Si ce nombre est négatif, cela signifie que U2 est venu avant U1.
00:35:32.08 Et puis nous pouvons regarder ce nombre sur de nombreuses molécules de pré-ARNm différentes.
00:35:38.08 C'est donc un tracé de densité de probabilité. C'est un graphique à barres où la probabilité
00:35:45.22 la densité est la hauteur du bac divisée par la largeur du bac. L'important à voir
00:35:51.16 c'est que nous examinons ici 82 molécules différentes et que presque toutes
00:35:55.20 avait un nombre positif pour ce tU2 moins tU1. Cela signifie donc que sur presque
00:36:02.20 tous, U2 est venu après U1. Maintenant, il y en avait quelques-uns ici où U2
00:36:08.18 est apparemment arrivé en premier, mais ce serait cohérent avec la quantité de
00:36:15.16 l'étiquetage de nos extraits car nous ne pouvons pas obtenir un étiquetage complet à 100%.
00:36:20.11 C'est impossible sans que nos extraits meurent. Nous avons donc environ 90%
00:36:27.05 l'efficacité de l'étiquetage dans nos extraits, et ce niveau serait cohérent avec
00:36:31.15 un U1 sombre venant avant U2. Ce n'est donc pas incompatible avec un modèle ordonné.
00:36:39.22 Nous avons donc fait cela pour toutes les paires des complexes. Voici U2 contre
00:36:46.28 U1. Il s'agit d'un autre ensemble de données maintenant avec 111 molécules. Voici U5
00:36:52.05 contre U2, et voici le NTC contre U5.Et vous pouvez voir tout cela,
00:36:57.27 la plupart des événements, vous donne un nombre positif donc le
00:37:04.21 le deuxième complexe est venu après le premier complexe. Et donc cela nous amène à
00:37:11.24 concluent que pour ce pré-ARNm particulier avec lequel nous avons travaillé
00:37:17.07 (et c'est RP51A - c'est un substrat d'épissage modèle dans la levure), c'est un très
00:37:22.29 voie d'assemblage ordonnée avec U1 précédant presque toujours U2 et
00:37:31.19 puis le triple snRNP, puis le NTC vient après. Mais ce que nous savons maintenant
00:37:37.07 c'est nouveau que nous ne savions pas avant, c'est que chaque étape de cette voie
00:37:42.11 est réversible. Cela signifie donc que le pré-ARNm n'est pas nécessairement
00:37:52.21 s'est engagé à réaliser l'épissage dès la première étape avec l'ajout de U1, mais cela
00:37:58.17 il s'engage de plus en plus au fur et à mesure que vous traversez le spliceosome
00:38:03.00 voie de montage. Aussi, en termes d'épissage alternatif dans le système humain
00:38:08.20 si le spliceosome peut être démonté, par exemple ici plus tard,
00: 38: 15.06 alors vous pouvez imaginer que vous pourriez empêcher l'épissage sur des sites d'épissage particuliers
00:38:19.02 n'importe où le long de ce chemin car il pourrait revenir en arrière le long de la
00:38:23.14 voie si elle est inhibée. Cela a donc des implications importantes pour notre compréhension
00:38:27.24 d'épissage alternatif. Enfin, je dois remercier les personnes qui ont réellement fait
00:38:32.13 le travail. Et évidemment, tout ce qui est compliqué a pris l'apport de beaucoup
00:38:39.07 personnes différentes. Et donc de mon laboratoire, je vous ai montré aujourd'hui les données de Melissa,
00:38:46.28 Aaron, Danny, Eric, Jing et Nick ont ​​contribué. De plus, tout ce travail a été fait en
00:38:53.28 collaboration avec le laboratoire de Jeff Gelles, qui a développé le CoSMos
00:38:57.10 la technologie, en particulier Larry et Alex. Et puis aussi le cornique
00:39:03.24, qui a développé la technique de marquage DHFR, et enfin le
00:39:08.23 New England Biolabs pour leur aide avec le tag SNAP. Et ce travail était
00:39:14.09 financé par HHMI et les National Institutes of Health. Merci beaucoup.
00:39:22.07

  • Partie 1 : Gènes divisés et épissage d'ARN

Variabilité de cellule à cellule de l'épissage alternatif de l'ARN

*Auteur correspondant. Département de biologie des systèmes, Harvard Medical School, 200 Longwood Ave. WAB 536, Boston, MA 02115, États-Unis. Tél. : +1 617 432 6401 Fax : +1 617 432 5012 E-mail : [email protected]

L'hétérogénéité des niveaux d'expression des gènes de mammifères est importante même dans les populations clonales et a des conséquences phénotypiques. L'épissage alternatif est un aspect fondamental de l'expression des gènes, mais sa contribution à l'hétérogénéité est inconnue. Ici, nous utilisons l'imagerie à molécule unique pour caractériser la variabilité cellule à cellule des rapports d'isoformes d'ARNm pour deux gènes endogènes, CAPRIN1 et MKNK2. Nous montrons que la variabilité des isoformes dans les cellules diploïdes non transformées est remarquablement proche du minimum possible étant donné la nature stochastique des événements d'épissage individuels, tandis que la variabilité dans les cellules HeLa est considérablement plus élevée. L'analyse des sources potentielles d'hétérogénéité du ratio d'isoformes indique qu'une différence dans le contrôle de l'activité du facteur d'épissage est une origine de cette augmentation. Notre approche d'imagerie visualise également l'ARNm non épissé de manière alternative et les sites de transcription actifs, et fournit des informations spatiales concernant la relation entre l'épissage et la transcription. Ensemble, nos travaux démontrent que les cellules de mammifères minimisent les fluctuations des rapports d'isoformes d'ARNm en régulant étroitement la machinerie d'épissage.

Synopsis

Le rôle du traitement de l'ARNm dans la variabilité de l'expression génique est mal caractérisé. Cette étude examine l'étendue de la variabilité de cellule à cellule de l'épissage alternatif de l'ARN dans les cellules de mammifères en utilisant l'imagerie à molécule unique des isoformes d'épissage CAPRIN1 et MKNK2.

L'expression biologique des gènes est un processus complexe qui comprend la transcription, le traitement de l'ARNm et la traduction. L'expression génique étant un aspect fondamental du comportement biologique, une question centrale dans les domaines de la biologie moléculaire et cellulaire est de savoir dans quelle mesure les cellules contrôlent efficacement l'abondance de leurs produits d'expression génique, ARNm et protéines.

Des études expérimentales et théoriques antérieures ont montré qu'il peut y avoir une variation substantielle de cellule à cellule dans l'expression des gènes, même entre des cellules génétiquement identiques cultivées dans des conditions uniformes. Cette variation s'est avérée importante dans une variété de contextes biologiques tels que le développement, la virologie, la fonction du système immunitaire et le traitement du cancer. Une source majeure de variabilité s'est avérée être l'éclatement transcriptionnel, ou le processus dans lequel les gènes sont exprimés sporadiquement séparés par de longues durées d'inexpression. De plus, étant donné que les réactions biochimiques qui régissent l'expression des gènes sont souvent médiées par des espèces moléculaires présentes en faible nombre, la variabilité peut résulter d'effets stochastiques en raison du risque aléatoire qu'une réaction biochimique individuelle se produise.

Le rôle du traitement de l'ARNm dans la variabilité de l'expression génique n'a pas été examiné de manière approfondie, en particulier en ce qui concerne l'épissage alternatif. L'épissage alternatif de l'ARN est une forme de traitement de l'ARNm qui conduit à la synthèse de plusieurs ARNm différents à partir d'un seul gène. Dans ce processus, l'ARNm naissant (pré-ARNm) d'un gène contient des séquences appelées introns qui peuvent être excisées dans différentes combinaisons pour générer plusieurs produits géniques, appelés isoformes. Comme l'épissage alternatif se produit dans la grande majorité des gènes humains, il présente une source potentiellement majeure de variabilité de cellule à cellule dans l'expression des gènes.

Dans cette étude, nous avons cherché à caractériser l'étendue de la variabilité de cellule à cellule qui découle de l'épissage alternatif de l'ARN. Pour ce faire, nous avons utilisé une approche d'imagerie à molécule unique basée sur la fluorescence in situ hybridation pour étudier la variabilité de cellule à cellule dans les rapports d'isoformes de deux gènes, CAPRIN1 et MKNK2, qui contiennent chacun deux isoformes d'épissage (figure 2 du manuscrit). En utilisant une lignée cellulaire diploïde non transformée dérivée par clonage (cellules Rpe1 - cellules épithéliales pigmentaires rétiniennes), nous avons constaté que la variabilité est remarquablement proche du minimum possible compte tenu de la probabilité probabiliste d'événements d'épissage individuels. En revanche, nous avons constaté que la variabilité du rapport isoforme était considérablement plus importante dans les cellules HeLa dérivées par clonage, une lignée cellulaire cancéreuse avec un caryotype instable. Pour expliquer les différences entre les deux lignées cellulaires, nous avons examiné plus en détail les origines potentielles de la variabilité du rapport isoforme. Nous avons d'abord étudié plusieurs sources connues de variabilité de l'ARNm, telles que l'éclatement transcriptionnel, mais avons constaté qu'elles ne contribuaient pas de manière significative à la différence entre les lignées cellulaires. Cependant, lorsque nous avons examiné le rôle des facteurs d'épissage dans le contrôle de la variabilité de cellule à cellule, nous avons constaté qu'un contrôle moindre de la régulation de l'épissage alternatif est probablement la principale source de cette différence.

La variabilité de cellule à cellule de l'expression des gènes due à l'épissage alternatif est une caractéristique inévitable de la biologie. Étant donné que les isoformes épissés peuvent avoir des fonctions cellulaires différentes et même opposées, il serait intéressant de voir si une telle variabilité peut avoir des conséquences phénotypiques dans divers contextes biologiques. Nous prévoyons que les travaux futurs mettront en lumière l'étendue de la variabilité de cellule à cellule de l'épissage alternatif pour des gènes supplémentaires, et pourraient identifier des événements d'épissage où l'hétérogénéité a un rôle fonctionnel important.