Informations

Comment télécharger les données omiques de ncbi ? (Données SRA ou suggestion ?)

Comment télécharger les données omiques de ncbi ? (Données SRA ou suggestion ?)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je me suis proposé de reproduire les résultats de cet article avec un numéro d'accession PRJNA325650. Donc, j'essaie de télécharger les données. Quelle sera la meilleure façon de le faire ?. J'ai essayé avec le sratoolkit et le package SRAdb en R mais cela ne fonctionne pas.

Mon code :

Dans sratoolkit

Saisir:

prélecture PRJNA325650

Sortir:

prefetch.2.10.5 err : erreur inattendue lors de la résolution de la requête dans le module de système de fichiers virtuel - échec de la résolution de l'accession 'PRJNA325650' - L'objet n'est pas disponible depuis votre emplacement. (406)

En R (SRAdb)

Saisir:

rs = listSRAfile(c("PRJNA325650"), sra_con, fileType = 'sra')

Sortir:

Erreur dans sraConvert(in_acc, out_type = c("study", "sample", "experiment", : le type d'entrée doit être dans 'SRA"ERA"DRA"SRP"ERP"DRP"SRS"ERS"DRS"SRX"ERX "DRX"SRR"ERR"DRR'

Des suggestions ou des méthodes?


J'ai jeté un coup d'œil, je peux voir les données au format FASTA. Le numéro d'accession est pour un projet avec 50 échantillons, chacun d'eux étant un cycle de séquençage.

Je suis d'abord allé à genbank à https://www.ncbi.nlm.nih.gov/

recherchez ce numéro d'adhésion en sélectionnant "toutes les bases de données" pour obtenir la page du projet ici https://www.ncbi.nlm.nih.gov/bioproject/325650

Sous « ressources », il y a « données de séquence » « expériences SRA »

à droite, j'ai cliqué sur le numéro 50, m'emmenant sur : https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=325650

Je vois la liste des 50 échantillons, en cliquant sur le premier j'arrive à : https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3667045

En cliquant sur « Exécutions », je suis dirigé vers une page contenant les données visibles sous de nombreuses formes. J'espère que cela t'aides.


Frontières en génétique

Les affiliations de l'éditeur et des réviseurs sont les dernières fournies sur leurs profils de recherche Loop et peuvent ne pas refléter leur situation au moment de la révision.


  • Télécharger l'article
    • Télécharger le PDF
    • LireCube
    • EPUB
    • XML (NLM)
    • Supplémentaire
      Matériel
    • Note de fin
    • Gestionnaire de référence
    • Fichier TEXTE simple
    • BibTex


    PARTAGER SUR

    Comment analyser les données NanoString nCounter avec ROSALIND

    APERÇU

    ROSALIND est une plate-forme cloud qui relie les chercheurs de la conception des expériences au contrôle qualité, à l'expression différentielle et à l'exploration de voies dans un environnement collaboratif en temps réel.

    Les scientifiques de tous niveaux bénéficient de ROSALIND car aucune expérience en programmation ou en bioinformatique n'est requise. En acceptant les fichiers RCC bruts directement à partir de l'instrument nCounter, ROSALIND permet une analyse en aval puissante et des visualisations vraiment perspicaces sur les ensembles de données d'expression génique. Les résultats sont préparés en quelques minutes pour chaque analyse de données NanoString nCounter avec une expérience interactive conçue pour une utilisation facile, une collaboration en temps réel et un gain de temps précieux.

    COMMENT ANALYSER L'EXPRESSION DIFFÉRENTIELLE DES GÈNES

    ROSALIND permet aux scientifiques et aux chercheurs d'analyser et d'interpréter l'expression différentielle des gènes sans avoir besoin de compétences en bioinformatique ou en programmation. Tout ce qui est requis est une formation de base en biologie et un abonnement en cours ou un essai actif. Aucun téléchargement du logiciel nSolver n'est requis puisque ROSALIND fonctionne dans un navigateur et effectue les mêmes calculs statistiques qui auraient été effectués auparavant dans nSolver.

    Les questions biologiques peuvent également être explorées indépendamment ou conjointement avec les données d'expérience téléchargées, car ROSALIND automatise l'importation des données publiques du National Center for Biotechnology Information (NCBI) Short Read Archive (SRA) et Gene Expression Omnibus (GEO).

    CAPACITÉS DE DÉCOUVERTE

    « Je peux désormais concevoir et accéder à mon analyse de séquençage en quelques heures, et j'ai beaucoup plus confiance en mes résultats. »

    CINQ ÉTAPES POUR RÉUSSIR AVEC NANOSTRING

    ROSALIND simplifie l'analyse des données et fonctionne comme un hub de données interconnectant chaque étape de l'interprétation des données. L'expérience de découverte ROSALIND Gene Expression permet l'exploration visuelle et l'auto-enquête des résultats d'expériences pour donner aux chercheurs la liberté d'ajuster les seuils, d'ajouter des comparaisons, d'appliquer des corrections de covariables et même de trouver des modèles dans plusieurs ensembles de données, sans avoir besoin d'une expertise bioinformatique. Il existe cinq étapes simples pour effectuer une analyse de données nCounter sur ROSALIND.

    1. CONCEPTION D'EXPÉRIENCE

    Le démarrage d'une analyse de données NanoString commence par la création d'une nouvelle expérience et la capture de la conception de l'expérience. ROSALIND passe en revue les aspects clés d'une expérience dans une expérience guidée pour enregistrer les objectifs biologiques, les attributs de l'échantillon et les paramètres d'analyse. Ces détails deviennent la base du tableau de bord de découverte d'expériences. Les chercheurs qui publient des articles et travaillent avec des données publiques NCBI connaissent l'importance de prendre en charge nativement les modèles de données NCBI. ROSALIND prend entièrement en charge les modèles NCBI BioProject et BioSample pour l'attribution de métadonnées et les descriptions d'attributs d'échantillons. ROSALIND permet également aux scientifiques de créer des attributs personnalisés pour décrire les comportements biologiques en termes pertinents pour l'expérience. La configuration des comparaisons est simplifiée en décrivant et en annotant des échantillons à l'aide de ces termes familiers. Cette méthodologie minimise le risque d'erreurs d'expression différentielle lors de la sélection des échantillons à comparer.

    Pour le système d'analyse NanoString nCounter, ROSALIND offre aux scientifiques le choix : a) Commencer avec des fichiers RCC bruts produits sur l'instrument nCounter, ou b) Utiliser des données normalisées qui ont été traitées et exportées par nSolver. Cela offre aux scientifiques la possibilité d'utiliser l'expérience de découverte ROSALIND pour visualiser et interpréter les données quelle que soit la source de données. Lors de l'analyse des fichiers RCC bruts, ROSALIND rationalise l'analyse des données à l'aide d'un pipeline spécialisé qui suit les directives NanoString pour l'analyse avancée, comprend un contrôle qualité intelligent avec détection automatique des anomalies, Cell Type Profiler, l'identification des gènes exprimés de manière différentielle et l'interprétation des voies en profondeur. Visitez la section des spécifications techniques pour en savoir plus sur le pipeline d'analyse de données ROSALIND NanoString et les matériaux de référence disponibles.

    Pour des résultats NanoString optimaux, un pipeline d'analyse doit prendre en compte les panels utilisés, les gènes détectés et les niveaux de contrôle avant d'effectuer la normalisation ou de calculer les changements de pli. ROSALIND intègre et prend en charge tous les panels d'expression génique et de miARN, y compris ceux avec un contenu personnalisé, tels que le kit de pointe COVID-19 Panel Plus. Chaque panneau est automatiquement détecté avec l'espèce cible. Dans le cas des panels personnalisés, ROSALIND fournit une large liste d'espèces disponibles et tente de faire correspondre celles avec les niveaux les plus élevés de gènes correspondants.

    2. ÉVALUATION DU CONTRLE QUALITÉ NANOSTRING

    Les chercheurs doivent avoir confiance en la phase de contrôle de la qualité avant de recueillir des informations à partir d'une expérience, sinon les résultats de l'analyse ne doivent pas être fiables. Les mystères de la biologie sont insaisissables et complexes. Il ne faut pas perdre de temps à rechercher des mesures correctives pour les valeurs aberrantes, les échantillons échangés et les nombreuses autres erreurs qui peuvent survenir au cours d'une expérience bien conçue.

    Certaines des métriques de contrôle qualité les plus importantes à vérifier sont la qualité de l'imagerie, la densité de liaison, la limite de détection, la linéarité de contrôle, la sélection des gènes d'entretien, la corrélation des échantillons et la mise à l'échelle multidimensionnelle (MDS) ou l'analyse en composantes principales (ACP) pour tous les échantillons. Lorsque ROSALIND détecte une faible qualité d'imagerie, une densité de liaison ou une limite de détection, une alerte est fournie et les valeurs sont mises en évidence dans le QC. Les chercheurs peuvent éliminer les échantillons incriminés et les effets délétères sur les résultats en identifiant l'échantillon comme une valeur aberrante et passer en toute confiance à la phase de découverte et d'exploration de l'interprétation des résultats.

    ROSALIND Quality Control Intelligence identifie les problèmes potentiels de qualité des données et trie les données avant de présenter les résultats. Cela élimine la nécessité pour les chercheurs d'être des experts des problèmes de contrôle de la qualité du séquençage. Découvrez comment les chercheurs gagnent en confiance dans leurs résultats grâce à Quality Control Intelligence.

    3. DÉBLOQUER LES RÉSULTATS

    Une fois qu'un chercheur a examiné la phase de contrôle de la qualité, la présentation interactive des résultats est prête à commencer. L'étape suivante consiste à déverrouiller l'expérience. ROSALIND calcule la quantité d'Unités d'Analyse (« UA ») nécessaire pour débloquer les résultats. Il s'agit généralement de 1 UA par fichier RCC à échantillon unique pour les expériences NanoString, mais cela peut différer en fonction des fichiers de comptage ou d'autres paramètres d'expérience. Les soldes des comptes et les liens rapides pour acquérir plus d'UA sont directement accessibles depuis l'écran de déverrouillage. Pour en savoir plus sur les unités d'analyse, consultez les questions-réponses dans la section ci-dessous ou visitez la boutique ROSALIND.

    4. ANALYSE ET DÉCOUVERTE

    À ce jour, les données NanoString nCounter ont été analysées à l'aide de la puissante solution de bureau de nSolver pour importer, normaliser et calculer les gènes exprimés de manière différentielle. ROSALIND permet une nouvelle approche unique basée sur le cloud et permet aux scientifiques de collaborer et d'explorer visuellement leurs données NanoString nCounter tout en offrant la tranquillité d'esprit que les paramètres et les méthodes sont approuvés par NanoString.

    ROSALIND étend nSolver en fournissant une expérience en ligne simplifiée pour l'analyse de l'expression différentielle et l'interprétation des données NanoString nCounter. Cette expérience commence par un tableau de bord de découverte qui affiche la liste des gènes significatifs exprimés de manière différentielle déterminée par un filtre de coupure calculé. Les paramètres par défaut du filtre commencent par un changement de facteur de 1,5 régulé à la hausse et de 1,5 régulé à la baisse avec un p-Adjust de 0,05. D'autres ajustements pour obtenir un ensemble significatif de gènes sont effectués par ROSALIND, si le scientifique le souhaite. Les chercheurs peuvent également créer un ensemble illimité de leurs propres filtres personnalisés à l'aide de changements de pli et de paramètres de valeur p. Des commandes pratiques à l'écran sont facilement accessibles pour modifier ces filtres, ajouter des corrections de covariantes, appliquer des listes de gènes et des signatures et ajuster les palettes de couleurs des tracés. Dans l'expérience d'expression génique ROSALIND, les scientifiques découvrent des informations issues de l'interprétation approfondie des voies, de l'ontologie des gènes, des maladies et des interactions médicamenteuses qui sont présentées à travers de riches tracés interactifs qui remplissent l'écran et répondent aux interactions du scientifique, montrant des cartes thermiques personnalisables, des tracés volcan et MA ainsi que des box et des barres.

    De nouvelles comparaisons et méta-analyses peuvent être ajoutées à tout moment. Les comparaisons sont créées à l'aide des attributs BioProject. Les méta-analyses créées peuvent être des expériences croisées et multi-omiques. Chacune de ces perspectives est disponible quelques minutes après la configuration, réduisant la charge de travail bioinformatique interne et permettant aux scientifiques de réagir de manière fluide en se concentrant directement sur la science de l'expérience.

    5. COLLABORATION ET PARTAGE DES RÉSULTATS

    Le processus de découverte se termine rarement par un seul point de vue d'un seul avis de chercheur. ROSALIND Spaces permet une véritable collaboration de scientifique à scientifique grâce à des salles de données virtuelles où les scientifiques et les collaborateurs peuvent se réunir sur des ensembles de données connexes partout dans le monde pour explorer de manière interactive des expériences partagées, un peu comme travailler avec Google Docs. Les chercheurs accèdent à une version cohérente des données, sans avoir besoin de transférer des fichiers lourds ou de réinterpréter les fichiers d'origine. Toutes les modifications sont interactives, disponibles instantanément et consultables partout dans le monde (comme autorisé par l'organisation) avec des flux d'activité en temps réel et des rapports historiques. Les participants aux espaces peuvent ajouter des expériences, explorer des voies, modifier des seuils, ajouter des méta-analyses et ajouter de nouvelles comparaisons, le tout dans l'environnement collaboratif partagé.

    Les espaces sont des salles de réunion virtuelles où les scientifiques rencontrent des experts de niche, des clients et des équipes de soutien pour maximiser la valeur de découverte de chaque expérience et se préparer pour la suivante.


    Comment télécharger des fichiers fastq depuis SRA ?

    J'ai du mal à comprendre comment fonctionne le SRA. J'ai une expérience sur GEO, son accession est GSE102269. Il a 12 échantillons. J'aime télécharger les fichiers fastq pour ces 12 échantillons. J'ai donc téléchargé la boîte à outils SRA pour Linux, car je pensais que j'avais besoin de l'outil fastq-dump. Mais il se comporte de manière inattendue.

    Si vous accédez au sélecteur d'analyse SRA au bas de la page GEO, il répertorie les accessions SRA pour chacun des échantillons. En regardant le premier échantillon, il est indiqué que le fichier a une taille de 1,46 Go. Mais lorsque j'utilise l'outil fastq-dump, il m'a donné un fichier de 2,8 Go, et cela aurait pu être plus si je n'avais pas arrêté le téléchargement. Alors, ne suis-je pas fastq-dump-ing le bon fichier?

    De plus, existe-t-il un moyen de télécharger les fichiers fastq pour tous les échantillons à la fois, au lieu d'avoir à les faire individuellement ?

    Il y a plusieurs points de confusion ici (pas que je vous blâme SRA-toolkit a une documentation poubelle cachée dans des endroits peu intuitifs).

    Premièrement, la différence de taille de fichier est due au fait que le sélecteur d'exécution SRA répertorie la taille du fichier SRA (compressé). Le FASTQ réel généré à partir du SRA sera plus important.

    Deuxièmement, si vous devez utiliser SRA-toolkit, il est très recommandé d'utiliser fastq-dump. Cependant, fastq-dump ne peut télécharger qu'un échantillon à la fois, vous devez donc télécharger les choses beaucoup plus rapidement, une à la fois. Il ne s'agit que de 12 échantillons dans ce cas, donc cela ne devrait pas être un gros problème, mais si vous avez des centaines d'échantillons à télécharger, cela nécessite généralement un accès aux ressources au niveau du cluster et au moins à quelques scripts bash. Si vous voulez être paresseux et entrer une seule commande mais attendre probablement deux fois plus longtemps pour les téléchargements, fastq-dump peut accepter plusieurs adhésions, comme on le voit ici. Cependant, la boîte à outils SRA n'est généralement obligatoire que pour les données à accès contrôlé strictement restreint. De nombreux échantillons disponibles dans dbGaP sont accessibles via FTP à partir du site Web de l'ENA. Les instructions pour cette solution beaucoup plus simple sont ici.


    Confusion concernant la taille des fichiers sra-toolkit et FASTQ

    Bonjour à tous! J'ai essayé de télécharger des données du SRA, et je vois que vous devez utiliser sra-toolkit. Pas de problème, je suppose, puisque je l'ai finalement installé, même si j'ai dû construire à partir de la source afin que les bibliothèques hdf5 et fuse n'aient pas été installées et que la fonctionnalité qu'elles fournissent soit manquante. Cependant, tout ce que je voudrais faire, c'est télécharger un fichier FASTQ, ou de préférence BAM s'il est disponible, alors j'espère que ce n'est pas un problème.

    Maintenant, ce qui est un problème, c'est que lorsque je lance:

    Fichier 4.7 G, comme le suggère l'entrée, je reçois un fichier de taille indéterminée. Il continue de télécharger jusqu'à ce que je manque d'espace disque - le plus gros que j'ai téléchargé jusqu'à présent était

    41 G. Le fichier que je télécharge semble être un fichier FASTQ, au moins.

    Est-ce que je sous-estime simplement la taille du FASTQ ? Doit-il être si gros ? J'ai essayé avec -F de réduire la taille des identifiants, la taille du fichier dépassait encore 4,7 G d'un certain montant, atteignant

    Des idées? Que représente le 4.7G sinon la taille du fichier FASTQ ? Y a-t-il quelque chose qui cloche avec le numéro d'accession ?


    ORIENTATIONS ET CONCLUSIONS FUTURES

    Écosystème de données du Fonds commun

    En plus du HMP, le NIH Common Fund a soutenu de nombreux autres programmes qui génèrent également de grandes quantités de données et ont des centres de coordination des données (DCC) associés (par exemple GTEx ( 21), LINCS ( 22)). Un nouveau projet de fonds commun, le Common Fund Data Ecosystem (CFDE) (https://commonfund.nih.gov/dataecosystem), a été développé pour fournir une infrastructure et un cadre de données globaux basés sur le cloud qui prendront en charge le passé, le présent et l'avenir. Projet de fonds commun DCC. Le CFDE, en association avec le programme NIH STRIDES (https://datascience.nih.gov/strides), développe une plate-forme basée sur le cloud où les DCC peuvent stocker, et les utilisateurs peuvent accéder et calculer sur les métadonnées Common Fund DCC. Une partie de cet effort est le développement d'un modèle de métadonnées transversales (C2M2) qui stockera les métadonnées associées à tous les actifs DCC. Pour les DCC qui ont atteint la fin de leur période de financement, non seulement les métadonnées, mais aussi les données primaires et dérivées, seront hébergées par le CFDE. Certaines de ces données peuvent être à accès contrôlé. Un portail de données CFDE est en cours de développement qui fournira un accès contrôlé, via une requête de portail et une API, aux données publiques et protégées. Cela sera géré via un système qui authentifie les utilisateurs selon qu'ils ont obtenu des autorisations d'accès par les comités d'accès aux données du NIH concernés.

    Grâce à ces efforts, la CFDE maximisera l'impact des ressources produites par les projets du Fonds commun et assurera leur équité continue (trouverabilité, accessibilité, interopérabilité et réutilisabilité) à l'avenir. L'organisation et la gestion de ces efforts sont assurées par le Centre de coordination de l'écosystème de données du Fonds commun (CFDE) (le CFDE-CC, O.W. sert de chercheur principal). Dans nos rôles à la fois en tant que DCC pour le projet du Fonds commun sur le microbiome humain (HMP) et dans le cadre du CFDE-CC, nous utilisons les données HMP pour créer et tester la ressource CFDE. Les activités associées à ce travail comprennent, sans s'y limiter : (i) l'utilisation des données HMP pour évaluer la capacité du modèle C2M2 à représenter correctement les données DCC, y compris les données accessibles au public et à accès protégé (ii) le chargement des deux HMP accessibles au public et des données à accès protégé dans le C2M2 et tester la capacité du portail de requête CFDE à contrôler correctement l'accès aux sous-ensembles des données HMP par des utilisateurs avec des autorisations d'accès différentes (iii) tester la capacité du portail de requête CFDE à diriger correctement les utilisateurs vers où trouver et comment accéder aux données HMP et (iv) s'engager dans l'harmonisation des métadonnées entre les DCC CFDE à la fois pour le développement ultérieur du C2M2 et pour améliorer l'équité des données du Fonds commun. L'intégration complète éventuelle des données HMP dans le CFDE assurera la disponibilité et la maintenance continues des données à l'avenir. Nos activités au sein du CFDE s'étendent également à la documentation des processus et au partage des leçons apprises. La coordination des données générées par plusieurs institutions, sur deux projets majeurs et neuf ans conduit à de nombreux moments « si nous savions alors ce que nous savons maintenant ». Nous espérons pouvoir aider les futurs DCC à éviter certains des problèmes que nous avons rencontrés.

    Retraitement des données de séquence HMP phase 1

    Une partie importante des données d'analyse HMP a été générée avec des outils plus anciens qui ne sont plus considérés comme étant à la pointe de la technologie. Par conséquent, dans le cadre de nos travaux dans le cadre du CFDE, nous retraiterons toutes les données de séquençage du 16S et du métagénome entier de la première phase du HMP en utilisant de nouveaux pipelines intégrant des outils de pointe, y compris ceux décrits ci-dessus dans le Section Outils et Protocoles. De nouveaux résultats d'analyse seront disponibles via notre ressource HMPDACC et éventuellement le CFDE.


    Comment télécharger les données omiques de ncbi ? (Données SRA ou suggestion ?) - Biologie

    (Les liens sont cliquables si vous ouvrez le fichier README.ipynb dans JupyterNotebook)

    N'hésitez pas à me contacter @: [email protected] (j'essaierai de répondre dans les 3 jours)

    Skymap est une base de données autonome qui vise à offrir :

    1. une seule matrice de données pour chaque couche omique pour chaque espèce qui s'étend sur un total de >400 000 exécutions de séquençage de toutes les études publiques, ce qui se fait par retraitement pétaoctets valeur des données de séquençage. Voici la quantité de données que nous avons retraitées du SRA :
    2. un fichier de métadonnées biologiques qui décrivent les relations entre les exécutions de séquençage ainsi que les mots-clés extraits de plus de 3 millions annotations en texte libre à l'aide de la PNL.
    3. un fichier de métadonnées techniques qui décrit les relations entre les exécutions de séquençage.

    Solution : trois tableaux pour > 100 000 expériences associées: Par exemple, toutes les données variantes et les colonnes de données peuvent être interpolées comme ceci :

    Où ils peuvent tous tenir dans votre ordinateur personnel.

    Copiez et collez pour exécuter cette ligne suivante dans le terminal unix

    • conda create --yes -n skymap jupyter python=3.6 pandas=0.23.4 && source activate skymap && jupyter-notebook

    Choisissez l'un des blocs-notes suivants à exécuter. Le code mettra automatiquement à jour vos pandas python, créez un nouvel environnement conda si nécessaire.

    • loadVariantDataBySRRID.ipynb: nécessite 1 Go d'espace disque et 5 Go de RAM.
    • chargementRNAseqByGene.ipynb: nécessite 20 Go d'espace disque et 1 Go de RAM.

    Cliquez sur "Exécuter tout" pour exécuter toutes les cellules. Le notebook téléchargera les exemples de données, installera les dépendances et exécutera l'exemple de requête de données.

    • Si vous rencontrez des erreurs à partir des packages, essayez les versions que j'ai utilisées : python v3.6.5, pandas v0.23.4, client synapse v1.8.1.
    • Si le téléchargement de sage synapse échoue, téléchargez le pickle python pandas correspondant à l'aide de l'interface Web (https://www.synapse.org/#!Synapse:syn11415602/files/) et lisez le pickle à l'aide de pandas.read_pickle.

    Répertoire de données et exemples de chargement

    J'ai essayé de garder le chargement aussi simple que possible. Les jupyter-notebook ont ​​chacun <10 lignes de codes python et une dépendance de package sur les pandas python uniquement. Les besoins en mémoire sont tous inférieurs à la 5G.

    Titre URL de données Exemples de chargement de Jupyter-notebook Format Les usages
    Chargement du nombre de lectures alléliques par ID SRR (exécution de séquençage SRA) ftp://download.hannahcarterlab.org/all_seq/snp/mergedBySrr/ cliquez sur moi pour voir cadre de données de cornichons python pandas Variante, détection CNV
    Matrices d'expression ftp://download.hannahcarterlab.org/all_seq/rnaseq_merged/ cliquez sur moi pour voir tableau numpy Quantification du niveau d'expression
    Lire la couverture - disponibilité selon la demande - Détection de pic de puce
    Quantification des microbes - disponibilité selon la demande - Détection de communauté de microbiome

    Tous les fichiers de métadonnées se trouvent dans le dossier sage synapse : https://www.synapse.org/#!Synapse:syn15661258

    Titre Nom de fichier Exemples de chargement de Jupyter-notebook Format
    annotations de biospécimen allSRS.pickle.gz cliquez sur moi pour voir cadre de données de cornichons python pandas
    annotations expérimentales allSRX.pickle.gz cliquez sur moi pour voir cadre de données de cornichons python pandas
    cartographies expérimentales et de séquençage de biospeiciman. statistiques de séquençage et de CQ sra_dump.fastqc.bowtie_algn.pickle cliquez sur moi pour voir cadre de données de cornichons python pandas

    Titre Nom de fichier
    Répartition des données traitées dans le temps checkProgress.ipynb
    Générer des références RNAseq generateReferences.ipynb
    Vérifier la répartition des données retraitées data_count.ipynb

    Exemple d'analyse de notebook jupyter à l'aide de données retraitées

    Localisation du variant et corrélation avec RNAseq et les métadonnées

    C'est probablement le meilleur exemple qui vous donne une idée sur la façon de passer du découpage de données dans Skymap à l'analyse de données de base.

    Carte de la hiérarchie du développement de la souris haute résolution

    Agréger de nombreuses études (nœud) pour former une carte hiérarchique de développement de souris lisse. En intégrant la grande quantité de données publiques, nous pouvons couvrir de nombreux moments de développement, ce qui nous permet parfois d'observer une dynamique d'expression plus transitoire à la fois à travers les tissus et à l'intérieur des tissus au cours du développement.

    Chaque composant représente un tissu. Chaque nœud représente une étude particulière à une unité de temps particulière. La couleur est basée sur le temps de développement extrait de l'annotation expérimentale à l'aide de regex. La taille du nœud représente le nombre d'exécutions de séquençage à ce moment et à cette étude particuliers. Chaque arête représente une relation de différenciation ou de partie de. Et vous pouvez facilement y superposer le niveau d'expression des gènes. A titre d'exemple, l'expression de Tp53 est connue pour être étroitement régulée dans le développement. Examinons la dynamique de l'expression de Tp53 au fil du temps et des emplacements spatiaux dans le graphique suivant.

    Découpage simple des données RNAseq et test d'hypothèse

    Documents et diapositives Google avec des liens pointant vers jupyter-notebooks: Les numéros des cahiers jupyter seront différents de ceux du manuscrit car il y a plus de données qui sont saisies chaque jour. L'espoir est que cela puisse vous aider à comprendre chaque numéro et chaque chiffre du manuscrit.

    Titre URL manuscrite URL des chiffres
    Extraction du nombre de lectures alléliques de 250 000 analyses de séquençage humain dans Sequence Read Archive https://docs.google.com/document/d/1BGGQOpWczOwan9STqs-J9zpa8A-aj4aJ1RND_qKzRFs https://docs.google.com/presentation/d/1dERUDHh2ab8UdPaHa-ki-8RMae6yi2eYJQM4b7ArVog
    Méta-analyse utilisant la PNL (Metamap) et les données RNAseq retraitées https://docs.google.com/presentation/d/14vLJJQ6ziw-2aLDoQAJGyv1sYo5ENzljsqsbZr9jNLM
    Titre Google Docs diapositives google
    Extraction du nombre de lectures alléliques à partir de 250 000 analyses de séquençage humain dans Sequence Read Archive https://docs.google.com/document/d/1BGGQOpWczOwan9STqs-J9zpa8A-aj4aJ1RND_qKzRFs https://docs.google.com/presentation/d/1dERUDHh2ab8UdPaHa-ki-8RMae6yi2eYJQM4b7ArVog

    Manuscrits inédits mais en cours

    Titre google doc
    Méta-analyse utilisant la PNL (Metamap) et les données RNAseq retraitées https://docs.google.com/document/d/1_nES7vroX7lCwf5NSNBVZ1k2iubYm5wLeFqusq5aZuk

    La façon dont j'ai organisé le code essaie de garder le code aussi simple que possible. Pour chaque pipeline, il dispose de 6 scripts, <500 lignes chacun pour assurer la lisibilité. Exécutez chaque pipeline en commençant par calcuate_uprocessed.py, qui calcule le nombre de fichiers encore requis pour le traitement.

    Si vous souhaitez faire une copie du pipeline :

    faire une copie du pipeline en clonant ce dépôt github,

    conda env create -n environment_conda_py26_btsui --force -f ./conda_envs/environment_conda_py26_btsui.yml

    conda env create -n environment_conda_py36_btsui --force -f ./conda_envs/environment_conda_py36_btsui.yml

    Pour les codes Python 2, activez la source environment_conda_py26_btsui avant de l'exécuter

    Pour les codes Python 3, activez la source environment_conda_py36_btsui avant de l'exécuter

    Remplacez mon répertoire (/cellar/users/btsui/Project/METAMAP/code/metamap/) par votre répertoire si vous voulez l'exécuter.

    Interne : connectez-vous à un nœud nrnb pour exécuter les blocs-notes suivants.

    |Colonne | sens| |: ---: | :---| | nouveau_NomScientifique | la chaîne que le pipeline utilisera pour faire correspondre le génome de référence comme l'espèce | NomScientifique | nom scientifique original extrait du NCBI SRS|

    Nous tenons à remercier pour les conseils et les ressources du Dr Hannah Carter (mon CP), du Dr Jill Mesirov, du Dr Trey Ideker et de Shamin Mollah. Nous tenons également à remercier le Dr Ruben Arbagayen, le Dr Nate Lewis pour leur suggestion. La méthode sera bientôt publiée dans bioarchive. Nous tenons également à remercier le réseau Sage Bio pour l'hébergement des données. Nous remercions également le NCBI pour avoir conservé toutes les lectures brutes publiées sur Sequunece Read Archive.

    De nombreuses personnes aident également à tester Skymap : Ben Kellman, Rachel Marty, Daniel Carlin, Spiko van Dam.

    Donner de l'argent qui rend ce travail possible : NIH DP5OD017937,GM103504

    Conditions d'utilisation : utilisez Skymap comme vous le souhaitez. Ne me poursuis pas, je n'ai pas d'argent.

    Pour la raison pour laquelle je l'ai nommé Skymap, j'ai oublié.

    Format des données et style de codage

    Le stockage est au format cornichon pandas python. Par conséquent, les seuls packages que vous devez charger dans les données sont numpy et pandas, l'épine dorsale de l'analyse des données en python. Nous gardons le processus de chargement des données aussi simple que possible. Moins de code signifie moins de bugs et moins d'erreurs. Pour l'instant, Skymap s'adresse aux personnes ML/data science qui ont faim de la grande quantité de données et n'ont pas peur du codage. Je porterai les données au format HDF5 natif pour réduire la dépendance à la plate-forme dès que j'en aurai l'occasion.

    J'ai essayé de garder le code et les paramètres légers et explicites pour votre référence.


    Ne vous contentez pas de vider vos données et de courir

    Si vous avez, de quelque manière que ce soit, été impliqué dans la recherche génétique au cours des 10 dernières années, alors vous avez probablement entendu parler de la Sequence Read Archive (SRA), qui est hébergée conjointement au National Center for Biotechnology (NCBI), le DNA Data Banque du Japon (DDBJ) et l'Institut européen de bioinformatique (EBI). Et si vous travaillez régulièrement avec des informations sur les séquences du génome ou du transcriptome, vous avez probablement extrait des données et/ou déposé des données dans le SRA. Pour ceux qui ne le connaissent pas, le SRA est une archive internationale publique en ligne pour les données de séquençage de nouvelle génération (NGS), qui a été créée il y a une dizaine d'années sous la direction de l'International Nucleotide Sequence Database Collaboration (INSDC) 1 2 . Bien qu'il ait failli fermer ses portes en 2011 3 , il a connu une croissance vertigineuse au cours des 10 dernières années. Au 1er septembre 2017, il abritait plus de cinq quadrillions (10 15 ) de bases de données NGS en libre accès, provenant de milliers d'espèces différentes et couvrant toute la gamme de la vie cellulaire et virale. Il contient des lectures de séquençage d'ADN et d'ARN (ADN-seq et ARN-seq) de toutes sortes, du bisulfite-seq au RNA-seq spécifique au brin en passant par l'ADN-seq unicellulaire, et il accepte les lectures de tous les types de NGS plate-forme, que ce soit le séquençage Illumina, Ion Torrent ou PacBio. En d'autres termes, la SRA est une ressource cruciale et centrale dans le domaine en évolution rapide et de plus en plus important de la recherche génétique contemporaine.

    … la SRA est une ressource cruciale et centrale dans le domaine en évolution rapide et de plus en plus important de la recherche génétique contemporaine.

    L'archive de lecture de séquence

    Le SRA peut être facilement consulté et recherché via le NCBI (https://www.ncbi.nlm.nih.gov/sra), DDBJ (http://trace.ddbj.nig.ac.jp/dra/index_e.html ) et EBI (http://www.ebi.ac.uk/ena/submit/read-submission). Une fois là-bas, vous vous retrouverez dans un supermarché à lecture séquentielle. Avec une connexion Wi-Fi décente, quelques recherches par mot-clé et quelques clics sur le trackpad, vous pouvez télécharger rapidement des expériences NGS à partir de vos espèces modèles préférées et de milliers d'espèces non modèles, en 5 minutes à quelques minutes. heures, en fonction de la taille et du nombre d'ensembles de données qui vous intéressent. Si vous êtes nouveau dans le SRA, l'un des moyens les plus simples et les plus rapides de commencer à l'explorer est via la base de données taxonomique du NCBI, qui contient une classification et une nomenclature organisées. de tous les organismes de la banque de données (https://www.ncbi.nlm.nih.gov/taxonomy). Entrez simplement une souche, une espèce ou un nom de groupe plus large dans la barre de recherche et une fois que vous avez cliqué sur le résultat, cochez la case « Expériences SRA » en haut de l'écran pour voir tous les projets disponibles pour votre ou vos organismes d'intérêt . Par exemple, si vous êtes un passionné d'algues et que vous avez recherché le mot « Chlorophyta », vous auriez trouvé qu'il existe plus de 3 000 expériences SRA différentes pour les algues vertes, dont plus de 1 800 pour le modèle unicell. Chlamydomonas reinhardtii.

    Explorer le SRA peut être simple, mais mettre vos propres expériences NGS dans les archives peut être compliqué et fastidieux. Ce n'est pas surprenant étant donné qu'une soumission SRA implique le téléchargement de fichiers très volumineux et la création d'un résumé de ces fichiers. Comme de nombreux bioinformaticiens peuvent en témoigner, le dépôt de lectures dans le SRA prend beaucoup plus de temps et nécessite beaucoup plus d'étapes que, par exemple, la soumission d'un ensemble de séquences de gènes annotées à GenBank, et cela implique également la lourde tâche de créer un BioSample et un BioProject. —un résumé et un enregistrement en ligne du matériel de source biologique et des données relatives à une seule initiative. C'est peut-être la raison pour laquelle les membres de l'INSDC ont récemment fait tout leur possible pour rappeler aux scientifiques de soumettre leurs lectures de séquençage brutes au SRA 4 .

    Heureusement, de nombreux chercheurs téléchargent leurs données NGS dans la SRA, en partie parce que la plupart des revues exigent un numéro d'accès à la base de données comme condition de publication. Mais la pression des revues ne peut pas être la seule incitation car il existe un grand nombre d'expériences non publiées dans la SRA, dont certaines ne seront probablement jamais publiées par les auteurs qui les ont initialement générées. Publié ou non, un projet SRA peut être un atout majeur et une ressource importante pour la communauté scientifique, à condition qu'il soit correctement annoté.

    Publié ou non, un projet SRA peut être un atout majeur et une ressource importante pour la communauté scientifique, à condition qu'il soit correctement annoté.

    Big data, petites méthodes

    Recently, we were mining data from the SRA to study transcription in mitochondria and chloroplasts. Specifically, we used publically available eukaryotic RNA-seq experiments to reconstruct complete or near-complete organelle genome sequences. The SRA provided us with ample data to carry out our analyses in a diversity of species, which allowed us to document the widespread occurrence of pervasive organelle transcription across the eukaryotic domain 5 . Our study on organelle transcription, which ultimately formed the bulk of an MSc thesis, reinforces the utility of the SRA for both large and small research groups (we represent the latter). Apart from the price of a computer and a commercial bioinformatics software suite—and significant time investment, of course—the research project cost us nothing. We did, however, encounter some setbacks when trying to determine the protocols used to generate the various RNA-seq data sets employed in our analysis. In short, we were confronted with an SRA annotation issue. We had used hundreds of RNA-seq experiments generated from different laboratory groups, often using very different protocols. Some of these experiments contained detailed and meticulous information on the growth conditions, RNA isolation and purification techniques, library preparation, and sequencing methods. Other experiments, unfortunately, had little or no accompanying details about how they were generated, leaving us guessing about the underlying experimental procedures.

    Well-annotated nucleotide sequence information will only help to advance science, promote data sharing and collaboration, and increase the influence and reach of your research.

    When an NGS project is submitted to the SRA, it must contain certain basic details about the strain, species, or population that was used and the sequencing technologies that were employed. However, it appears to be at the author's discretion to include a summary of the methods, despite the fact that the SRA provides space for such a summary in both the “Design” and “Study” sections of the entry. A quick scan of the SRA reveals many submissions with exemplary methods. Sometimes even a concise statement describing the study can make a big difference. Take, for example, SRA accession SRX2788293, an RNA-seq experiment for the green alga Dunaliella tertiolecta, which includes the following under study design: “Cells grown in continuous culture at 40 μE with low dilution rate. When cells reached steady state, light intensity was increased to 400 μE. Two hours after light intensity increased, RNA was extracted using RNeasy Mini Kit (Qiagen, Germany) and was converted to cDNA library using Illumina TruSeq Stranded Total RNA LT Sample Prep Kit with Ribo-Zero Plant”. But it is also easy to find SRA experiments with absolutely no specifics about how the sample was collected and prepared.

    One of the referees who evaluated our meta-analysis of organelle transcription asked: “Is it possible to decipher from the protocol description in the SRA database if the data sets you used were prepared with poly-A selection? If so, please discuss the differences in RNA-seq mapping success for the experiments with and without poly-A selection”. This was an excellent suggestion, but we were unable to carry out the referee's request because, as already noted, most of the SRA studies we employed contained no methods section.

    One could argue that instead of relying on the SRA we could have just read the Methods and Materials from the primary research articles for the various data sets we used. But in certain cases, the SRA data we employed had not yet been published. Moreover, it would have taken a lot of time and energy to look up the individual papers for hundreds of different experiments, many of which were behind a paywall, which goes against the purpose of an open-access data bank like the SRA. In our opinion, it is much more efficient, fair, and useful to have the methods directly linked to the SRA entry. In many ways, the experiments being deposited in the SRA can be as important and impactful as the primary research papers presenting the data.

    The importance of genetic database entries

    In today's publish-or-perish academic landscape, one can understand why researchers would rush through the often slow and tiresome task of uploading their genetic data to an online data bank. Surely, it is the peer-reviewed papers that matter most and where our energy should be invested. However, one should not underestimate the growing significance of online archives in science—and daily life in general. A typical refereed publication employing NGS data may be read by a few hundred people and cited a couple dozen times throughout its academic lifespan. But the NGS experiment used in that work could get integrated into many different research projects and in turn have a much larger impact than the initial study. This is particularly true for data generated from large-scale sequencing initiatives, such as the 1000 Plants Genome Project 6 or the Marine Microbial Eukaryotic Transcriptome Sequencing Project (MMETSP) 7 , but even a small NGS data set can have a long shelf life.

    … more and better information on methods is not only helpful for users of the SRA, but it benefits science in general if any publication of experiments contains as much information as possible.

    Genome papers exemplify the growing importance of sequence repositories: They used to be widely read and represent milestones in the scientific literature, but now they have become mundane and formulaic 8 . Scientists who are truly interested in investigating a new genome sequence are arguably better served by going directly to the annotated entry in NCBI rather than by reading the primary paper, especially if it is a genome report. Similarly, a small error in a genome paper, such as the mislabeling of an annotation on a genomic map, would likely cause fewer problems and less confusion than if that mislabeling were found in the online sequence. Whether or not a genetic database entry is as impactful as a publication is beside the point. Well-annotated nucleotide sequence information will only help to advance science, promote data sharing and collaboration, and increase the influence and reach of your research.

    In certain respects, SRA annotation issues touch upon the broader and ongoing debate in science about reproducibility—often referred to as the “reproducibility crisis” 9 . Whether or not this crisis is real, most scientists would agree that providing as much information as possible about their experiments greatly helps others to reproduce and build upon published results. In a recent commentary in La nature “A long journey to reproducible results”, the authors highlight how “improved reproducibility often comes from pinning down methods” 10 . They describe how two cancer labs spent more than a year trying to understand inconsistencies: “It took scientists working side by side on the same tumor biopsy to reveal that small differences in how they isolated cells—vigorous stirring versus prolonged gentle rocking—produced different results” 10 . In other words, more and better information on methods is not only helpful for users of the SRA, but it benefits science in general if any publication of experiments contains as much information as possible. So, do not just dump your genetic data online and run. Take the time and trouble to accurately and rigorously characterize them in whatever sequence archive you are using.

    Before we start sounding too self-righteous, we should come clean and admit that the senior author of this article has submitted his fair share of data into the SRA without providing a detailed protocol for those entries. It was not until he started mining large amounts of RNA-seq data from the SRA that he finally saw the proverbial Illumina light at the end of the annotation tunnel and asked forgiveness for all of his sins. Thankfully, he is now a reformed bioinformatician and is looking forward to developing a clean SRA record in the future.


    Major Services

    1. Consultation

    The Multi-Omics Data Analysis Core provides consultation on multiple topics prior to analysis

    1) Consultation on experimental design

    2) Consultation on integration of CPRIT and other core facilities data

    3) Consultation on integration of publicly available data

    4) After completion of analysis, and as needed during the analysis, review results with primary investigator and assist with results interpretation.

    2. Primary Analysis of Data Generated by Different Technology Platforms of CPRIT and Other Core Facilities

    Mass Spec Metabolomics

    Both targeted and unbiased mass spectrometry metabolomics data with be generated and normalized by the CPRIT Metabolomics core at BCM directed by Dr Nagireddy Putluri. Primary/Tier 1 analysis will detect differentially expressed compounds across experimental group using parametric and non-parametric methods false discovery rate (FDR) methods would be used for multiple hypothesis testing correction. We will employ supervised learning to obtain parsimonious models of association with experimental groups, using methods such as k-nearest neighbor, linear discriminate analysis, support vector machines, and random forests. Integrative/Tier 2 analysis enables combination with other data types via commonly enriched pathways and processes, such as those compiled by the Gene Ontology (GO) or MSigDB significant metabolites are converted to KEGG enzyme/gene IDs using both in-house and public databases like BridgeDb or HMDB. We use over representation of pathways (ORA) with the hypergeometric distribution and pathway network analysis. We will use principal components analysis (PCA), hierarchical clustering of samples and/or metabolites for data visualization.

    RPPA Proteomics Proteomics Une analyse

    Investigators will obtain the RPPA data from the BCM core led by Dr. Shixia Huang. Normalization will be performed by the core staff. In Primary Analysis (Tier 2a in the terminology of the RPPA core), significantly changed proteins among experimental groups will be determined using non-parametric tests (Wilcoxon rank-sum test, adjusted p-value<0.05). Integrative Analysis (Tier 2b in the terminology of the RPPA core) we will integrate this data with other datasets by determining enriched pathways (using the hypergeometric distribution, p<0.05). For cancer project, the core will evaluate clinical significance of RPPA signatures using the RPPA proteomics collected by the Cancer Genome Atlas Project (TCGA).

    Investigators will obtain the MS Proteomics data from the BCM core led by Dr. Anna Malovannaya. Gene annotation and normalization will be performed by the core staff. In Primary Analysis significantly changed proteins among experimental groups will be determined using parametric (t-test, adjusted p-value<0.05) or non-parametric tests (Wilcoxon rank-sum test, adjusted p-value<0.05). Integrative Analysis we will integrate this data with other datasets by determining enriched pathways (using the hypergeometric distribution, p<0.05). Since in many cases single replicates are generated for experimental group, an effective analysis method is Gene Set Enrichment Analysis (GSEA) since it relies on permutation testing of the entire set of detected proteins, rather than enrichment on statistically significant protein/gene subset. Using proteomic profiles, we will perform integration with other publicly available datasets both at protein level (using data deposited in repositories such as ProteomeXchange) and transcriptomic level, using TCGA or Gene Expression Omnibus (GEO) datasets.

    Transcriptomics, Genomics, and Epigenomics data

    In addition to the CPRIT cores, often further insight can be achieved by integration with sequencing data, such as Transcriptomic, Genomics, or Epigenomics. BCM investigators can generate sequencing data using the BCM RNA and Genomic Profiling Sequencing Core (GARP) (/garp/) led by Dr. Lisa White, or by accessing public repositories such as TCGA or GEO. Primary/Tier 1 analysis. Sequencing data quality will be assessed using the FastQC software. Transcriptomic profiling via RNA-Seq: data will be mapped using TopHat2 onto the corresponding genome build and gene expression will be assessed using Cufflinks2. Significantly changed genes will be determined using the R packages limma, DeSeq2, or edgeR. Genomic data will be mapped using BWA or BOWTIE2 to the respective genome variants will be inferred using the GATK software and annotated using the ANNOVAR package, and then filtered according to the specific project needs. Pour Epigenomic data, after mapping to respective genome as above, the MACS2 algorithm will be used to identify enriched regions (peaks), and enriched motifs will be inferred using the HOMER and MEME-CHIP tools. Bisulfite sequencing data will be mapped to the respective genome using Bismark methylation changes will be detected using packages such as DMRcate. As part of Integrative/Tier 2 analysis, we will infer enriched pathways using the Gene Set Enrichment (GSEA) method, and the gene set collection from the Molecular Signature Database (MSigDB). We will visualize genome-wide maps using the Integrative Genomics Viewer (IGV) or the UCSC Genome Browser.


    MAIN INTERFACE AND SEARCH FUNCTION

    SilkDB 3.0 is a web-based tool combining a MySQL database management system with a dynamic web interface which was written with Python, HTML, CSS, Javascript and jQuery. The entire project is open access for anyone to use and is configured on an Ubuntu (V18.04) Linux machine with an Apache2 server.

    The main interface for SilkDB 3.0 has three main elements: the search panel and the gene panel on the left and the module viewer panel on the right (Figure 1). Although SilkDB 3.0 contains many functional modules and a large quantity of information, its interface is simple and user-friendly. There are two ways to utilize the functional modules of the database to investigate genes. One way is to input keywords such as gene identifier (ID) or gene description to search for the gene of interest, after which the gene of interest will be shown in the gene panel. Another is to use the Blast function the Blast result will show the genes in the database that are similar to the input sequence. Users can click the gene ID on the results page, and it will be added to the gene panel. Once the gene is displayed in the panel, a data loading management script sends queries to the database to retrieve information for each of the functional modules to display.

    The main interface of SilkDB 3.0. (UNE) search panel, (B) gene panel, (C) module viewer panel.


    Voir la vidéo: Lomautuksen tai työsuhteen päättymisen vaikutus eläkkeeseen (Mai 2022).