2010-03-11 14 views
0

Je souhaite (pour mon travail de thèse), importer des données d'ARNt dans R et l'aligner.Comment (et où) obtenir des séquences d'ARNt alignées (et l'importer dans R)

Mes questions sont les suivantes:

  1. Quelles ressources puis-je utiliser pour les données?
  2. Quelles commandes pourraient m'aider avec l'import/alignement?

Jusqu'à présent, j'ai trouvé deux dépôts de Nice qui détient ces données:

Et aussi la commande readFASTA du Biostrings R Package, qui fait de base importation des données dans R.

Mon problème reste de savoir comment gérer l'alignement de l'ARNt.

Puisque je ne suis pas sur le terrain, il me manque peut-être une réponse très basique (comme l'endroit où je devrais télécharger les données, ou quelle commande utiliser). Si vous êtes prêt à me conseiller, ce serait très utile.

+0

Je ne pense pas que R soit le meilleur outil pour gérer l'alignement des séquences. Y at-il une raison pour laquelle vous devez importer ARNt à R? – xiechao

+2

Comme il ne s'agit pas d'une programmation mais d'une question bioinformatique, vous devriez le demander ici: http://biostar.stackexchange.com – dalloliogm

+0

xiechao - Je souhaite les importer dans R car c'est mon "langage (statistique) natif " (pour ainsi dire).Et je veux effectuer une analyse statistique sur certains d'entre eux :) –

Répondre

1

Les deux bases de données que vous avez répertoriées semblent être un bon point de départ. En voici un autre: tRNADB-CE.

L'obtention d'un jeu de données organisé peut vous épargner beaucoup de maux de tête. Avez-vous recherché d'excellents articles de synthèse sur les gènes de l'ARNt qui pourraient pointer vers des bases de données d'ARNt «standard» actuellement utilisées sur le terrain? Une autre façon de construire une base de données de séquences d'ARNt serait d'utiliser des séquences marquées avec des termes Geno Ontology (GO) liés à la fonction de l'ARNt. Vous pouvez rechercher des termes GO tels que «trna» en utilisant AmiGO, puis récupérer toutes les séquences marquées avec les termes GO spécifiques qui vous intéressent. Je recommande de commencer avec une base de données organisée, cependant. Etant donné que vos données de séquence sont au format FASTA (ce qui sera probablement le cas), trois utilitaires communs pour l'alignement de séquences multiples sont: clustalW, MUSCLE et T-Coffee.

Puisque vous travaillez dans R, voici un R package that will allow you to make calls to MUSCLE (vous devez installer l'utilitaire MUSCULAIRE autonome aussi bien). L'analyse de la sortie des programmes d'alignement n'est pas difficile, mais ce paquet peut vous faire économiser un peu d'effort.

Bonne chance.

+0

Bonjour awesomo, merci beaucoup pour votre réponse. Après la lecture de plus, je vois maintenant que cette base de données: http://gtrnadb.ucsc.edu Est-ce que les alignements structurels en alignant les séquences ARNt par rapport aux modèles de covariance ARNt spécifiques à un domaine avec l'utilisation de COVE. Est-ce que MUSCLE peut faire la même chose? (Merci encore!) Tal –

+1

J'ai regardé le papier cove et leurs «modèles de covariance» sont des modèles de Markov fondamentalement cachés avec des métadonnées supplémentaires qui prennent en compte la structure secondaire de l'ARN. Une chose que vous pourriez faire avec les données de séquence d'ARN est d'utiliser MUSCLE pour construire un alignement de séquence multiple (MSA) des séquences qui vous intéressent; puis utilisez un outil comme HMMER (http://hmmer.janelia.org) pour créer votre propre HMM personnalisé; Enfin, utilisez votre HMM pour scanner les génomes à la recherche de séquences similaires. Je recommande que vous compreniez d'abord le papier crique pour comprendre les pièges. – awesomo

+0

Awesomo - réponse très informative, merci! Une question: après avoir obtenu quelques réponses de plus de la part des gens, je comprends que l'alignement est (comme vous l'avez écrit) basé sur le premier repliement des ARNt dans leur structure secondaire. Y a-t-il un moyen de le faire en R? p.s: depuis que je suis nouveau à cela, je vois comment cela me prend du temps pour clarifier mes questions - merci pour votre (et d'autres) patience! –

2

Vous pouvez créer des alignements d'ARNt structurels basés sur des cages à partir des modèles de Lowe (les mêmes que ceux de gtRNAdb) de vos ARNt en utilisant le serveur Web TFAM. À l'heure actuelle, le serveur le plus fiable à utiliser est http://tfam.lcb.uu.se