Informations

Comment faire une recherche rapide de séquences similaires ?


J'ai essayé de faire une recherche Blast pour un gène PPO dans un génome d'avocat : https://www.ncbi.nlm.nih.gov/blast/Blast.cgi?PAGE_TYPE=BlastSearch&PROG_DEFAULTS=on&BLAST_SPEC=OGP__3435__73885&DATABASE=GPIPE/3435/current

Cependant, il n'y a pas de correspondance, ce qui peut être dû au fait qu'il s'agit d'une espèce différente avec une séquence légèrement différente ? Le génome que je recherche est connu pour contenir la PPO.


Comme indiqué dans les commentaires ici, il n'y a pas encore de séquence génomique complète pour l'avocat, bien que les gens semblent y travailler.

Cependant, il existe un grand nombre d'EST et faire un BLAST de leurs traductions avec la séquence PPO de tomate (tblastn) donne quelques résultats.

Voici un lien vers ce BLAST.


Cependant, il n'y a pas de correspondance, ce qui peut être dû au fait qu'il s'agit d'une espèce différente avec une séquence légèrement différente ?

C'est précisément le problème que BLAST a été conçu pour résoudre.


FASTA est un autre outil de recherche de similarité de séquence couramment utilisé qui utilise des heuristiques pour local recherche d'alignement.

SSEARCH est un outil optimal (par opposition à basé sur des heuristiques) local outil de recherche d'alignement utilisant l'algorithme de Smith-Waterman. Des recherches optimales vous garantissent de trouver le meilleur score d'alignement pour vos paramètres donnés.

PSI-Search combine la sensibilité de l'algorithme de recherche Smith-Waterman (SSEARCH) avec la stratégie de construction de profil PSI-BLAST pour trouver des séquences de protéines éloignées.

GGSEARCH fonctionne de manière optimale global-global recherches d'alignement à l'aide de l'algorithme Needleman-Wunsch.

GLSEARCH effectue une recherche de séquence optimale en utilisant des alignements qui sont global dans la requête mais local dans la séquence de la base de données. Cela peut être utile lorsque vous souhaitez faire correspondre la totalité d'une séquence de requête courte à une partie d'une séquence de base de données plus importante.

Ces programmes spécialisés permettent des recherches dans des bases de données en utilisant des fragments de séquence comme requête.


L'algorithme BLAST

  1. Diviser la requête en mots superposés de longueur W (les W-mers)
  2. Trouvez un &ldquoneighborhood&rdquo de mots similaires pour chaque mot (voir ci-dessous)
  3. Recherchez chaque mot dans le voisinage dans une table de hachage pour trouver l'emplacement dans la base de données où chaque mot apparaît. Appelez-les les des graines, et laissez S être la collection de graines.
  4. Étendre les graines dans S jusqu'à ce que le score de l'alignement tombe en dessous d'un certain seuil X.
  5. Signaler les correspondances avec les scores globaux les plus élevés

Figure 3.13 : L'algorithme BLAST

L'étape de pré-traitement de BLAST garantit que toutes les sous-chaînes de nucléotides W seront incluses dans notre base de données (ou dans une table de hachage). Ceux-ci sont appelés les W-mers de la base de données. Comme à l'étape 1, nous avons d'abord divisé la requête en examinant toutes les sous-chaînes de W nucléotides consécutifs dans la requête. Pour trouver le voisinage de ces W-mers, nous modifions ensuite ces séquences en les changeant légèrement et en calculant leur similarité avec la séquence d'origine. Nous générons progressivement plus de mots dissemblables dans notre voisinage jusqu'à ce que notre mesure de similarité tombe en dessous d'un certain seuil T. Cela nous permet de trouver des correspondances qui n'ont pas exactement W caractères correspondants consécutifs dans une ligne, mais qui ont suffisamment de correspondances pour être considérées comme similaires, c'est-à-dire pour atteindre un certain score de seuil.

Ensuite, nous recherchons tous ces mots dans notre table de hachage pour trouver des graines de W nucléotides correspondants consécutifs. Nous étendons ensuite ces graines pour trouver notre alignement en utilisant l'algorithme de Smith-Waterman pour l'alignement local, jusqu'à ce que le score tombe en dessous d'un certain seuil X. Étant donné que la région que nous considérons est un segment beaucoup plus court, ce ne sera pas aussi lent que d'exécuter le algorithme sur l'ensemble de la base de données ADN.

Il est également intéressant de noter l'influence de divers paramètres de BLAST sur les performances de l'algorithme vis-à-vis du temps d'exécution et de la sensibilité :

  • W Bien qu'un grand W entraînerait moins d'accès/collisions parasites, ce qui le rendrait plus rapide, il existe également des compromis associés, à savoir : un grand voisinage de séquences de requêtes légèrement différentes, une grande table de hachage et trop peu d'accès. D'un autre côté, si W est trop petit, nous pouvons obtenir trop de hits, ce qui pousse les coûts d'exécution à l'étape d'extension/alignement de la graine.
  • T Si T est plus élevé, l'algorithme sera plus rapide, mais vous risquez de manquer des séquences plus éloignées évolutivement. Si vous comparez deux espèces apparentées, vous pouvez probablement définir un T plus élevé car vous vous attendez à trouver plus de correspondances entre des séquences assez similaires.
  • X Son influence est assez similaire à T dans la mesure où les deux contrôleront la sensibilité de l'algorithme. Alors que W et T affectent le nombre total de hits que l'on obtient, et donc affectent considérablement le temps d'exécution de l'algorithme, définir un X vraiment strict malgré un W et un T moins stricts entraînera des coûts d'exécution en essayant des séquences inutiles qui ne respecteraient pas la rigueur de X. Il est donc important de faire correspondre la rigueur de X avec celle de W et T pour éviter des temps de calcul inutiles.

Exercice 2 : Affichage des résultats

Une fois la recherche terminée, tous les résultats seront téléchargés à partir de NCBI et placés dans le dossier nouvellement créé. Par défaut, les résultats de la recherche doivent être classés par leur Valeur E qui indique la fréquence attendue d'occurrence de chaque alignement par hasard. Si vos résultats ne sont pas classés par valeur E, cliquez sur l'en-tête de colonne Valeur E. Votre tableau de résultats devrait ressembler au tableau ci-dessous, mais les résultats réels peuvent varier légèrement car de nouvelles séquences sont ajoutées à GenBank tout le temps.

Pour les valeurs E, plus le nombre est petit, mieux c'est. Ceux-ci sont affichés à l'aide d'exposants. Le meilleur coup montré ici comme 1.18e-107 est le même que 1.18吆 -107 . Il s'agit d'un très petit nombre et indique qu'il est hautement improbable que cet alignement se produise un jour par hasard. Vous pouvez même avoir des exemples où la valeur E lit 0,00e+00 et cela vous indique que statistiquement, il n'y a aucune probabilité que cet alignement se soit produit par hasard. Vous devriez prendre ces statistiques comme guide car il peut encore y avoir des alignements intéressants qui semblent beaucoup moins significatifs.

En plus de la valeur E, il existe également une colonne intitulée % d'identité par paire. Ceci est également utile car il indiquera à quel point la séquence trouvée dans la base de données est similaire à celle que vous avez utilisée comme requête. Vous pouvez voir que la plupart des résultats de cet exemple sont identiques à 100 % à la requête sur toute la longueur de l'alignement, mais ont des Longueurs de séquence. En effet, l'alignement produit est un alignement de similarité local et il a aligné la région maximale qu'il a pu trouver entre les deux séquences. L'identité se réfère uniquement à la région alignée, il est donc possible d'avoir des alignements très courts qui ont une identité élevée. C'est pourquoi les alignements ont tendance à être classés par leur valeur E plutôt que par leur identité. Geneious produit également un Classe score, qui combine la couverture des requêtes, la valeur e et les valeurs d'identité pour chaque hit avec des poids de 0,5, 0,25 et 0,25 respectivement, vous permettant de déterminer les hits d'identité les plus longs et les plus élevés.

Maintenant que vous avez un ensemble de résultats de recherche, vous devriez examiner certains alignements. Cliquez sur le coup pour NP_001014408 et vous devriez voir quelque chose comme ceci :

Vous pouvez voir sur le graphique d'identité vert au-dessus de l'alignement que les deux séquences sont identiques. Comme tout autre alignement dans Geneious, vous pouvez zoomer sur l'affichage des bases, modifier les paramètres de couleur et mettre en évidence les accords ou les désaccords par rapport au consensus dans les commandes générales à droite de la visionneuse.

Cette vue d'alignement affiche uniquement la région d'alignement entre la requête et la séquence d'accès. Le document d'impact renvoyé est un document récapitulatif et ne contient pas l'enregistrement GenBank complet pour cette séquence. Pour obtenir la séquence complète et les annotations de l'explosion, cliquez sur Télécharger la ou les séquences complètes. Une fois la séquence complète téléchargée, vous verrez qu'un Vue de la séquence onglet est ajouté à la visionneuse. Cela affiche la séquence complète et annotée de l'appel BLAST, avec une nouvelle annotation “BLAST Hit” indiquant quelle région de la séquence correspond à la requête.

Vue centrée sur les requêtes

La vue centrée sur les requêtes est utile pour visualiser tous les résultats par rapport à votre requête dans une seule fenêtre, vous permettant de voir où se trouvent les régions conservées de votre séquence. Clique sur le Vue centrée sur les requêtes en haut du tableau des résultats, puis désactivez les annotations dans l'onglet Annotations et pistes, et dans l'onglet Affichage, choisissez de mettre en surbrillance Désaccords à Référence. Votre écran devrait ressembler à ceci :

La séquence de requête est présentée comme une séquence de référence, avec un ombrage jaune, en haut de l'alignement. Vous pouvez voir que bon nombre des principaux résultats sont extrêmement similaires à la requête, ce qui indique que cette protéine est hautement conservée sur la majeure partie de sa longueur. Les 20 premiers résidus de la requête peuvent être moins bien conservés car de nombreux hits ne couvrent pas cette région. Les séquences sont alignées par ordre de valeur E et si vous faites défiler vers le bas, vous verrez que les séquences deviennent plus éloignées de la requête à mesure que la valeur E diminue.


Comment faire une recherche rapide de séquences similaires ? - La biologie

Fin 2002, la base de données GenBank contenait plus de 28x10 9 paires de bases de données de séquences d'ADN. Certaines d'entre elles ont été annotées, mais une grande partie n'a pas d'annotations ou est incorrectement annotée. Comment trouver des séquences qui peuvent être intéressantes si elles n'ont pas été annoté? Une façon de trouver des séquences intéressantes est de rechercher des séquences similaires à une séquence connue. Plusieurs algorithmes de recherche ont été développés pour rechercher dans la base de données des séquences similaires à un mettre en doute séquence.

Parmi les algorithmes les plus importants utilisés pour rechercher des bases de données de séquences à l'heure actuelle (2003) se trouvent une famille d'algorithmes basés sur BLAST, le "Basic Local Alignment Search Tool". BLAST fonctionne particulièrement bien avec les séquences codant pour les protéines. Un deuxième algorithme FASTA, légèrement plus ancien, peut être plus performant avec des séquences d'ADN non codantes.

La recherche dans une grande base de données de séquences est un problème difficile car il existe de nombreuses manières possibles d'aligner la séquence de requêtes sur la base de données. Pour accélérer ce processus, BLAST recherche de petites régions de correspondance parfaite entre la requête et les séquences cibles, puis examine la séquence qui jouxte ces régions pour voir s'il existe un tronçon plus long qui correspond parfaitement.

La première étape pour comprendre ce processus est de se familiariser avec les propriétés empiriques de la recherche dans les bases de données avec BLAST. L'objectif de cet exercice est d'utiliser des variantes de BLAST pour rechercher GenBank et d'étudier leur comportement dans différentes conditions.

Considérez la séquence d'ADN suivante :

ATTTGGAGCATCATGCCTGCAAACTCCGAGAAGGAGCACCTCTCCATCGT
GATTTGCGGCCATGTCGACAGTGGCAAGAGCACCACAACAGGGCGGCTC A
TCTTCGAGCTCGGTGGCCTTCCAGAGCGCGAACTTGACAAGCTGAAGCA G
GAGGCTGACGTCTTGGGAAAGGTTCTTTCGCCTTTGCATTCTACATGGA
CCGGCAGAAGGAGGAGGCGTGAGCGTGGGGTGACCATCGCTTGCACCACCG A
AGGAGTTCTACACCGAGAAGTGGCACTACACAATCATTGATGCACCGGGC
CACCGTGATTTCATCAAGAACATGATCACGGGTGCATCCCAGGCTGATGT
CGCACTCATCATGGTTCCCGCAGACGGAAACTTCACGACAGCAATCGCCA
AGGGCAACCACAAGGCGGGGGAAATCCAGGGCCAGACCAGGCAGCATTCC
CGGCTCATCAACTTGCTTGGCGTGAAGCAGATCTGCATTGGCGTGAACAA
GATGGACTGCGACACGGCGGCATACAAGCAGGCCCGTTATGATGAGATTG
CAAATGAGATGAAGAGCATGCTCGTGAANGTCGGTGGAAGAAGGACTTT
ATTCGAGAAAACACACCCGTGATGCCCATCT

Il s'agit d'une séquence d'ADN qui a été obtenue par criblage arbitraire d'une banque d'ADNc. Nous aimerions en savoir plus sur la séquence. Un moyen simple d'avoir un aperçu d'une séquence est de savoir si elle ressemble ou non à des séquences qui ont déjà été rapportées dans d'autres études. Pour ce faire, nous utiliserons BLAST pour comparer la séquence à la base de données GenBank maintenue par le NCBI (le National Center for Biotechnology Information, une branche de la NIH National Library of Medicine). Nous utiliserons la séquence ci-dessus comme séquence de requête et utiliserons BLAST pour comparer la séquence de requête à la base de données GenBank. L'analyse proprement dite sera exécutée sur un superordinateur massivement parallèle exploité par NCBI en tant que service à la communauté des chercheurs. Il existe plusieurs façons de soumettre des recherches au serveur blast, nous allons commencer par l'interface Web.

Noter! Il est essentiel que vous compreniez comment les différents ordinateurs interagissent pour effectuer les analyses que vous effectuez. Lorsque vous utilisez un navigateur Web pour vous connecter à un site Web, vous initiez une interaction hôte/client. Votre ordinateur de bureau est le client, l'ordinateur qui exécute le logiciel d'hébergement Web est l'hôte. Dans ce cas, vous exécuterez une tâche de calcul intensif sur l'ordinateur hôte, de sorte que la vitesse apparente avec laquelle l'analyse s'exécute sera fonction de la charge sur l'ordinateur hôte (entre autres facteurs).

Tout d'abord, copiez la séquence. Ensuite, allez sur le site Web du NCBI (http://www.ncbi.nlm.nih.gov/, cela est également indiqué dans la page "links" de la classe), et suivez le lien pour DÉTRUIRE sur la page d'accueil du NCBI, puis le lien pour Standard nucléotide-nucléotide BLAST [blastn]. Dans l'espace prévu, collez la séquence puis cliquez sur le bouton qui dit DÉTRUIRE!

La page sera remplacée par une page appelée "formatage BLAST." Notez qu'elle vous fournit un numéro d'identification de blast, une estimation du temps qu'il faudra pour que les résultats soient renvoyés et quelques options de formatage.

Pendant que vous attendez que vos résultats d'explosion soient renvoyés, ouvrez une autre fenêtre de navigateur et explorez la page d'accueil NCBI. Il existe de nombreuses ressources utiles fournies par NCBI, et vous visiterez fréquemment ce site. Il vaut la peine de savoir s'y retrouver. Vous devriez également lire l'aperçu de l'explosion (http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html) et d'autres informations liées à la page de l'explosion.

Après avoir attendu un certain temps, retournez à la page "formatage BLAST" et cliquez sur le bouton FORMAT bouton. Les résultats de votre recherche d'explosion seront affichés sur une nouvelle page Web. Il y a des informations sur la façon de citer cette analyse dans les publications scientifiques et sur la nature de votre recherche, suivies d'un ensemble de lignes colorées qui illustrent les résultats de la recherche, puis du texte décrivant les résultats de la recherche, et en dessous plus de texte montrant des exemples des meilleurs matchs.

Passez la souris sur les lignes colorées et remarquez comment l'affichage change. Regardez comment ces informations sont en corrélation avec le texte plus bas sur la page et notez qu'il existe des liens vers les séquences auxquelles la séquence de requête correspond. Prenez le temps ici et essayez de regarder toutes les fonctionnalités de cette page Web. Si vous comprenez bien ces ressources, cela vous fera gagner beaucoup de temps à l'avenir.

Quelles déductions sur cette séquence pouvez-vous faire à partir de ces informations ?

Quelle est l'identité de la séquence ?

Quel gène pensez-vous qu'il code?

De quel organisme pensez-vous qu'il vient ?

Selon vous, quelle est la fiabilité de cette inférence ? Pourquoi?

Astuce : regardez le score de bits, au valeur électronique, et lors des matchs individuels (notez qu'il existe des liens que vous pouvez suivre).

Rappelons que la séquence provenait d'une banque d'ADNc. Cela signifie qu'il s'agit probablement d'une séquence codant pour une protéine. Blast est plus sensible aux motifs subtils dans les séquences d'acides aminés que dans les séquences de nucléotides, il peut donc être utile d'essayer une recherche qui tire parti de l'information selon laquelle il s'agit d'une séquence codant pour une protéine. Nous ne savons pas si la séquence est dans le cadre, nous voudrons donc rechercher une traduction de la séquence dans les six cadres de lecture possibles par rapport à une base de données de protéines.

Comme vous travaillez avec une séquence de nucléotides, vous devrez effectuer une recherche traduite. Retournez à la page d'accueil de BLAST (http://www.ncbi.nlm.nih.gov/BLAST/) et sous Recherches BLAST traduites sélectionner Requête nucléotidique - Protein db [blastx].

Notez qu'il existe un certain nombre d'autres options que vous pouvez sélectionner, mais ne modifiez aucune d'entre elles.

Soumettez la demande de recherche et détendez-vous en apprenant davantage sur le site jusqu'à ce que les résultats soient renvoyés.

Remarque : Les recherches Blast soumises via le site Web sont soumises à une file d'attente et leur priorité est fonction du nombre de recherches que vous soumettez en même temps. Si vous soumettez une série de recherches à partir du même ordinateur, chaque recherche prendra progressivement plus de temps. Si vous souhaitez soumettre plusieurs recherches, il est préférable de ne pas utiliser l'interface Web pour soumettre des recherches. Nous soumettrons des recherches par e-mail plus tard dans le semestre, mais si vous souhaitez soumettre des recherches par e-mail, envoyez un e-mail composé du seul mot HELP à [email protected]

En quoi les résultats diffèrent-ils de la recherche blastn ?

Quelles déductions pouvez-vous tirer des différents résultats des deux recherches

Quelle est l'identité de la séquence ?

Quel gène pensez-vous qu'il code?

De quel organisme pensez-vous qu'il vient ?

Selon vous, quelle est la fiabilité de cette inférence ? Pourquoi?

Pourquoi les recherches de nucléotides et d'acides aminés se comportent-elles très différemment ? En quoi ces deux types de données diffèrent-ils dans la manière dont ils véhiculent l'information ? N'oubliez pas que chaque acide aminé est codé par trois nucléotides, mais qu'une séquence d'acides aminés se compose également d'un tiers du nombre de caractères que sa séquence nucléotidique correspondante.

À quel pourcentage d'identité de séquence vous attendriez-vous dans un alignement (sans lacunes) de deux séquences d'ADN aléatoires ?

Qu'en est-il de deux séquences aléatoires d'acides aminés ?

Considérez les différentes options, y compris les paramètres, qui peuvent être définies à partir de la page BLAST. Pouvez-vous déterminer quel effet chacun d'eux aura? Certains contrôlent la manière dont les résultats BLAST sont formatés, tandis que d'autres contrôlent le fonctionnement de l'algorithme lui-même.

Changez la taille du mot de 11 à 7 et répétez la recherche BLASTN. Les résultats sont-ils identiques à ceux de la recherche de taille 11 ? En quoi les deux recherches diffèrent-elles ? Que se passe-t-il si vous utilisez une taille de mot de 15 ?

Des séquences inconnues supplémentaires sont disponibles à partir des devoirs passés liés à la page d'accueil de la classe. Choisissez l'une de ces séquences et répétez les recherches répertoriées ci-dessus. Quelles observations pouvez-vous faire sur la façon d'utiliser BLAST le plus efficacement possible ?

Exécuter BLAST à partir d'une interface de ligne de commande

NCBI met à disposition un client BLAST, blastcl3 qui peut être utilisé pour lancer des recherches BLAST à partir d'un ordinateur local sans utiliser d'interface Web. Bien que cela demande un peu plus de réflexion que l'utilisation de l'interface Web, il est beaucoup plus facile à automatiser et, par conséquent, est préférable pour les analyses de plusieurs séquences.

Un deuxième client BLAST, NetBLAST fait partie du package analytique GCG. Nous l'utiliserons plus tard dans le semestre.


Trouver des séquences nucléotidiques similaires à l'aide des recherches BLAST du réseau

L'outil de recherche d'alignement local de base (BLAST) est le premier outil d'annotation de séquences de nucléotides ou d'acides aminés. BLAST est un fleuron de la bioinformatique de par ses performances et sa convivialité. Les débutants et les utilisateurs intermédiaires apprendront à concevoir et à soumettre exploser et Mégablaste recherches sur les pages Web du Centre national d'information sur la biotechnologie. Nous cartographions les séquences d'acides nucléiques sur les génomes, trouvons des ARNm identiques ou similaires, une étiquette de séquence exprimée et des séquences d'ARN non codantes, et exécutons Mégablaste recherches, qui sont beaucoup plus rapides que exploser. La compréhension des résultats est facilitée par les rapports de taxonomie, les vues génomiques et les alignements multiples. Nous interprétons les seuils de fréquence attendus, la signification biologique et la signification statistique. Les résultats faibles ne fournissent aucune preuve, mais indiquent des indices pour des analyses ultérieures. Nous trouvons des gènes qui peuvent coder pour des protéines homologues par BLAST traduit. Nous réduisons les faux positifs en filtrant les régions de faible complexité. Les résultats BLAST analysés peuvent être intégrés dans des pipelines d'analyse. Les liens dans la sortie se connectent à Entrez et PubMed, ainsi qu'aux bases de données structurelles, de séquence, d'interaction et d'expression. Cela facilite l'intégration avec un large éventail de connaissances biologiques. © 2017 par John Wiley & Sons, Inc.


Comment comparer deux séquences à l'aide de NCBI online BLAST ?

Ce didacticiel se concentre sur l'alignement facile de deux séquences d'ADN d'intérêt avec le programme en ligne NCBI BLAST.

Ici, nous choisissons 2 séquences d'ADN et nous nous alignons à l'aide du programme BLAST en ligne. Les séquences utilisées sont un sous-ensemble de séquence de ce lien

La deuxième séquence est un sous-ensemble de la première téléchargée à partir du lien ci-dessus, pour montrer comment le BLAST trouve la similitude.

Niveau de difficulté : Facile

  • Ouvrez NCBI BLAST à partir d'ici
  • Comme nos séquences sont de Nucleotide, nous pouvons sélectionner Nucleotide BLAST.
  • Vous serez dirigé vers la suite BLASTN comme sur l'image ci-dessous. Maintenant, nous devons cocher l'option “Aligner deux ou plusieurs séquences” sous l'onglet Titre du poste. Cela nous permettra de donner deux séquences en entrée du BLAST.
  • Après avoir coché l'option d'alignement de deux séquences comme mentionné ci-dessus, nous obtenons deux zones de saisie pour donner les séquences.
  • Nous utilisons le sous-ensemble de la séquence téléchargée comme séquence de requête qui peut être ajoutée à la première case pour “Query Sequence”. Collez la séquence de requête dans la zone. Ajoutez un titre de poste (facultatif) pour identifier la recherche que vous avez effectuée plus tard.

    Conseil:
    Vous pouvez ajouter plusieurs séquences de requête à comparer avec la même séquence de sujet.

Lisez nos autres tutoriels – Cliquez ici
Découvrez d'autres extraits d'analyse NGS ici


DÉTRUIRE Résultats

L'analyse des résultats d'une recherche BLAST, bien que similaire, dépendra du fait que la recherche d'origine portait sur une séquence de nucléotides ou d'acides aminés.

En regardant la section "Séquences produisant des alignements significatifs", nous voyons :

Acide aminé (résultat de protéine)

Nucléotide (ARNm)

Dans les deux cas, les éléments d'intérêt sont :

  • Max[imum] But: le score d'alignement le plus élevé calculé à partir de la somme des récompenses pour les nucléotides ou les acides aminés appariés et les pénalités pour les discordances et les lacunes.
  • Tot[Al] But: la somme des scores d'alignement de tous les segments de la même séquence de sujets.
  • Couverture de la requête[age] : le pourcentage de la longueur de la requête inclus dans les segments alignés.
  • E[s'attendre] Valeur: le nombre d'alignements attendus par hasard avec le score calculé ou mieux. La valeur attendue est la métrique de tri par défaut pour les alignements significatifs, la valeur E doit être très proche de zéro.
  • Identifiant[ity] : le pourcentage d'identité le plus élevé pour un ensemble de segments alignés sur la même séquence de sujet.

Ces résultats peuvent être utiles pour identifier à quoi correspond la séquence recherchée et quelles autres espèces ont des substances similaires.

Cliquer sur le nom de l'un des résultats le fera. encore une fois, afficher des résultats différents :

Acide aminé (résultat de protéine)

Les résultats montrent les correspondances d'acides aminés

Nucléotide (ARNm)

Les résultats montrent l'alignement des paires de bases

Comparer plusieurs séquences

Une autre forme de recherche consiste à comparer 2 séquences entre elles. L'image ci-dessous est de BLASTP, mais le BLASTN a une installation similaire. Ceci est activé en cliquant sur le lien "aligner deux séquences ou plus" :

Arbre de taxonomie

Un autre résultat intéressant est le rapport de l'arbre taxonomique des séquences d'appariement significatives. Encore une fois, les résultats sont similaires pour BLASTN et BLASTP. L'exemple montré est de BLASTP :

Cliquez sur le lien "Arbre de résultats".

Le résultat est un arbre visuel des matchs. Il est possible d'obtenir plus de détails en cliquant sur l'une des feuilles de l'arbre :


Trouver des séquences nucléotidiques similaires à l'aide des recherches BLAST du réseau

L'outil de recherche d'alignement local de base (BLAST) est une clé de voûte de la bioinformatique en raison de ses performances et de sa convivialité. Les utilisateurs débutants et intermédiaires apprendront à concevoir et à soumettre exploser et Mégablaste recherches sur les pages Web du Centre national d'information sur la biotechnologie. Nous cartographions les séquences d'acides nucléiques sur les génomes, trouvons des ARNm identiques ou similaires, une étiquette de séquence exprimée et des séquences d'ARN non codantes, et exécutons Mégablaste recherches, qui sont beaucoup plus rapides que exploser. La compréhension des résultats est facilitée par les rapports de taxonomie, les vues génomiques et les alignements multiples. Nous interprétons les seuils de fréquence attendus, la signification biologique et la signification statistique. Les résultats faibles ne fournissent aucune preuve, mais des conseils pour des analyses ultérieures. Nous trouvons des gènes qui peuvent coder pour des protéines homologues par BLAST traduit. Nous réduisons les faux positifs en filtrant les régions de faible complexité. Les résultats BLAST analysés peuvent être intégrés dans des pipelines d'analyse. Les liens dans la sortie se connectent aux bases de données Entrez, PUBMED, structurelles, de séquence, d'interaction et d'expression. Cela facilite l'intégration avec un large éventail de connaissances biologiques. Cour. Protoc. Bio-informer. 26:3.3.1-3.26. © 2009 par John Wiley & Sons, Inc.


Comment faire une recherche rapide de séquences similaires ? - La biologie

Instructions pour effectuer l'analyse BLASTN

Vous allez maintenant effectuer une recherche BLAST en utilisant la ou les séquences de type sauvage que vous avez récupérées au début du semestre. Si vous avez plusieurs séquences, vous devrez effectuer ces étapes pour chacune des séquences.

Copiez et collez la séquence que vous souhaitez analyser.

Vous effectuerez une recherche nucléotide-nucléotide standard (BLASTN). Collez la séquence du gène de la mouche que vous avez copiée à partir de votre fichier Word dans la boîte et assurez-vous que vous recherchez la base de données "Autres (nr etc.)" (la valeur par défaut est définie sur humain pour une raison quelconque). Une nouvelle ligne apparaîtra intitulée "Organisme". Entrez "Drosophile" dans la zone de texte et cochez la case "Exclure".
Cela supprimera tout Drosophile séquences de vos résultats et rendre l'analyse plus pratique.
Vous devrez également sélectionner « Plus de séquences dissemblables (mégablaste discontinu) » dans la case « Sélection de programme ».

Enfin, cliquez sur le mot "BLAST".

Le premier écran qui se charge est juste pour vous faire savoir que vous attendez que le programme termine la recherche.

(Parfois l'attente peut prendre plusieurs minutes alors soyez patient).

La page de rechargement finale contiendra les résultats de la recherche BLASTN. La page comporte 3 sections. La première section est un graphique montrant les emplacements de similarité entre votre séquence (la séquence de requête) et certaines des séquences similaires qui ont été identifiées par le programme. La deuxième section est un tableau de séquences similaire à votre séquence de requête avec des scores numériques (valeurs E). La troisième section montre les alignements réels de votre séquence de requête avec chacune des séquences correspondantes.

Le nombre de hits par défaut est de 100 (généralement), donc si cela ne suffit pas pour trouver ce que vous cherchez, retournez à la page BLASTN avec la case, refaites tout, et cliquez sur "Paramètres de l'algorithme" en bas de la page avant d'appuyer sur le bouton Blast. Cela vous permet de modifier le nombre d'alignements que vous recevrez afin que vous ayez une chance de trouver le bon coup.


Voir la vidéo: Comment faire une recherche efficace sur Google (Janvier 2022).