Informations

Valeurs d'amorçage


Qu'indiquent les valeurs bootstrap sur la relation entre les espèces ? Je travaille sur le programme Mega mais je ne comprends pas ce que la valeur bootstrap signifie en termes simples et aussi ce qu'elle indique sur la relation entre les espèces


Les valeurs bootstrap appartiennent à une large catégorie de valeurs appelées valeurs de soutien. Les valeurs de support en général sont utilisées pour donner une indication du degré auquel on peut être sûr que la branche représente un "signal" présent dans les données.

En particulier, les valeurs bootstrap indiquent comment robuste les branches de l'arbre sont, c'est-à-dire leur résistance à la perturbation des données. Ils sont obtenus en ré-échantillonnant des colonnes dans la matrice de données, en construisant des arbres à partir de ces matrices ré-échantillonnées et en examinant la proportion des arbres obtenus qui contiennent une branche donnée.

Dans le cas du bootstrap, l'étape de ré-échantillonnage se fait de la manière suivante : Supposons que la matrice de données d'origine a N colonnes (c'est-à-dire N caractères codés, qui peuvent être des nucléotides ou des acides aminés dans un alignement de séquence, des caractères morphologiques, la présence- absence de caractéristiques génomiques, etc.). Une nouvelle matrice sera obtenue en tirant au hasard une de ces colonnes, N fois. La nouvelle matrice aura donc le même nombre de caractères, mais certains de la matrice d'origine seront présents plusieurs fois et d'autres seront absents. Cela influencera la topologie de l'arbre. Par exemple, si une branche était supportée par des caractères qui sont maintenant absents, cette branche peut ne plus apparaître avec ce ré-échantillonnage particulier. Le ré-échantillonnage est généralement effectué environ 100 ou 1000 fois.

Une faible valeur de bootstrap signifie que si l'arbre est construit en utilisant un sous-ensemble des données, il est probable que cette branche n'apparaîtra pas.

Une valeur de bootstrap élevée signifie que la branche apparaîtra probablement sur un arbre construit à partir d'une telle matrice ré-échantillonnée. Cela ne signifie pas nécessairement que la branche est plus susceptible de représenter les véritables relations historiques, cependant : parfois, les artefacts de reconstruction peuvent être robustes. Par exemple, avec certaines méthodes de reconstruction de la phylogénie moléculaire, les taxons peuvent finir par être regroupés en fonction de similitudes dans la composition du génome. Des valeurs de bootstrap élevées indiquent qu'il y a un signal fort dans les données soutenant la branche, qu'il s'agisse d'un signal historique ou autre.


Valeurs d'amorçage - aidez s'il vous plaît - (20 décembre 2007 )

J'ai besoin de comprendre les valeurs d'amorçage de l'arbre phylogénique.
Si les valeurs de bootstrap sont 1000, 786, 502 etc. aux points de ramification de l'arbre phylogénique, que signifient ces non, c'est-à-dire 1000, 786, 502 ?

Jusqu'à présent, je sais que l'analyse bootstap est une méthode de test de l'adéquation d'un ensemble de données particulier à un modèle. Que signifient ces valeurs, c'est-à-dire 1000, 786, etc. ?

J'ai rassemblé un livre sur la bioinformatique. séquence et analyse du génome par David W. Mount. Mais cela ne dit pas grand-chose sur les valeurs d'amorçage. Existe-t-il une source en ligne appropriée pour le comprendre ?

toute autre recommandation sera appréciée.
Merci d'avance.

L'amorçage est une méthode dans laquelle vous prenez un sous-échantillon des sites dans un alignement et créez des arbres basés sur ces sous-échantillons - l'arbre d'origine est comparé au nouvel arbre. Pour chaque clade dans l'arbre d'origine, un score de 1 est attribué si ce clade est présent dans le nouvel arbre, un score de 0 est attribué si le clade n'est pas présent dans le nouvel arbre. Ce processus constitue un échantillon bootstrap. Le score de chaque clade est enregistré et le prochain cycle de bootstrap peut être lancé. Plus le score est élevé, plus le branchement est fiable à ce stade. En règle générale, 100 à 1000 répétitions de bootstrap sont utilisées pour estimer la fiabilité de l'arbre.

L'amorçage est un moyen simple de tester la fiabilité d'un alignement de séquences multiples (MSA). Le principe de base d'un MSA est que les résidus homologues sont alignés dans chaque colonne du MSA. Mais ce n'est que dans le plus idéal des cas, et même le meilleur des programmes MSA ne peut le garantir. Ainsi, dans la plupart des MSA, il arrive que certaines parties de l'alignement soient très bien alignées alors que d'autres ne le sont pas. Donc, une façon de tester la qualité des différentes parties de l'alignement est d'introduire un peu de bruit dans le MSA. Cela se fait par quelque chose appelé "Echantillonnage avec remplacement", où en gardant la longueur de la MSA constante, les colonnes sont échantillonnées et remplacées de manière aléatoire. Cela introduit un peu de bruit dans le MSA et l'arbre pour ce nouveau MSA est calculé. De même, le bruit est introduit dans différentes parties de la MSA et de nombreux autres arbres sont calculés. En règle générale, le nombre de bootstraps que vous effectuez sur un MSA dépend de la longueur du MSA. L'échantillonnage des 2/3 de la MSA par bootstrap est généralement considéré comme suffisant. (1000 bootstraps en fait des échantillons avec un remplacement supérieur aux 2/3 de la MSA dans presque tous les cas).

Maintenant que différents arbres ont été calculés pour les différents MSA, un consensus des arbres doit être généré (avec généralement l'option de victoires majoritaires). Les valeurs d'amorçage peuvent maintenant être considérées comme impliquant le pourcentage de MSA amorcés prenant en charge un clade particulier malgré toute l'introduction de bruit. Les associations d'homologie fortes ne souffrent pas même lorsque du bruit est introduit, tandis que les associations plus faibles n'apparaissent qu'avec des valeurs de bootstrap faibles et peuvent flotter dans l'arbre à n'importe quel endroit sans aucune association particulière ou cohérente.

Je recommanderais à tous ceux qui construisent des arbres phylogénétiques de lire ce merveilleux tutoriel. Il est simple à lire et tout le monde peut commencer très rapidement à construire des arbres.

Faites-moi savoir si vous avez encore des questions

Merci à Bunsen Honeydew et String de m'avoir fourni les informations nécessaires.
meilleures salutations

L'amorçage est un moyen simple de tester la fiabilité d'un alignement de séquences multiples (MSA). Le principe de base d'un MSA est que les résidus homologues sont alignés dans chaque colonne du MSA. Mais ce n'est que dans le plus idéal des cas, et même le meilleur des programmes MSA ne peut le garantir. Ainsi, dans la plupart des MSA, il arrive que certaines parties de l'alignement soient très bien alignées alors que d'autres ne le sont pas. Donc, une façon de tester la qualité des différentes parties de l'alignement est d'introduire un peu de bruit dans le MSA. Cela se fait par quelque chose appelé "Echantillonnage avec remplacement", où en gardant la longueur de la MSA constante, les colonnes sont échantillonnées et remplacées de manière aléatoire. Cela introduit un peu de bruit dans le MSA et l'arbre pour ce nouveau MSA est calculé. De même, le bruit est introduit dans différentes parties de la MSA et de nombreux autres arbres sont calculés. En règle générale, le nombre de bootstraps que vous effectuez sur un MSA dépend de la longueur du MSA. L'échantillonnage des 2/3 de la MSA par bootstrap est généralement considéré comme suffisant. (1000 bootstraps en fait des échantillons avec un remplacement supérieur aux 2/3 de la MSA dans presque tous les cas).

Maintenant que différents arbres ont été calculés pour les différents MSA, un consensus des arbres doit être généré (avec généralement l'option de victoires majoritaires). Les valeurs d'amorçage peuvent maintenant être considérées comme impliquant le pourcentage de MSA amorcés prenant en charge un clade particulier malgré toute l'introduction de bruit. Les associations d'homologie fortes ne souffrent pas même lorsque du bruit est introduit, tandis que les associations plus faibles n'apparaissent qu'avec des valeurs de bootstrap faibles et peuvent flotter dans l'arbre à n'importe quel endroit sans aucune association particulière ou cohérente.

Je recommanderais à tous ceux qui construisent des arbres phylogénétiques de lire ce merveilleux tutoriel. Il est simple à lire et tout le monde peut commencer très rapidement à construire des arbres.


Comment effectuer un bootstrapping dans R (avec des exemples)

Amorçage est une méthode qui peut être utilisée pour estimer l'erreur standard de n'importe quelle statistique et produire un intervalle de confiance pour la statistique.

Le processus de base pour l'amorçage est le suivant :

  • Prendre k échantillons répétés avec remplacement à partir d'un ensemble de données donné.
  • Pour chaque échantillon, calculez la statistique qui vous intéresse.
  • Cela se traduit par k différentes estimations pour une statistique donnée, que vous pouvez ensuite utiliser pour calculer l'erreur standard de la statistique et créer un intervalle de confiance pour la statistique.

Nous pouvons effectuer l'amorçage dans R en utilisant les fonctions suivantes de la bibliothèque de démarrage :

1. Générez des échantillons bootstrap.

boot(données, statistiques, R, …)

  • Les données: Un vecteur, une matrice ou un bloc de données
  • statistique: Une fonction qui produit la ou les statistiques à amorcer
  • R : Nombre de réplicats bootstrap

2. Générez un intervalle de confiance bootstrap.

boot.ci(bootobject, conf, type)

  • objet de démarrage : Un objet renvoyé par la fonction boot()
  • conf : L'intervalle de confiance à calculer. La valeur par défaut est 0,95
  • taper: Type d'intervalle de confiance à calculer. Les options incluent “norm”, “basic”, “stud”, “perc”, “bca” et “all” – La valeur par défaut est “all”

Les exemples suivants montrent comment utiliser ces fonctions dans la pratique.

Exemple 1 : amorcer une seule statistique

Le code suivant montre comment calculer l'erreur standard pour le R au carré d'un modèle de régression linéaire simple :

D'après les résultats, nous pouvons voir:

  • Le R au carré estimé pour ce modèle de régression est 0.7183433.
  • L'erreur type de cette estimation est 0.06513426.

Nous pouvons également visualiser rapidement la distribution des échantillons bootstrap :

Nous pouvons également utiliser le code suivant pour calculer l'intervalle de confiance à 95 % pour le R-carré estimé du modèle :

À partir de la sortie, nous pouvons voir que l'intervalle de confiance bootstrap à 95% pour les vraies valeurs R-carré est (.5350, .8188).

Exemple 2 : Amorçage de plusieurs statistiques

Le code suivant montre comment calculer l'erreur standard pour chaque coefficient dans un modèle de régression linéaire multiple :

D'après les résultats, nous pouvons voir:

  • Le coefficient estimé pour l'intersection du modèle est 29.59985476 et l'erreur type de cette estimation est 1.49354577.
  • Le coefficient estimé pour la variable prédictive afficher dans le modèle est -0.04121512 et l'erreur type de cette estimation est 0.00527082.

Nous pouvons également visualiser rapidement la distribution des échantillons bootstrap :

Nous pouvons également utiliser le code suivant pour calculer les intervalles de confiance à 95 % pour chaque coefficient :

À partir de la sortie, nous pouvons voir que les intervalles de confiance bootstrap à 95 % pour les coefficients du modèle sont les suivants :


Construction et contenu

Aperçu

L'objectif de STBase est de fournir un outil qui accepte une liste de requêtes utilisateur de noms de taxons et renvoie une liste classée de bons “hits” à une base de données d'arbres phylogénétiques. Un “hit,” censé être analogue aux recherches BLAST [38], se produit lorsque le moteur de recherche trouve un ensemble de données qui contient un nombre minimum de taxons de requête. STBase ne prend pas en charge les recherches floues pour le moment. Les noms de taxon doivent être orthographiés de la même manière que dans la taxonomie GenBank. Chaque “hit” a un ensemble associé de 1000 arbres créés par l'analyse bootstrap. Des sous-arbres, avec des estimations de confiance, sont créés en élaguant chaque arbre d'amorçage aux taxons d'intérêt, le consensus de la règle de majorité de ces sous-arbres d'amorçage est ensuite renvoyé à l'utilisateur. Pour quantifier ce que signifie “good hit”, nous construisons une fonction de notation qui augmente avec la qualité de l'arbre et la quantité de chevauchement taxonomique entre l'arbre et la requête. Nous supposons que la qualité des arbres peut être caractérisée en incluant un ensemble d'arbres de confiance dans la base de données, calculé, par exemple, par bootstrap (comme ici) ou en échantillonnant la distribution a posteriori [1]. Soit A la liste de requêtes, et h être une préférence fournie par l'utilisateur indiquant l'importance relative de la qualité de l'arbre par rapport au chevauchement des taxons. Pour tout arbre, T, soit L(T) les taxons de l'arbre, T | A est le sous-arbre restreint aux seuls taxons de la requête, et L(T | A) est les taxons partagés entre la requête et l'arbre. puis définir w (L(T | A)) comme une fonction croissante de ce chevauchement. Soit q (T | A) une fonction croissante de la qualité du sous-arbre. Le score d'un “hit” sur l'arbre (précalculé) T pour la liste de requêtes A est alors

Définir le score de cette manière permet à l'utilisateur de rechercher des arbres qui se chevauchent plus largement avec leur liste de requête de taxons (comme le scalaire h approche 0) ou de préférer les sous-arbres qui ont une haute qualité comme indiqué par leurs valeurs de bootstrap (comme h augmente). En moyenne, nous nous attendons à ce que les arbres plus grands soient moins bien supportés [39] les valeurs intermédiaires de h renverra des arbres qui peuvent présenter un compromis entre les deux extrêmes d'arbres plus grands par rapport à de meilleurs arbres. Le score de qualité, q (T | A), est calculé en multipliant le support bootstrap moyen (pour les nœuds supérieurs à 50 %) par la proportion de nœuds résolus dans l'arbre de consensus de la règle de majorité. La fonction de chevauchement, w (L(T | A)), est le nombre de taxons qui se chevauchent divisé par le nombre de taxons de requête qui se trouvent dans la base de données (plutôt que le plus grand ensemble de taxons de requête qui pourrait inclure des taxons introuvables dans GenBank). Pour garantir que le score est comparable et donc utile pour classer les résultats, nous normalisons le score de 0 à 100 en multipliant la fonction de chevauchement par 100 et en divisant le résultat par 1+ h (h est un nombre positif, l'interface utilisateur dispose d'une barre de défilement permettant une sélection entre 0,01 et 10,0 avec une valeur par défaut de 1,0). Considérons, par exemple, une liste d'entrée fournie par l'utilisateur de 200 noms de taxons, qui se trouvent tous dans GenBank (notez que les noms de taxons manquants dans GenBank n'affectent pas le classement des résultats). Supposons que la base de données contienne un grand arbre de 1200 taxons qui partagent 80 des noms sur la liste de requête, que l'arbre de consensus de règle majoritaire (MRT) de 1000 arbres bootstrap, élagués à ces 80 taxons (voir ci-dessous pour plus de détails sur l'élagage), est entièrement résolu et a une valeur d'amorçage moyenne de 70 %, et l'utilisateur a sélectionné un h valeur de 0,5. Le score normalisé pour cet arbre : S = ((80/200) × 100 + 0,5 × 70) / (1 + 0,5) = 50. Même si des milliers d'arbres peuvent être renvoyés à partir d'une requête donnée, leurs scores sont calculés à la volée, de sorte que lorsque l'utilisateur change h, le classement des arbres est ajusté immédiatement.

Construction d'arbres

Ensembles de données à locus unique. La figure 1 illustre notre pipeline de construction d'arbres. Des ensembles de données de nucléotides à locus unique (tableau 1) ont été assemblés à partir de GenBank rel. 184 largement selon le pipeline PhyLoTA décrit ailleurs [27]. En bref, des ensembles de données ont été construits à partir de séquences au sein de groupes taxonomiques eucaryotes de taille limitée (groupes “hub”). Chaque groupe hub a été sélectionné de telle sorte que le nombre total de séquences de l'ensemble de ses membres ne dépasse pas 35 000 (hors organismes modèles cf. [27] pour plus de détails). L'adhésion au groupe a été déterminée par la taxonomie NCBI. Cette approche a abouti à un ensemble de 517 groupes taxonomiques qui correspondaient en pratique très grossièrement au rang des ordres linnéens. Au sein de chaque groupe hub, des grappes de séquences homologues ont été identifiées par des recherches BLAST tout contre tout et un regroupement à liaison unique en utilisant des exigences de chevauchement minimales de 50 %. Cette opération a ensuite été répétée pour chaque groupe descendant du groupe pivot dans la hiérarchie NCBI, induisant un ensemble de relations parent-enfant entre les clusters. À partir d'un pool original de 5 798 234 séquences parmi 413 628 taxons distincts, un ensemble de 343 888 taxons a été retenu dans 160 801 clusters informatifs phylogénétiquement (c'est-à-dire des clusters avec quatre taxons ou plus). Le plus grand cluster a 20 125 séquences, la taille moyenne des clusters est de 69,8 et il y a 133 clusters avec ≥ 5 000 séquences.

Les clusters à locus unique sont assemblés à partir des données nucléotidiques de GenBank en suivant les procédures de Phylota [27]. Un millier d'arbres bootstrap de parcimonie rapide sont reconstruits et stockés dans la base de données. Les arbres à maximum de vraisemblance sont reconstruits et sont utilisés pour guider la sélection de séquences pour les arbres étiquetés individuellement (voir le texte pour une description complète). Des grappes réduites sont assemblées en divers ensembles de données multi-locus, dont chacun se traduit par un millier d'arbres bootstrap, déposés dans la base de données.

Tableau 1

Nombre d'ensembles de donnéesLoci (moyenne et étendue)Taxons 1 (moyenne et étendue)Taille de l'ensemble de données 2 (moyenne et étendue)Support moyen (fraction de nœuds résolus sur MRT)
Amas à locus unique160,801 3 1 (1𠄱)63,1 (4�)63,1 (4�)0.51
Biclique762,5299.8 (2�)15,6 (4�)142,3 (8�)0.84
Des quasi-bicliques décisives67,10312.4 (2�)27.8 (5�) 4 234,7 (10�)0.68
Base de données totale990,4338.5 (1�)24,1 (4�)135,7 (4�)0.79

1 Nous avons besoin d'un minimum de quatre taxons dans un ensemble de données, requis pour les relations potentiellement informatives dans un arbre non enraciné.

2 Produit du nombre de loci et du nombre de taxons.

3 Parmi ceux-ci, 111 433 étaient des multrees. Quelque 11 358 ensembles de données comportaient moins de 4 taxons après la réduction des arbres multiples, de sorte que seuls 149 443 ont été utilisés pour créer des ensembles de données multi-locus.

4 Parce que nous avons besoin de quatre taxons pour une information phylogénétique potentielle minimale, un ensemble de données quasi-biclique décisif, auquel certaines entrées manquent, doit avoir un minimum de cinq taxons (sinon ce serait un biclique, proprement dit).

Beaucoup (69%) de ces groupes comprenaient au moins un identifiant de taxon plusieurs fois, de telles séquences taxonomiquement redondantes pourraient être dues à l'échantillonnage de plusieurs individus, ou elles pourraient représenter plusieurs allèles ou même des loci paralogues. Les noms de taxon apparaissant plus d'une fois dans un ensemble de données peuvent être appelés “multaxa”, et les arbres de ces ensembles de données sont “multrees” [40]. Nous avons exploité un algorithme de réduction de multree récemment décrit [37] pour extraire de chacun de ces multrees un arbre “reduced” étiqueté individuellement qui est garanti de conserver la quantité maximale d'informations au niveau de l'espèce sans conflit (Fig. 2). En bref, l'algorithme évalue les quatuors (une arête, ou branche, séparant deux paires de taxons), et trouve ceux qui ne sont pas en conflit avec d'autres quatuors sur le même ensemble de taxons. L'effet de l'algorithme est de supprimer les bords en conflit et tous les taxons qui participent à des quatuors sans conflit (Figs. ​ (Figs.2, 2 , ​ ,3 3 voir [37] pour une description formelle). est une procédure conservatrice qui limite le nombre de relations d'espèces faussement positives. Il est important de noter qu'elle est robuste aux raisons biologiques de la présence de séquences multiples. Elles peuvent survenir par duplication de gènes (Fig. 3C), échantillonnage de population (Fig. 3D), ou même une mauvaise identification (voir aussi [35] pour un algorithme comparable visant spécifiquement les arbres avec des duplications de gènes uniquement). L'algorithme est intégré à l'interface utilisateur. Pour tous les arbres à locus unique avec plusieurs terminaux pour au moins un taxon, l'utilisateur peut récupérer soit l'arbre multiple original pour une analyse plus approfondie, par exemple, pour distinguer les séquences paralogues des séquences orthologues, soit l'arbre étiqueté individuellement, pour obtenir la quantité maximale d'informations au niveau de l'espèce contenues dans cet arbre particulier.

L'arbre supérieur est un arbre multiple, c'est-à-dire qu'il a au moins une étiquette qui se trouve sur plus d'un terminal. De plus, il affiche des quatuors (sous-arbres sur quatre taxons) qui sont en conflit : BD|CE conflits avec avant JC|DE. La forme réduite de l'arbre, ci-dessous, est un arbre à étiquette unique. Il s'agit d'une déclaration prudente sur les relations entre les espèces dans le sens où elle élimine les conflits (tout en n'introduisant aucune nouvelle information).

A. Arbre hautement classé pour la requête “Brassica” déduit d'un ensemble de données à locus unique aligné au niveau des Brassicaceae (ensemble de données #56065 phénylalanine ammonia-lyase). B. Réduction de l'arbre en A à des relations au niveau de l'espèce sans conflit. Notez la perte d'un taxon, Brassica napus ce taxon était présent dans de nombreux quatuors de l'arbre d'origine, mais chacun était contredit par au moins un autre quatuor. Par conséquent, aucune information sans conflit n'était présente pour ce taxon, et elle a été supprimée par l'algorithme. C. Arbre de rang inférieur de la requête “Drosophile” (ensemble de données #130188 gène SMOX) dans lequel il n'y a pas d'arêtes informatives, donc la réduction de plusieurs arbres produit un résultat nul (pas d'arêtes, pas de taxons non montrés). D. Arbre classé intermédiaire dans lequel un seul taxon a plusieurs séquences et l'arbre réduit étiqueté individuellement contient tous les taxons (ensemble de données #91190 ‘yolk protein 1’ arbre réduit non montré, mais peut être obtenu en supprimant tous sauf un les feuilles étiquetées Drosophile grimshawi).

Ensembles de données multi-locus. L'assemblage d'ensembles de données concaténées multi-locus (“supermatrices”) est problématique lorsqu'un ou plusieurs des ensembles de données ont des multaxes [35]. Nous avons donc utilisé l'ensemble réduit de taxons obtenu à partir de la réduction multree comme source de données de séquence pour l'assemblage de supermatrices. Cela entraîne une perte de certains taxons en moyenne (Fig. 3), mais cela réduit également les conflits au sein d'un arbre génétique résultant de processus biologiques tels que la duplication et la perte de gènes ou le tri incomplet des lignées. Bien que nous n'ayons pas construit d'arbres d'espèces en utilisant des méthodes autres que la concaténation, notre collection de loci/arbres réduits pourrait être utilisée comme intrants pour les méthodes d'inférence d'arbres d'espèces en utilisant le consensus [41], la réconciliation (par exemple, [42, 43]) ou la vraisemblance explicite. ou des méthodes bayésiennes exploitant les données de séquence proprement dites (par exemple, [21]).

Deux protocoles ont été utilisés pour guider la sélection de sous-ensembles de taxons et de loci pour l'assemblage de supermatrices multi-locus à partir des ensembles de données réduits à un seul locus dans chaque groupe hub NCBI et tous ses groupes descendants. Les deux génèrent des ensembles de données multi-locus avec une propriété souhaitable, �isiveness”, qui peut aider à limiter l'impact des entrées manquantes dans la supermatrice ([23, 24, 44�]. Une supermatrice, M, est décisif pour l'arbre, T (contenant tous les taxons dans M), si et seulement si les sous-arbres, tje, pour chaque locus i, obtenu en restreignant T aux seuls taxons qui ont des données de séquence au locus i, définir de manière unique T. Si, au contraire, les sous-arbres sont cohérents avec plus d'un arbre, ils ne définissent pas T, et la supermatrice peut être incapable de faire la distinction entre ces arbres pour certaines méthodes de reconstruction (par exemple, la parcimonie ou l'analyse de vraisemblance partitionnée : [24]). Une forme particulièrement forte de décision, qui vaut pour certains modèles de données manquantes, est que M peut être décisif pour tous les arbres possibles.

Notre premier protocole assemble au maximum Achevée supermatrices en trouvant toutes les bicliques dites maximales dans une structure de données de graphe associée. Brièvement, une biclique fait ici référence à un ensemble de taxons et de loci pour lesquels tous les taxons ont des données pour tous les loci. Les bicliques maximales peuvent être trouvées en exploitant les résultats théoriques des graphes cités dans [48, 49]. Puisque toute supermatrice dans laquelle un locus inclut la séquence de tous les taxons est décisive, celles-ci sont décisives pour tous les arbres. Notre deuxième protocole garantit également la décision mais autorise certaines entrées manquantes dans la supermatrice. Il construit une supermatrice en utilisant un locus comme locus de référence. La liste des taxons est alors limitée à ceux du locus de référence, mais tous les loci disponibles pour chacun de ces taxons sont inclus (Fig. 4). En raison du locus de référence, cette supermatrice est également décisive pour tous les arbres, même si elle contient des données manquantes, et nous l'appelons quasi-biclique décisif (dqbc). Pour une collection donnée de loci, un dqbc peut être construit en utilisant chaque locus comme référence à son tour. La figure 4 illustre ces types d'ensembles de données, y compris le cas trivialement décisif des ensembles de données à locus unique. Dans notre implémentation, nous avons restreint la construction dqbc pour inclure uniquement les loci avec au moins 33,3% des taxons dans le locus de référence.

Les barres pleines indiquent la présence de données pour un locus et un taxon particuliers. Les ensembles de données multilocus sont construits de deux manières : (1) en tant que bicliques (dans la ligne continue), dans lesquels aucun taxon ne manque de loci, et aucun ne peut être ajouté sans introduire de données manquantes (ils sont donc “maximal”), et (2) en tant que quasi-bicliques décisifs (à l'intérieur de la ligne pointillée), dans lesquels un locus de référence sert à restreindre la liste des taxons, mais tous les loci disponibles pour ces taxons sont inclus. Ici, le locus 1 sert de locus de référence pour le quasi-biclique décisif représenté, mais deux autres peuvent être construits en utilisant les deux autres loci comme loci de référence. De même, d'autres bicliques maximales sont présentes, chacune ne contenant que deux loci (par exemple, les loci 2 et 3 pour les taxons C, J, K, L).

Les ensembles de données multi-locus (bicliques maximales et quasi-bicliques décisives) construits à un nœud de la hiérarchie NCBI peuvent et devraient se chevaucher les uns les autres (Fig. 4). Pour s'assurer que les ensembles de données ne sont pas entièrement redondants avec d'autres construits sur le même nœud NCBI, divers contrôles et filtres ont été exécutés sur les résultats. Nous avons vérifié s'il y avait des ensembles de données en double au sein ou entre les nœuds de la hiérarchie NCBI et si des quasi-bicliques décisives étaient en fait des bicliques (ce qui se produit rarement lorsque le modèle de couverture taxonomique est propice). De plus, nous avons utilisé un protocole BLAST pour vérifier que tous les loci d'un ensemble de données sont indépendants les uns des autres, ne partageant aucune homologie locale (celles-ci peuvent survenir occasionnellement pour diverses raisons en amont du pipeline), ce qui pourrait conduire à une inclusion redondante dans le même supermatrice (par exemple, [12], rectificatif). La collecte d'ensembles de données multi-locus peut être importante, dans certains cas avec une couverture taxonomique relativement dense, en raison de la combinatoire de base. Nous avons trouvé, par exemple, qu'au sein des mammifères il y avait des centaines de milliers de bicliques de primates et de carnivores (plus que tout le nombre de bicliques pour tous les autres taxons réunis, en fait) nous n'avons donc échantillonné qu'une fraction de biqliques au hasard dans ces collections : 2% et 20% respectivement.

Le résultat de ce pipeline est de près d'un million d'ensembles de données “phylogénétiquement informatifs” (c'est-à-dire ayant au moins quatre taxons), parmi lesquels 351.212 taxons distincts reconnus par le NCBI sont distribués. Pour chaque ensemble de données, plusieurs alignements de séquences à l'aide de MUSCLE [50], des arbres optimaux de ML utilisant les options par défaut dans RAxML [51] et 1 000 arbres d'amorçage de parcimonie �st” à l'aide de PAUP* [52] ont été obtenus. Le temps de calcul requis est d'environ 6 semaines sur un cluster Linux de 300 cœurs pour les analyses décrites. Nous estimons que répéter cela avec des analyses de bootstrap à maximum de vraisemblance complètes avec des options par défaut dans RAxML (par opposition aux bootstraps de parcimonie rapides utilisés ici) nécessiterait 5� ans sur le même matériel.

La base de données

Schéma, recherche et récupération. La base de données STBase a un schéma très simple visant à maximiser l'efficacité de la recherche et de la récupération. Il se compose essentiellement de cinq entités : taxons, séquences, groupes, ensembles de données et ensembles de confiance d'arbres. Un taxon se compose d'une espèce ou d'un nom sous-spécifique et de son identifiant de taxon NCBI (tous deux suivant la taxonomie NCBI). Un taxon peut avoir plusieurs noms synonymes mappés sur le même identifiant de taxon. Chaque séquence représentée par un numéro NCBI GI comme son ID est associée à un taxon et plusieurs séquences peuvent être associées au même taxon. Un cluster est une collection de séquences homologues, vaguement appelée “locus”. Un ensemble de données est une collection d'un ou plusieurs clusters/loci alignés, concaténés dans une supermatrice (si plusieurs), à partir de laquelle des arbres ont été construits. Chaque ensemble de données est mappé à un ensemble de mille arbres bootstrap. Pour mapper efficacement ces entités, STBase utilise des fonctions de hachage [53, 54] (spécifiques à la chaîne : [55]), qui sont capables d'insérer et de supprimer un élément aléatoire en un temps constant quelle que soit la taille de la collection.

L'utilisateur entre une liste de noms de taxon et/ou de noms de genre. Les noms de genre sont remplacés par une liste de tous les noms de taxon de ce genre. Ceci est suivi de cinq étapes : (1) la récupération des identifiants de taxon correspondants, (2) la recherche des ensembles de données ayant le chevauchement souhaité avec l'ensemble de taxons de requête et leur lecture à partir du disque, (3) le traitement de chaque ensemble de données pour restreindre chacun des ses mille arbres aux taxons qui chevauchent la requête, (4) résumant les arbres restreints pour chaque cluster sous la forme d'un arbre de consensus de règle majoritaire, avec des valeurs de support, et renvoyant ces MRT à l'utilisateur. Une approche similaire est utilisée sur le site Web birdtree.org [14], qui permet aux utilisateurs d'interroger des ensembles d'arbres tirés d'une distribution pseudo-postérieure d'arbres d'oiseaux complets construits en utilisant une combinaison de données et de simulation. Enfin, (5) dans le cas de plusieurs arbres, un arbre réduit étiqueté individuellement est calculé à la demande (cela ne s'applique qu'aux ensembles de données à locus unique & pour les ensembles de données à locus multiples, les séquences redondantes sont traitées avant la concaténation).

En raison des exigences de stockage collectif des arborescences (plus de 200 Go), les arborescences de tous les ensembles de données ne peuvent pas être conservées dans la RAM, ce qui pose plusieurs défis pour obtenir un traitement rapide des requêtes. Étant donné un ensemble d'ID de taxon, l'identification des clusters qui se chevauchent et leur lecture à partir de la mémoire disque est la partie la plus longue du processus de requête, car il existe près d'un million d'ensembles de données, avec 4 à près de 10 000 taxons chacun, couvrant plus de 340 000 taxons ( Tableau 1 ). Cependant, STBase identifie les clusters qui se chevauchent dans le temps indépendamment de la taille de la base de données en utilisant l'indexation inversée [56, 57]. Un index inversé permet la recherche et la récupération d'un sous-ensemble de 𠇍ocuments” (ici des ensembles de données) contenant un ou plusieurs mots de l'ensemble de requêtes. Pour ce faire, il maintient une correspondance entre un ensemble prédéfini de mots-clés et les documents de la collection qui les contiennent. Dans STBase, l'objectif est de trouver les ensembles de données contenant des taxons qui correspondent à la liste des taxons fournie par l'utilisateur. L'index inversé de STBase stocke donc exactement lequel les ensembles de données (𠇍ocuments”) contiennent des noms de taxon (“keywords”) et ces ensembles de données sont situés sur le disque dur.

Génération d'arbre de règle de majorité. Une requête trouve généralement 100 ensembles de données ayant un chevauchement suffisant avec les noms de taxon fournis en entrée. Chacun d'eux est associé à un millier d'arbres bootstrap pré-calculés qui sont chacun limités au chevauchement des requêtes. Ces 1000 arbres élagués sont ensuite résumés sous forme de MRT. Pour générer le MRT au moment de la requête (“on-the-fly”), nous avons utilisé l'algorithme MRT à temps linéaire aléatoire d'Amenta et al.’s [58], qui utilise des codes de hachage—un objet de taille constante—pour représenter les bipartitions et une méthode intelligente pour construire le MRT en utilisant uniquement ces bipartitions hachées. Il en résulte un algorithme attendu en temps linéaire (c'est-à-dire optimal).


Valeurs bootstrap - Biologie

z g ^ u 8X 6H OR V 1q# |kb Φ ϊ[email protected] 2 w 嬻 e * q ! د Fak| endstream endobj 70 0 obj > endobj 71 0 obj > endobj 72 0 obj > endobj 73 0 obj > stream

dvitpsk 5.78 Copyright 1998 Radical Eye Software (www.radicaleye.com)

> endstream endobj 85 0 obj 636 endobj 86 0 obj > stream 8Z]"%eL8#Xib6$Z_gBG1H*!?nj,nl*T&ls#DT'#!gi)Qf_1/GCV7l01p0]g]D i2uZO*68aelHaOW[uQ" i1+T!,JqoM71SpFNL"lI>AI)[email protected]>V"^,=RYuI MEdDWqmj(58$/m/NXL:tk]&+49/YQ>'ea%4A+:PYgHkDQ8P1>b% ]!ACbKIbLV!8 LN4-t3C!#cJ+sE:i+b#u01WVi?a(7dQQ#-[:$3^L.9!uWC#3J%a5c6iN,',)CR']] f?0> EfhQ#OUBfN5impG q"U3NQp"*F.'=1L&'s "u&oFfF7* aMO!+^t#nLT9thcGe`@Xkt]%$VtEeb`qK,WWK?7%ptl#Hp>tL*s9"O)4GBRde NF =g!r0'

> endstream endobj 89 0 obj 705 endobj 90 0 obj > stream 8Z7$#YDM%*`[email protected]%O"6 -KjYdDAdhEC^`.3J0o#BdMJ#@pNc4mGci*aG 2JrYOEUPCBL+WnqjCfQ68=oHFE9 ^?///Ng':PT4/[email protected] oduOie%,a!T9 Ng,O(J>'YS`^Y#0FrMp!0Qq)7])L%(KRFk dL!L8! [email protected])[email protected]/=B1`G9?TgLnG *Bq]>`Gkf?Mn1KI?=B4dNi]'m>tI?Lm9]0K=q4!5. =1PZO,,bLK^L+lU"WZd U_OiX^=5P)-qdL-o)l=?,FlmRXL0O6%M=KZlD?cTLPep8.6CVeM83AO:,UmAY#D 9Bn:Q"iYl$#YmZ!cp$ i211_"NOh2q9lG8U+SBc2T6"'[email protected])[email protected]@'MmQeC_>/+S +]IPo. %5*Kle8FKni:DCQ=(OXs[rh&`1*D,O5+U][email protected][ 2KliaeF_gFIhK(" Hjp)O77[^

> endstream endobj 97 0 obj 568 endobj 98 0 obj > stream 8Z7=,t3Q#j)%%j>s>5>UU-

> endstream endobj 99 0 obj 735 endobj 100 0 obj > stream 8Z]!CCUFi#_]nk"[email protected],lN7d\%9?:[email protected]_3pG :kNL8S-Wsn(2s:UC/ZY k^$Q,m&[WP K ?*e(&2^[email protected]>> 1G#K#d1bm3rE/cYkOz. #WFZom-*MI,&

> endstream endobj 101 0 obj 317 endobj xref 0 102 0000000000 65535 f 0000000016 00000 n 0000000118 00000 n 0000005733 00000 n 0000005898 00000 n 0000006676 00000 n 0000007522 00000 n 0000008012 00000 n 0000008229 00000 n 0000008431 00000 n 0000008523 00000 n 0000008669 00000 n 0000008774 00000 n 0000058687 00000 n 0000058866 00000 n 0000059510 00000 n 0000059602 00000 n 0000059707 00000 n 0000064179 00000 n 0000064356 00000 n 0000064684 00000 n 0000064789 00000 n 0000115487 00000 n 0000115643 00000 n 0000115748 00000 n 0000124064 00000 n 0000124207 00000 n 0000124779 00000 n 0000124884 00000 n 0000177007 00000 n 0000177160 00000 n 0000177265 00000 n 0000185429 00000 n 0000185561 00000 n 0000185666 00000 n 0000193508 00000 n 0000193629 00000 n 0000193734 00000 n 0000241648 00000 n 0000241801 00000 n 0000241906 00000 n 0000249088 00000 n 0000249266 00000 n 0000273006 00000 n 0000273111 00000 n 0000286439 00000 n 0000286571 00000 n 0000286672 00000 n 0000286761 00000 n 0000286867 00000 n 0000292152 00000 n 0000292273 00000 n 0000292578 00000 n 0000293812 00000 n 0000294104 00000 n 0000295243 00000 n 0000295473 00000 n 0000295821 00000 n 0000296131 00000 n 0000297746 00000 n 0000298386 00000 n 0000306295 00000 n 0000306722 00000 n 0000313401 00000 n 0000313776 00000 n 0000317040 00000 n 0000317239 00000 n 0000317381 00000 n 0000317727 00000 n 0000317806 00000 n 0000318107 00000 n 0000318147 00000 n 0000318191 00000 n 0000318439 00000 n 0000319548 00000 n 0000319641 00000 n 0000319694 00000 n 0000320270 00000 n 0000320291 00000 n 0000320931 00000 n 0000320952 00000 n 0000321845 00000 n 0000321866 00000 n 0000322394 00000 n 0000322415 00000 n 0000323209 00000 n 0000323230 00000 n 0000323862 00000 n 0000323883 00000 n 0000324746 00000 n 0000324767 00000 n 0000325464 00000 n 0000325485 00000 n 0000326174 00000 n 0000326195 00000 n 0000326943 00000 n 0000326964 00000 n 0000327690 00000 n 0000327711 00000 n 0000328604 00000 n 0000328625 00000 n 0000329102 00000 n trailer ] >> startxref 329124 %%EOF


Résultats

Correlation Among Support Values from Bayesian MCMC and Nonparametric Bootstrap Methods

We excluded three scenarios (lse, hse, and hslb) from our calculations of correlations between Bayesian and bootstrap methods, because all or nearly all of the support values were 100%. For 12 of the 15 remaining scenarios, BMCMC-PP and ML-BP values were strongly correlated (r 2 > 0.8, P ≤ 0.05) (correlations for topological scenarios lpe, lssb, and hssb were only weakly correlated [r 2 < 0.8]). ML-BP support values showed strong correlation with MP-BP for only seven scenarios (lncl, lplb, lplm, lpsb, lpsm, lslb, and lssb), whereas BMCMC-PP and MP-BP correlated strongly in only a single scenario (lplb). For the 12 scenarios in which BMCMC-PP and ML-BP were strongly correlated, half were low-rate trees and half were high-rate trees. In contrast, ML-BP and MP-BP were strongly correlated only on low-rate trees.

Comparison of Bootstrap and Bayesian Methods in Assigning Confidence to Specific Internodes

Across all 18 scenarios, some general patterns of support were evident. All three methods tended to assign lower support to regions at the base of the tree and where relative branch length was short ( figs. 1 and 2). Median BMCMC internodal support was almost always equal to or higher than ML and MP bootstrap support. In problematic regions of the tree, MP-BP was usually lower than ML-BP and was sometimes much lower. Except for the nonclocklike symmetric trees (lncl and hncl), the pectinate topologies generally contained more problematic regions than the symmetric topologies. Median nodal support was usually higher on high-rate trees than on low-rate trees for BMCMC-PP and ML-BP. In contrast, median support from MP-BP decreased on many internodes when compared with their low-rate counterpart trees, especially in scenarios where internodes at or near the base of the tree were relatively short (see hpsb, hpsm, hssb, and hncl scenarios, figs. 1 and 2). For symmetric topologies, BMCMC and ML bootstrap support values were improved when using data sets generated with high-rate trees compared with data derived from low-rate trees. As expected, the opposite behavior was observed for MP bootstrap. For the most basal internodes of pectinate topologies, all methods performed more poorly with high-rate tree data sets than with low-rate tree data sets. However, the reverse was true for the most apical internodes of pectinate topologies.

Variance in support value was usually greater for MP-BP than for ML-BP and BMCMC-PP. For the latter, variance in nodal support was generally smaller than variance for ML-BP when internode length was relatively long. Median support for internodes in these situations was also generally very high. When internode length was short, BMCMC-PP variance sometimes exceeded that of ML-BP (e.g., lpsb internode 3 and lplm internode 2, fig. 1). Median support for the shortest internodes was generally lower, although it was sometimes still quite high (e.g., lplb internode 13, fig. 1). Internodes that showed extreme fluctuation in support values were generally very short. In most cases, these internodes were so short that maximum likelihood was unable to reconstruct the internode in all 100 replicates of a particular scenario (results not shown). For any given cut-off value, BMCMC-PP always assigned support to an equal or greater average number of correct internodes than either MP-BP or ML-BP, and ML-BP always performed as well as, or better than, MP-BP ( figs. 1 and 2). Thus, for arbitrarily chosen decision rules of 70% and 95%, rates of type I error (the rate of rejecting true internodes) were lower for BMCMC-PP than for either bootstrapping method. Differences in performance among support methods were most apparent at the highest confidence levels (≥95%) and were quite striking in some instances. For example, on the low-rate pectinate topology with equal length internodes (lpe) approximately nine correct internodes received a PP of 95% compared with approximately six and four that were supported by ML-BP and MP-BP, respectively. Symmetric topologies appeared to pose less of a challenge to the reconstruction algorithms than did the pectinate topologies. In three scenarios (lse, hse, and hslb), all methods assigned 100% support to all internodes. Furthermore, differences among the three methods were generally higher on the high-rate trees than on the low-rate trees.

None of the methods assigned support to a large number of incorrect internodes, which was not surprising given the relatively favorable evolutionary conditions under which we simulated these data sets ( table 1). Parsimony assigned moderate (>70%) support to the largest number of incorrect internodes (∼2.3 internodes/scenario for MP-BP versus ∼0.7 internodes/scenario for ML-BP and ∼1.9 internodes/scenario for BMCMC-PP, averaged over all 18 scenarios). BMCMC-PP assigned high (>95%) support to more incorrect internodes than either bootstrapping method (∼0.14 internodes/scenario for BMCMC-PP, ∼0.03 internodes/scenario for ML-BP, and ∼0.06 internodes/scenario for MP-BP, averaged over all 18 scenarios), although the overall rate of assigning high support to incorrect internodes was extremely low. However, as a result of this tendency of wrong topological bipartitions to have higher posterior probabilities than bootstrap proportions, the 95% threshold value (the support value that was greater than or equal to 95% of the support values that tort internodes received) was highest for BMCMC-PP ( fig. 3UNE). Using a decision rule constructed to minimize the rate of accepting incorrect bipartitions would generally allow one to recover most correct monophyletic relationships regardless of the support method ( fig. 3B). However, ML-BP recovered slightly more correct internodes than BMCMC-PP (13.8 versus 13.6) and both model-based methods recovered more internodes than MP-BP (13.1). MP-BP also showed the greatest variance in performance across scenarios, occasionally recovering fewer than 12 correct internodes/tree.

Although all three methods assigned high support to few incorrect internodes, we identified some scenario replicates in which BMCMC-PP assigned a 95% or greater posterior probability to an incorrect internode, whereas ML-BP and MP-BP assigned much lower support ( table 1). These internodes were all found in regions of low-rate trees with the shortest internodes, and maximum likelihood trees for these replicates also contained the wrongly supported internodes. Thus, sampling error associated with evolving data at a slow rate on regions of the model topology with the shortest internodes could occasionally produce data sets with signal that was incongruent with the model topology.

Comparison of Bayesian and Bootstrap Methods in Estimating Phylogenetic Accuracy

We were unable to plot accuracy versus increasing support for four symmetric scenarios (lse, hse, lslb, and hslb) because all or nearly all of the internodes received 100% support. In the remaining 14 scenarios ( fig. 4), all three methods generally underestimated the true accuracy at levels of support greater than 50%. This bias was often less pronounced for BMCMC-PP. However, the latter overestimated accuracy at moderately high support levels in one scenario (lplm). BMCMC-PP appeared to lie closest to the line of perfect correspondence between accuracy and support for most scenarios.

For any particular topology, posterior probabilities and bootstrap proportions showed the greatest disparity on the shortest internodes. When we examined the effects of branch length on support across all scenarios, we found that posterior probabilities exceeded 95% for many very short internodes (as short as 1.3 expected changes). In contrast, maximum parsimony and likelihood bootstrap proportions did not reach 95% on branches shorter than three expected changes. BMCMC-PP assigned 100% confidence to some internodes with as few as 1.3 expected changes in contrast to ML-BP, which required at least 5 expected changes and MP-BP, which required 6.7 expected changes. ML and MP bootstrap proportions of 70% or more were obtained for branch lengths as short as 1.7 expected changes.

Sensitivity to the Amount of Phylogenetic Signal

Simulation on lse and lncl topologies to investigate the effects of increasing number of characters on support values revealed that the BMCMC-PP assigned 95% support to all internodes with a smaller number of characters relative to both bootstrapping methods. On the symmetric clocklike topology lse ( fig. 5UNE), tip internodes (7 to 14) received a median support of 95% with 100 to 150 characters for BMCMC-PP, compare with 200 to 300 characters for ML-BP and MP-BP. All internodes received 95% support at 200 characters with BMCMC-PP, compared with 300 characters for ML-BP and 350 for MP-BP. We observed a similar pattern on the nonclocklike topology lncl ( fig. 5B), with all internodes reaching a 95% posterior probability at 1,600 characters and a 95% likelihood bootstrap proportion at 2,000 characters. Parsimony bootstrap values decreased with increasing data set size for internodes 1, 3, and 7 on this tree. This is most likely due to maximum parsimony being inconsistent under such conditions (see Discussion). Even when these three internodes are excluded from this comparison, MP-BP constantly required the largest number of characters when discrepancies among methods were detected ( fig. 5B). In several cases (e.g., lse topology, internodes 11, 12, and 13) BMCMC-PP reached support values of 95% or higher with fewer characters than MP-BP required to reach support values of 70% or higher. In the most extreme example, on internode 8 of the lncl topology, BMCMC-PP reached 95% support with 300 characters while BP-MP required 700 characters to reach a 70% support value.


Bootstraping values is low , anyone familiar with DNAman program? - the bootstrap value is low, any way to increase it? (Oct/15/2006 )

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

i have 9 protein sequences of one particular gene from different strains of a same virus.
all the sequences are 99.6% similar ( DNA man program multiple alignment )
but when i creat the phylogenetic tree with bootstrap 10000 times,, the confidence level , bootstrap % is low

other genes of these strains show good bootstrap% values on the tree

does anyone know what that means? how can i change it?
i tried telling my proff that it only shows the confidnece level and the phylogeny is right
but he is interested in the bootstrap% being atleat around 90%

There is no precise rule to say how high a bootstrap percentage has to be before you are sure that the group of species in question forms a "true" clade. However, values greater than 70% are often thought to be reasonably strong evidence. Bootstrap numbers need to be treated with caution. They are often a very useful indication of the reliability of different parts of a phylogenetic tree, but they DO NOT PROVE ANYTHING CONCLUSIVELY.

You could try optimisation criterions (neighbour joining, UPGMA or even maximum likelihood) for making judgements about trees but remember these are only predictions.

I think you should just explain the above statement to your professor.

Forgot to add this website. it's a phylogenetic tree drawing system called phylodraw.

It provides two clustering methods:

UPGMA (I wouldn't use this as the algorithm assumes a molecular clock)

NJ (neighbor joining - would recommend this)

thanks for the suggestions , i will try that link and see too

i am using a program called DNAman, it uses NJ method for making the trees. and ya it calculates the bootstrap value by doing the sampling the no: of times one wants it to , in my case i done it 10000 times and got the value

i told my proff that its only a prediction and the value only shows how much the program can be sure about its prediction .
another explanation i came up is this :

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

the sequences are very similar 99.6 %
so i think the phylogenic tree was right , but the program couldnt say it for sure since there is so much little divergence ,, maybe thats why the bootstrap value is that low.

what do u guys think ? is it ok??

Yes you could say that. Low bootstrap values could also indicate lack of phylogenetic subdivisions. Depending on the distribution of variation among other taxa, the wrongly clustered short branch clade can give low bootstrap values overall.


Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press, Cambridge 2009.

Moret B, Warnow T: Advances in phylogeny reconstruction from gene order and content data. Molecular Evolution: Producing the Biochemical Data, Part B, Volume 395 of Methods in Enzymology. Edited by: Zimmer Roalson. Elsevier 2005, 673-700.

Tannier E: Yeast ancestral genome reconstructions: the possibilities of computational methods. Proc. 7th RECOMB Workshop Comp. Genomics (RECOMB-CG’09), Volume 5817 of Lecture Notes in Comp. Sci. Springer Verlag, Berlin 2009, 1-12.

Efron B, Tibshirani R: An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton 1993.

Felsenstein J: Confidence limits on phylogenies: an approach using the bootstrap. Évol. 1985, 39: 783-791. 10.2307/2408678

Anisimova M, Gascuel O: Approximate likelihood-ratio test for branches: A fast, accurate, and powerful alternative. Syst Biol. 2006, 55 (4): 539-552. 10.1080/10635150600755453

Guindon S, Gascuel O: PHYML—A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol. 2003, 52 (5): 696-704. 10.1080/10635150390235520

Shi J, Zhang Y, Luo H, Tang J: Using jackknife to assess the quality of gene order phylogenies. BMC Bioinformatics. 2010, 11: 168. 10.1186/1471-2105-11-168

Lin Y, Rajan V, Moret B: Fast and accurate phylogenetic reconstruction from high-resolution whole-genome data and a novel robustness estimator. Proc 8th RECOMB Workshop Comp Genomics (RECOMB-CG’10), Volume 6398 of Lecture Notes in Comp Sci. Springer Verlag, Berlin 2010, 137-148.

Saitou N, Nei M: The neighbor-joining method: A new method for reconstructing phylogenetic trees. Mol Biol Evol. 1987, 4: 406-425.

Desper R, Gascuel O: Theoretical Foundation of the Balanced Minimum Evolution Method of Phylogenetic Inference and Its Relationship to Weighted Least-Squares Tree Fitting. Mol Biol Evol. 2003, 21 (3): 587-598. 10.1093/molbev/msh049

Marron M, Swenson K, Moret B: Genomic distances under deletions and insertions. Theor Comput Sci. 2004, 325 (3): 347-360. 10.1016/j.tcs.2004.02.039

Lin Y, Moret B: Estimating true evolutionary distances under the DCJ model. Proc 16th Int’l Conf on Intelligent Systems for Mol. Biol. (ISMB’08), Volume 24(13) of Bioinformatics. 2008, i114-i122.

Swenson K, Marron M, Earnest-DeYoung J, Moret B: Approximating the true evolutionary distance between two genomes. Proc. 7th SIAM Workshop on Algorithm Engineering & Experiments (ALENEX’05). 2005, SIAM Press, Philadelphia

Lin Y, Rajan V, Swenson K, Moret B: Estimating true evolutionary distances under rearrangements, duplications, and losses. Proc 8th Asia Pacific Bioinf Conf (APBC’10), Volume 11 (Suppl 1) of BMC Bioinformatics. 2010, S54-

Quenouille M: Approximate tests of correlation in time-series 3. Math Proc Cambridge Philos Soc. 1949, 45 (3): 483-484. 10.1017/S0305004100025123

Tukey J: Bias and confidence in not quite large samples. Ann Math Stat. 1958, 29 (2): 614.Miller R: The jackknifeMiller R: The jackknife

Efron B: Bootstrap methods: another look at the jackknife. Ann Stat. 1979, 7: 1-26. 10.1214/aos/1176344552

The jackknife, the bootstrap and other resampling plans. CBMS-NSF Regional Conf Series in Applied Math, Volume 38. 1982, SIAM

Efron B, Gong G: A leisurely look at the bootstrap, the jackknife, and cross-validation. Am Statistician. 1983, 37: 36-48.

Miller R: The jackknife-a review. Biometrika. 1974, 61: 1.

Efron B: Nonparametric estimates of standard error: the jackknife, the bootstrap and other methods. Biometrika. 1981, 68 (3): 589-10.1093/biomet/68.3.589. 10.1093/biomet/68.3.589

Soltis P, Soltis D: Applying the bootstrap in phylogeny reconstruction. Statist Sci. 2003, 18 (2): 256-267. 10.1214/ss/1063994980

Holmes S: Bootstrapping phylogenetic trees: theory and methods. Stat Sci. 2003, 18 (2): 241-255. 10.1214/ss/1063994979

Felsenstein J, Kishino H: Is There Something Wrong with the Bootstrap on Phylogenies? A Reply to Hillis and Bull. Syst Biol. 1993, 42 (2): 193-200.

Shao J, Wu C: A general theory for jackknife variance estimation. Ann Stat. 1989, 17 (3): 1176-1197. 10.1214/aos/1176347263

Farris J: The future of phylogeny reconstruction. Zoologica Scr. 1997, 26 (4): 303-311. 10.1111/j.1463-6409.1997.tb00420.x

Farris J, Albert V, Källersjö M, Lipscomb D, Kluge A: Parsimony jackknifing outperforms neighbor-joining. Cladistics. 1996, 12 (2): 99-124. 10.1111/j.1096-0031.1996.tb00196.x

Salamin N, Chase M, Hodkinson T, Savolainen V: Assessing internal support with large phylogenetic DNA matrices. Mol Phyl Evol. 2003, 27 (3): 528-10.1016/S1055-7903(03)00011-3. 10.1016/S1055-7903(03)00011-3

Mort M, Soltis P, Soltis D, Mabry M: Comparison of three methods for estimating internal support on phylogenetic trees. Syst Biol. 2000, 49: 160-171. 10.1080/10635150050207456

Rokas A, Holland P: Rare genomic changes as a tool for phylogenetics. Trends in Ecol and Evol. 2000, 15: 454-459. 10.1016/S0169-5347(00)01967-4

Swofford D, Olson G, Waddell P, Hillis D: Phylogenetic inference. 2nd ed. Edited by: Hillis D, Moritz C, Mable B. 1996, Sunderland, Sinauer Assoc,

Moret B, Tang J, Wang LS, Warnow T: Steps toward accurate reconstructions of phylogenies from gene-order data. J Comput Syst Sci. 2002, 65 (3): 508-525. 10.1016/S0022-0000(02)00007-7

Wang LS: Exact-IEBP: a new technique for estimating evolutionary distances between whole genomes. Proc 33rd Ann ACM Symp Theory of Comput (STOC’01). 2001, 637-646. ACM Press, New York,

Wang LS, Warnow T: Estimating true evolutionary distances between genomes. Proc 1st Workshop Algs in Bioinf (WABI’01), Volume 2149 of Lecture Notes in Comp Sci. 2001, 176-190. Springer Verlag, Berlin,

Hillis D, Huelsenbeck J: Assessing molecular phylogenies. Science. 1995, 267: 255-256. 10.1126/science.267.5195.255

Bergeron A, Mixtacki J, Stoye J: A unifying view of genome rearrangements. Proc 6th Workshop Algs in Bioinf (WABI’06), Volume 4175 of Lecture Notes in Comp Sci. 2006, 163-173. Springer Verlag, Berlin,

Yancopoulos S, Attie O, Friedberg R: Efficient sorting of genomic permutations by translocation, inversion and block interchange. Bioinformatics. 2005, 21 (16): 3340-3346. 10.1093/bioinformatics/bti535

R Development Core Team: R: A Language and Environment for Statistical Computing. 2009, R Foundation for Statistical Computing, Vienna,

Madsen O, Scally M, Douady CJ, Kao DJ, DeBry RW, Adkins R, Amrine HM, Stanhope MJ, de Jong, Springer MS: Parallel adaptive radiations in two major clades of placental mammals. La nature. 2001, 409: 610-614. 10.1038/35054544

Murphy W, Eizirik E, Johnson W, Zhang Y, Ryder O, O’Brien S: Molecular phylogenetics and the origins of placental mammals. La nature. 2001, 409: 614-618. 10.1038/35054550

Amrine-Madsen H, Koepfli KP, Wayne R, Springer M: A new phylogenetic marker, apolipoprotein B , provides compelling evidence for eutherian relationships. Mol Phyl Evol. 2003, 28 (2): 225-240. 10.1016/S1055-7903(03)00118-0

Huttley G, Wakefield M, Easteal S: Rates of genome evolution and branching order from whole-genome analysis. Mol Biol Evol. 2007, 24 (8): 1722-1730. 10.1093/molbev/msm094

Wildman D, Uddin M, Opazo J, Liu G, Lefort V, Guindon S, Gascuel O, Grossman L, Romero R, Goodman M: Genomics, biogeography, and the diversification of placental mammals. Proc Nat’l Acad Sci, USA. 2007, 104 (36): 14395-14400. 10.1073/pnas.0704342104

Cannarozzi G, Schneider A, Gonnet G: A phylogenomic study of human, dog, and mouse. PLoS Comput Biol. 2007, 3: e2. 10.1371/journal.pcbi.0030002

Wang LS, Jansen R, Moret B, Raubeson L, Warnow T: Fast Phylogenetic Methods For Genome Rearrangement Evolution: An Empirical Study. Proc 7th Pacific Symp on Biocomputing (PSB’02). 2002, World Scientific Pub, Singapore, 524-535.

Hu F, Gao N, Tang J: Maximum likelihood phylogenetic reconstruction using gene order encodings. Proc 8th IEEE Symp Comput Intell in Bioinf & Comput Biol (CIBCB’11). IEEE Press, Piscataway, 2011, 117-122.

Lin Y, Rajan V, Moret B: Bootstrapping phylogenies inferred from rearrangement data. Proc 11th Workshop Algs in Bioinf (WABI’11), Volume 6833 of Lecture Notes in Comp Sci. Springer Verlag, Berlin, 2011, 175-187.


15.3 - Bootstrapping

Bootstrapping is a method of sample reuse that is much more general than cross-validation [1]. The idea is to use the observed sample to estimate the population distribution. Then samples can be drawn from the estimated population and the sampling distribution of any type of estimator can itself be estimated.

The steps in bootstrapping are illustrated in the figure above. Observed quantities are denoted by solid curves and unobserved quantities by dashed curves. The objective is to estimate the true sampling distribution of some quantity T, which may be numeric (such as a regression coefficient) or more complicated (such as a feature cluster dendrogram). The true sampling distribution is computed by taking new samples from the true population, computing T and then accumulating all of the values of T into the sampling distribution. However, taking new samples is expensive, so instead, we take a single sample (1) and use it to estimate the population (2). We then (3) take samples "in silico" (on the computer) from the estimated population, compute T from each (4) and accumulate all of the values of T into an estimate of the sampling distribution. From this estimated sampling distribution we can estimate the desired features of the sampling distribution. For example, if T is quantitative, we are interested in features such as the mean, variance, skewness, etc and also confidence intervals for the mean of T. If T is a cluster dendrogram, we can estimate features such as the proportion of trees in the sampling distribution than include a particular node.

There are three forms of bootstrapping which differ primarily in how the population is estimated. Most people who have heard of bootstrapping have only heard of the so-called nonparametric or resampling bootstrap.

Nonparametric (resampling) bootstrap

In the nonparametric bootstrap a sample of the same size as the data is take from the data with replacement. What does this mean? It means that if you measure 10 samples, you create a new sample of size 10 by replicating some of the samples that you've already seen and omitting others. At first this might not seem to make sense, compared to cross validation which may seem to be more principled. However, it turns out that this process actually has good statistical properties.

Semiparametric bootstrap

The resampling bootstrap can only reproduce the items that were in the original sample. The semiparametric bootstrap assumes that the population includes other items that are similar to the observed sample by sampling from a smoothed version of the sample histogram. It turns out that this can be done very simply by first taking a sample with replacement from the observed sample (just like the nonparametric bootstrap) and then adding noise.

Semiparametric bootstrapping works out much better for procedures like feature selection, clustering and classification in which there is no continuous way to move between quantities. In the nonparametric bootstrap sample there will almost always be some replication of the same sample values due to sampling with replacement. In the semiparametric bootstrap, this replication will be broken up by the added noise.

Parametric bootstrap

Parametric bootstrapping assumes that the data comes from a known distribution with unknown parameters. (For example the data may come from a Poisson, negative binomial for counts, or normal for continuous distribution.) You estimate the parameters from the data that you have and then you use the estimated distributions to simulate the samples.

All of these three methods are simulation-based ideas.

The nonparametric bootstrap does not work well because sampling with replacement produces exact replicates. The samples that are identical are going to get clustered together. So, you don't get very much new information.

The semi-parametric bootstrap perturbs the data with a bit a noise. For clustering, instead of taking a bootstrap sample and perturbing it, we might take the entire original sample and perturb it. This allows us to identify the original data points on the cluster diagram and see whether they remain in the same clusters or move to new clusters.

Obtaining a confidence interval for a Normal mean (a parametric example)

Suppose we have a sample of size n and we believe the population is Normally distributed. A parametric bootstrap can be done by computing the sample mean (ar) and variance (s^2). The bootstrap samples can be taken by generating random samples of size n from N((ar,s^2)). After taking 1000 samples or so, the set of 1000 bootstrap sample means should be a good estimate of the sampling distribution of (ar). A 95% confidence interval for the population mean is then formed by sorting the bootstrap means from lowest to highest, and dropping the 2.5% smallest and 2.5% largest. the smallest and largest remaining values are the ends of the confidence interval.

How does this compare to the usual confidence interval: (arpm t_<.975>s/sqrt)? Our interval turns out to approximate (arpm z_<.975>s/sqrt) - that is, is uses the Normal approximation to the t-distribution. This is because it does not take into account that we have estimated the variance. There are ways to improve the estimate, but we will not discuss them here.

Obtaining a confidence interval for (pi_0) with RNA-seq data (a complex parametric example)

For an example of using the parametric bootstrap let's consider computing a confidence interval for (pi_0) an RNA-seq experiment. In this case we will assume that the data are Poisson. Here is what we would do:

1) First we estimate (pi_0) from all of the data.

2) Now we need to obtain a bootstrap sample from the Poisson distribution. We will hold the library sizes fixed.

i) in each sample for each feature, recompute the count as the percentage of the library size.

ii) for each feature compute the mean percentage over all the samples from that treatment - call this (g_) where i is the feature.

iii) For each sample, multiply the library size (N_j) where j is the sample, by (g_i) to obtain (N_jg_i) the expected count for feature i in sample j.

iv) The bootstrap sample for feature i in sample j is generated as a random Poisson with mean (N_jg_i) .

b) Now that there is a bootstrap "observation" for each feature in each sample, redo the differential expression analysis and estimate (pi_0).

c) Repeat steps a0 and b0 1000 times. Now you have 1000 different estimates of (pi_0) - this is your estimate of the sampling distribution of the estimate.

3) Your 1000 bootstrap estimates can be used to draw a histogram of the sampling distribution of the estimate of (pi_0). The central 95% of the histogram is a 95% confidence interval for (pi_0). To estimate this interval, it is simplest to use the sorted bootstrap values instead of the histogram. For example, if you drop the 2.5% smallest and largest values, the remainder are in the 95% confidence interval. To form the ends of the interval, use the smallest and largest of this central 95% of the bootstrap values.

This is a parametric bootstrap confidence interval because the bootstrap samples were generated by estimating the Poisson means and then generating samples from the Poisson distribution.

[1] Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans . 38 . Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7 .


Phylogenetic Bootstrapping (BS) is a standard technique for inferring confidence values on phylogenetic trees that is based on reconstructing many trees from minor variations of the input data, trees called replicates. BS is used with all phylogenetic reconstruction approaches, but we focus here on the most popular, Maximum Likelihood (ML). Because ML inference is so computationally demanding, it has proved too expensive to date to assess the impact of the number of replicates used in BS on the quality of the support values. For the same reason, a rather small number (typically 100) of BS replicates are computed in real-world studies. Stamatakis <em>et al.</em> recently introduced a BS algorithm that is 1---2 orders of magnitude faster than previous techniques, while yielding qualitatively comparable support values, making an experimental study possible.

In this paper, we propose <em>stopping criteria</em> , that is, thresholds computed at runtime to determine when enough replicates have been generated, and report on the first large-scale experimental study to assess the effect of the number of replicates on the quality of support values, including the performance of our proposed criteria. We run our tests on 17 diverse real-world DNA, single-gene as well as multi-gene, datasets, that include between 125 and 2,554 sequences. We find that our stopping criteria typically stop computations after 100---500 replicates (although the most conservative criterion may continue for several thousand replicates) while producing support values that correlate at better than 99.5% with the reference values on the best ML trees. Significantly, we also find that the stopping criteria can recommend very different numbers of replicates for different datasets of comparable sizes.


Configuration of the Bootstrap

There are two parameters that must be chosen when performing the bootstrap: the size of the sample and the number of repetitions of the procedure to perform.

Sample Size

In machine learning, it is common to use a sample size that is the same as the original dataset.

The bootstrap sample is the same size as the original dataset. As a result, some samples will be represented multiple times in the bootstrap sample while others will not be selected at all.

If the dataset is enormous and computational efficiency is an issue, smaller samples can be used, such as 50% or 80% of the size of the dataset.

Repetitions

The number of repetitions must be large enough to ensure that meaningful statistics, such as the mean, standard deviation, and standard error can be calculated on the sample.

A minimum might be 20 or 30 repetitions. Smaller values can be used will further add variance to the statistics calculated on the sample of estimated values.

Ideally, the sample of estimates would be as large as possible given the time resources, with hundreds or thousands of repeats.


Voir la vidéo: AMORÇAGE ET PARTITION - EXPLICATIONS EN 4 MINUTES (Janvier 2022).