Informations

Évaluer les variations de la diversité bêta dans le temps


Je débute tout juste dans le domaine de l'analyse statistique écologique et j'ai quelques doutes concernant un jeu de données sur lequel je travaille.
L'ensemble de données est composé de plusieurs échantillons collectés à un seul endroit pendant quelques mois plusieurs fois par jour.
À partir de mes données, j'ai estimé la diversité bêta (dissemblance Bray-Curtis) et j'aimerais savoir s'il existe une tendance monotone avec le temps et dans quelle mesure la diversité peut être expliquée par les différentes heures ou jours d'échantillonnage.
Mes questions sont les suivantes :
- L'estimation de Rho de Mantel à l'aide de la corrélation de Spearman est-elle un estimateur valide pour la tendance temporelle linéaire ?
- Pour estimer la source de la diversité (jours/heures) serait-il judicieux de lancer une analyse npmanova (comme j'utilise R, je lancerais adonis en particulier) en utilisant comme variables explicatives les heures et les dates d'échantillonnage ?


Je pense que le test de Mantel est un moyen valable de tester une corrélation, mais Spearman est une mesure de corrélation non paramétrique et ne testera pas ou n'estimera pas nécessairement une tendance linéaire. Un moment Pearson serait préférable, mais vous devrez peut-être examiner vos distributions de données pour voir si elles correspondent aux hypothèses.

En réponse à la première réponse, je ne pense pas que Procrustes soit le bon test pour cela. Il est utilisé pour comparer différentes ordinations, qui sont des représentations dimensionnellement réduites de vos données de matrice de dissimilarité. Vous perdez des informations lorsque vous organisez un ensemble de données et vous souhaitez inclure autant d'informations que possible lorsque vous testez des hypothèses. Des approches d'ordination contraintes telles que l'analyse de correspondance canonique (CCA) ou l'analyse de redondance basée sur la distance (dbRDA) pourraient être plus appropriées. Celles-ci sont en fait analogues à certaines des fonctions exercées dans l'adonis.

Vous devriez pouvoir utiliser adonis comme vous l'avez décrit. Vous voudrez vous assurer que vous exécutez également la dispersion bêta, qui peut aider à évaluer la pertinence de vos données. Vous voudrez également considérer la façon dont vous codez vos données de temps. C'est plus simple si les valeurs temporelles sont considérées comme des variables discrètes (jour 1, jour 2, etc.) ou catégorielles (matin, midi, nuit). Étant donné que les heures de la journée sont cycliques, il existe une astuce pour les traiter comme une variable linéaire continue. Sauf indication contraire, un modèle traitera 23h55 (23h55) et 00h05 (00h05) comme étant paramétriquement plus éloignés dans le temps que disons 06h00 et 08h00. En fonction de votre fenêtre d'échantillonnage quotidienne, cela peut ne pas avoir beaucoup d'importance, mais si vous souhaitez traiter le temps de manière continue, il existe une solution de contournement qui implique des transformations sin() et cos() de l'heure à laquelle les collections ont été prises.

Il semble que vous utilisiez déjà Vegan, ce qui est un excellent package. Vous pouvez également envisager de consulter LabDSV, qui propose une page de didacticiel fantastique plus approfondie que la plupart des vignettes R. Il contient de bons exemples de certaines des différentes approches que j'ai mentionnées, ainsi que d'autres qui pourraient vous intéresser.


Plutôt que Mantel, je suggérerais de faire une analyse de Procrustes. Je n'en savais pas grand-chose (et je ne le sais toujours pas) mais un examinateur l'a exigé pour un article que j'ai soumis, j'ai donc utilisé l'implémentation dans le package vegan. Vous pouvez aussi jeter un oeil à ce joli tutoriel

L'idée des procrustes est similaire à celle de Mantel, mais elle devrait mieux fonctionner dans ce cas.

Je ne sais pas quoi dire à propos de la deuxième question, désolé!


Évaluer les variations de la diversité bêta dans le temps - Biologie

Résumer les valeurs pour décrire la biodiversité

Qu'est-ce que la biodiversité ?

La biodiversité est essentiellement la variété au sein et entre les formes de vie sur un site, un écosystème ou un paysage. La biodiversité est définie et mesurée comme un attribut qui a deux composantes richesse et uniformité .

Richesse = Le nombre de groupes d'individus génétiquement ou fonctionnellement apparentés. Dans la plupart des relevés de végétation, la richesse est exprimée en nombre d'espèces et est généralement appelée richesse en espèces.

Uniformité = Proportions d'espèces ou de groupes fonctionnels présents sur un site. Plus les espèces sont égales les unes par rapport aux autres, plus la planéité du site est grande. Un site à faible planéité indique que quelques espèces dominent le site.

La diversité peut être utilisé pour décrire la variation sous plusieurs formes :

  • Génétique (espèces, variétés, etc.)
  • Forme de vie (herbes, plantes herbacées, arbres, mousses, etc.)
  • Groupe fonctionnel (enracinement profond, fixateur d'azote, croûte du sol, persistant, etc.)

Pourquoi la biodiversité est-elle mesurée ?

La biodiversité est une mesure qui combine la richesse et l'homogénéité entre les espèces. Elle est souvent mesurée parce qu'une biodiversité élevée est perçue comme synonyme de santé des écosystèmes. En général, on pense que les communautés diverses ont une stabilité accrue, une productivité accrue et une résistance à l'invasion et à d'autres perturbations.

Des habitats variés avec une variété de plantes peuvent avoir des avantages tels que :

  • Fournir du fourrage pour une variété d'espèces d'insectes et de vertébrés.
  • Stabilité résultant des plantes de la communauté capables de survivre à la sécheresse, aux invasions d'insectes et/ou aux épidémies de sorte que le site ait une certaine protection du sol/fourrage/etc. dans ces années-là.
  • Plantes contenant une variété de matériel génétique qui peut être utile à la survie à long terme et à la stabilité de la communauté.
  • La communauté bénéficie d'un mélange de plantes :
    les sols s'améliorent avec les fixateurs d'azote, les plantes à racines profondes apportent les nutriments des couches du sol sous les racines des autres plantes.
    certaines espèces travaillent ensemble pour que les deux puissent survivre (appelé commensalisme) et, par conséquent, diverses communautés peuvent être plus stables.
  • Les communautés végétales saines et diversifiées ont généralement toutes les niches remplies et sont théoriquement moins susceptibles d'être envahies par des espèces introduites nuisibles ou opportunistes.

Bien que rarement reconnu, il y a aussi des inconvénients à une biodiversité élevée :

  • Des communautés diverses sont souvent le signe de sites fragmentés ou quelque peu dégradés où une grande partie de la richesse spécifique est apportée par des espèces perturbatrices.
  • Les communautés végétales avec une grande diversité peuvent être plus difficiles à gérer pour le pâturage parce que différentes espèces de plantes ont des tolérances de pâturage différentes et des taux de développement phénologique différents.
  • De nombreuses communautés végétales sont très stables avec peu d'espèces bien adaptées à l'environnement.

La biodiversité peut s'exprimer à plusieurs échelles

La biodiversité peut être mesurée et suivie à plusieurs échelles spatiales.

Alpha Diversité = richesse et régularité des individus au sein d'une unité d'habitat. Par exemple dans la figure ci-dessous, La diversité alpha du site A = 7 espèces, site B = 5 espèces, site C = 7 espèces.

Bêta Diversité = expression de la diversité entre les habitats. Dans l'exemple ci-dessous, le plus grand Diversité bêta est observée entre les sites A et C avec 10 espèces qui diffèrent entre elles et seulement 2 espèces en commun.

Gamma Diversité = diversité du paysage ou diversité des habitats au sein d'un paysage ou d'une région. Dans cet exemple, la diversité gamma est de 3 habitats avec une diversité totale de 12 espèces.


Fond

Les profileurs taxonomiques du métagénome prédisent les identités taxonomiques et les abondances relatives des micro-organismes d'une communauté microbienne à partir d'échantillons de séquences de fusil de chasse. Contrairement au regroupement taxonomique, le profilage ne donne pas lieu à des affectations pour des séquences individuelles, mais dérive un résumé de la présence et de l'abondance relative de différents taxons dans la communauté microbienne. Dans certains cas d'utilisation, tels que l'identification d'agents pathogènes pour les diagnostics cliniques, la détermination précise de la présence ou de l'absence d'un taxon particulier est importante, tandis que pour les études comparatives, telles que la quantification de la dynamique d'une communauté microbienne sur un gradient écologique, la détermination précise des abondances relatives des taxons est primordiale.

Compte tenu de la variété des cas d'utilisation, il est important de comprendre les avantages et les inconvénients du profileur taxonomique particulier pour différentes applications. Bien qu'il y ait eu beaucoup d'efforts pour développer des méthodes de profilage taxonomique [1-12], ce n'est que récemment que des efforts communautaires ont été déployés pour effectuer des comparaisons impartiales de ces techniques et évaluer leurs forces et leurs faiblesses [13, 14]. Les principaux obstacles à de telles comparaisons ont été le manque de consensus sur les mesures de performance et les formats de sortie par la communauté, car différents profileurs taxonomiques rapportent leurs résultats dans une variété de formats et les parties intéressées ont dû mettre en œuvre leurs propres mesures pour les comparaisons.

Ici, nous décrivons l'outil d'évaluation de profilage de communauté ouverte (OPAL), un cadre qui traite directement ces problèmes. OPAL agrège les résultats de plusieurs profileurs taxonomiques pour un ou plusieurs ensembles de données de référence, calcule des métriques pertinentes pour différentes applications, puis présente les forces et les faiblesses relatives de différents outils dans des graphiques intuitifs. OPAL tire parti du format de sortie standardisé émergent récemment développé par le consortium CAMI [13, 15] pour représenter un profil taxonomique et qui a été mis en œuvre pour une variété de profileurs taxonomiques populaires [2, 4-10, 12]. OPAL peut également utiliser le format populaire BIOM (Biological Observation Matrix) [16]. Les métriques calculées par OPAL vont des simples métriques de présence-absence à des métriques comparatives plus sophistiquées telles que UniFrac [17] et les métriques de diversité. Les métriques résultantes sont affichées dans des graphiques visualisables dans un navigateur et permettent à un utilisateur de classer dynamiquement les profileurs taxonomiques en fonction de la combinaison de métriques de son choix.

Des efforts similaires pour fournir des cadres comparatifs ont récemment été faits pour les classeurs génomiques d'échantillons de métagénome (AMBER [18]) et les assembleurs métagénomiques (QUAST [19, 20]). OPAL augmente ces efforts en abordant la question de la comparaison et de l'évaluation des profileurs taxonomiques. OPAL contribuera aux futurs efforts d'analyse comparative systématique. Cela aidera les développeurs de méthodes à évaluer rapidement les performances de leurs profileurs taxonomiques mis en œuvre par rapport à d'autres techniques et facilitera l'évaluation des caractéristiques de performance des profileurs, telles que la clarification du moment et de l'endroit où les performances des outils se dégradent (par exemple, les performances à des rangs taxonomiques particuliers). Surtout, OPAL aidera à décider quel profileur est le mieux adapté pour analyser des ensembles de données particuliers et des questions de recherche biologique, qui varient considérablement en fonction de la nature de la communauté microbienne échantillonnée, de la configuration expérimentale et de la technologie de séquençage utilisée [21].


Évaluation de la sécurité, y compris les problèmes actuels et émergents en pathologie toxicologique

2.1 Variation biologique

La variation biologique est au cœur de toutes nos vies. La diversité de notre propre espèce est reconnue dans un certain nombre de caractéristiques visibles, telles que la taille, et des caractéristiques fonctionnelles, telles que les capacités de biotransformation. Cette dernière source de variabilité a conduit au développement du domaine de la pharmacogénomique. Malheureusement, la diversité biologique interfère avec les efforts pour tester les effets du traitement, même lorsque l'expérience est conçue et contrôlée a priori. Quelle que soit la consanguinité des animaux d'étude et, par conséquent, la ressemblance probable de leurs réponses physiologiques, il existe toujours une gamme de réponses affichées dans les mesures effectuées sur ces animaux. Ce fait a été confirmé à plusieurs reprises chez des jumeaux humains monozygotes, et plus récemment chez des animaux clonés.

La variabilité normale de l'espèce d'essai (variation biologique normale) fournit une distribution de mesures qui suit généralement une distribution normale ou gaussienne. Cette distribution est décrite comme une courbe en cloche (comme le montre la figure 30.1) et constitue un fondement essentiel de nombreuses analyses statistiques. Essentiellement, cette distribution est le fond de « bruit » sur lequel les observations de fond sont faites. Les mathématiques peuvent aider à clarifier si les résultats observés dans une expérience sont le résultat d'un bruit biologique ou d'un signal lié au traitement. Tout comme l'expérimentateur ne peut pas être sûr que le traitement a eu un effet, les analyses statistiques ne donnent pas de réponse définitive par oui ou par non, mais donnent plutôt un énoncé de probabilité concernant la probabilité que le traitement soit responsable de l'induction de l'effet.

FIGURE 30.1 . Variabilité biologique normale – courbe en cloche. L'axe des abscisses indique la fréquence de l'observation du oui-axis rapporte la mesure. SD, écart type.

Les mathématiques utilisées dans l'analyse donnent une probabilité que la variabilité des résultats soit causée par une variation biologique (c'est-à-dire par hasard) et non par le traitement ( figure 30.2). L'expérimentateur peut alors examiner la probabilité que les groupes de traitement soient les mêmes et décider de rejeter ou d'accepter les résultats. Ce point de décision est appelé rejet de l'hypothèse nulle, où l'hypothèse nulle est que la variabilité des effets est due à la variation biologique normale et non au traitement, et donc que les groupes sont les mêmes. Par convention nous rejetons cette hypothèse nulle lorsque la probabilité de faire un faux rejet est de 5% ou moins (P 0,05). Les tests d'hypothèses seront discutés plus en détail plus tard.

FIGURE 30.2 . Résultats expérimentaux mélangés à la variabilité biologique. La figure met en évidence l'importance de la variation biologique. Si une comparaison est faite entre la courbe A (par exemple, la réponse du groupe témoin) et la courbe C (par exemple, la réponse au traitement), alors la séparation des deux groupes est évidente. Cependant, si la courbe A (par exemple, la réponse des témoins) est comparée aux courbes B ou D, il n'est pas évident en un coup d'œil si les groupes sont vraiment différents ou représentent simplement des sous-ensembles de variation biologique au sein de l'expérience. L'hypothèse nulle indiquerait que toutes les courbes font partie de la variabilité montrée dans l'expérience, et qu'aucune courbe n'est causée par le traitement. La probabilité en dessous de laquelle l'expérimentateur est disposé à rejeter cette hypothèse est donnée par (qui est généralement fixé à 5%, c'est-à-dire un P valeur de 0,05).


Échelle spatiale de la diversité bêta dans les archives fossiles marines peu profondes

La diversité bêta quantifie la structuration spatiale des communautés écologiques et constitue une partition fondamentale de la biodiversité, essentielle à la compréhension de nombreux phénomènes macroécologiques en biologie et paléobiologie modernes. Malgré son application courante en écologie, les études de la diversité bêta dans les archives fossiles sont relativement limitées aux échelles spatiales régionales qui sont importantes pour comprendre les processus macroévolutifs. L'échelle spatiale de la diversité bêta dans les archives fossiles est mal comprise, mais a des implications importantes en raison de la variation temporelle de la distribution spatiale des collections de fossiles et des grandes échelles spatio-temporelles généralement utilisées. Ici, nous testons la mise à l'échelle spatiale de plusieurs mesures courantes de la diversité bêta à l'aide des archives fossiles de mollusques marins peu profonds du Cénozoïque de Nouvelle-Zélande et dérivons une série chronologique spatialement normalisée de la diversité bêta. Pour mesurer l'échelle spatiale, nous utilisons et comparons l'occupation des cellules de la grille sur la base d'une grille de surface égale et de la longueur minimale de l'arbre couvrant, toutes deux basées sur les paléocoordonnées reconstruites des collections de fossiles. Nous constatons que la diversité bêta dépend spatialement aux échelles locale et régionale, quelle que soit l'échelle métrique ou spatiale utilisée, et que la normalisation spatiale modifie de manière significative les tendances temporelles apparentes de la diversité bêta et, par conséquent, les inférences sur les processus entraînant le changement de diversité.


Résultats

Le microbiote est subtilement délimité par l'ethnicité

Nous évaluons d'abord la distinction du microbiote intestinal entre les ethnies AGP (Fig 1A, niveau taxonomique familial, insulaires d'Asie-Pacifique [N = 88], Caucasiens [N = 1237], Hispaniques [N = 37], et les Afro-Américains [N = 13]), les sexes (femelle [N = 657], homme [N = 718]), les groupes d'âge (années regroupées par décennie) et l'IMC catégoriel (insuffisance pondérale [N = 70], normale [N = 873], surpoids [N = 318], et obèse [N = 114]) (Détails démographiques dans le tableau S1A). L'âge, le sexe et l'IMC ont été sélectionnés comme covariables car ils sont cohérents dans les ensembles de données AGP et HMP. De plus, 31 autres facteurs catégoriques AGP mesurant le régime alimentaire, l'environnement et la géographie ont été comparés pour les différences par paires entre deux ethnies à l'aide de tests de proportions, et très peu de tests (10/894) variaient de manière significative (feuilles supplémentaires du tableau S1). L'hétérogénéité interindividuelle du microbiote intestinal domine cependant, les analyses de similarité (ANOSIM) révèlent des degrés subtils mais significatifs de distinction du microbiote total pour l'ethnicité, l'IMC et le sexe mais pas pour l'âge (Fig 1B, Ethnicity Fig 1C, BMI Fig 1D, Sex Fig 1E, âge) [28]. Reconnaissant que la distinction subtile du microbiote entre les ethnies peut être fausse, nous reproduisons indépendamment les résultats ANOSIM des Afro-Américains HMP (N = 10), Asiatiques (N = 34), Caucasiens (N = 211) et les Hispaniques (N = 43) (Tableau S2A, R = 0,065, p = 0,044). Nous n'observons à nouveau aucune distinction significative pour l'IMC, le sexe et l'âge dans le HMP. Des profondeurs de raréfaction plus élevées augmentent la distinction du microbiote dans l'AGP à travers diverses métriques de diversité bêta et facteurs catégoriques (tableau S2B), et l'importance augmente lorsque les individus des ethnies surreprésentées sont sous-échantillonnés à partir de la matrice de distance moyenne de la diversité bêta (tableau S2C). À l'appui des résultats de l'ANOSIM, les modèles d'analyse multivariée permutationnelle de la variance (PERMANOVA) avec quatre mesures de diversité bêta différentes ont montré que, bien que tous les facteurs aient des associations subtiles mais significatives avec la variation du microbiote lorsqu'ils sont combinés dans un seul modèle, les tailles d'effet étaient les plus élevées pour l'ethnicité dans sept des huit comparaisons entre les métriques de diversité bêta et les profondeurs de raréfaction dans l'AGP et le HMP (tableau S2D). Nous testons en outre la distinguabilité du microbiote en mesurant la corrélation entre la diversité bêta et l'ethnicité, l'IMC, le sexe et l'âge avec un test BioEnv adapté (tableau S2E) [29]. Des degrés similaires de structuration du microbiote se produisent lorsque tous les facteurs sont incorporés (Spearman Rho = 0,055, p-valeurs : Ethnicité = 0,057, IMC < 0,001, Sexe < 0,001, Âge = 0,564). Firmicutes et Bacteroidetes dominaient l'abondance relative du phylum, chacun représentant entre 35% et 54% du microbiote total à travers les ethnies (S1 Fig).

(A) L'abondance relative moyenne des familles microbiennes dominantes pour chaque ethnie. (B-E) Le principe coordonne les graphiques d'analyse de la diversité bêta de Bray-Curtis du microbiote et de la distinguabilité ANOSIM pour : (B) l'origine ethnique, (C) le sexe, (D) l'âge, (E) l'IMC. Dans B–E, chaque point représente le microbiote d'un seul échantillon et les couleurs reflètent les métadonnées de cet échantillon. Les points caucasiens sont de taille réduite pour permettre une visualisation plus claire, et p- les valeurs ne sont pas corrigées entre les facteurs qui ont des distributions de population sous-jacentes différentes. Données disponibles sur https://github.com/awbrooks19/microbiota_and_ethnicity. IMC, indice de masse corporelle.

Nous testons ensuite les signatures ethniques dans le microbiote intestinal en analysant la diversité alpha et bêta, les distributions d'abondance et d'ubiquité, la distinguabilité et la précision de la classification [30]. L'indice de diversité alpha de Shannon [31], qui pondère à la fois la richesse de la communauté microbienne (unités taxonomiques opérationnelles observées [OTU]) et l'uniformité (équité), varie considérablement selon les ethnies dans l'ensemble de données AGP (Kruskal-Wallis, p = 2,8e-8) avec les rangs suivants : Hispaniques > Caucasiens > Asiatiques-Insulaires du Pacifique > Afro-Américains (Fig 2A). Dans le HMP, il y a une diversité Shannon significativement plus faible pour les insulaires d'Asie-Pacifique par rapport aux Caucasiens et une tendance à une plus faible diversité de Shannon pour les insulaires d'Asie-Pacifique par rapport aux Hispaniques Les Afro-Américains changent de position dans la diversité par rapport à d'autres ethnies, potentiellement en raison de biais de sous-échantillonnage. Cinq métriques de diversité alpha, deux profondeurs de raréfaction et des analyses séparées des OTU observées et de l'équité confirment généralement les résultats (tableau S3A).

(A) Les lignes centrales de chaque boîte à moustaches représentent la médiane par laquelle les ethnies ont été classées de bas (gauche) à haut (droite) les extrémités inférieure et supérieure de chaque boîte représentent les 25e et 75e centiles, respectivement les moustaches désignent l'intervalle interquartile de 1,5 et le noir les points représentent des échantillons individuels. Les lignes au milieu des tracés de violon représentent la moyenne, et pLes valeurs sont corrigées par Bonferroni dans chaque ensemble de données. (B) Les parcelles de violon s'étendant à gauche représentent les distances intraethniques pour chaque ethnie, et les parcelles de violon s'étendant à droite représentent toutes les distances interethniques. Les lignes centrales représentent la diversité bêta moyenne. Les barres de signification au-dessus des tracés de violon représentent les comparaisons Mann-Whitney U corrigées par paires de Bonferroni des distances intra-intra et intra-interethniques. (C) Au sein de chaque ethnie, les OTU sont partagées par au moins 50 % des échantillons. Les lignes colorées représentent une régression robuste des moindres carrés ordinaires au sein des OTU de chaque ethnie, les régions ombrées représentent l'intervalle de confiance à 95 %, R 2 désigne la corrélation de régression, la colonne OTU indique le nombre d'OTU avec une ubiquité de >50 % pour cette ethnie, Moyenne A/ U est le rapport moyen abondance/ubiquité, et le padj est la signification de régression ajustée et Bonferroni corrigé pour le nombre d'ethnies. Données disponibles sur https://github.com/awbrooks19/microbiota_and_ethnicity. OTU, unité taxonomique opérationnelle.

Si l'origine ethnique a un impact sur la composition du microbiote, les distances de diversité bêta par paires (allant de 1/complètement différent à 0/identique) seront plus grandes entre les ethnies qu'au sein des ethnies. Alors que les diversités bêta moyennes du microbiote intestinal chez tous les individus sont élevées (Bray-Curtis = 0,808), les diversités bêta entre les individus de la même ethnie (intraethnique, Bray-Curtis = 0,806) sont subtilement mais significativement inférieures à celles entre les ethnies dans les deux AGP ( interethnique, Bray-Curtis = 0,814) et des ensembles de données HMP (intraethnique, Bray-Curtis = 0,870 contre interethnique, Bray-Curtis = 0,877) (Fig 2B). Nous confirmons les résultats de l'AGP en sous-échantillonnant les individus des ethnies surreprésentées selon les métriques bêta et les profondeurs de raréfaction (tableau S4A et S4B). Enfin, nous répétons les analyses à travers les métriques bêta et les profondeurs de raréfaction en utilisant uniquement la distance moyenne de chaque individu à tous les individus de l'ethnie à laquelle ils sont comparés (tableau S4C et S4D).

Ensuite, nous explorons les différences interethniques dans le nombre d'OTU partagées chez au moins 50 % des individus au sein d'une ethnie, car la probabilité de détecter un signal biologique est améliorée chez les organismes plus abondants par rapport au bruit qui peut prédominer dans les OTU à plus faible abondance. Sur 5 591 OTU dans l'ensemble de données AGP total, 101 (1,8%) OTU respectent ce seuil d'ubiquité dans toutes les ethnies, et 293 (5,2%) OTU respectent le seuil dans au moins une ethnie. Les Hispaniques partagent les OTU les plus omniprésentes et ont le rapport abondance/ubiquité (A/U) moyen le plus bas (Fig 2C), indiquant la stabilité, la stabilité représentant une apparence plus cohérente des OTU avec une abondance plus faible mais une ubiquité plus élevée [32]. Ce résultat explique potentiellement leur distance de diversité bêta intraethnique significativement plus faible et donc un chevauchement plus élevé de la communauté microbienne par rapport aux autres ethnies (Fig 2B). Les comparaisons dans l'AGP entre les ethnies hispaniques, caucasiennes et insulaires asiatiques-pacifiques les plus échantillonnées révèlent également une tendance selon laquelle un chevauchement plus élevé des communautés intraethniques (Fig 2B) est parallèle à un nombre plus élevé d'UTO omniprésentes (Fig 2C), une diversité alpha Shannon plus élevée (Fig 2A) , et une stabilité plus élevée des OTU ubiquitaires, telle que mesurée par le rapport A/U (Fig 2C).

Nous évaluons ensuite si une seule ethnie a un impact disproportionné sur la distinction du microbiote intestinal total dans l'AGP en comparant les résultats ANOSIM de la matrice de distance de diversité bêta de consensus lorsque chaque ethnie est séquentiellement supprimée de l'analyse (figure 3A et tableau S2E). La distinguabilité reste inchangée lorsque les quelques Afro-Américains sont supprimés, mais est perdue lors de l'élimination des insulaires d'Asie-Pacifique ou des Caucasiens, reflétant probablement leur plus grande distance de diversité bêta par rapport aux autres ethnies (figure 3A). Notamment, la suppression des Hispaniques augmente la distinction entre les ethnies restantes, ce qui peut être dû à un degré plus élevé de chevauchement de la diversité bêta observé entre les Hispaniques et les autres ethnies (tableau S4B). Les résultats sont conformes aux profondeurs de raréfaction et aux métriques de diversité bêta (tableau S2F), et les combinaisons par paires montrent une forte distinction entre les Afro-Américains et les Hispaniques (ANOSIM, R = 0,234, p = 0,005) et insulaires et caucasiens d'Asie-Pacifique (ANOSIM, R = 0,157, p < 0,001).

(A) La distinction ANOSIM entre toutes les combinaisons d'ethnies. Les symboles représentent des ethnies spécifiques incluses dans les tests ANOSIM, et les cases indiquent la valeur R sous forme de carte thermique, dans laquelle le blanc indique une augmentation et le noir indique une distinction décroissante par rapport à la valeur R avec toutes les ethnies. (B) Courbes ROC moyennes (pour une validation croisée 10 fois) et métriques de performance de prédiction pour les classificateurs RF un contre tous pour chaque ethnie, en utilisant SMOTE [33] et des approches de sous-échantillonnage pour la formation. Données disponibles sur https://github.com/awbrooks19/microbiota_and_ethnicity. ANOSIM, analyse de similarité RF, ROC de forêt aléatoire, caractéristique de fonctionnement du récepteur SMOTE, technique de suréchantillonnage de minorité synthétique.

Enfin, pour compléter l'évaluation avec la diversité écologique alpha et bêta, nous mettons en œuvre un algorithme d'apprentissage supervisé par forêt aléatoire (RF) pour classer le microbiote intestinal à partir des profils de communauté au niveau du genre dans leur appartenance ethnique respective. Nous construisons quatre classificateurs binaires un contre tous pour classer les échantillons de chaque ethnie par rapport aux autres et utilisons deux approches d'échantillonnage différentes pour former les modèles à la technique de suréchantillonnage des minorités synthétiques (SMOTE) [33] et au sous-échantillonnage pour surmonter la représentation inégale des ethnies dans les deux les ensembles de données (voir Matériels et méthodes). Étant donné que l'aire sous la courbe des caractéristiques de fonctionnement du récepteur (ROC) (ou AUC) d'un classificateur aléatoire est de 0,5, les modèles classent assez bien chaque ethnie (Fig 3B), avec des AUC moyennes pour les techniques d'échantillonnage et les ensembles de données de 0,78 pour les Asiatiques. -Les insulaires du Pacifique, 0,76 pour les Afro-Américains, 0,69 pour les Hispaniques et 0,70 pour les Caucasiens. L'ethnicité distinguant les taxons RF et les pourcentages d'erreur hors du sac apparaissent dans (S2 Fig).

Associations récurrentes de taxons avec l'ethnicité

Des différences subtiles à modérées associées à l'ethnicité dans les communautés microbiennes peuvent être en partie dues à l'abondance différentielle de certains taxons microbiens. 16,2 % (130/802) des taxons AGP et 20,6 % (45/218) des taxons HMP à tous les niveaux de classification (c. pRAD < 0.05). Entre les ensembles de données, 19,2 % (25/130) de l'AGP et 55,6 % (25/45) des taxons variables HMP se répliquent dans l'autre ensemble de données, ce qui représente un degré de chevauchement significativement plus élevé que ce à quoi on pourrait s'attendre par hasard (permutation ethnique analyse des chevauchements, p < 0,001 chaque niveau taxonomique et tous les niveaux taxonomiques combinés). La réplication la plus élevée de taxons variant selon l'abondance se produit avec 22,0 % des familles (neuf significatifs dans les deux ensembles de données / 41 familles variant considérablement dans l'un ou l'autre ensemble de données), suivi du genre avec 13,4 % (neuf significatifs dans les deux ensembles de données / 67 genres variant considérablement dans l'un ou l'autre ensemble de données).

Parmi 18 taxons reproductibles, nous classons 12 taxonomiquement distincts (Fig 4) et excluons six dans lesquels des profils d'abondance presque identiques entre la taxonomie famille/genre se chevauchent. La comparaison des différences d'abondance relative entre les paires d'ethnies pour ces 12 taxons dans l'AGP révèle 30 différences significatives, dont 20 se répliquent dans le HMP (p < 0.05, Mann-Whitney U). Curieusement, toutes les différences reproductibles par paires sont le résultat d'une diminution des insulaires d'Asie-Pacifique (Fig 4). Nous testons également l'abondance des taxons et les associations de présence/absence avec l'ethnicité séparément dans l'AGP en utilisant des modèles de régression linéaire et logistique, respectivement, et nous répétons l'analyse en incorporant le sexe catégorique et l'âge continu et l'IMC comme covariables (tableau S6). Le regroupement des familles microbiennes en fonction de leur corrélation d'abondance révèle deux clusters de co-occurrence : (i) un cluster distinct de six familles Firmicutes et Tenericutes dans le HMP et (ii) un cluster chevauchant mais plus diversifié de 20 familles dans l'AGP (S3 Fig) . Neuf des 12 taxons dont l'abondance varie de manière récurrente selon les ethnies sont représentés dans ces groupes (Fig 4), avec quatre apparaissant dans les deux groupes et les cinq autres apparaissant soit dans ou en étroite corrélation avec les membres des deux groupes (S3 Fig). De plus, 90 % (18/20) des familles du cluster AGP et 66 % (4/6) des taxons du cluster HMP varient considérablement en abondance selon les ethnies. Nous avons également trouvé un chevauchement pour les ensembles de données AGP et HMP entre les taxons dont l'abondance varie de manière significative selon les ethnies (avec un taux de fausses découvertes [FDR] < 0,05) et les taxons dans les modèles RF avec un pourcentage d'importance supérieur à 50 % pour une ethnie (S2B Fig). Pris ensemble, ces résultats établissent un chevauchement général des taxons les plus importants associés à l'ethnicité entre ces méthodes, la reproductibilité des abondances microbiennes qui varient entre les ethnies à travers les ensembles de données, et les modèles de cooccurrence parmi ces taxons, ce qui pourrait suggérer qu'ils sont fonctionnellement liés.

Les diagrammes à barres représentent l'abondance relative transformée en log10 pour les individus possédant le taxon respectif au sein de chaque ethnie, l'ubiquité apparaît au-dessus (AGP) ou en dessous (HMP) des barres et les 25e et 75e centiles sont indiqués avec des moustaches en extension. Les tests Mann-Whitney U évaluent les différences d'abondance et d'ubiquité pour tous les individus entre les paires d'ethnies, par exemple, la direction du changement chez Victivallaceae est déterminée par l'ubiquité tandis que l'abondance est plus élevée pour ceux qui possèdent le taxon. Les valeurs de signification sont corrigées par Bonferroni pour les six tests au sein de chaque taxon et ensemble de données, et en gras p- les valeurs indiquent que la signification (p < 0,05) et la direction du changement se répliquent dans l'AGP et le HMP. Données disponibles sur https://github.com/awbrooks19/microbiota_and_ethnicity. AGP, American Gut Project HMP, Human Microbiome Project.

Le taxon de bactéries le plus héréditaire varie selon l'origine ethnique

Identifiée comme le taxon le plus héritable dans l'intestin humain [34, 35], la famille Christensenellaceae présente la deuxième plus grande différence significative d'abondance entre les ethnies dans les ensembles de données AGP et HMP (tableau S5, famille : AGP, Kruskal-Wallis, pRAD = 1,55e-9 HMP, Kruskal–Wallis, pRAD = 0,0019). De plus, les Christensenellaceae sont variables selon le sexe et l'IMC (AGP : Sex, Kruskal–Wallis, pRAD = 1.22e-12 IMC, Kruskal–Wallis, pRAD = 0,0020) et représente certaines des corrélations par paires les plus fortes avec d'autres taxons dans les deux groupes de cooccurrence (S3 Fig). Il y a une réduction d'au moins huit et deux fois de l'abondance moyenne des Christensenellaceae chez les insulaires d'Asie-Pacifique par rapport aux autres ethnies de l'AGP et du HMP, respectivement (tableau S5) et la signification de toutes les comparaisons par paires dans les deux ensembles de données montre abondance réduite chez les insulaires d'Asie-Pacifique (Fig 4). Les Christensenellaceae figurent également parmi les 10 taxons les plus influents pour distinguer les insulaires d'Asie-Pacifique des autres ethnies à l'aide de modèles RF pour les ensembles de données AGP et HMP (figure S2A). L'abondance d'individus possédant des Christensenellaceae et la présence/absence chez tous les individus sont significativement associées à l'ethnicité (tableau S6, abondance, régression linéaire, pBonferroni = 0,006 Présence/Absence, Régression Logistique, pBonferroni = 8,802e-6), mais il n'y avait qu'une faible corrélation entre l'abondance relative du taxon et l'IMC (S4 Fig). Confirmant les associations précédentes avec un IMC inférieur [36], nous observons que les individus AGP avec Christensenellaceae ont également un IMC inférieur (IMC moyen, 23,7 ± 4,3) que les individus sans (IMC moyen, 25,0 ± 5,9 Mann-Whitney U, p < 0,001). Ce modèle se reflète séparément chez les Afro-Américains, les insulaires d'Asie-Pacifique et les Caucasiens, mais pas les Hispaniques (Fig 5), ce qui suggère que chaque ethnie peut avoir des équilibres différents entre l'abondance et le poids corporel du taxon.

Boxplots de l'IMC pour les individus sans (boxplots non remplis) et avec (boxplots remplis) Christensenellaceae. La significativité a été déterminée à l'aide de tests de Mann-Whitney U unilatéraux pour les valeurs d'IMC continues inférieures. Les lignes noires indiquent l'abondance relative moyenne. Les extrémités inférieure et supérieure de chaque case représentent respectivement les 25 e et 75 e centiles et les moustaches indiquent l'intervalle interquartile de 1,5. Données disponibles sur https://github.com/awbrooks19/microbiota_and_ethnicity. IMC, indice de masse corporelle.

Chevauchement des taxons associés à la génétique et à l'ethnicité

De nombreux facteurs sont associés à l'ethnicité humaine, y compris un petit sous-ensemble de variantes génétiques spécifiques à la population (estimées à environ 0,5 % de l'ensemble du génome) qui varient selon l'ascendance biogéographique [37, 38] l'ethnicité auto-déclarée dans le HMP est délimitée par la structure génétique de la population [20] . Ici, nous étudions si les taxons associés à l'ethnicité se chevauchent avec (i) des taxons qui ont une héritabilité génétique de population significative chez l'homme [34, 35, 39, 40] et (ii) des taxons liés à des variants génétiques humains dans deux grandes associations génomiques. Études (GWAS)-analyses du microbiote [35, 40]. Tous les taxons récurrents associés à l'ethnicité, sauf un, étaient héréditaires dans au moins une étude, avec sept réplicats dans trois études ou plus (tableau 1). De même, les différences d'abondance dans sept taxons récurrents associés à l'ethnicité démontrent des associations GWAS significatives avec au moins une variante dans le génome humain. Par conséquent, nous évaluons si des variantes génétiques associées à des différences d'abondance microbienne présentent des taux de différenciation significatifs (indice de fixation [FST]) entre 1 000 superpopulations génomiques [38]. Sur 49 variantes associées à des taxons ethniquement variés, 21 ont un F plus élevéST valeurs entre au moins une paire de populations que celle de 95% des autres variants sur le même chromosome et à travers le génome le FST les valeurs de cinq variantes associées à l'abondance des Clostridiaceae se classent au-dessus des 99 % supérieurs (tableau S7). Étant donné que les taxons qui varient selon les ethnies présentent une plus faible abondance dans les insulaires d'Asie-Pacifique, il est à noter que le FST les valeurs des comparaisons de 18 et 11 variantes pour les populations d'Asie de l'Est et d'Asie du Sud, respectivement, sont supérieures au seuil de taux de différenciation de 95 % par rapport aux populations africaines, américaines ou européennes. Attention, les ensembles de données sur le microbiote et les 1 000 génomes ne proviennent pas des mêmes individus, et démêler le rôle de la génétique des facteurs sociaux et environnementaux nécessitera encore des études plus contrôlées.

The table shows population genetic heritability estimates and associated genetic variants for the 12 recurrent ethnically varying taxa. The minimum heritability cutoff was chosen as >0.1, and only exactly overlapping taxonomies were considered. Studies examined A UKTwins (2014, “A” measure of additive heritability in ACE model) [34], B Yatsunenko (2014, “A” measure of additive heritability in ACE model) [34], C UKTwins (2016, “A” measure of additive heritability in ACE model) [35], D Lim (2016, H2r measure of polygenic heritability in SOLAR [41]) [39], and E Turpin (2016, H2r measure of polygenic heritability in SOLAR [41]) [40].


5. Sampling

In most applications, including all the ones we will discuss below, the entire population is not accessible for identification and measurement. In an ecosystem, all animals of the population cannot be tracked. In blood samples, only a small fraction of the cell types in the whole organism is drawn for identification/sequencing. Thus, inferring the diversity in the entire system from the diversity in the sample is a key problem encountered across many fields.

There are numerous ways to randomly sample a population. One approach is to draw one individual, record its attributes, return it to the system, and allow it to well-mix or equilibrate before again randomly drawing the next individual. This process can be repeated M times. To indicate this type of sampling, we use the subscript in the corresponding distributions and expectation values. Similar sampling approaches are used in the 'mark-release-recapture' experiments to estimate population size [56], survival, and dispersal of mosquitos [57]. For a given configuration <mje> and total population size N [58], the probability that the configuration <mje> is drawn after M samples is simply

where is the relative population of species je, is the total population and is the total number of samples.

We can now use to compute the statistics of how the system diversity is reflected in the diversity in the samples. For example, the mean population in the sample in terms of mje is . The lowest moments of the populations in the sample are

An alternative random sampling protocol is to draw a fraction of the entire population once. This type of sampling arises in biopsies such as laboratory blood tests. To be able to distinguish between this sampling protocol and the previous one, we now use the notation . In this case the combinatorial probability of a specific sample configuration, given , N, et M est

where the discrete indicator function enforces the constraint between mje and the sampled population M. In this single-draw sampling scenario, we use the Fourier decomposition to find

Results using and rely on perfectly random sampling, where certain clones/species are not more likely sampled or captured than others. The moments can be directly used to evaluate the expected Simpson's diversities, (with replacement) and S (without replacement) defined by equations (23) and (24), in the corresponding sample. In the case of M sampling, we find

while for M sampling, we find

Note that for both types of random sampling, we find that the expected Simpson's diversity (without replacement) in the samples are equal to the Simpson's diversity in the full system. In general, the expectations do not commute and .

Effects of sampling on clone counts ck can be similarly calculated by averaging the definition for the sampled clone count

over the sampling probabilities or . For clone counts, the calculations of moments of sampled quantities bk are more involved, and explicitly noncommutative . One advantage of working in the bk representation is that diversity indices such as the expected sampled richness R s , are difficult to extract from but are simply found via . Some related results are given in [59, 60].

The above results provide expected diversities in the sample assuming full knowledge of <mje> in the system. They represent solutions to the forward problem, the so-called 'rarefaction' in ecology. However, the problem of interest is usually the inverse problem, or extrapolation in ecology. In the simplest case, we wish to infer the expected diversity (or <mje> et ck) in the system from a given configuration <mje> or clone count bk. Extrapolation is a much harder problem and is the subject of many research papers [6, 61–64].

One may wish to use the observed sample diversity to approximate the population diversity . For any q, the underestimation of using decreases as the sample size M augmente. The deviation of from is smaller for larger q, as higher-order Hill numbers are more heavily weighted by large species, which are less sensitive to subsampling.

Chao and others have shown that for and in the limit nearly unbiased approximations can be obtained and when , these unbiased estimates are very insensitive to sample size M [59, 60]. Using clone counts in a sample of population M, Chao et al [65] obtained for q = 1 (in terms of Shannon's index):

For , Gotelli and Chao [59] obtained

X (j ) = X(X − 1). (Xj + 1). For example, , the inverse of Simpson's index without replacement (equations (22) and (24)).

The ill-conditioning of the inverse problems is particularly severe for the richness . The general formula for an estimate of the system richness is

and reduces to the unseen species problem for determining 0 [66, 67]. Since the sample size M and the richness R in the system are uncorrelated, one must use information contained in the species fractions F je or the clone counts ck in the full system [68, 69]. However, a popular estimate for the system richness is the 'Chao1' estimator [59, 70]

which is actually a lower bound and gives reliable estimates for systems of size only up to approximately double or triple the sample size M. The uncertainty of the Chao1 estimator has also been derived via a variance that is also a function of 1 et 2 [71]. The 'Chao2' estimator gives the system richness as a function of measured incidence [59]

where are the number of species found in 1 or 2 samples out of many (as in the sampling method). Shen et al [72] derived another estimate

which is only reliable if the sample size M is more than half of the system size N. Many of these estimators have been coded into analysis software such as R and iNEXT [73].

Regardless of the estimator, the major limitation is an insufficient sample size . Models predicting species abundances as a function of system size can help bridge this gap. For example a log-normal relationship for the clone count ck [74] has been used to find agreeable results [75, 76]. In general, models can be extremely useful for quantifying the effects of sampling, particularly when a Bayesian prior is desired.

We have outlined the basic mathematical frameworks for quantifying diversity that have utility across applications in different disciplines. The above summary of sampling assumes a well-mixed population, precluding any spatial dependence of the distribution of individual species. Spatially dependent sampling has been proposed for the origin of relationships between the number of species detected and the total area occupied by the population (see below).


Global diversity and distribution of arbuscular mycorrhizal fungi

Arbuscular mycorrhizal (AM) fungi form associations with most land plants and can control carbon, nitrogen, and phosphorus cycling between above- and belowground components of ecosystems. Current estimates of AM fungal distributions are mainly inferred from the individual distributions of plant biomes, and climatic factors. However, dispersal limitation, local environmental conditions,and interactions among AM fungal taxa may also determine local diversity and global distributions. We assessed the relative importance of these potential controls by collecting 14,961 DNA sequences from 111 published studies and testing for relationships between AM fungal community composition and geography, environment, and plant biomes. Our results indicated that the global species richness of AM fungi was up to six times higher than previously estimated, largely owing to high beta diversity among sampling sites. Geographic distance, soil temperature and moisture, and plant community type were each significantly related to AM fungal community structure, but explained only a small amount of the observed variance. AM fungal species also tended to be phylogenetically clustered within sites, further suggesting that habitat filtering or dispersal limitation is a driver of AM fungal community assembly. Therefore, predicted shifts in climate and plant species distributions under global change may alter AM fungal communities.

Points forts

► We synthesize how dispersal, and abiotic and biotic interactions affect AM fungi. ► Diversity of AM fungi was six times higher than previously estimated. ► Distance, soils, and plant communities each affected AM fungal composition. ► AM fungal species also tended to be phylogenetically clustered within sites.


Résumé

Single-cell RNA sequencing (scRNA-seq) has become a powerful tool for the systematic investigation of cellular diversity. As a number of computational tools have been developed to identify and visualize cell populations within a single scRNA-seq dataset, there is a need for methods to quantitatively and statistically define proportional shifts in cell population structures across datasets, such as expansion or shrinkage or emergence or disappearance of cell populations. Here we present sc-UniFrac, a framework to statistically quantify compositional diversity in cell populations between single-cell transcriptome landscapes. sc-UniFrac enables sensitive and robust quantification in simulated and experimental datasets in terms of both population identity and quantity. We have demonstrated the utility of sc-UniFrac in multiple applications, including assessment of biological and technical replicates, classification of tissue phenotypes and regional specification, identification and definition of altered cell infiltrates in tumorigenesis, and benchmarking batch-correction tools. sc-UniFrac provides a framework for quantifying diversity or alterations in cell populations across conditions and has broad utility for gaining insight into tissue-level perturbations at the single-cell resolution.


Matériel électronique supplémentaire

13062_2007_57_MOESM1_ESM.txt

Additional file 1: β-grasp families: members, phyletic patterns, and selected alignments. A mega-alignment of several prokaryotic and eukaryotic β-GF lineages and alignments of all newly-identified β-grasp folds and novel ancillary domains are provided along with gi numbers of the sequences collected from iterative database searches and the phyletic pattern of each β-grasp family. (TXT 7 MB)

13062_2007_57_MOESM2_ESM.pdf

Additional file 2: Natural classification of the β-GF. Superfamilies/families/subfamilies of the β-GF are grouped according to shared structural and sequence features, indentations represent the inferred hierarchy of evolutionary relationships based on these features. Major shared features of a set of superfamilies are given between dashed lines and labeled with roman numerals. Superfamilies are written in bold text, with families and subfamilies written in bold, italicized text. Phyletic distribution of a family/subfamily are given in parentheses after name. Brief description of functional role is given following phyletic distribution where known. Selected PDB identifiers of solved crystal structures are indented and listed underneath family/superfamily. (PDF 110 KB)


Voir la vidéo: La Variation des Stocks dans les Charges: Quoi? Pourquoi? Comment? en 7 mn (Décembre 2021).