Informations

Allèle ancestral et Hapmap


Je remarque sur dbSNP rs6352 a un allèle ancestral de G - http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs6352

L'hapmap chez l'homme pour cet allèle est très rare, la version homozygote n'existant pratiquement pas du tout http://hapmap.ncbi.nlm.nih.gov/cgi-perl/snp_details_phase3?name=rs6352&source=hapmap3r3_B36&tmpl=snp_details_phase3

D'après ce que j'ai compris, l'allèle ancestral fait référence au gène commun qu'un ancêtre de tous les humains partageait autrefois. Maintenant, je pensais que l'allèle ancestral était généralement le plus fréquent dans une population, mais je peux voir que c'était probablement une fausse hypothèse.

Était-ce une hypothèse erronée, ou cet exemple ci-dessus n'était-il qu'une rare exception ? La déviation par rapport aux allèles ancestraux est-elle presque sans valeur en tant que métrique pour enquêter sur d'éventuels allèles mutés pouvant conduire à une maladie ? Je me rends compte que la bonne réponse peut être trop longue, mais un bref résumé serait apprécié.

Merci beaucoup.


C'est un peu déroutant. Voici la séquence, à partir du lien ncbi

GGACATTTAAMGAGGTACGTG

Donc M est "A ou C"

C'est une mutation faux-sens, l'acide aminé demandé est soit un N, soit un K.

GGACATTTAAUNEGAGGTACGTG = acide aminé K

GGACATTTAACGAGGTACGTG = N acide aminé

GGACATTTAAgGAGGTACGTG = acide aminé K

GGACATTTAATGAGGTACGTG = N acide aminé

Lorsque vous le blastxez, les meilleurs résultats sont tous l'allèle K, à travers quelques espèces.

Lorsque vous faites exploser l'ADN, les hits non humains dans nr ont tous un G, pas un A ou un C. Donc je suppose que c'est pourquoi ils appellent cela l'allèle ancestral. Les hits humains à n ont tous A, donc l'acide aminé K est conservé.


Typiquement, l'allèle ancestral est déduit de l'allèle des chimpanzés comme notre parent le plus proche (et peut-être certains primates). Alors que pour la plupart des sites, les humains et les chimpanzés ont le même allèle, il existe de nombreux cas où l'allèle ancestral est même complètement absent des humains, et où tous les humains ont un allèle différent des chimpanzés, ce que nous appelons une substitution.

Une substitution dans une partie critique d'une protéine peut en effet indiquer une certaine signification biologique, un exemple classique est le gène FOXP2, qui est lié au développement de la parole. Dans la plupart des cas cependant, les substitutions sont simplement dues à une dérive génétique se produisant sur des millions d'années.


Un guide pratique de la HapMap

Aileen Constant
1 févr. 2006

La phase 1 du projet international HapMap (http://www.hapmap.org), publié en novembre 2005, a été saluée par la presse grand public comme un outil révolutionnaire pour les études d'association de gènes. Les chercheurs utilisant les données ont été tout aussi enthousiastes. Selon Jeanette McCarthy de la Graduate School of Public Health, San Diego State University, "C'est une ressource sans précédent. le génome ou même des gènes candidats. Cela peut ajouter beaucoup d'informations et nous aider à identifier les gènes beaucoup plus facilement. "

Cependant, les questions plus pratiques sont laissées de côté. Comme toute carte, la HapMap nécessite une certaine formation pour être utilisée correctement. Comment, par exemple, utilisez-vous les données ? Y a-t-il des éléments à surveiller lors du choix des SNP (polymorphismes nucléotidiques simples) et de la détermination du bloc d'haplotype.


Contenu

Contrairement aux maladies mendéliennes plus rares, les combinaisons de différents gènes et de l'environnement jouent un rôle dans le développement et la progression de maladies courantes (telles que le diabète, le cancer, les maladies cardiaques, les accidents vasculaires cérébraux, la dépression et l'asthme) ou dans la réponse individuelle aux effets pharmacologiques. agents. Pour trouver les facteurs génétiques impliqués dans ces maladies, on pourrait en principe faire une étude d'association pangénomique : obtenir la séquence génétique complète de plusieurs individus, certains avec la maladie et d'autres sans, puis rechercher les différences entre les deux ensembles de génomes. . À l'époque, cette approche n'était pas réalisable en raison du coût du séquençage complet du génome. Le projet HapMap a proposé un raccourci.

Bien que deux personnes non apparentées partagent environ 99,5% de leur séquence d'ADN, leurs génomes diffèrent à des emplacements nucléotidiques spécifiques. De tels sites sont connus sous le nom de polymorphismes nucléotidiques simples (SNP), et chacune des formes génétiques résultantes possibles est appelée un allèle. Le projet HapMap se concentre uniquement sur les SNP communs, ceux où chaque allèle se produit dans au moins 1% de la population.

Chaque personne a deux copies de tous les chromosomes, à l'exception des chromosomes sexuels chez les hommes. Pour chaque SNP, la combinaison d'allèles d'une personne est appelée un génotype. Le génotypage consiste à découvrir le génotype d'une personne sur un site particulier. Le projet HapMap a choisi un échantillon de 269 individus et sélectionné plusieurs millions de SNP bien définis, génotypé les individus pour ces SNP et publié les résultats.

Les allèles des SNP voisins sur un seul chromosome sont corrélés. Plus précisément, si l'allèle d'un SNP pour un individu donné est connu, les allèles des SNP voisins peuvent souvent être prédits. En effet, chaque SNP est apparu dans l'histoire de l'évolution en tant que mutation ponctuelle unique, puis a été transmis sur le chromosome entouré d'autres mutations ponctuelles antérieures. Les SNP qui sont séparés par une grande distance sur le chromosome ne sont généralement pas très bien corrélés, car la recombinaison se produit à chaque génération et mélange les séquences alléliques des deux chromosomes. Une séquence d'allèles consécutifs sur un chromosome particulier est connue sous le nom de haplotype.

Pour trouver les facteurs génétiques impliqués dans une maladie particulière, on peut procéder comme suit. Tout d'abord, une certaine région d'intérêt dans le génome est identifiée, peut-être à partir d'études héréditaires antérieures. Dans cette région, on localise un ensemble de SNP tag à partir des données HapMap, ce sont des SNP qui sont très bien corrélés avec tous les autres SNP de la région. Ainsi, l'apprentissage des allèles des SNP tag chez un individu déterminera l'haplotype de l'individu avec une forte probabilité. Ensuite, on détermine le génotype de ces marqueurs SNP chez plusieurs individus, certains avec la maladie et d'autres sans. En comparant les deux groupes, on détermine les localisations probables et les haplotypes impliqués dans la maladie.

Les haplotypes sont généralement partagés entre les populations, mais leur fréquence peut varier considérablement. Quatre populations ont été sélectionnées pour être incluses dans la HapMap : 30 trios Yoruba adultes et leurs deux parents d'Ibadan, au Nigéria (YRI), 30 trios de résidents de l'Utah d'ascendance européenne du nord et de l'ouest (CEU), 44 individus japonais non apparentés de Tokyo, Japon (JPT) et 45 individus chinois Han non apparentés de Pékin, Chine (CHB). Bien que les haplotypes révélés à partir de ces populations devraient être utiles pour étudier de nombreuses autres populations, des études parallèles examinent actuellement l'utilité d'inclure des populations supplémentaires dans le projet.

Tous les échantillons ont été collectés dans le cadre d'un processus d'engagement communautaire avec un consentement éclairé approprié. Le processus d'engagement communautaire a été conçu pour identifier et tenter de répondre aux préoccupations culturelles spécifiques et donner aux communautés participantes leur contribution aux processus de consentement éclairé et de collecte d'échantillons. [4]

Au cours de la phase III, 11 groupes d'ascendance mondiale ont été assemblés : ASW (ascendance africaine dans le sud-ouest des États-Unis) CEU (résidents de l'Utah d'ascendance européenne du nord et de l'ouest de la collection CEPH) CHB (chinois Han à Pékin, Chine) CHD (chinois dans la métropole de Denver , Colorado) GIH (Indiens gujarati à Houston, Texas) JPT (Japonais à Tokyo, Japon) LWK (Luhya à Webuye, Kenya) MEX (Ascendance mexicaine à Los Angeles, Californie) MKK (Maasai à Kinyawa, Kenya) TSI (Toscans à Italie) YRI (Yoruba à Ibadan, Nigéria). [5]

Phase identifiant Endroit Population Détail
I/II UFC Résidents de l'Utah d'ascendance d'Europe du Nord et de l'Ouest de la collection CEPH Détail
I/II CHB Chinois Han à Pékin, Chine Détail
I/II JPT Japonais à Tokyo, Japon Détail
I/II YRI Yoruba à Ibadan, Nigéria Détail
III ASW Ascendance africaine dans le sud-ouest des États-Unis Détail
III CHD Chinois dans la région métropolitaine de Denver, CO, États-Unis Détail
III GIH Indiens Gujarati à Houston, TX, États-Unis Détail
III LWK Luhya à Webuye, Kenya Détail
III MKK Massaï à Kinyawa, Kenya Détail
III MXL Ascendance mexicaine à Los Angeles, Californie, États-Unis Détail
III STI Toscane en Italie Détail

Trois panels combinés ont également été créés, qui permettent une meilleure identification des SNP dans des groupes en dehors des neuf échantillons homogènes : Panel combiné de japonais à Tokyo, Japon et de chinois Han à Pékin, Chine) et JPT+CHB+CHD (panel combiné de japonais à Tokyo, Japon, de chinois Han à Pékin, Chine et de chinois dans la métropole de Denver, Colorado). CEU+TSI, par exemple, est un meilleur modèle d'individus britanniques britanniques que CEU seul. [5]

Il était coûteux dans les années 1990 de séquencer les génomes entiers des patients. Ainsi, les National Institutes of Health ont adopté l'idée d'un "raccourci", qui consistait à examiner uniquement les sites du génome où de nombreuses personnes ont une unité d'ADN variante. La théorie derrière le raccourci était que, puisque les principales maladies sont courantes, les variantes génétiques qui les ont causées le seraient aussi. La sélection naturelle maintient le génome humain exempt de variantes qui nuisent à la santé avant que les enfants ne grandissent, selon la théorie, mais échoue contre les variantes qui frappent plus tard dans la vie, leur permettant de devenir assez courantes (en 2002, les National Institutes of Health ont lancé un projet de 138 millions de dollars appelé HapMap pour cataloguer les variantes communes des génomes européens, est-asiatiques et africains). [6]

Pour la phase I, un SNP commun a été génotypé toutes les 5 000 bases. Au total, plus d'un million de SNP ont été génotypés. Le génotypage a été réalisé par 10 centres utilisant cinq technologies de génotypage différentes. La qualité du génotypage a été évaluée en utilisant des échantillons en double ou apparentés et en procédant à des contrôles de qualité périodiques où les centres devaient génotyper des ensembles communs de SNP.

L'équipe canadienne était dirigée par Thomas J. Hudson de l'Université McGill à Montréal et s'est concentrée sur les chromosomes 2 et 4p. L'équipe chinoise était dirigée par Huanming Yang à Pékin et Shanghai, et Lap-Chee Tsui à Hong Kong et s'est concentrée sur les chromosomes 3, 8p et 21. L'équipe japonaise était dirigée par Yusuke Nakamura à l'Université de Tokyo et s'est concentrée sur les chromosomes 5, 11, 14, 15, 16, 17 et 19. L'équipe britannique était dirigée par David R. Bentley au Sanger Institute et s'est concentrée sur les chromosomes 1, 6, 10, 13 et 20. Il y avait quatre centres de génotypage aux États-Unis : un équipe dirigée par Mark Chee et Arnold Oliphant chez Illumina Inc. à San Diego (étude des chromosomes 8q, 9, 18q, 22 et X), une équipe dirigée par David Altshuler et Mark Daly au Broad Institute de Cambridge, USA (chromosomes 4q, 7q, 18p, Y et mitochondrie), une équipe dirigée par Richard Gibbs au Baylor College of Medicine de Houston (chromosome 12) et une équipe dirigée par Pui-Yan Kwok à l'Université de Californie, San Francisco (chromosome 7p).

Pour obtenir suffisamment de SNP pour créer la carte, le Consortium a financé un grand projet de re-séquençage pour découvrir des millions de SNP supplémentaires. Ceux-ci ont été soumis à la base de données publique dbSNP. En conséquence, en août 2006, la base de données comprenait plus de dix millions de SNP, et plus de 40 % d'entre eux étaient connus pour être polymorphes. Par comparaison, au début du projet, moins de 3 millions de SNP ont été identifiés, et pas plus de 10 % d'entre eux étaient connus pour être polymorphes.

Au cours de la phase II, plus de deux millions de SNP supplémentaires ont été génotypés dans tout le génome par David R. Cox, Kelly A. Frazer et d'autres chez Perlegen Sciences et 500 000 par la société Affymetrix.

Toutes les données générées par le projet, y compris les fréquences SNP, les génotypes et les haplotypes, ont été placées dans le domaine public et sont disponibles en téléchargement. [7] Ce site Web contient également un navigateur de génome qui permet de trouver des SNP dans n'importe quelle région d'intérêt, leurs fréquences alléliques et leur association aux SNP à proximité. Un outil qui peut déterminer les SNP de balises pour une région d'intérêt donnée est également fourni. Ces données sont également directement accessibles à partir du programme Haploview largement utilisé.


L'analyse d'un plus grand ensemble de données SNP du projet HapMap a confirmé que l'allèle humain moderne A des gènes du groupe sanguin ABO est un descendant d'un recombinant entre les allèles B et O

Le gène du groupe sanguin ABO humain se compose de trois allèles principaux (A, B et O) qui codent pour une glycosyltransférase. Les allèles A et B diffèrent par deux acides aminés critiques dans l'exon 7, et l'allèle O majeur a une seule délétion nucléotidique (Δ261) dans l'exon 6. Des études évolutives antérieures ont révélé que l'allèle A est le plus ancien, l'allèle B a divergé de l'allèle A avec deux substitutions critiques d'acides aminés dans l'exon 7, et l'allèle O majeur a divergé de l'allèle A avec Δ261 dans l'exon 6. Cependant, une étude récente d'analyse de réseau phylogénétique a montré que l'allèle A des humains a émergé par une recombinaison entre le Allèles B et O. Dans l'étude précédente, un ensemble de données restreint de seulement deux populations a été utilisé. Dans cette étude, nous avons donc utilisé un grand ensemble de données de polymorphisme de nucléotide unique (SNP) du projet HapMap. Les résultats ont indiqué que l'haplogroupe A101-A201-O09 était une lignée recombinante entre les haplotypes B et O, contenant l'exon 6 intact de l'allèle B et les deux sites critiques de type A dans l'exon 7 de l'allèle O majeur. Son point de recombinaison était supposé être situé juste derrière Δ261 dans l'exon 6.

1. Introduction

Le groupe sanguin ABO humain se compose de trois types principaux, A, B et O [1]. Ces allèles codent pour les glycosyltransférases, les modifications de la chaîne sucre terminale variant d'un type à l'autre. L'enzyme codée par les allèles fonctionnels de type A et B transfère un GalNac ou une Gal sur les oligosaccharides précurseurs de type H. Les séquences nucléotidiques des gènes des groupes sanguins ABO humains ont été préalablement déterminées et la base moléculaire de ces différences a été révélée. 2, 3]. Les allèles A et B diffèrent dans l'exon 7 par quatre mutations non synonymes, dont deux sont critiques pour la spécificité du sucre (les codons 266 et 268 codent pour L-G pour A et M-A pour B). L'allèle majeur O présente une délétion nucléotidique unique (Δ261) dans l'exon 6 [4] qui induit un décalage du cadre de lecture, résultant en une protéine tronquée dépourvue de toute activité glycosyltransférase.

Des haplogroupes majeurs (A101, A201, B101, O01, O02 et O09) existent dans les gènes du groupe sanguin ABO humain [5, 6]. A101 et B101 sont les principaux haplogroupes pour les allèles A et B, respectivement. L'activité de A201 est réduite de 20 à 50 fois par rapport à A101, car A201 a une délétion ponctuelle à la position nucléotidique 1061 qui entraîne un décalage du cadre de lecture ajoutant 21 résidus d'acides aminés supplémentaires à la protéine [7]. O01, O02 et O09 sont les principaux haplogroupes du type O. Une série de différences nucléotidiques ont été observées entre O01 et O02 [5, 6, 8]. Bien que O09 partage Δ261 avec O01 et O02, sa séquence est assez similaire à A101. Ainsi, O09 a très probablement évolué à partir d'un allèle commun ancestral de type A101 par une conversion génique dans l'exon 6, introduisant Δ261 à partir d'un autre allèle O [5, 6].

Plusieurs études ont examiné l'évolution des gènes du groupe sanguin ABO humain [5, 8–11]. Ces études ont identifié que l'allèle A est le plus ancien, car le chimpanzé, qui est le plus proche parent de l'homme, possède les allèles A et O. L'allèle O du chimpanzé a évolué par un mécanisme différent de celui de l'homme [10, 12]. L'allèle B a divergé de l'allèle A, avec des substitutions de nucléotides sur les deux résidus critiques dans l'exon 7. L'allèle O02 a divergé de l'allèle A avec une seule délétion de nucléotide (Δ261) dans l'exon 6, après quoi l'allèle O01 a divergé de l'O02 allèle. En revanche, certaines études [13, 14] soutiennent le polymorphisme transspécifique des allèles A et B. Dans tous les cas, ces études suggèrent que ces allèles ont été maintenus en équilibrant la sélection.

Récemment, un nouveau modèle pour les gènes des groupes sanguins ABO humains a été développé, en utilisant l'analyse de réseau phylogénétique [6]. Ils ont soutenu que bien que les allèles B et O divergeaient de l'allèle A, l'allèle A humain moderne n'est pas un descendant direct de l'allèle A ancestral. L'allèle A humain moderne a émergé d'une recombinaison entre les allèles B et O, où l'exon 6 intact de l'allèle B et deux sites critiques de type A dans l'exon 7 de l'allèle O ont été joints il y a moins de 300 000 ans. Étant donné que l'étude précédente [6] utilisait un ensemble de données restreint, c'est-à-dire les données du Seattle SNPs Project, qui est un ensemble de 90 séquences chez les Européens et les Afro-Américains, il est nécessaire d'analyser un ensemble de données plus complet pour corroborer cette hypothèse. Par conséquent, dans la présente étude, nous avons utilisé les données SNP du projet HapMap pour examiner l'évolution des gènes du groupe sanguin ABO humain.

2. Matériels et méthodes

2.1. Ensembles de données

Nous avons récupéré deux types d'ensembles de données d'haplotypes phasés pour les gènes du groupe sanguin ABO du projet HapMap [15]. Le premier était l'ensemble de données de trois populations (3pop_data) qui comprenait les Yoruba à Ibadan, au Nigéria (YRI), le CEPH (résidents de l'Utah ayant des ancêtres en Europe du Nord et de l'Ouest) (CEU), les Japonais à Tokyo, au Japon et les Chinois Han à Pékin, Chine (JPT + CHB) (HapMap Data Rel 24/phaseII Nov08, sur l'assemblage NCBI B36, dbSNP b126). L'autre ensemble de données contenait onze populations (11pop_data) dont des ancêtres africains dans le sud-ouest des États-Unis (ASW), des résidents de l'Utah d'ascendance nord-européenne et occidentale de la collection CEPH (CEU), des Chinois Han à Pékin, en Chine (CHB), des Chinois dans la métropole de Denver, Colorado (CHD), Indiens Gujarati à Houston, Texas (GIH), Japonais à Tokyo, Japon (JPT), Luhya à Webuye, Kenya (LWK), ascendance mexicaine à Los Angeles, Californie (MEX), Maasai à Kinyawa, Kenya ( MKK), Toscans in Italy (TSI) et Yoruba à Ibadan, Nigeria (YRI) (HapMap Data PhaseIII/Rel#3, 10 mai, sur l'assemblage NCBI B36, dbSNP b126).

Étant donné que les haplotypes de la plupart des populations du projet HapMap sont estimés à partir de génotypes, il est possible que les données contiennent des haplotypes erronés. Pour réduire la possibilité de recombinaisons artificielles, nous avons préparé deux types d'ensembles de données à partir de 3pop_data et 11pop_data. Les ensembles de données de 3pop_data_1 et 11pop_data_1 se composaient d'haplotypes d'individus homozygotes et d'individus portant un seul site hétérozygote. Pendant ce temps, les ensembles de données 3pop_data_2 et 11pop_data_2 se composaient d'haplotypes observés plus de deux fois dans toutes les populations.

2.2. Analyse phylogénétique

Les réseaux phylogénétiques ont été construits manuellement en suivant les procédures de [9, 16]. Les données de séquence de chimpanzés (NW_003457497) ont été utilisées comme groupe externe.

2.3. Détection de recombinant

Nous avons tenté de détecter des recombinants à partir de l'analyse du réseau phylogénétique en suivant la procédure de [17]. Ils ont montré la relation entre un recombinant et ses deux allèles parentaux dans un réseau phylogénétique. Nous avons utilisé les données du modèle pour expliquer comment déduire un événement de recombinaison à partir d'un réseau phylogénétique (Figure 1). Premièrement, une séquence d'ascendance (o) produit deux séquences différentes (p1 et p2) (figure 1(a)). Le p1 a cinq substitutions aux sites 2, 4, 5, 9 et 15 (gras rouge), et le p2 a quatre substitutions aux sites 1, 6, 8 et 11 (gras bleu), de la séquence o. Ensuite, si une recombinaison s'est produite entre les sites 6 et 7 pour pl et p2, deux recombinants (r1 et r2) existent. Après la recombinaison, trois substitutions de nucléotides aux sites 7 (violet), 12 (bleu) et 13 (rouge) s'accumulent respectivement à p1, p2 et r1, et trois substitutions de nucléotides aux sites 3, 10 et 14 (gris) s'accumulent également pour produire un groupe externe (o′) à partir de la séquence o. En supposant que r1 et r2 ont été produits par un seul événement de recombinaison, la transmission des deux allèles recombinants à la génération suivante est hautement improbable. Par conséquent, nous avons supposé que r2 avait disparu. La figure 1 (b) est le réseau phylogénétique représenté par la figure 1 (a) à l'époque. Le réseau phylogénétique (figure 1(b)) indique la relation entre les allèles existants (p1, p2 et r1) et un groupe externe (o′). Deux allèles parentaux (p1 et p2) sont situés sur des sommets opposés du rectangle et ont des branches externes plus longues (par rapport à celle de l'allèle recombinant) (sites 13, 9 et 15 pour p1 et sites 12, 1 et 6 pour p2 ), tandis que l'allèle recombinant (r1) est situé sur le sommet opposé à l'allèle externe (o′) et a une branche externe plus courte (comparée à celles des allèles parentaux) (site 7). « branche externe » signifie ici une seule ligne allant des réticulations à un nœud externe.


(une)
(b)
(une)
(b)

Institut Large

C'est version préliminaire 1 pour le génotypage SNP à l'échelle du génome et le séquençage ciblé dans des échantillons d'ADN provenant de diverses populations humaines (parfois appelés échantillons « HapMap 3 »).

Cette version contient les données suivantes :

  • Données de génotype SNP générées à partir de 1115 échantillons, collectés à l'aide de deux plateformes : l'Illumina Human1M (par le Wellcome Trust Sanger Institute) et l'Affymetrix SNP 6.0 (par le Broad Institute). Les données des deux plates-formes ont été fusionnées pour cette version.
  • Données de reséquençage basées sur la PCR (par le centre de séquençage du génome humain du Baylor College of Medicine) dans dix régions de 100 kb (collectivement appelées « ENCODE 3 ») dans 712 échantillons.

Puisqu'il s'agit d'une version préliminaire, nous vous demandons de consulter régulièrement ce site pour les mises à jour et les nouvelles versions.

Institutions de production de données

Organismes de financement

HapMap 3 Échantillons

La collection d'échantillons HapMap 3 comprend 1 301 échantillons (y compris les 270 échantillons originaux utilisés dans les phases I et II du projet international HapMap) de 11 populations, répertoriées ci-dessous par ordre alphabétique de leurs étiquettes à 3 lettres. Pour plus d'informations sur ces échantillons, cliquez ici.

étiqueter échantillon de population nombre d'échantillons
ASW Ascendance africaine dans le sud-ouest des États-Unis 90
UFC Résidents de l'Utah d'ascendance d'Europe du Nord et de l'Ouest de la collection CEPH 180
CHB Chinois Han à Pékin, Chine 90
CHD Chinois dans la région métropolitaine de Denver, Colorado 100
GIH Indiens Gujarati à Houston, Texas 100
JPT Japonais à Tokyo, Japon 91
LWK Luhya à Webuye, Kenya 100
MEX Ascendance mexicaine à Los Angeles, Californie 90
MKK Massaï à Kinyawa, Kenya 180
STI Toscans en Italie 100
YRI Yoruba à Ibadan, Nigéria 180

ENCODER 3 régions

Cinq des dix régions ENCODE 3 chevauchent les régions HapMap-ENCODE, les cinq autres sont des régions sélectionnées au hasard parmi les régions cibles ENCODE (à l'exclusion des 10 régions HapMap-ENCODE). Toutes les régions ENCODE 3 ont une taille de 100 Ko et sont centrées dans chaque région ENCODE respective. En savoir plus sur le projet ENCODE ici.

Région chromosome coordonnées (NCBI build 36) statut
ENm010 7 27,124,046-27,224,045 HapMap-ENCODE
ENr321 8 119,082,221-119,182,220 HapMap-ENCODE
ENr232 9 130,925,123-131,025,122 HapMap-ENCODE
ENr123 12 38,826,477-38,926,476 HapMap-ENCODE
ENr213 18 23,919,232-24,019,231 HapMap-ENCODE
ENr331 2 220,185,590-220,285,589 Nouveau
ENr221 5 56,071,007-56,171,006 Nouveau
ENr233 15 41,720,089-41,820,088 Nouveau
ENr313 16 61,033,950-61,133,949 Nouveau
ENr133 21 39,444,467-39,544,466 Nouveau

Contenu des données de cette version

étiqueter nombre d'échantillons nombre de SNP QC+ nombre de SNP QC+ polymorphes
ASW 71 1632186 1536247
UFC 162 1634020 1403896
CHB 82 1637672 1311113
CHD 70 1619203 1270600
GIH 83 1631060 1391578
JPT 82 1637610 1272736
LWK 83 1631688 1507520
MEX 71 1614892 1430334
MKK 171 1621427 1525239
STI 77 1629957 1393925
YRI 163 1634666 1484416
consensus 1115 1525445 1490422

étiqueter nombre d'échantillons
ASW 55
UFC 119
CHB 90
CHD 30
GIH 60
JPT 91
LWK 60
MEX 27
MKK 0
STI 60
YRI 120
le total 712

Contrôle qualité pour cette version

La concordance de génotypage entre les deux plates-formes était de 0,9931 (calculée sur 249889 SNP se chevauchant). Les données des deux plates-formes ont été fusionnées à l'aide de PLINK (--merge-mode 1), en conservant uniquement les appels de génotype s'il existe un consensus entre les appels de génotype non manquants (c'est-à-dire que le génotype fusionné est défini sur manquant si les deux plates-formes donnent des -appels manquants).

Le contrôle qualité au niveau individuel a été effectué séparément par les deux sites. Seuls les individus avec des données de génotype sur les deux plateformes ont été conservés dans cette version. Les critères suivants ont été utilisés pour conserver les SNP dans les ensembles de données QC+ :

  • Hardy-Weinberg p>0.000001 (par population)
  • absence <0,05 (par population)
  • <3 Erreurs de Mendel (par population s'applique uniquement à YRI, CEU, ASW, MEX, MKK)
  • Le SNP doit avoir un rsID et une carte vers un emplacement génomique unique

L'ensemble de données "consensus" contient des données pour 1115 individus (558 hommes, 557 femmes 924 fondateurs et 191 non-fondateurs), ne conservant que les SNP qui ont passé le QC dans toutes les populations (le taux d'appel global est de 0,998). L'ensemble de données « consensus|polymorphe » a supprimé 35023 SNP monomorphes (sur l'ensemble de l'ensemble de données).

Dans tous les fichiers de génotype, les allèles sont exprimés comme étant sur le brin (+/fwd) de NCBI build 36.

Les appels de variants basés sur la séquence ont été générés par pavage avec des ensembles d'amorces PCR espacés d'environ 800 bases à travers les régions ENCODE 3. Après filtrage des lectures de faible qualité, les données ont été analysées avec SNP Detector version 3, pour la découverte de sites polymorphes et l'appel de génotype individuel. Différents filtres QC ont ensuite été appliqués. Plus précisément, nous avons filtré les amplicons PCR avec trop de SNP et les SNP avec des appels d'allèles discordants dans plusieurs amplicons. Nous avons également filtré les SNP avec une faible complétude dans les échantillons, ou avec trop d'appels de génotypes conflictuels dans deux brins différents.

Dans l'ensemble de données QC+, nous avons filtré les échantillons peu complets et filtré les SNP avec un faible taux d'appel dans chaque population (<80 %) et non dans HWE (p<0.001). Dans l'ensemble de données QC+, le taux global de faux positifs est

3,2 %, sur la base d'un nombre limité d'essais de validation.

Mises en garde dans cette version

  • Il manque dans cette version les SNP Illumina qui sont A/T ou C/G en raison de problèmes d'échouage.
  • Il manque dans cette version les SNP d'Illumina qui sont mitochondriaux (car ils n'ont pas de rsID).
  • Il peut y avoir quelques SNP restants (Illumina) dans cette version qui sont toujours sur le brin (-/rev) de NCBI build 36, mais ce ne sont pas des SNP A/T ou C/G, donc faciles à identifier en aval.

Tous les appels de variantes n'ont pas encore été validés : nous estimons qu'il existe actuellement un taux de faux positifs de

12% parmi tous les appels, avec un taux légèrement plus élevé (

14 %) si l'on considère uniquement les singletons. Une validation supplémentaire est en cours. Le séquençage PCR d'échantillons supplémentaires (MKK) est également en cours.

Comment télécharger cette version

    - tarball des données de génotype polymorphe QC+ par population, formatées en fichiers PLINK PED et MAP [833 Mo] - Fichier PED de données de génotype polymorphe QC+ (consensus) [738 Mo] - Fichier MAP de données de génotype polymorphe QC+ (consensus) [11 Mo ] - relations familiales (généalogie) et étiquettes de population pour 1 301 échantillons HapMap 3 [37 KB] - liste des 270 échantillons utilisés dans les phases I et II du projet international HapMap [2 KB]

Pour accéder aux données de reséquençage PCR ENCODE III, veuillez visiter le site ftp public BCM-HGSC à ftp://ftp.hgsc.bcm.tmc.edu/pub/data/Encode ou télécharger ici :

    - Fichier README [3 Ko] - liste de 712 échantillons non apparentés séquencés [61 Ko] - génotypes de 10 076 sites SNP par 712 échantillons [641 Ko] - génotypes QC+ de 6 223 sites SNP par 692 échantillons [9 Mo]

Plans d'analyse

Voici les plans d'analyse que nous poursuivons actuellement :

  • Estimation de la fréquence des allèles SNP
  • Différenciation de la population
  • Analyse de déséquilibre de liaison
  • Marquage SNP
  • Efficacité de l'imputation
  • Emplacements génomiques des CNV humains
  • Génotypes pour les CNV
  • Propriétés génétiques des populations des CNV (fréquences alléliques, différenciation des populations, etc.)
  • Taux de mutation (fréquence des CNV de novo) et mécanismes mutationnels potentiels
  • Propriétés de déséquilibre de liaison des CNV
  • Marquage et imputation des CNV
  • Signaux de sélection autour des CNV
  • Association de SNP et CNV avec des phénotypes d'expression

Politique de diffusion des données

La diffusion des données de pré-publication des grands projets scientifiques générateurs de ressources a fait l'objet d'une réunion tenue en janvier 2003, la réunion « Fort Lauderdale ». Une déclaration de politique du NHGRI basée sur les résultats de la réunion se trouve sur le site Web du NHGRI (http://www.genome.gov/10506537).

Les recommandations de la réunion de Fort Lauderdale abordent les rôles et les responsabilités des producteurs de données, des utilisateurs de données et des bailleurs de fonds des « projets de ressources communautaires », dans le but d'établir et de maintenir un équilibre approprié entre les intérêts des utilisateurs de données dans l'accès rapide aux données et les besoins des producteurs de données de recevoir une reconnaissance pour leur travail. La conclusion des participants à la réunion était qu'une utilisation responsable des données est nécessaire pour garantir que les producteurs de données de premier ordre continueront à participer à de tels projets et à produire et publier rapidement des ensembles de données à grande échelle précieux. L'« utilisation responsable » a été définie comme permettant aux producteurs de données d'avoir la possibilité de publier les premières analyses globales des données, telles qu'énoncées au départ du projet. Cela garantira également que les données générées sont entièrement décrites.


Matériaux et méthodes

Probabilités de génotype

Les informations sur les génotypes non observés contenues dans les données de séquençage de nouvelle génération sont mieux résumées dans les probabilités de génotype (Nielsen et al. 2011). On note les données de séquençage X = <X1, X2, … , XN> et Xje = <Xje1, Xje2, … , Xje suis> pour N individus et M des sites. Les probabilités de génotype sont la probabilité d'observer les données de séquençage pour un seul individu étant donné le génotype non observé, défini comme Plusieurs méthodes de calcul des probabilités de génotype existent. Le modèle SOAPsnp (R. Li et al. 2009) calcule une matrice d'inadéquation qui est utilisée pour estimer les erreurs spécifiques au type, et SAMtools (Li 2011) utilise un modèle dérivé du modèle MAQ (Li et al. 2008). Nous utilisons le modèle GATK simple (McKenna et al. 2010) pour le calcul des probabilités de génotype. Le modèle GATK suppose l'indépendance des lectures et utilise uniquement les bases observées chevauchant une position spécifique ainsi que leurs scores de qualité associés. Ainsi, la vraisemblance du génotype est calculée comme (1) (2) Ici est la profondeur au site j pour particulier je, bk est la base observée, et P est la probabilité d'erreur calculée à partir du score de qualité de bk.

Modèle

Les méthodes existantes pour estimer la structure de la population sont basées sur les données de génotype de nombreux polymorphismes mononucléotidiques (SNP) pour un grand nombre d'individus.

On suppose que les sites variables sont dialléliques. Pour un site variable nous observons deux allèles différents et avons trois génotypes possibles. Sans perte de généralité, nous pouvons attribuer nos deux allèles au hasard et désigner les deux allèles comme UNE, B. La fréquence allélique est la fréquence à laquelle UNE se produit. Nous identifions le génotype par le dénombrement des B allèle. Donc AA = 0, UN B = 1, BB = 2.

Pour les particuliers je au SNP j nous considérons les trois probabilités de génotype pertinentes : (3) Ici Xje sont les données de séquençage pour l'individu je sur le site j, gje est le génotype non observé et, p(Xje|gje = 0) est (proportionnel à) la probabilité d'observer les données de séquençage Xje étant donné que cet individu je est de génotype 0 au SNP j.

La proportion de mélange individuel est la proportion d'allèles d'un individu qui a des ancêtres dans une population ancestrale postulée. On écrit la proportion d'individus jele génome de la population k comme p(k) = q ik .

Le modèle suppose K différentes populations ancestrales, chacune avec ses propres fréquences alléliques. On note les fréquences alléliques de l'allèle UNE en population k au SNP j comme f jk . Si les fréquences et les proportions de mélange sont connues, la probabilité qu'un allèle soit UNE pour particulier je sur le site j est . La probabilité d'observer le génotype gje en individuel je sur le site j, en supposant l'équilibre de Hardy-Weinberg, est

Fonction de vraisemblance :

Lorsque les génotypes sont observés, en supposant que les sites sont indépendants, la vraisemblance s'écrit (5) Si les sites ne sont pas indépendants, alors il s'agit d'une vraisemblance composite qui aura toujours des estimations cohérentes. Cette vraisemblance correspond à la vraisemblance utilisée dans Tang et al. (2005) et Alexandre et al. (2009) et sera utilisé pour traiter les génotypes appelés.

Lors de l'utilisation des données NGS, les génotypes ne sont pas observés et nous travaillons plutôt avec des probabilités de génotype. La probabilité ci-dessus est étendue en additionnant sur tous les génotypes possibles : (6) Dans le cas de génotypes connus, le facteur p(Xje|gje) = 1 si gje est le génotype observé et zéro sinon, et les deux probabilités sont équivalentes.

Estimation

Nous définissons les estimateurs de vraisemblance maximum suivants des proportions de mélange et des fréquences de population : (7) Nous notons que la vraisemblance est invariante au changement d'étiquette dans les populations ancestrales, il y K! maximums globaux équivalents. Notez également que la vraisemblance doit être maximisée sous les contraintes qui q ik , f jk [0, 1] et .

Algorithme EM :

L'algorithme EM optimise itérativement les paramètres. Une nouvelle et meilleure estimation des paramètres est trouvée en utilisant l'estimation précédente. Les paramètres devinent pour l'itération m + 1 est donné par (8) (9) où (10) (11) Ici nous avons utilisé la notation abrégée

Une dérivation de cet algorithme EM à partir de la fonction de vraisemblance se trouve dans les informations de support, fichier S1. Nous initialisons l'algorithme par un point choisi aléatoirement dans l'espace des paramètres. Lorsqu'il n'y a pas d'incertitude dans les données de génotype, l'expression se réduit à H(Xje|Qm, Fm) = gje et il s'ensuit que pour les génotypes appelés l'algorithme EM est le même que dans Tang et al. (2005) et Alexandre et al. (2009).

Convergence accélérée de l'algorithme EM :

Lorsque l'espace des paramètres est de grande dimension, la convergence de l'algorithme EM peut être lente. Lorsque la progression de l'algorithme dans l'espace des paramètres est surveillée, il est clair que de nombreux petits pas dans la même direction pourraient être remplacés par des pas plus grands. C'est le principe des méthodes itératives au carré (Varadhan et Roland 2008) pour accélérer les algorithmes EM. Cette accélération est similaire à l'approche d'Alexandre et al. (2009). À chaque itération de l'algorithme EM accéléré, la valeur initiale des paramètres est mise à jour deux fois, en utilisant l'étape normale de l'algorithme EM décrite dans la section précédente. Une combinaison optimale basée sur l'ancienne et les deux nouvelles estimations de paramètres est calculée (nous choisissons d'utiliser le schéma S3 de Varadhan et Roland 2008) et cette extrapolation est ensuite à nouveau mise à jour par une étape régulière de l'algorithme EM.

Simulation

Cette section décrit comment nous avons effectué des simulations dans le but de valider NGSadmix et comparé les performances aux méthodes existantes. Chaque scénario simulé est basé sur un choix des coefficients de mélange pour chaque individu, la distribution conjointe des fréquences alléliques dans les populations ancestrales, la profondeur moyenne de séquençage de chaque individu et le taux d'erreur de séquençage.

Fréquences alléliques dans les populations ancestrales :

Pour utiliser une distribution conjointe réaliste des fréquences alléliques pour les populations ancestrales, nous utilisons des estimations de fréquence allélique à partir de deux ensembles de données. Le premier ensemble de fréquences d'allèles est basé sur les fréquences d'allèles de population du Human Genetic Diversity Project (HGDP). Les données ont été obtenues auprès du navigateur de tables de l'Université de Californie, Santa Cruz (UCSC) (http://genome.ucsc.edu/cgi-bin/hgTables). Nous avons utilisé les fréquences alléliques de trois populations étroitement apparentées, à savoir les populations chinoises Han, japonaises et cambodgiennes. Le deuxième ensemble est basé sur les fréquences alléliques estimées à partir de HapMap 3 (Altshuler et al. 2010b), où nous avons utilisé les fréquences alléliques de trois populations éloignées : Centre d'Etude du Polymorphisme Humain collecté dans l'Utah (CEU) Yoruba à Ibadan, Nigeria (YRI) et Han Chinese à Pékin, Chine (CHB).

Scénarios de simulation :

Pour chacun des deux ensembles de fréquences alléliques, nous avons simulé quatre scénarios différents avec chacun 100 000 SNP et trois populations ancestrales.

Les scénarios simulés A, B et C consistent tous en 50 échantillons avec 30 échantillons non mélangés de trois populations ancestrales, 10 échantillons qui sont mélangés à parts égales des trois populations et 10 échantillons qui sont composés de deux des populations ancestrales en proportions égales voir graphique du haut de la figure 1. Les profondeurs de séquençage sont différentes entre les trois scénarios. Dans le scénario A, la profondeur moyenne varie entre les individus. Dans le scénario B chaque individu est séquencé à une profondeur moyenne de 2 et dans le scénario C nous laissons 25 individus avoir une profondeur moyenne élevée (20×) et 25 avoir une faible mortalité moyenne (1×).

Simulations du scénario A basées sur les fréquences des allèles HGDP. Le graphique du haut représente les vraies proportions de mélange utilisées pour simuler les 50 échantillons. Chaque barre reflète le mélange d'un seul individu. Une seule barre de couleur signifie qu'il n'y a pas de mélange, et les proportions de mélange sont considérées comme la proportion de différentes couleurs. Le deuxième graphique montre les profondeurs de séquençage moyennes individuelles. Le troisième graphique montre les proportions de mélange estimées à partir des probabilités de génotype à l'aide de NGSadmix. Les deux derniers graphiques montrent les proportions de mélange estimées par ADMIXTURE à partir de génotypes appelés génotypes ML et génotypes HW.

Dans le scénario D, nous examinons le comportement de NGSadmix pour une plus large gamme de proportions de mélange. Nous avons simulé 340 individus avec 150 échantillons non mélangés, 50 échantillons également mélangés des trois populations ancestrales et 50 échantillons composés de deux des populations ancestrales en proportions égales. Nous avons divisé les 90 échantillons restants en groupes de 10 et augmenté progressivement la proportion de mélange pour deux des populations de 5 % à 45 % par paliers de 5 % (voir la figure S9). Ce scénario a été simulé 100 fois. Pour chaque réalisation, les profondeurs individuelles ont été échantillonnées uniformément de 0,5 × à 6 × et les fréquences alléliques ont été échantillonnées au hasard sans remise.

Simulation des vraisemblances du génotype :

A partir des coefficients de mélange et des fréquences alléliques dans les populations ancestrales, nous simulons les génotypes de chaque individu selon les probabilités données par l'équation 4. Avec ces génotypes, nous générons les vraisemblances des génotypes, en utilisant l'équation 1, en simulant les erreurs de séquençage et la profondeur de séquençage. , en supposant une distribution de Poisson. Nous supposons un taux d'erreur symétrique de 1 % et supposons que ce taux d'erreur se reflète dans les scores de qualité de base.

Des probabilités de génotype simulées, nous supprimons les sites avec une fréquence allélique mineure <5% estimée à partir des probabilités de génotype. Nous supprimons également les sites avec >80 % de données manquantes. Pour chaque scénario simulé, nous utilisons les 100 000 premiers SNP qui passent ces filtres.

Appel des génotypes :

Pour comparer les résultats NGSadmix avec les estimations de mélange basées sur les génotypes appelés, nous avons appelé les génotypes à partir des probabilités de génotype simulées, en utilisant deux méthodes différentes : génotypes de Weinberg (HW)]. La probabilité de génotype postérieur est trouvée en utilisant un a priori basé sur une estimation de la fréquence des allèles mineurs (Kim et al. 2011) sous l'hypothèse de l'équilibre de Hardy-Weinberg. Ce prior est commun à tous les individus. Pour voir l'effet de l'utilisation d'un seuil lors de l'appel des génotypes, nous avons également estimé les proportions de mélange sur la base des génotypes HW avec une probabilité postérieure >0.95 (génotypes filtrés).

1000 données de séquençage de génomes

Chevauchement avec les données de génotype HapMap 3 :

La HapMap 3 (Altshuler et al. 2010b) l'ensemble de données contient les génotypes de 1,6 million de SNP chez 1184 individus de référence de 11 populations. Certains de ces individus ont été reséquencés dans le projet 1000 Genomes (Altshuler et al. 2010a Abecasis et al. 2012). Cela nous permet de valider NGSadmix sur des données de séquençage à faible couverture en comparant nos estimations avec les coefficients de mélange estimés à partir des données de génotype HapMap 3. Parmi les 9 populations se chevauchant partiellement, nous avons choisi 5 populations qui comptaient toutes au moins 20 individus, d'ascendance européenne (CEU), Yoruba (YRI), chinoise (CHB), mexicaine aux États-Unis (MXL) et africaine aux États-Unis. (ASW), et a choisi 20 individus non apparentés de chaque population pour constituer un Scénario à 5 populations. De même, nous avons également choisi 20 individus de chacune des deux populations plus étroitement apparentées, à savoir les Chinois Han (CHB) et les Japonais (JPT), pour constituer un Scénario à 2 populations.

Analysis of sites with known genotypes:

Using PLINK (Purcell et al. 2007), we extracted SNPs from the HapMap 3 genotype data with a joint minor allele frequency (MAF) >5%, with no more than 5% missing genotypes and without being out of Hardy–Weinberg equilibrium (P > 0.000001). Genotype likelihoods were calculated using Equation 1 from the 1000 Genomes low-coverage sequencing data for the sites overlapping the HapMap 3 genotype data. To be able to compare NGSadmix results with called genotypes based on haplotype imputation, we also performed whole-genome haplotype imputation for the two 1000 Genomes data sets. For each site we first performed a likelihood-ratio test for variability, assuming diallelic SNPs, and chose a P-value cutoff of 10 −6 . The likelihood function used to test for variability is described in Kim et al. (2011) and the method for finding the major and the minor allele is described in Skotte et al. (2012). For the variable sites the genotype likelihoods were calculated using Equation 1. Implementations of all methods mentioned above are available in the ANGSD software (http://www.popgen.dk/angsd). We used the calculated genotype likelihoods in the haplotype imputation software Beagle (Browning and Yu 2009). For the 100 individuals in the five-population scenario we inferred 16,536,092 polymorphic sites and we found 7,312,452 polymorphic sites in the 40 individuals in the two-population scenario. For fast imputation we separated the genome in 10-Mb regions and merged the imputed genotypes afterward. We then used the sites that overlapped with the HapMap 3 genotypes for the admixture analysis.

Analysis of inferred polymorphic sites:

To assess the performance on SNPs detected directly from the sequencing data we also inferred polymorphic sites from the 1000 Genomes low-coverage data instead of limiting our analysis to a subset of sites known to be polymorphic. For the first 10 chromosomes we chose five random contiguous 10-Mb regions for a total of 500 Mb. This was done by calling polymorphic sites across the genome, using the above-mentioned likelihood-ratio test. Using genotype likelihoods based on Equation 1 we inferred 2.9 million sites, and with SAMtool’s genotype likelihoods we obtained 2.3 million sites. Implementations of the genotype-likelihood estimators and the likelihood-ratio test are available in the ANGSD software (http://www.popgen.dk/angsd).

Mise en œuvre

The presented method for estimating individual admixture proportions based on genotype likelihoods, NGSadmix, has been implemented in C++, using POSIX threads (Pthreads). The input files are the general and widely used Beagle input files (Browning and Yu 2009). The NGSadmix software is available at http://www.popgen.dk/software.


Native Americans Descended From A Single Ancestral Group, DNA Study Confirms

For two decades, researchers have been using a growing volume of genetic data to debate whether ancestors of Native Americans emigrated to the New World in one wave or successive waves, or from one ancestral Asian population or a number of different populations.

Now, after painstakingly comparing DNA samples from people in dozens of modern-day Native American and Eurasian groups, an international team of scientists thinks it can put the matter to rest: virtually without exception, the new evidence supports the single ancestral population theory.

&ldquoOur work provides strong evidence that, in general, Native Americans are more closely related to each other than to any other existing Asian populations, except those that live at the very edge of the Bering Strait,&rdquo said Kari Britt Schroeder, a lecturer at the University of California, Davis, and the first author on the paper describing the study.

&ldquoWhile earlier studies have already supported this conclusion, what&rsquos different about our work is that it provides the first solid data that simply cannot be reconciled with multiple ancestral populations,&rdquo said Schroeder, who was a Ph.D. student in anthropology at the university when she did the research.

The study is published in the May issue of the journal Biologie moléculaire et évolution.

The team&rsquos work follows up on earlier studies by several of its members who found a unique variant (an allele) of a genetic marker in the DNA of modern-day Native American people. Dubbed the &ldquo9-repeat allele,&rdquo the variant (which does not have a biological function), occurred in all of the 41 populations that they sampled from Alaska to the southern tip of Chile, as well as in Inuit from Greenland and the Chukchi and Koryak people native to the Asian (western) side of the Bering Strait. Yet this allele was absent in all 54 of the Eurasian, African and Oceanian groups the team sampled.

Overall, among the 908 people who were in the 44 groups in which the allele was found, more than one out of three had the variant.

In these earlier studies, the researchers concluded that the most straightforward explanation for the distribution of the 9-repeat allele was that all modern Native Americans, Greenlanders and western Beringians descend from a common founding population. Furthermore, the fact that the allele was absent in other Asian populations most likely meant that America&rsquos ancestral founders had been isolated from the rest of Asia for thousands of years before they moved into the New World: that is, for a period of time that was long enough to allow the allele to originate in, and spread throughout, the isolated population.

As strong as this evidence was, however, it was not foolproof. There were two other plausible explanations for the widespread distribution of the allele in the Americas.

If the 9-repeat allele had arisen as a mutation multiple times, its presence throughout the Americas would not indicate shared ancestry. Alternatively, if there had been two or more different ancestral founding groups and only one of them had carried the 9-repeat allele, certain circumstances could have prompted it to cross into the other groups and become widespread. Say that there was a second allele &mdash one situated very close to the 9-repeat allele on the DNA strand &mdash that conferred a strong advantage to humans who carried it. Natural selection would carry this allele into new populations and because of the mechanics of inheritance, long stretches of DNA surrounding it, including the functionless 9-repeat allele, would be carried along with the beneficial allele.

To rule out these possibilities, the research team, which was headed by Noah Rosenberg at the University of Michigan, scrutinized DNA samples of people from 31 modern-day Asian populations, 19 Native American, one Greenlandic and two western Beringian populations.

They found that in each sample that contained the 9-repeat allele, short stretches of DNA on either side of it were characterized by a distinct pattern of base pairs, a pattern they seldom observed in people without the allele. &ldquoIf natural selection had promoted the spread of a neighboring advantageous allele, we would expect to see longer stretches of DNA than this with a similarly distinct pattern,&rdquo Schroeder said. &ldquoAnd we would also have expected to see the pattern in a high frequency even among people who do not carry the 9-repeat allele. So we can now consider the positive selection possibility unlikely.&rdquo

The results also ruled out the multiple mutations hypothesis. If that had been the case, there would have been myriad DNA patterns surrounding the allele rather than the identical characteristic signature the team discovered.

&ldquoThere are a number of really strong papers based on mitochondrial DNA &mdash which is passed from mother to daughter &mdash and Y-chromosome DNA &mdash which is passed from father to son &mdash that have also supported a single ancestral population,&rdquo Schroeder said. &ldquoBut this is the first definitive evidence we have that comes from DNA that is carried by both sexes.&rdquo

Other authors of the study are David G. Smith, a professor of anthropology at UC Davis Mattias Jacobsson, University of Michigan and Uppsala University in Sweden Michael H. Crawford, University of Kansas Theodore Schurr, University of Pennsylvania Simina Boca, Johns Hopkins University Donald F. Conrad and Jonathan Pritchard, University of Chicago Raul Tito and Ripan Malhi, University of Illinois, Urbana-Champaign Ludmilla Osipova, Russian Academy of Sciences, Novosibirsk Larissa Tarskaia, Russian Academy of Sciences, Moscow Sergey Zhadanov, University of Pennsylvania and Russian Academy of Sciences, Novosibirsk and Jeffrey D. Wall, UC San Francisco.

The work was supported by NIH grants to Rosenberg and Smith and an NSF Graduate Research Fellowship to Schroeder.


Ancestral Allele and Hapmap - Biology

Haplotter is a web tool that has been developed to display the results of a scan for positive selection in the human genome using the HapMap data (www.hapmap.org). The publication associated with this tool is available here.

iHS (Integrated Haplotype Score) is a statistic that has been developed to detect evidence of recent positive selection at a locus. It is based on the differential levels of linkage disequilibrium(LD) surrounding a positively selected allele compared to the background allele at the same position. An extreme positive iHS score (iHS > 2) means that haplotypes on the ancestral allele background are longer compared to derived allele background. An extreme negative iHS score (iHS Caractéristiques

Haplotter can be used as a resource to examine various population genetic measures in a genomic region. Measures that are currently displayed include iHS, ascertainment biased versions of Fay and Wu's H, Tajima's D and Fst. For information on how these statistics were generated please refer to the associated publication (Voight et al, 2006).

There are four graphic panels displayed for each gene or region queried. They represent iHS, ascertainment versions of Fay and Wu's H, Tajima's D and Fst.

Of the four display panels, the first three are displayed for all three of our study populations (CEPH, Yoruba and East Asians), while the Fst plot consists of the three pairwise comparisons of the three populations. Each point on the y-axis for these plots represents the negative log of the rank of the observed statistic for a given SNP divided by the total number of SNPs. The statistic that is ranked is obtained independently for each of the four statistics separately for each population. For iHS, for each SNP, 25 SNPs on either side of the SNP are scanned for |iHS|>2. The proportion of SNPs in this 51 SNP window with |iHS|>2 is computed. For H and D, the estimated value of H and D (see Voight et al, 2006 for details on how these were estimated) were used for ranking. For Fst, the statistic to be ranked is obtained in a similarmanner as that for iHS except for each population comparison, the thresholds for defining a significant Fst is based on the top 5% cutoff for each population comparion. The different thresholds used for Fst are (CEPH-Yoruba: 0.2976, CEPH-East Asians: 0.2055, Yoruba-East Asians: 0.3374). In addition to these, the SNPs with very high Fst (in the top 1% within each population comparion) are plotted as points with their Fst value represented on the right hand side of the plot.

The information displayed for the gene and region display methods varies slightly. The horizontal bars of varying sizes displayed under each panel of the graphic display represent genes present the region. If a specific gene is queried then the center of that gene is marked by ablack arrow. A vertical dashed line is used as a reference for comparisons within a graphic panel and across the graph panels.


A sample iHS plot output by querying a gene

A sample Fst plot output by querying a genomic region

In addition to the four graph panels, there are two tables displayed at the bottom of the page. The first table is a list of all the genes that are present in the region and have data available in at least one of the populations. The values presented for each gene and for each population represent an empirical p-value. Please refer to the associated publication (Voight et al, 2006) for details on how these were estimated. Within the table if a cell is considered to show significant evidence for selection, then it is colored light blue. If a gene was queried, the entire row representing the gene is colored yellow.
A sample text output by querying a gene

Clicking on the gene would result in a similar set of graphs being displayed for that gene. In addition to this, clicking on the p-values would display a scatter plot of iHS values in and around the gene. The red horizontal bar displayed in this plot represents the gene coresponding to the p-value that was clicked, while green horizontal bars represent 100Kb windows that lie in the top 1% of our results for each population i.e. areas marked in green show especially strong evidence for selection. Below this plot is a table with the top 20 iHS scores in the displayed region.


A sample iHS scatter plot

The second and last table lists regions that show significant evidence for selection, but lie in nongenic regions of the genome.

In addition to the region and gene centered views of the data, one can query a single SNP. This will display two graphs. The first graph consists of an ordered display of haplotypes at different distances from the queried SNP (which is at the center of the display). At the center of this display is a vertical line in two colors: blue color represents the ancestral state and the derived state is represented in red. The distances over which the haplotypes are spread is displayed at the top of the graph. A continous block of the same color represents a haplotype block that is shared among many chromosomes. When a chromosome switches to a new color at some distance away from the core SNP, it means that that particular chromosome has a different allele relative to the remaining chromosomes that shared a common haplotype with it until that distance. In effect, an origin of a new color represent a new haplotype from that point on. Haplotypes are no longer plotted if they become unique in the sample. The second graph displays the decay of Extended Haplotype Homozygosity (EHH) at different distances from the queried SNP (Sabeti et al, 2002). The table below this figure displays the iHS, Fay and Wu's H, Tajima's D, derived allele frequency and Fst (between the chosen population and the remaining two populations).


A sample output by querying a SNP

1. A map of recent positive selection in the human genome. B.F.Voight, S. Kudaravalli, X.Wen, J.K.Pritchard 2006. PLoS Biology 4(3): e72

2. Sabeti PC, Reich DE, Higgins JM, Levine HZP, Richter DJ, et al. 2002 Detecting recent positive selection in the human genome from haplotype structure. Nature 419:832-837.

3. Tajima, F. Statistical method for testing the neutral mutation hypothesis by DNA polymorphism. 1989 Genetics 123:585-595


Ancestral Allele and Hapmap - Biology

HapMap 3 est la troisième phase du projet international HapMap. Cette phase augmente le nombre d'échantillons d'ADN couverts de 270 dans les phases I et II à 1 301 échantillons provenant de diverses populations humaines. Il s'agit de la version préliminaire de la version 3.

Les données définitives sont disponibles sur le site ftp HapMap. Les données disponibles à partir de ces pages à l'Institut Sanger sont des données brutes non filtrées, fournies en tant que ressource à la communauté.

Populations

Les échantillons de population suivants ont été étudiés :

ASW Ascendance africaine dans le sud-ouest des États-Unis CEU Résidents de l'Utah avec ascendance d'Europe du Nord et de l'Ouest de la collection CEPH CHB Chinois Han à Pékin, Chine CHD Chinois dans la métropole de Denver, Colorado GIH Indiens gujarati à Houston, Texas JPT Japonais à Tokyo, Japon LWK Luhya à Webuye , Kenya MXL Ascendance mexicaine à Los Angeles, Californie MKK Maasai à Kinyawa, Kenya TSI Toscani en Italie YRI Yoruba à Ibadan, Nigeria

Données publiées

HapMap 3 version 3
  • 99,3% de concordance de plate-forme
  • 99,7% de taux d'appel
  • 1198 fondateurs et 199 non-fondateurs
  • 683 hommes, 714 femmes
  • 23238 SNP monomorphes retirés du consensus
I) Échantillons de population pour le génotypage
Échantillons de population pour le génotypage : Nombre d'individus avec les génotypes Hapmap 3 dans cette version (nombre d'individus au total) : Nombre de SNP inclus dans cette version (après QC)
ASW 71 (sur 90) 1 632 186
UFC 162 (sur 180) 1 634 020
CHB 82 (sur 92) 1 637 672
CHD 70 (sur 90) 1 619 203
GIH 83 (sur 90) 1 631 060
JPT 82 (sur 89) 1 637 610
LWK 83 (sur 90) 1 631 688
MXL 71 (sur 90) 1 614 892
MKK 171 (sur 180) 1 621 427
STI 77 (sur 90) 1 629 957
YRI 163 (sur 180) 1 634 666
Le total 1115 (sur 1261) 1 525 445
Ensemble de données de consensus (polymorphe) * 1115 (sur 1261) 1 490 422

* Ensemble de données de consensus (polymorphe) de cette version (35 023 SNP monomorphes supprimés)

Ii) Échantillons de population pour le reséquençage par PCR

Pour chaque population, le nombre d'individus pour lesquels la séquence a été générée est indiqué :

ASW 55
UFC 119
CHB 90
CHD 30
GIH 60
JPT 91
LWK 60
MXL 27
MKK 0
STI 60
YRI 120
Le total 712

Téléchargement de données

Les données définitives sont disponibles sur le site ftp HapMap. Les données disponibles à partir de ces pages à l'Institut Sanger sont des données brutes non filtrées, fournies en tant que ressource à la communauté.

Téléchargement FTP

Les données peuvent être téléchargées à partir du site ftp de l'Institut Sanger --> site ftp Hapmap.

Pour accéder aux données de reséquençage PCR ENCODE III :
    - liste de 712 échantillons non apparentés séquencés [60 Ko] - génotypes de 10 076 sites SNP par 712 échantillons [626 Ko] - génotypes QC+ de 6 223 sites SNP par 692 échantillons [8700 Ko]
Politique de diffusion des données

La diffusion des données de pré-publication des grands projets scientifiques générateurs de ressources a fait l'objet d'une réunion tenue en janvier 2003, la réunion « Fort Lauderdale ». Le rapport de cette réunion peut être consulté ici.

Les recommandations de la réunion de Fort Lauderdale abordent les rôles et les responsabilités des producteurs de données, des utilisateurs de données et des bailleurs de fonds des « projets de ressources communautaires », dans le but d'établir et de maintenir un équilibre approprié entre les intérêts des utilisateurs de données dans l'accès rapide aux données et les besoins des producteurs de données de recevoir une reconnaissance pour leur travail.

La conclusion des participants à la réunion était qu'une utilisation responsable des données est nécessaire pour garantir que les producteurs de données de premier ordre continueront à participer à de tels projets et à produire et publier rapidement des ensembles de données à grande échelle précieux. L'« utilisation responsable » a été définie comme permettant aux producteurs de données d'avoir la possibilité de publier les premières analyses globales des données, telles qu'énoncées au départ du projet. Cela garantira également que les données générées sont entièrement décrites.

Production et contrôle qualité

I) Génotypage

La concordance de génotypage entre les deux plates-formes était de 0,9931 (calculée sur 249889 SNP se chevauchant).

Les données des deux plates-formes ont été fusionnées à l'aide de PLINK ( --merge-mode 1 ), en conservant uniquement les appels de génotype s'il existe un consensus entre les appels de génotype non manquants (c'est-à-dire que le génotype fusionné est défini sur manquant si les deux plates-formes donnent des -appels manquants).

Le contrôle de la qualité au niveau individuel a été effectué séparément pour différentes plates-formes. Seuls les individus avec QC ont passé des données de génotype sur les deux plates-formes ont été conservés dans cette version. Les critères suivants ont été utilisés pour conserver les SNP dans les ensembles de données de cette version :

Hardy-Weinberg p>0.000001 (par population) absence <0.05 (par population) <3 Erreurs de Mendel (par population ne s'applique qu'à YRI, CEU, ASW, MXL, MKK) Le SNP doit avoir un rsID et une carte vers un emplacement génomique unique. L'ensemble de données « consensus » contient des données pour tous les individus (558 hommes, 557 femmes, 924 fondateurs et 191 non-fondateurs), ne conservant que les SNP ayant passé le QC dans toutes les populations (le taux d'appel global est de 0,998). L'ensemble de données "consensus/polymorphe" a Dans tous les fichiers de génotype, les allèles sont exprimés comme étant sur le brin (+/fwd) de NCBI build 36

Ii) reséquençage par PCR

Les appels de variantes basés sur la séquence ont été générés par pavage avec des ensembles d'amorces PCR espacés d'environ 800 bases dans les régions suivantes :

Région Chromosome Coordonnées Status
ENm010 7 27 124 046 - 27 224 045 ENCODER I
ENr321 8 119 082 221 - 119 182 220 ENCODER I
ENr232 9 130 925 123 - 131 025 122 ENCODER I
ENr123 12 38 826 477 - 38 926 476 ENCODER I
ENr213 18 23 919 232 - 24 019 231 ENCODER I
ENr331 2 220 185 590 - 220 285 589 New
ENr221 5 56 071 007 - 56 171 006 New
ENr233 15 41 720 089 - 41 820 088 New
ENr313 16 61 033 950 - 61 133 949 New
RNr133 21 39 444 467 - 39 544 466 New

Après filtration des lectures de faible qualité, les données ont été analysées avec SNP Detector version 3, pour la découverte de sites polymorphes et l'appel de génotype individuel. Différents filtres QC ont ensuite été appliqués. Plus précisément, nous avons filtré les amplicons PCR avec trop de SNP et les SNP avec des appels d'allèles discordants dans plusieurs amplicons. Nous avons également filtré les SNP avec une faible complétude dans les échantillons, ou avec trop d'appels de génotypes conflictuels dans deux brins différents.

Dans l'ensemble de données "QC+", nous avons appliqué les paramètres HapMap QC, en particulier, nous avons filtré les échantillons peu complets et filtré les SNP avec un faible taux d'appel dans chaque population (<80%) et non dans HWE (P<0.001). Dans l'ensemble de données QC+, le taux global de faux positifs est

3,2 %, sur la base d'un nombre limité d'essais de validation.

Mises en garde

I) Génotypage

Il manque dans cette version les SNP Illumina qui sont A/T ou C/G en raison de problèmes d'échouage. Il manque dans cette version les SNP d'Illumina qui sont mitochondriaux (car ils n'ont pas de rsID). Il peut y avoir quelques SNP restants (Illumina) dans cette version qui sont toujours sur le brin (-/rev) de NCBI build 36, mais ce ne sont pas des SNP A/T ou C/G, donc faciles à identifier en aval.

Ii) reséquençage par PCR

Tous les appels de variantes n'ont pas été validés : nous estimons qu'il existe actuellement un taux de faux positifs de

12% parmi tous les appels, avec un taux légèrement plus élevé (

14 %) si l'on considère uniquement les singletons. Une validation supplémentaire est en cours Le séquençage PCR d'échantillons supplémentaires (Masai) est également en cours.

Plans d'analyse

Vous trouverez ci-dessous les plans d'analyse poursuivis par le consortium :

  • Estimation de la fréquence des allèles SNP
  • Différenciation de la population
  • Analyse de déséquilibre de liaison
  • Marquage SNP
  • Efficacité de l'imputation
  • Emplacements génomiques des CNV humains
  • Génotypes pour les CNV
  • Propriétés génétiques des populations des CNV (fréquences alléliques, différenciation des populations, etc.)
  • Taux de mutation (fréquence des CNV de novo) et mécanismes mutationnels potentiels
  • Propriétés de déséquilibre de liaison des CNV
  • Marquage et imputation des CNV
  • Signaux de sélection autour des CNV
  • Association de SNP et CNV avec des phénotypes d'expression

Institutions et financement

Les données pour HapMap3 ont été produites par les institutions suivantes :

  • Centre de séquençage du génome humain du Baylor College of Medicine (BCM-HGSC)
  • Institut Large (BI)
  • Institut Wellcome Sanger (WTSI)

Le financement de la phase 3 du projet International HapMap a été assuré par :


Eurogenes Genetic Ancestry Project

In this experiment I attempt to characterize more precisely the origins of some of the individuals from the HapMap CEU cohort. These samples are described by the HapMap project as Utah Americans of Western and Northern European descent. But this doesn't seem to be exactly true for at least two of them, who actually come out very Central European in all my tests. Moreover, it's obvious that some of the samples fit nicely into very specific areas of Western and Northern Europe. For instance, at this level of resolution, a few could pass as Irish, and others for Danes or even Swedes. Below is a quick and dirty ADMIXTURE analysis designed specifically for this experiment.

Key: Red = Sub-Saharan African, Yellow = Southern European, Green = North-Central European, Aqua = North Atlantic, Blue = Baltic, Pink = East Asian. See spreadsheet for details.


Based on the K=6 results it's fair to say that at least six of the CEU samples might pass for unmixed Scandinavians, most likely Danes or southern Swedes (NA12003, NA12057, NA12248, NA12249, NA12776 and NA12875). At least five could be confused for Irish or western British samples (NA10850, NA12005, NA12006, NA12386 and NA12812). The two Central European-like Utahns stick out from the CEU set due to their unusually high Baltic scores (NA11917 and NA12286). From the little I know about the CEU samples, I'd say that these two were of eastern or southeastern German origin. But they might have fairly recent ancestry from further east than that. My own MDS analysis (first image below) and a PCA plot from Lao et al. 2008 (second image, slightly edited by me to remove article text) confirm that such Scandinavian-like, German-like and Irish-like individuals do exist in the CEU set.

So the CEU set is not a homogeneous one, and carries clear substructures that can be picked up via fairly basic means. However, this doesn't make the CEU samples less valuable, but more so, due to the lack of public access to continental Northwestern European samples. Secondly, the test reveals some interesting information about the genetic substructures within Northwestern Europe. Here are some of my observations:

- Scandinavians often show very high levels of the North-Central European component, and moderately high levels of the North Atlantic component. Many also carry clear amounts of the Baltic component, but, as a rule, lower levels of the Southern European component.

- Germans mainly differ from the Scandinavians in that they carry the Southern European component at appreciable amounts. They show variable amounts of the Baltic component, with those from eastern Germany carrying the highest levels.

- Irish project members, especially those from western Ireland, show very high levels of the North Atlantic component, but low levels of the Southern European component.

- Western British samples, like those from Cornwall or western Scotland, are generally very similar to the Irish, mainly in that they carry the North Atlantic component at high levels. However, they often show somewhat higher levels of the Southern European component.

I'm eventually going to test these classifications of the CEU samples with ChromoPainter , which is by far the most accurate tool for such things at the moment. Unfortunately, it's also a lot of hard work and computationally intensive, so it might take a few weeks. I do have the allele frequencies from the above ADMIXTURE run, and it is possible to make a stand alone test from them. However, I'm not certain that's a good idea at present, due to the small number of samples involved. It might be worth doing when the right samples swell in number, so I can run a more robust analysis. In particular, I need more people from Ireland, Scotland and Scandinavia.


Voir la vidéo: Gène et Allèle (Décembre 2021).