Informations

Nombre de gènes de facteurs de transcription dans le génome humain


Quel est le nombre de gènes de facteurs de transcription présents dans le génome humain ? Cette valeur diffère-t-elle par rapport à Mus musculus, Drosophila melanogaster, Arabidopsis thaliana, C. elegans et S. cerevisiae ? De plus, la proportion change-t-elle entre les eucaryotes et les procaryotes ?


Ici, je suppose que nous parlons de facteurs de transcription spécifiques aux séquences eucaryotes (ssTF) et j'essaierai de répondre à votre première et à une partie de la deuxième question. Il n'y a de toute façon pas encore de réponse définitive.

Une estimation des gènes ssTFs chez l'homme est donnée dans l'article 2009 Nature Reviews Genetics par Vaquerizas, JM et al, Un recensement des facteurs de transcription humains : fonction, expression et évolution.

Un extrait du résumé :

Ici, nous présentons une analyse de 1 391 facteurs de transcription de liaison à l'ADN spécifiques à la séquence sélectionnés manuellement, leurs fonctions, leur organisation génomique et leur conservation évolutive.

Les chiffres sont un peu plus élevés maintenant. Wingender et al. ont compté 1 558 gènes humains dans leur article NAR 2013 de la base de données TFClass. Dans leur article NAR de 2014, ils ont inclus 1 557 orthologues humains, 1 147 souris et 1 105 rats.

Une autre façon de rechercher ces informations est de voir le nombre d'entrées répertoriées dans les bases de données TF, comme par exemple JASPAR. Cela a l'avantage d'inclure d'autres espèces. Cependant, la couverture ici dépend de la disponibilité des matrices de pondération de position (PWM) pour les spécificités de liaison. De nombreux TF non caractérisés peuvent être introuvables.


Pour tenter de répondre à votre troisième question, à savoir quelle est la proportion de TF dans les différentes espèces, une approche naïve serait de diviser le nombre de TF prédits par le nombre de gènes prédits dans le génome cible. Par exemple, prendre les dernières estimations ci-dessus avec le nombre prédit de gènes codants de la base de données Ensembl (version 78) renverra ces pourcentages :

# Humain 100 * 1557 / 20364 = 7,64 % # Souris 100 * 1147 / 22606 = 5,07 % # Rat 100 * 1105 / 22 777 = 4,85 %

Cela suggère que les humains ont une proportion légèrement plus élevée de TF que les rongeurs. Cependant, ces différences ne sont pas trop importantes et peuvent dépendre de l'exactitude des différentes estimations des TF et du nombre de gènes. Et en soi, ces chiffres ne sont pas si intéressants.

Une question beaucoup plus intéressante est de savoir si les familles TF se sont plus ou moins développées dans différentes espèces (c'est-à-dire si le nombre de protéines au sein de chaque famille a augmenté, quelle que soit la proportion par rapport au nombre total de gènes dans le génome). J'ai pu trouver au moins un article où cela a été fait systématiquement pour plusieurs espèces eucaryotes, couvrant les animaux, les plantes et les champignons, et se concentrant sur les TF communs à ceux trouvés dans les plantes. La principale conclusion de l'article est que certaines familles de TF se sont davantage développées dans les plantes que dans d'autres organismes. Cité du résumé :

Pour étudier s'il existe des différences dans les schémas d'expansion des familles de gènes TF entre les plantes et d'autres eucaryotes, nous avons d'abord utilisé les TF d'Arabidopsis (Arabidopsis thaliana) pour identifier les domaines de liaison à l'ADN de TF. Ces domaines de liaison à l'ADN ont ensuite été utilisés pour identifier des séquences apparentées dans 25 autres génomes eucaryotes. Fait intéressant, parmi les 19 familles partagées entre les animaux et les plantes, plus de 14 sont plus grandes chez les plantes que chez les animaux. Après avoir examiné l'expansion spécifique à la lignée des familles TF chez deux plantes, huit animaux et deux champignons, nous avons constaté que les familles TF partagées entre ces organismes ont subi une expansion beaucoup plus spectaculaire chez les plantes que chez les autres eucaryotes. De plus, ce taux d'expansion élevé du TF végétal n'est pas simplement dû à des taux de duplication plus élevés des génomes végétaux, mais également à un degré d'expansion plus élevé par rapport aux autres gènes végétaux.


Facteur de transcription E2F5

<p>Le score d'annotation fournit une mesure heuristique du contenu d'annotation d'une entrée UniProtKB ou d'un protéome. Ce score <strong>ne peut pas</strong> être utilisé comme mesure de l'exactitude de l'annotation car nous ne pouvons pas définir la « bonne annotation » pour une protéine donnée.<p><a href='/help/annotation_score' target='_top'> Suite. </a></p> - Preuve expérimentale au niveau de la protéine i <p>Ceci indique le type de preuve qui soutient l'existence de la protéine. Notez que la preuve « existence de protéines » ne donne pas d'informations sur l'exactitude ou l'exactitude de la ou des séquences affichées.<p><a href='/help/protein_existence' target='_top'>Plus. </a></p>

Sélectionnez une section sur la gauche pour voir le contenu.


Résumé

Les microARN (miARN) sont de petites molécules d'ARN impliquées dans la régulation de l'expression des gènes des mammifères. Avec d'autres régulateurs de transcription, les miARN modulent l'expression des gènes et contribuent ainsi potentiellement à la diversité des tissus et des espèces. Pour identifier les miARN qui sont exprimés différemment entre les tissus et/ou les espèces, et les gènes régulés par ceux-ci, nous avons quantifié l'expression des miARN et des ARN messagers dans cinq tissus de plusieurs individus humains, chimpanzés et macaques rhésus en utilisant un séquençage à haut débit. L'étendue de ces données sur les tissus et les espèces nous permet de montrer que la régulation négative des gènes cibles par les miARN est plus prononcée entre les tissus qu'entre les espèces et que la régulation négative est plus prononcée pour les gènes avec moins de sites de liaison pour les miARN exprimés. Curieusement, nous constatons que les miARN spécifiques aux tissus et aux espèces ciblent les gènes des facteurs de transcription (TF) beaucoup plus souvent que prévu. Par leur effet régulateur sur les facteurs de transcription, les miARN peuvent donc exercer une influence indirecte sur une plus grande proportion de gènes qu'on ne le pensait auparavant.


Résultats

Un catalogue complet de GRF humains pour étudier l'évolution de la réglementation

Pour étudier les rôles des GRF au cours de l'évolution humaine, nous avons rassemblé le catalogue le plus à jour des gènes GRF combinant les informations de huit études (tableau 1 et méthodes supplémentaires .pdf, matériel supplémentaire en ligne). Au total, notre catalogue comprend 3 344 gènes (tableau supplémentaire S1 , Matériel supplémentaire en ligne).

Composition de 3 344 gènes GRF pris en compte dans cette étude (voir Matériel supplémentaire, Matériel supplémentaire en ligne, pour les critères de sélection) et les sources où ces gènes ont été précédemment catalogués

Inventaires existants GRF humains . Gènes inclus. % Inclus .
Messine et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Travail présent 3,344 100
Inventaires existants GRF humains . Gènes inclus. % Inclus .
Messine et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Travail présent 3,344 100

Composition de 3 344 gènes GRF pris en compte dans cette étude (voir Matériel supplémentaire, Matériel supplémentaire en ligne, pour les critères de sélection) et les sources où ces gènes ont été précédemment catalogués

Inventaires existants GRF humains . Gènes inclus. % Inclus .
Messine et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Travail présent 3,344 100
Inventaires existants GRF humains . Gènes inclus. % Inclus .
Messine et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Travail présent 3,344 100

Suite à la classification détaillée et organisée des gènes TF de liaison à l'ADN ( Wingender et al. 2015), nous avons regroupé fonctionnellement 1 509 gènes GRF en 40 classes TF. Les gènes ZNF sont de loin la classe la plus abondante (807 gènes) qui se décompose en dix sous-classes, dont les KRAB-ZNF (410 gènes) et les non-KRAB C2H2 (280 gènes) sont les plus abondants. Ils sont suivis des classes de Homebox Domain (229 gènes) et de base Helix-Loop-Helix (bHLH, 107 gènes) (fig. supplémentaire S1, Supplementary Material en ligne).

Les gènes du GRF sont surreprésentés dans les régions candidates à la sélection positive

Pour identifier les GRF situés dans des régions génomiques potentiellement soumises à une sélection positive, nous avons analysé les scores de classement à l'échelle du génome pour quatre méthodes différentes : le rapport de vraisemblance composite à plusieurs locus (CLR) ( Nielsen et al. -CLR) ( Chen et al. 2010), homozygotie d'haplotype étendu entre populations (XP-EHH) ( Sabeti et al. 2007), et FST ( Weir et Cockerham 1984), dans trois populations humaines (CEU, CHB et YRI). Les régions obtenant les scores les plus élevés avec ces méthodes affichent des modèles de variation compatibles avec la différenciation génétique entre les populations et la sélection positive putative. Les GRF sont enrichis parmi les 5% supérieurs des scores classés avec les méthodes basées sur les fenêtres CLR et XP-CLR pour la plupart des populations et les comparaisons par paires (test exact de Fisher, corrigé de Bonferroni P < 0,01) ( tableau 2). Avec le test XP-EHH, nous avons trouvé soit une déplétion, soit aucune différence dans la distribution des scores classés entre les GRF et d'autres gènes lors de la comparaison de CEU et CHB par rapport à YRI. Il est possible que le nombre inférieur de blocs d'haplotypes caractéristiques des populations subsahariennes (Gabriel et al. 2002 International HapMap Consortium et al. 2007) ait pu être à l'origine de cet épuisement observé. Il est important de noter qu'il n'y avait pas de différence significative entre les distributions des taux de recombinaison entre les gènes GRF et non-GRF (test de Kolmogorov-Smirnov = 0.019 P = 0,18) et seulement une corrélation très faible, quoique significative, entre la longueur du gène et le score de rang (corrélation de rang de Spearman, P < 2.2e-16, ?? = 0,009) au niveau de la population (méthodes supplémentaires .pdf, matériel supplémentaire en ligne). Cela indique que les différences dans les taux de recombinaison et la longueur des gènes n'ont probablement pas biaisé nos résultats.

Association entre les gènes GRF et non-GRF et le niveau de signification de trois statistiques pour l'identification des régions candidates pour la sélection positive et la mesure de la différenciation génétique (FST).

Test . Populations . Test exact de Fisher (correction de Bonferroni P) . Rapport de cotes. Caractéristique .
CLR UFC 3.96E-15 1.207 Enrichissement
CHB 9.72E-02 1.066 Aucune différence
YRI 2.70E-07 1.132 Enrichissement
XP-CLR CEU contre CHB 3.96E-04 1.145 Enrichissement
CEU contre YRI 1.58E-14 1.278 Enrichissement
CHB contre CEU 3.42E-10 1.235 Enrichissement
CHB contre YRI 8.64E-08 1.203 Enrichissement
YRI contre CEU 4.50E-09 1.219 Enrichissement
YRI contre CHB 1 1.01 Aucune différence
XP-EHH CEU contre CHB 3.96E-15 1.367 Enrichissement
CEU contre YRI 3.96E-15 0.906 Épuisement
CHB contre CEU 1.73E-03 1.043 Aucune différence
CHB contre YRI 3.96E-15 0.896 Épuisement
YRI contre CEU 1 1.016 Aucune différence
YRI contre CHB 1 0.988 Aucune différence
FSTCEU contre CHB 1.04E-01 0.971 Aucune différence
YRI contre CEU 1.19E-01 1.023 Aucune différence
YRI contre CHB 1 1.013 Aucune différence
Test . Populations . Test exact de Fisher (correction de Bonferroni P) . Rapport de cotes. Caractéristique .
CLR UFC 3.96E-15 1.207 Enrichissement
CHB 9.72E-02 1.066 Aucune différence
YRI 2.70E-07 1.132 Enrichissement
XP-CLR CEU contre CHB 3.96E-04 1.145 Enrichissement
CEU contre YRI 1.58E-14 1.278 Enrichissement
CHB contre CEU 3.42E-10 1.235 Enrichissement
CHB contre YRI 8.64E-08 1.203 Enrichissement
YRI contre CEU 4.50E-09 1.219 Enrichissement
YRI contre CHB 1 1.01 Aucune différence
XP-EHH CEU contre CHB 3.96E-15 1.367 Enrichissement
CEU contre YRI 3.96E-15 0.906 Épuisement
CHB contre CEU 1.73E-03 1.043 Aucune différence
CHB contre YRI 3.96E-15 0.896 Épuisement
YRI contre CEU 1 1.016 Aucune différence
YRI contre CHB 1 0.988 Aucune différence
FSTCEU contre CHB 1.04E-01 0.971 Aucune différence
YRI contre CEU 1.19E-01 1.023 Aucune différence
YRI contre CHB 1 1.013 Aucune différence

Association entre les gènes GRF et non-GRF et le niveau de signification de trois statistiques pour l'identification des régions candidates pour la sélection positive et la mesure de la différenciation génétique (FST).

Test . Populations . Test exact de Fisher (correction de Bonferroni P) . Rapport de cotes. Caractéristique .
CLR UFC 3.96E-15 1.207 Enrichissement
CHB 9.72E-02 1.066 Aucune différence
YRI 2.70E-07 1.132 Enrichissement
XP-CLR CEU contre CHB 3.96E-04 1.145 Enrichissement
CEU contre YRI 1.58E-14 1.278 Enrichissement
CHB contre CEU 3.42E-10 1.235 Enrichissement
CHB contre YRI 8.64E-08 1.203 Enrichissement
YRI contre CEU 4.50E-09 1.219 Enrichissement
YRI contre CHB 1 1.01 Aucune différence
XP-EHH CEU contre CHB 3.96E-15 1.367 Enrichissement
CEU contre YRI 3.96E-15 0.906 Épuisement
CHB contre CEU 1.73E-03 1.043 Aucune différence
CHB contre YRI 3.96E-15 0.896 Épuisement
YRI contre CEU 1 1.016 Aucune différence
YRI contre CHB 1 0.988 Aucune différence
FSTCEU contre CHB 1.04E-01 0.971 Aucune différence
YRI contre CEU 1.19E-01 1.023 Aucune différence
YRI contre CHB 1 1.013 Aucune différence
Test . Populations . Test exact de Fisher (correction de Bonferroni P) . Rapport de cotes. Caractéristique .
CLR UFC 3.96E-15 1.207 Enrichissement
CHB 9.72E-02 1.066 Aucune différence
YRI 2.70E-07 1.132 Enrichissement
XP-CLR CEU contre CHB 3.96E-04 1.145 Enrichissement
CEU contre YRI 1.58E-14 1.278 Enrichissement
CHB contre CEU 3.42E-10 1.235 Enrichissement
CHB contre YRI 8.64E-08 1.203 Enrichissement
YRI contre CEU 4.50E-09 1.219 Enrichissement
YRI contre CHB 1 1.01 Aucune différence
XP-EHH CEU contre CHB 3.96E-15 1.367 Enrichissement
CEU contre YRI 3.96E-15 0.906 Épuisement
CHB contre CEU 1.73E-03 1.043 Aucune différence
CHB contre YRI 3.96E-15 0.896 Épuisement
YRI contre CEU 1 1.016 Aucune différence
YRI contre CHB 1 0.988 Aucune différence
FSTCEU contre CHB 1.04E-01 0.971 Aucune différence
YRI contre CEU 1.19E-01 1.023 Aucune différence
YRI contre CHB 1 1.013 Aucune différence

Nous avons ensuite sélectionné comme candidats à la sélection positive, pour chaque population, les gènes GRF qui se trouvent parmi les 5 % supérieurs de la distribution des scores de classement à l'échelle du génome dans les trois méthodes de sélection-détection (CLR, XP-CLR et XP-EHH) . Cela a donné 902 gènes GRF pour CEU, 759 gènes GRF pour CHB et 1 697 gènes GRF pour YRI (tableau supplémentaire S2, matériel supplémentaire en ligne). Par la suite, nous avons croisé les listes à travers les populations et constaté que 306 gènes GRF sont trouvés comme candidats dans les trois populations (fig. supplémentaire S2, matériel supplémentaire en ligne). Bien que YRI ait la plupart des candidats spécifiques à la population (892 GRF, 53%), CEU et CHB affichent un chevauchement plus important entre les paires de comparaisons (entre 74% et 76% du total des candidats, respectivement).

Nous avons ensuite évalué si l'une des 40 classes du GRF était enrichie parmi les 5 % des candidats ayant obtenu les scores les plus élevés. Bien que les classes enrichies (test exact de Fisher, Bonferroni a corrigé P < 0,05) différaient légèrement selon la méthode et la population ( fig. 1 et tableau supplémentaire S3 , Supplementary Material online), cinq des dix plus grandes classes de GRF se sont avérées à plusieurs reprises surreprésentées : KRAB-ZNFs, non-C2H2, domaine Homeo, HMG haute mobilité et Forkhead box TF ( fig. 1).

—Analyses d'enrichissement pour les gènes des dix plus grandes classes de GRF de liaison à l'ADN situées dans des régions présentant des scores élevés pour quatre méthodes de détection de régions candidates à la sélection positive et une pour mesurer la différenciation génétique. Cette carte thermique montre les résultats du test exact de Fisher après correction pour plusieurs tests en utilisant la correction de Bonferroni pour chaque population ou comparaison entre populations, respectivement.

—Analyses d'enrichissement pour les gènes des dix plus grandes classes de GRF de liaison à l'ADN situées dans des régions présentant des scores élevés pour quatre méthodes de détection de régions candidates à la sélection positive et une pour mesurer la différenciation génétique. Cette carte thermique montre les résultats du test exact de Fisher après correction pour plusieurs tests en utilisant la correction de Bonferroni pour chaque population ou comparaison entre populations, respectivement.

Au total, ces cinq classes GRF contiennent 180 candidats à la sélection positive. Cent vingt et un de ces gènes appartiennent à la classe TF C2H2 (68 candidats non KRAB C2H2 et 53 candidats KRAB-ZNF). Ils sont suivis par le domaine Homeo avec 31, tête de fourche/hélice ailée avec 19, et le domaine High-mobility-HMG avec neuf candidats (tableau supplémentaire S4, matériel supplémentaire en ligne). Même si les classes plus importantes avaient plus de gènes situés dans les 5 % supérieurs des scores les plus élevés, elles sont également surreprésentées en pourcentage : non-KRAB C2H2 (24 %), KRAB-ZNF (13 %), domaine Homeo (13 %), boîte Forkhead (28%) et HMG à haute mobilité (21%). Sur ces 180 GRF, seuls 21 gènes (12 %) ont également été répertoriés dans les analyses précédentes pour la sélection ( Sabeti et al. 2007 Pickrell et al. 2009 Metspalu et al. 2011 Grossman et al, 2013 Huber et al. 2016), six d'entre eux étant non-KRAB C2H2 (ZFAT, ZBTB41, ZNF827, IKZF2, ZNF438, et ZBTB20) et quatre KRAB-ZNF (ZNF546, ZNF780A, ZNF780B, et ZNF492) gènes (tableau supplémentaire S5, matériel supplémentaire en ligne). En tant que groupe, ces cinq classes de GRF sont pertinentes pour des processus tels que l'embryogenèse, le développement, la modification de la chromatine, la réplication et la réparation de l'ADN, entre autres (tableau 3).

Principaux rôles biologiques des cinq classes de GRF enrichies à plusieurs reprises dans le top 5 % des régions putatives pour une sélection positive

Famille GRF. Exemples de rôles réglementaires principaux .
Boîtes à fourche Croissance, prolifération, différenciation et longévité cellulaires développement embryonnaire migration cellulaire développement des organes, prolifération des lymphocytes T ( Jonsson et Peng 2005 Tuteja et Kaestner 2007a, 2007b).
C2H2 Etablissement de l'architecture chromosomique développement embryonnaire, différenciation et prolifération cellulaire, régulation du cycle cellulaire et apoptose ( Fedotova et al. 2017).
KRAB-ZNF Recrutement de TRIM28/KAP-1 pour la répression de l'expression des gènes, l'extinction épigénétique du développement embryonnaire précoce, la répression des VRE et des éléments transposables, l'établissement de l'isolement reproducteur postzygotique (spéciation) ( Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). La fonction de la plupart d'entre eux est encore inconnue.
domaine homéo Spécification du plan corporel au cours de l'embryogenèse, régulation de la structuration axiale, de l'identité des segments ou des cellules et de la formation de la prolifération et détermination du destin cellulaire dans le développement des métazoaires, cruciales pour le développement temporo-spatial normal des membres et des organes ( Banerjee-Basu et Baxevanis 2001).
HMG haute mobilité Se lie temporellement aux nucléosomes pour modifier la réplication de l'ADN de l'architecture locale de la chromatine et réparer les protéines architecturales des régulateurs de signalisation du noyau et de l'ADN mitochondrial dans le cytoplasme et en tant que cytokines inflammatoires ( Wang et al. 1999 Lim et al. 2004 Malarkey et Churchill 2012).
Famille GRF. Exemples de rôles réglementaires principaux .
Boîtes à fourche Croissance, prolifération, différenciation et longévité cellulaires développement embryonnaire migration cellulaire développement des organes, prolifération des lymphocytes T ( Jonsson et Peng 2005 Tuteja et Kaestner 2007a, 2007b).
C2H2 Etablissement de l'architecture chromosomique développement embryonnaire, différenciation et prolifération cellulaire, régulation du cycle cellulaire et apoptose ( Fedotova et al. 2017).
KRAB-ZNF Recrutement de TRIM28/KAP-1 pour la répression de l'expression des gènes, l'extinction épigénétique du développement embryonnaire précoce, la répression des VRE et des éléments transposables, l'établissement de l'isolement reproducteur postzygotique (spéciation) ( Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). La fonction de la plupart d'entre eux est encore inconnue.
domaine homéo Spécification du plan corporel au cours de l'embryogenèse, régulation de la structuration axiale, de l'identité des segments ou des cellules et de la formation de la prolifération et détermination du destin cellulaire dans le développement des métazoaires, cruciales pour le développement temporo-spatial normal des membres et des organes ( Banerjee-Basu et Baxevanis 2001).
HMG haute mobilité Se lie temporellement aux nucléosomes pour modifier la réplication de l'ADN de l'architecture locale de la chromatine et réparer les protéines architecturales des régulateurs de signalisation du noyau et de l'ADN mitochondrial dans le cytoplasme et en tant que cytokines inflammatoires ( Wang et al. 1999 Lim et al. 2004 Malarkey et Churchill 2012).

Principaux rôles biologiques des cinq classes de GRF enrichies à plusieurs reprises dans le top 5 % des régions putatives pour une sélection positive

Famille GRF. Exemples de rôles réglementaires principaux .
Boîtes à fourche Croissance, prolifération, différenciation et longévité cellulaires développement embryonnaire migration cellulaire développement des organes, prolifération des lymphocytes T ( Jonsson et Peng 2005 Tuteja et Kaestner 2007a, 2007b).
C2H2 Etablissement de l'architecture chromosomique développement embryonnaire, différenciation et prolifération cellulaire, régulation du cycle cellulaire et apoptose ( Fedotova et al. 2017).
KRAB-ZNF Recrutement de TRIM28/KAP-1 pour la répression de l'expression des gènes, l'extinction épigénétique du développement embryonnaire précoce, la répression des VRE et des éléments transposables, l'établissement de l'isolement reproducteur postzygotique (spéciation) ( Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). La fonction de la plupart d'entre eux est encore inconnue.
domaine homéo Spécification du plan corporel au cours de l'embryogenèse, régulation de la structuration axiale, de l'identité des segments ou des cellules et de la formation de la prolifération et détermination du destin cellulaire dans le développement des métazoaires, cruciales pour le développement temporo-spatial normal des membres et des organes ( Banerjee-Basu et Baxevanis 2001).
HMG haute mobilité Se lie temporellement aux nucléosomes pour modifier la réplication de l'ADN de l'architecture locale de la chromatine et réparer les protéines architecturales des régulateurs de signalisation du noyau et de l'ADN mitochondrial dans le cytoplasme et en tant que cytokines inflammatoires ( Wang et al. 1999 Lim et al. 2004 Malarkey et Churchill 2012).
Famille GRF. Exemples de rôles réglementaires principaux .
Boîtes à fourche Croissance, prolifération, différenciation et longévité cellulaires développement embryonnaire migration cellulaire développement des organes, prolifération des lymphocytes T ( Jonsson et Peng 2005 Tuteja et Kaestner 2007a, 2007b).
C2H2 Etablissement de l'architecture chromosomique développement embryonnaire, différenciation et prolifération cellulaire, régulation du cycle cellulaire et apoptose ( Fedotova et al. 2017).
KRAB-ZNF Recrutement de TRIM28/KAP-1 pour la répression de l'expression des gènes, l'extinction épigénétique du développement embryonnaire précoce, la répression des VRE et des éléments transposables, l'établissement de l'isolement reproducteur postzygotique (spéciation) ( Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2017). La fonction de la plupart d'entre eux est encore inconnue.
domaine homéo Spécification du plan corporel au cours de l'embryogenèse, régulation de la structuration axiale, de l'identité des segments ou des cellules et de la formation de la prolifération et détermination du destin cellulaire dans le développement des métazoaires, cruciales pour le développement temporo-spatial normal des membres et des organes ( Banerjee-Basu et Baxevanis 2001).
HMG haute mobilité Se lie temporellement aux nucléosomes pour modifier la réplication de l'ADN de l'architecture locale de la chromatine et réparer les protéines architecturales des régulateurs de signalisation du noyau et de l'ADN mitochondrial dans le cytoplasme et en tant que cytokines inflammatoires ( Wang et al. 1999 Lim et al. 2004 Malarkey et Churchill 2012).

Différenciation génétique non synonyme élevée au sein des groupes de gènes KRAB-ZNF entre les populations

De toutes les classes de TF liant l'ADN, les gènes KRAB-ZNF portent le plus grand nombre de SNP non synonymes hautement différenciés génétiquement affectant les séquences dans les domaines protéiques (FST > 0.15) (Méthodes supplémentaires .pdf, fig. S3 supplémentaire et tableau supplémentaire S6, Matériel supplémentaire en ligne). Une caractéristique principale de la classe KRAB-ZNF est que la plupart de ses membres sont colocalisés dans des régions génomiques (groupes de gènes) qui s'étendent sur plus de 150 kb ( Huntley et al. 2006). Nous avons donc analysé tous les principaux groupes de gènes KRAB-ZNF pour la variation adaptative putative, où seuls les sites polymorphes dans les populations CEU, CHB et YRI avec une fréquence allélique mineure >0,001 ont été pris en compte. Nous avons ensuite exploré manuellement où se trouvent les changements non synonymes sélectionnés dans les protéines pour en déduire d'éventuels effets fonctionnels.

Modifications des résidus de cystéine et d'histidine impliqués dans la formation de la structure en forme de doigt pour la liaison à l'ADN des protéines C2H2 et KRAB-ZNF, dans les positions -1, 2, 3 et 6 qui interagissent directement avec des nucléotides spécifiques, ou dans les lieurs déterminant le entre les doigts, devraient altérer la spécificité de liaison à l'ADN des protéines ZNF ( Ryan et Darby 1998 Laity et al. 2000 Wolfe et al. 2000). Nous avons trouvé 42 SNP non synonymes avec une différenciation génétique élevée à très élevée (FST > 0,15 < 0,95) dans 11 clusters KRAB-ZNF dans les chromosomes 1, 3, 9, 12, 16, 18 et 19. Trente-deux de ces 42 SNP sont dans les gènes C2H2 (16 KRAB-ZNF et un non-KRAB- gènes ZNF) (tableau supplémentaire S7, matériel supplémentaire en ligne). Dans cet ensemble de 42 SNP non synonymes, 11 SNP modifient les résidus d'acides aminés des ZNF pour huit gènes KRAB-ZNF (ZNF695, ZKSCAN7, ZNF502, ZNF571, ZNF132, ZNF10, ZNF90, et ZNF568), alors que sept autres SNP affectent les acides aminés des linkers entre les ZNF pour quatre KRAB-ZNF (ZNF668, ZNF646, ZNF844, et ZNF492), et cinq SNP modifient les domaines KRAB de trois protéines (ZNF695, ZKSCAN7, et ZNF48) ( tableau supplémentaire S7 , Matériel supplémentaire en ligne). Un SNP non synonyme hautement différencié modifie le résidu d'acide aminé de l'une des deux cystéines coordonnant le zinc. Parce que ces deux cystéines (C2) avec deux histidines (H2) coordonnent tétraédriquement un ion zinc, qui est essentiel pour maintenir la stabilité et la structure globulaire des ZNF (Eun 1996 Wolfe et al. 2000), cette modification perturbe très probablement l'ADN -capacité de liaison du septième motif ZNF de ZNF492. Nous avons en outre identifié sept SNP qui affectent la séquence d'acides aminés de sept protéines C2H2 en dehors des domaines fonctionnels mentionnés ci-dessus (ZNF695, ZNF445, ZNF35, ZNF501, ZNF768, ZNF510, et ZNF568). En plus des SNP non synonymes affectant les gènes KRAB-ZNF, neuf autres SNP non synonymes hautement différenciés apparaissent dans sept autres gènes situés dans les clusters KRAB-ZNF, dont un, KAT8, est un GRF ( tableau supplémentaire S7 , Matériel supplémentaire en ligne).

Pris ensemble, certains gènes non-KRAB C2H2 et KRAB-ZNF portent plus d'un SNP non synonyme hautement différencié modifiant la séquence des protéines. Sur la base des emplacements de ces SNP non synonymes, nous suggérons qu'ils influencent l'interaction de ces protéines ZNF avec l'ADN (changements dans les doigts), l'ARN ou avec KAP1, un cofacteur qui interagit avec le domaine KRAB favorisant l'activité répresseur de KRAB- Protéines ZNF.

Les grappes de gènes KRAB-ZNF contiennent plusieurs loci comme cibles candidates de sélection dans CEU et CHB

La sélection positive modifie les fréquences alléliques des SNP dans le voisinage de l'allèle sélectionné, créant ainsi un modèle biaisé mesurable de variation génétique. Nos résultats suggèrent qu'au moins 32 des 85 groupes de gènes KRAB-ZNF du génome humain portent des gènes avec des modèles de variation compatibles avec une sélection positive dans au moins une des trois populations étudiées ici (tableau supplémentaire S8, matériel supplémentaire en ligne). Pour évaluer si les modèles de variation que nous avons trouvés ressemblent à des scénarios de balayages sélectifs, et pour évaluer si les scores observés calculés à partir des données empiriques sont anormalement élevés par rapport aux attentes sous neutralité, nous avons effectué des simulations coalescentes à l'aide d'un ) modèle de démographie humaine généré pour ces trois populations humaines ( Schaffner et al. 2005) et l'ajustant selon Pybus et al. (2015) (voir Méthodes).

Nos résultats suggèrent que 15 des 32 clusters KRAB-ZNF mentionnés ci-dessus abritent au moins 27 régions avec des schémas de variation peu probables en situation de neutralité (P < 0,01) ( tableau 4). Dix-neuf de ces régions présentent des scores de classement qui figurent parmi les 1 % supérieurs de l'ensemble de la distribution génomique. En utilisant le test H12 ( Garud et al. 2015) ( méthodes supplémentaires .pdf, matériel supplémentaire en ligne), nous avons également constaté que 24 de ces 27 régions présentent un ou plusieurs haplotypes à haute fréquence avec EHH (de 50 kb à 385 kb). Les modèles de variation génétique dans ces 27 régions peuvent avoir résulté d'une sélection positive ( fig. 2, fig. supplémentaires. S4-S6, matériel supplémentaire en ligne, tableau 4, et tableau supplémentaire S9 , matériel supplémentaire en ligne).

Clusters KRAB-ZNF présentant une à plusieurs régions candidates à la sélection positive dans trois populations humaines (CEU, CHB et YRI)

Chromosome. Début . Finir . Haplotype de longueur . Population . Gènes GRF. Gènes non-GRF. P .
chr19 9746367 9886927 0.14 UFC ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 UFC ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 UFC CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 UFC ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 UFC ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 UFC NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 UFC ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 UFC ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 UFC ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 UFC ZNF728 0.001
chr19 23566484 23647327 0.08 UFC ZNF91LINC012240.014
chr19 24159713 24258543 0.1 UFC ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 et 17 PiARN0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 UFC ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 UFC ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 UFC ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 UFC ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 UFC ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 UFC ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA(DQ581281)0.001
chr6 28342884 28426378 0.08 UFC ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRR14, PRSS36, PRSS532, PRSS1, SEPH1, SNORA30, STX1B, STX4, VKORC10.001
Chromosome. Début . Finir . Haplotype de longueur . Population . Gènes GRF. Gènes non-GRF. P .
chr19 9746367 9886927 0.14 UFC ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 UFC ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 UFC CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 UFC ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 UFC ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 UFC NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 UFC ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 UFC ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 UFC ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 UFC ZNF728 0.001
chr19 23566484 23647327 0.08 UFC ZNF91LINC012240.014
chr19 24159713 24258543 0.1 UFC ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 et 17 PiARN0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 UFC ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 UFC ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 UFC ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 UFC ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 UFC ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 UFC ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA(DQ581281)0.001
chr6 28342884 28426378 0.08 UFC ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRR14, PRSS36, PRSS532, PRSS1, SEPH1, SNORA30, STX1B, STX4, VKORC10.001

Note .—Les modèles de variation sont considérés comme peu probables en cas de neutralité sur la base des résultats de nos données simulées. Les régions trouvées dans deux populations ont été conservées séparément. L'importance a été évaluée en simulant un modèle nul en utilisant la coalescence (voir Matériels et méthodes). Une version étendue de ce tableau se trouve dans le tableau supplémentaire S9, Matériel supplémentaire en ligne.

Clusters KRAB-ZNF présentant une à plusieurs régions candidates à la sélection positive dans trois populations humaines (CEU, CHB et YRI)

Chromosome. Début . Finir . Haplotype de longueur . Population . Gènes GRF. Gènes non-GRF. P .
chr19 9746367 9886927 0.14 UFC ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 UFC ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 UFC CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 UFC ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 UFC ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 UFC NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 UFC ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 UFC ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 UFC ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 UFC ZNF728 0.001
chr19 23566484 23647327 0.08 UFC ZNF91LINC012240.014
chr19 24159713 24258543 0.1 UFC ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 et 17 PiARN0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 UFC ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 UFC ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 UFC ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 UFC ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 UFC ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 UFC ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA(DQ581281)0.001
chr6 28342884 28426378 0.08 UFC ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRR14, PRSS36, PRSS532, PRSS1, SEPH1, SNORA30, STX1B, STX4, VKORC10.001
Chromosome. Début . Finir . Haplotype de longueur . Population . Gènes GRF. Gènes non-GRF. P .
chr19 9746367 9886927 0.14 UFC ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 UFC ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 UFC CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 UFC ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 UFC ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 UFC NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 UFC ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 UFC ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 UFC ZNF492, ZNF723+NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723+NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 UFC ZNF728 0.001
chr19 23566484 23647327 0.08 UFC ZNF91LINC012240.014
chr19 24159713 24258543 0.1 UFC ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 et 17 PiARN0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 UFC ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 UFC ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 UFC ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 UFC ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 UFC ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 UFC ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA(DQ581281)0.001
chr6 28342884 28426378 0.08 UFC ZSCAN12, ZSCAN23 0.003
chr12 1.33E+08 1.34E+08 0.3 CHB ZNF891+N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2.47E+08 2.47E+08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRR14, PRSS36, PRSS532, PRSS1, SEPH1, SNORA30, STX1B, STX4, VKORC10.001

Note .—Les modèles de variation sont considérés comme peu probables en cas de neutralité sur la base des résultats de nos données simulées. Les régions trouvées dans deux populations ont été conservées séparément. L'importance a été évaluée en simulant un modèle nul en utilisant la coalescence (voir Matériels et méthodes). Une version étendue de ce tableau se trouve dans le tableau supplémentaire S9, Matériel supplémentaire en ligne.

—Groupe de gènes KRAB-ZNF situé sur le chromosome 6 de quatre populations européennes (6 : 28.04–28.42) présentant une différenciation génétique très élevée (une), CLR élevé (b) et XP-CLR (c) scores, longs EHH (e, F) et de multiples haplotypes à haute fréquence. Notez que l'échelle sur le oui l'axe diffère entre les parcelles. Toutes les valeurs correspondent aux scores bruts obtenus pour chaque méthode. Dans le FST Piste (une), SNP sur les lignes continues indiquant modéré (FST > 0,15, ligne bleue) et haute (FST > 0,25, ligne rouge) différenciation génétique. Les points plus gros indiquent deux SNP hautement différenciés, rs1635 (CEU contre CHB, rouge) et rs1997660 (CEU contre YRI, vert). Statistiques de piste H12 (e) montre les scores H pour : l'homozygotie de l'haplotype le plus fréquent (H1), l'homozygotie calculée en utilisant tous, sauf l'haplotype le plus fréquent (H2), le rapport entre H2/H1 et la combinaison des haplotypes les plus fréquents et le deuxième haplotype ( H12). En piste H12 (F) pour quatre populations d'origine européenne, une d'origine asiatique et une d'origine africaine. Le seuil H12 que nous avons défini à l'échelle du génome (ligne rouge continue, 0,1). La ligne verticale en pointillé indique l'extension de la région sélectionnée positivement au sein de ce groupe KRAB-ZNF.

—Groupe de gènes KRAB-ZNF situé sur le chromosome 6 de quatre populations européennes (6 : 28.04–28.42) présentant une différenciation génétique très élevée (une), CLR élevé (b) et XP-CLR (c) scores, longs EHH (e, F) et de multiples haplotypes à haute fréquence. Notez que l'échelle sur le oui l'axe diffère entre les parcelles. Toutes les valeurs correspondent aux scores bruts obtenus pour chaque méthode. Dans le FST Piste (une), SNP sur les lignes continues indiquant modéré (FST > 0,15, ligne bleue) et haute (FST > 0,25, ligne rouge) différenciation génétique. Les points plus gros indiquent deux SNP hautement différenciés, rs1635 (CEU contre CHB, rouge) et rs1997660 (CEU contre YRI, vert). Statistiques de piste H12 (e) montre les scores H pour : l'homozygotie de l'haplotype le plus fréquent (H1), l'homozygotie calculée en utilisant tous, sauf l'haplotype le plus fréquent (H2), le rapport entre H2/H1 et la combinaison des haplotypes les plus fréquents et le deuxième haplotype ( H12). En piste H12 (F) pour quatre populations d'origine européenne, une d'origine asiatique et une d'origine africaine. Le seuil H12 que nous avons défini à l'échelle du génome (ligne rouge continue, 0,1). La ligne verticale en pointillé indique l'extension de la région sélectionnée positivement au sein de ce groupe KRAB-ZNF.

À l'aide d'un catalogue complet organisé de gènes et de variantes associés aux maladies humaines et des associations gène-maladie de la base de données MEDLINE, tous deux disponibles dans DisGeNET ( Piñero et al. 2017), nous avons identifié que sur les 27 régions avec un ou plusieurs haplotypes à à haute fréquence, 17 portent des gènes GRF qui ont été associés à des conditions médicales telles que la faiblesse musculaire, l'obésité, l'hyperparathyroïdie, la polyarthrite dégénérative, les maladies cardiaques, l'azoospermie, les troubles cognitifs et plusieurs types de cancers, entre autres (tableau supplémentaire S9, matériel supplémentaire en ligne ). Reconnaissant que la caractérisation biologique, moléculaire et fonctionnelle, en dehors de leur fonction putative de régulation des gènes, de la plupart des GRF et en particulier des protéines KRAB-ZNF, est encore naissante, nous présentons et discutons ici trois régions pour lesquelles les fonctions et la pertinence médicale ont été décrites au cours de les deux dernières décennies. Nous discutons en outre de leurs rôles régulateurs putatifs dans l'évolution et l'adaptation des traits spécifiques à l'homme. Des informations détaillées pour d'autres régions peuvent être trouvées dans le tableau supplémentaire S10, Matériel supplémentaire en ligne, et dans les fig. S4–S6, Matériel supplémentaire en ligne.

Le balayage sélectif sur un groupe de gènes KRAB-ZNF dans le CEU est associé à la schizophrénie dans le CHB

Un cluster KRAB-ZNF situé sur le chromosome 6 (28,04 à 28,42) affiche plusieurs régions avec des scores CLR, XP-CLR et XP-EHH élevés en CEU. Il contient également des variantes qui suggèrent une différenciation génétique très élevée (FST) entre CEU par rapport à CHB et YRI ( fig. 2). De plus, plus de 100 SNP présentent des taux très élevés FST (>0.15 < 0.52) lorsque l'on compare la CEU avec les deux autres populations ( fig. 2, FST Piste). Nous avons également détecté que le niveau de différenciation génétique dans cette région était inhabituellement élevé par rapport aux régions évoluant sous des scénarios de neutralité (données simulées, P < 0,001, fig. supplémentaire. S7 , Matériel supplémentaire en ligne). La variation génétique au sein de ce groupe de gènes KRAB-ZNF a été associée à au moins trois conditions médicales chez l'homme : l'hémochromatose (surcharge en fer, la condition génétique la plus répandue chez les Européens), les rapports de lymphocytes CD4:CD8, la faible production de mémoire effectrice CD8+ (TEM) et double négatif (TDN) les lymphocytes T et la schizophrénie.

Ce cluster KRAB-ZNF est composé d'au moins 16 éléments génomiques : 11 gènes GRF (ZSCAN16, ZNF187, ZNF192, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, et NKAPL), trois pseudogènes (ZSCAN12P1, ZNF192P1, et TOB2P1), un ARNt-Ser et un piARN-DQ581281. Sur les 100 SNP hautement différenciés, seuls trois correspondent à des SNP non synonymes dans les régions codantes de deux gènes, à savoir dans le premier exon de NKAPL (rs12000 et rs1635) et dans le septième exon de PGBD1 (rs1997660) ( fig. 2, FST piste, tableau supplémentaire S10 , Matériel supplémentaire en ligne). Fait intéressant, le génotype rs1635 est presque fixé dans CEU avec environ 95% des individus porteurs du variant C|C. En revanche, ce génotype n'est retrouvé que chez environ 50 % des individus de CHB et YRI. Dans ces populations, l'état hétérozygote A|C est fréquente avec respectivement 40 % et 45 % ( fig. 3). Les variantes alléliques de rs1635 et rs12000 ont été associées à la schizophrénie chez les Chinois Han ( Chen et al. 2014 Wang et al. 2015). A l'inverse de rs1635, le génotype G|G pour SNP rs1997660 (PGBD1 gène) est retrouvé chez presque tous les individus de YRI (95 %), alors qu'il est à plus faible fréquence dans CHB (36 %) et à très faible fréquence dans CEU (0,8 %) ( fig. 3). Considérant les différences claires dans les fréquences de génotype pour rs1635 et rs1997660 entre les populations, nous suggérons que ces deux SNP sont impliqués dans l'adaptation locale.

—Trois variantes faux-sens situées dans deux gènes au sein d'un groupe de gènes KRAB-ZNF qui pourraient avoir subi une sélection positive dans les populations européennes. En haut à gauche et au milieu, fréquences alléliques de deux SNP non synonymes situés dans NKAPL gène. En haut à droite, fréquences alléliques d'un SNP non synonyme situé dans PGDB1 gène. En bas, fréquences génotypiques pour CEU, CHB et YRI.

—Trois variantes faux-sens situées dans deux gènes au sein d'un groupe de gènes KRAB-ZNF qui pourraient avoir subi une sélection positive dans les populations européennes. En haut à gauche et au milieu, fréquences alléliques de deux SNP non synonymes situés dans NKAPL gène. En haut à droite, fréquences alléliques d'un SNP non synonyme situé dans PGDB1 gène. En bas, fréquences génotypiques pour CEU, CHB et YRI.

Une exploration plus poussée suggère que les gènes de ce groupe KRAB-ZNF pourraient avoir subi un récent balayage sélectif dans la CEU et dans quatre autres populations européennes : finlandaise en Finlande, Toscani en Italie et britannique en Angleterre et en Écosse (fig. 2, piste H12). En utilisant les statistiques H12, nous avons pu détecter que ce cluster KRAB-ZNF contient deux régions avec un haplotype prédominant avec un EHH long à environ cinq kb l'un de l'autre qui s'étendent ensemble sur environ 400 kb en CEU ( fig. 2 et fig. S3 supplémentaire h et je, tableau supplémentaire S10 , Matériel supplémentaire en ligne). La longueur de l'EHH pour ces populations européennes varie de 300 kb en italien à 490 kb en finnois (fig. S8 supplémentaire, matériel supplémentaire en ligne), suggérant qu'il est très probable que l'extension, la force et le temps de cet événement sélectif diffèrent selon populations européennes.

Sélection positive sur un cluster KRAB-ZNF spécifique à l'homme impliqué dans le développement de l'œil

Deux régions étroitement localisées sur le chromosome 19, distantes de 7 kb l'une de l'autre, englobant ensemble environ 340 kb (chr19 : 22,7–23,04), portent une différenciation génétique très élevée (FST) et EHH long dans les populations CEU et CHB. Par rapport à la population YRI, ces régions ont également montré des scores CLR et XP-EHH élevés, ce qui suggère un balayage sélectif (fig. supplémentaire S9, matériel supplémentaire en ligne). En analysant le ratio des statistiques H2/H1, qui tend à augmenter à mesure que le balayage devient plus doux ( Garud et al. 2015), nous suggérons que CEU peut avoir connu un balayage plus dur que la population CHB ( fig. supplémentaire S4 UNE, et e et fig. S9 , Matériel supplémentaire en ligne). En effet, il est possible d'observer deux haplotypes bien définis qui sont à haute fréquence pour CHB ( fig. supplémentaire S4 B, e et F, Matériel supplémentaire en ligne). Un gène dans cette région, le gène spécifique à l'homme ZNF492 ( Nowick et al. 2010), a récemment été signalé comme un gène sélectionné positivement chez neuf individus d'origine européenne ( Huber et al. 2016).

ZNF492 régule l'expression de la protéine spécifique de l'épithélium pigmentaire rétinien (RPE) (RPE65) ( Lu et al. 2006). Nous avons découvert que les deux gènes, ZNF492 et RPE65, affichent une expression moyenne plus élevée dans la rétine humaine par rapport à la plupart des autres tissus. ZNF492 est plus fortement exprimé dans le RPE au cours du développement qu'à l'âge adulte ( fig. supplémentaire S10 , Supplementary Material en ligne), suggérant qu'il pourrait jouer un rôle important au cours du développement du RPE. Trois SNP non synonymes peuvent être trouvés dans ZNF492. Deux SNP faux-sens (rs138844698 et rs141989264) concernent des changements d'acides aminés qui sont entièrement conservés dans CEU et CHB (100%), mais pas dans YRI (66%). Ces deux variantes modifient la configuration des acides aminés du lieur entre le premier et le deuxième ZNF de ZNF492, qui devrait modifier la configuration de la coiffe de l'extrémité C (C-cap) du premier doigt, modifier son affinité de liaison à l'ADN ( Laity et al. 2000 Wolfe et al. 2000), et potentiellement affecter ses propriétés régulatrices. Le troisième SNP (rs144581197) modifie un résidu de cystéine hautement conservé (TGT) avec un rôle essentiel dans le bon repliement du septième ZNF de ZNF492 en une tyrosine (TAT) (fig. supplémentaire S11, matériel supplémentaire en ligne). Bien que le UNE allèle pour rs144581197 est relativement fréquent dans YRI (∼56%) et d'autres populations africaines (entre 39% et 57%, des populations africaines du projet 1000 génomes), il est trouvé dans <1% des individus de CEU et CHB ( fig. S11 , Matériel supplémentaire en ligne). Les UNE allèle est également présent chez les individus issus de populations situées dans des régions à indice UV solaire modéré à élevé (OMS 2002) : Portoricains, 8% Colombiens, 7% Espagnols ibériques, 4% Péruviens, 3,5% Mexicains, 2% Toscans, 2%, ce qui est intrigant pour un gène exprimé dans l'EPR et d'autres tissus oculaires.

Cette région KRAB-ZNF résulte de multiples duplications segmentaires intrachromosomiques ( Bailey et al. 2002) qui ont donné naissance à ZNF492. Bien que la similitude de séquence de l'ensemble de la région soit d'environ 98 à 99 % entre les humains modernes et archaïques (respectivement Denisovan et Neandertal), elle n'est que d'environ 89 % entre l'humain et le chimpanzé. Par conséquent, il est probable que les événements de duplication et les réarrangements de cette région se soient produits au cours de l'évolution de l'espèce homo. Nous avons également exploré les trois SNP non synonymes de ZNF492 à Denisovan et Néandertal. Nous concluons que les individus d'humains archaïques portent les variantes fixées dans CEU, CHB. Cela suggère que les variantes alternatives que nous avons observées pour ces SNP, en particulier rs144581197, pourraient avoir résulté de mutations de novo dans YRI et d'autres populations africaines.

Un récent balayage sélectif incomplet sur un groupe de gènes KRAB-ZNF sur le chromosome 3 pourrait contribuer à la fertilité masculine

Un cluster KRAB-ZNF situé sur le chromosome 3 (44,55–44,74) présente une EHH longue, des scores élevés pour CLR et XP-CLR, et une différenciation génétique élevée entre CHB et les deux autres populations ( fig. 4). L'EHH s'étend sur environ 272 kb dans une région qui contient trois gènes KRAB-ZNF (ZNF167, ZNF197, et ZNF445) et trois C2H2 (ZNF35, ZNF660, et ZNF852). Les données de renforcement hiérarchique pour la classification des balayages durs dans les populations humaines ( Pybus et al. 2015) ont indiqué que ce cluster KRAB-ZNF pourrait avoir connu un balayage sélectif incomplet et récent dans CHB ( fig. 4).

—Groupe de gènes KRAB-ZNF présentant un balayage dur sur le chromosome 3 de la population CHB (3 : 44,55–44,74). Trois méthodes pour détecter la sélection positive et FST pour mesurer la différenciation génétique a produit des scores très élevés pour cette région (une) par rapport à d'autres régions du génome. Notez que l'échelle sur le oui l'axe diffère entre les parcelles. Toutes les valeurs correspondent aux scores bruts obtenus pour chaque méthode. FST (b) et XP-EHH () les résultats indiquent une différenciation génétique très élevée et un haplotype avec EHH qui s'étend sur environ 188 kb (lignes pointillées verticales). Ce cluster KRAB-ZNF contient huit gènes ZNF. Les régions flanquant en amont et en aval de cet haplotype de 188 kb présentent également EHH, ce qui suggère qu'elles correspondent au même balayage sélectif (environ 272 kb). Quatre SNP non synonymes hautement différenciés (vert : CHB vs. YRI rouge : CEU vs. YRI) dans des régions codant pour les domaines protéiques de ZKSCAN7, ZNF35, ZNF501, et ZNF502 peut avoir un intérêt fonctionnel. Renforcement hiérarchique des résultats (e) suggèrent que cela correspond à un balayage sélectif récent incomplet. Les lignes horizontales pleines et pointillées indiquent les seuils de FST (bleu: FST > 0,15, rouge : FST >0.25) et en augmentant les seuils de signification tels que définis par Pybus et al (2015) (rouge : complet, orange : incomplet, bleu : récent et violet : ancien), respectivement.

—Groupe de gènes KRAB-ZNF présentant un balayage dur sur le chromosome 3 de la population CHB (3 : 44,55–44,74). Trois méthodes pour détecter la sélection positive et FST pour mesurer la différenciation génétique a produit des scores très élevés pour cette région (une) par rapport à d'autres régions du génome. Notez que l'échelle sur le oui l'axe diffère entre les parcelles. Toutes les valeurs correspondent aux scores bruts obtenus pour chaque méthode. FST (b) et XP-EHH () les résultats indiquent une différenciation génétique très élevée et un haplotype avec EHH qui s'étend sur environ 188 kb (lignes pointillées verticales). Ce cluster KRAB-ZNF contient huit gènes ZNF. Les régions flanquant en amont et en aval de cet haplotype de 188 kb présentent également EHH, ce qui suggère qu'elles correspondent au même balayage sélectif (environ 272 kb). Quatre SNP non synonymes hautement différenciés (vert : CHB vs. YRI rouge : CEU vs. YRI) dans les régions codant pour les domaines protéiques de ZKSCAN7, ZNF35, ZNF501, et ZNF502 peut avoir un intérêt fonctionnel. Renforcement hiérarchique des résultats (e) suggèrent que cela correspond à un balayage sélectif récent incomplet. Les lignes horizontales pleines et pointillées indiquent les seuils de FST (bleu: FST > 0,15, rouge : FST >0.25) et en augmentant les seuils de signification tels que définis par Pybus et al (2015) (rouge : complet, orange : incomplet, bleu : récent et violet : ancien), respectivement.

Une exploration plus poussée a révélé six SNP non synonymes avec une différenciation génétique élevée entre les populations. Le SNP rs2272044, situé dans le deuxième exon du gène ZNF35, présentent une grande différenciation génétique (FST > 0,56 < 0,8) ( fig. 4). Bien qu'environ 98% des individus de CHB portent l'allèle G, celui-ci n'est présent que chez 30% des individus de CEU, et absent dans YRI (100%). Malgré la compréhension des rôles fonctionnels des ZNF35 gène chez l'homme est encore rare, son homologue hautement conservé chez la souris suggère qu'il pourrait jouer un rôle important dans la fertilité masculine ( Przyborski et al. 1998) en régulant les voies impliquées dans la libération de cellules spermatogènes différenciées dans la lumière centrale du tube séminifère dans testicules d'adultes ( Zhou et al. 2010). La suppression de ZNF35 provoque la libération prématurée de spermatocytes de pachytène indifférenciés dans la lumière chez les individus hypofertiles ( Zhou et al. 2010). Certainement, ZNF35 est fortement exprimé dans les spermatocytes pachytènes et les spermatides rondes ( Przyborski et al. 1998 Zhou et al. 2010), ainsi que dans les testicules ( GTEx Consortium et al. 2017), et sa protéine a été trouvée dans les cellules spermatogènes ( Zhou et al. 2010).

Deux autres SNP non synonymes situés dans le gène ZKSCAN7 (rs13081859, rs9835485) suggèrent également une différenciation génétique très élevée (FST > 0,23) FST ( fig. 4 et tableau complémentaire S7 , Matériel complémentaire en ligne). Ces deux SNP affectent la séquence d'acides aminés du domaine KRAB et le premier acide aminé entre les deux histidines du premier ZNF de ZKSCAN7, respectivement. Les deux variantes peuvent avoir une implication fonctionnelle dans les interactions de ZKSCAN7 avec le corégulateur CAP1 (GARNITURE28) et les sites de liaison à l'ADN.


Nombre de gènes de facteurs de transcription dans le génome humain - Biologie

L'empreinte de molécule unique (SMF) résout l'hétérogénéité de l'occupation du facteur de transcription (TF) dans une population cellulaire.

La détection de plusieurs TF sur des molécules d'ADN individuelles peut quantifier la co-occupation et déduire les dépendances.

SMF permet d'étudier comment de grandes collections de variants génétiques affectent la liaison TF et l'activation de la transcription.

Le développement futur de méthodes à molécule unique permettra des études intégratives des multiples processus contrôlés par les TF.

Environ 7 % du génome humain code cis- des éléments régulateurs (CRE) qui fonctionnent comme des commutateurs régulateurs pour moduler l'expression des gènes. Ces courtes séquences génétiques contrôlent les changements transcriptionnels complexes nécessaires au développement de l'organisme. Un défi d'actualité dans le domaine est de comprendre comment les facteurs de transcription (TF) lisent et traduisent ces informations en modèles d'expression génique. Ici, j'examine comment le développement de l'empreinte d'une molécule unique (SMF) qui résout l'occupation du génome des TF sur la résolution de molécules d'ADN individuelles contribue à notre capacité à établir comment l'information génétique réglementaire est interprétée au niveau mécaniste. Je discute en outre de la façon dont les développements futurs dans le domaine naissant de la génomique à molécule unique (SMG) pourraient avoir un impact sur notre compréhension des mécanismes de régulation des gènes.


Les commutateurs génétiques jouent un grand rôle dans l'évolution humaine


Une étude de Cornell offre une preuve supplémentaire que la divergence entre les humains et les chimpanzés il y a environ 4 à 6 millions d'années a été profondément influencée par des mutations des séquences d'ADN qui jouent un rôle dans l'activation et la désactivation des gènes.

L'étude, publiée le 9 juin dans Nature Genetics, fournit des preuves d'une hypothèse vieille de 40 ans selon laquelle la régulation des gènes doit jouer un rôle important dans l'évolution puisqu'il y a peu de différence entre les humains et les chimpanzés dans les protéines produites par les gènes. En effet, les protéines humaines et chimpanzées sont identiques à plus de 99 pour cent.

Les chercheurs ont montré que le nombre d'adaptations évolutives de la partie de la machinerie qui régule les gènes, appelés sites de liaison aux facteurs de transcription, peut être à peu près égal aux adaptations aux gènes eux-mêmes.

"Il s'agit de l'analyse la plus complète et la plus directe à ce jour de l'évolution des séquences de régulation des gènes chez l'homme", a déclaré l'auteur principal Adam Siepel, professeur agrégé Cornell de statistiques biologiques et de biologie computationnelle.

"Il a fallu ces 40 ans pour avoir une image claire de ce qui se passe dans ces séquences parce que nous n'avons eu les données que très récemment", a déclaré Leonardo Arbiza, chercheur postdoctoral au laboratoire de Siepel et auteur principal de l'article.

Moins de 2 pour cent du génome humain – l'ensemble complet du matériel génétique – contient des gènes qui codent pour les protéines. Dans les cellules, ces protéines jouent un rôle dans les voies biologiques qui affectent la santé, l'apparence et le comportement d'un organisme.

On en sait beaucoup moins sur les 98% restants du génome, cependant, dans les années 1960, les scientifiques ont reconnu qu'une partie de l'ADN non codant pour les protéines régule quand et où les gènes sont activés et désactivés et la quantité de protéines qu'ils produisent. La machinerie régulatrice fonctionne lorsque des protéines appelées facteurs de transcription se lient à de courtes séquences spécifiques d'ADN qui flanquent le gène, appelées sites de liaison aux facteurs de transcription, et, ce faisant, activent et désactivent les gènes.

Parmi les résultats, l'étude rapporte que par rapport aux gènes codant pour les protéines, l'ADN du site de liaison montre près de trois fois plus de « mutations faiblement délétères », c'est-à-dire des mutations qui peuvent affaiblir ou rendre un individu plus susceptible à la maladie, mais sont généralement pas grave. Des mutations faiblement délétères existent à basse fréquence dans une population et sont finalement éliminées avec le temps. Ces mutations sont responsables de nombreuses maladies humaines héréditaires.

Alors que les gènes ont généralement tendance à résister au changement, une mutation conduit parfois à un trait favorable et augmente dans une population, c'est ce qu'on appelle la sélection positive. En revanche, "les sites de liaison aux facteurs de transcription présentent des quantités considérables de sélection positive", a déclaré Arbiza, avec des preuves d'adaptation dans les sites de liaison qui régulent les gènes contrôlant les cellules sanguines, la fonction cérébrale et l'immunité, entre autres.

"L'image globale montre plus de flexibilité évolutive dans les sites de liaison que dans les gènes codant pour les protéines", a déclaré Siepel. "Cela a des implications importantes sur la façon dont nous pensons à l'évolution humaine et à la maladie."

Il s'agit de l'une des premières études à combiner des données récentes qui identifient les sites de liaison des facteurs de transcription, des données sur la variation génétique humaine et des comparaisons de génomes entre les humains et les singes. Une nouvelle méthode de calcul appelée INSIGHT (Inference of Natural Selection from Interspersed Genomically coHerent elements), conçue par Ilan Gronau, chercheur postdoctoral dans le laboratoire de Siepel et co-auteur de l'étude, a permis aux scientifiques d'intégrer ces divers types de données et de trouver des preuves de la sélection naturelle dans l'ADN régulateur.

"Les sites de liaison aux facteurs de transcription sont probablement les éléments régulateurs que nous connaissons le mieux", a déclaré Arbiza. "Si vous voulez comprendre l'évolution de la régulation de l'expression des gènes, c'est un bon point de départ."

INSIGHT peut désormais être utilisé par d'autres chercheurs pour analyser d'autres courtes séquences d'ADN régulatrices, telles que les micro-ARN, des molécules non codantes qui jouent également un rôle dans la régulation des gènes.

L'étude a été financée par la Fondation Packard, la Fondation Alfred P. Sloan, la National Science Foundation, les National Institutes of Health (National Institute of General Medical Sciences) et une bourse du Cornell Center for Vertebrate Genomics.


<p>Cette section fournit toutes les informations utiles sur la protéine, principalement des connaissances biologiques.<p><a href='/help/function_section' target='_top'>Plus. </a></p> Fonction i

Activateur de transcription qui lie l'ADN en coopération avec les protéines DP via le site de reconnaissance E2, 5'-TTTC[CG]CGC-3' trouvé dans la région promotrice d'un certain nombre de gènes dont les produits sont impliqués dans la régulation du cycle cellulaire ou dans la réplication de l'ADN. Le complexe DRTF1/E2F contrôle la progression du cycle cellulaire de la phase g1 à la phase s. E2F2 se lie spécifiquement à RB1 d'une manière dépendante du cycle cellulaire.


L'expression des gènes est contrôlée par un certain nombre de caractéristiques – régulation de la transcription et de la traduction :

Chez les eucaryotes, la transcription ou les gènes cibles peuvent être stimulés ou inhibés lorsque des facteurs transcriptionnels spécifiques se déplacent du cytoplasme vers le noyau. Comme seuls les gènes cibles sont transcrits, cela signifie que des protéines spécifiques sont fabriquées. Chaque type de cellule du corps a des cellules cibles différentes, de sorte qu'elles donnent des caractéristiques différentes, c'est-à-dire qu'une cellule nerveuse est différente d'un globule rouge. Les facteurs de transcription peuvent modifier le taux de transcription et le processus est le suivant :

  • Les facteurs de transcription entrent par diffusion dans le noyau à partir du cytoplasme.
  • Lorsqu'ils sont dans le noyau, ils peuvent se lier à la séquence promotrice (la séquence qui est le début du gène cible).
  • Les facteurs de transcription augmentent ou diminuent le taux de transcription selon s'ils se sont liés à la séquence promotrice.

Certains facteurs de transcription sont appelés activateurs lorsqu'ils augmentent le taux de transcription. Ceci est fait par les facteurs de transcription aidant l'ARN polymérase à se lier à la séquence promotrice pour activer la transcription. D'autres sont appelés répresseurs où ils diminuent le taux de transcription. Ceci est fait par les facteurs de transcription se liant à la séquence promotrice empêchant l'ARN polymérase de se lier. Cela arrête la transcription.

L'œstrogène peut initier la transcription de gènes cibles. NB : Parfois, cela peut faire d'un facteur de transcription un répresseur. Vous n'avez pas besoin de le savoir pour l'examen AQA. Un facteur de transcription peut être lié à un inhibiteur l'empêchant de se lier à la séquence promotrice. L'œstrogène se lie au facteur de transcription en formant un complexe œstrogène-récepteur d'œstrogène et modifie le site où l'inhibiteur est joint (appelé site de liaison à l'ADN). Cela signifie que l'inhibiteur est détaché permettant au facteur de transcription de se fixer à la séquence promotrice. NB : Vous n'avez pas besoin de connaître le nom de l'inhibiteur. De plus, le site de liaison à l'ADN sur le facteur de transcription reste modifié pendant que l'œstrogène s'y est lié.

Chez les eucaryotes et certains procaryotes, la traduction de l'ARNm produit à partir des gènes cibles peut être inhibée par l'interférence ARN connue sous le nom d'ARNi. Les molécules d'ARN courtes telles que le micro-ARN, connu sous le nom de miARN, et le petit ARN d'interférence, connu sous le nom de siARN, forment un complexe de silençage induit par l'ARN, connu sous le nom de RISC, avec des protéines. NB: Les petites molécules d'ARN connues pour être double brin dans les guides de révision ou dans les manuels scolaires, cela prête à confusion, il est donc préférable de commencer le processus car les miARN et les siARN sont simple brin. L'ARN forme un complexe avec une protéine qui est une enzyme appelée ARN hydrolase. miARN ne forme pas un complexe avec l'ARN hydrolase mais une autre protéine. Ces molécules d'ARN peuvent chacune faire un RISC avec plus d'une protéine et les protéines impliquées n'ont pas besoin d'être connues pour l'AQA. Les complexes se fixent chacun à leur séquence d'ARNm cible et empêchent la traduction de différentes manières. Voici comment cela se fait pour chaque petite molécule d'ARN :

  • siRNA/miRNA dans les plantes :
  • Les bases de l'ARNsi se fixent aux bases de l'ARNm par appariement de bases complémentaires.
  • L'ARN hydrolase hydrolyse le brin d'ARNm en fragments empêchant la traduction de se produire car la chaîne polypeptidique entière ne sera pas fabriquée

NB : Il n'est pas nécessaire de savoir que les fragments sont dégradés dans le corps de traitement. Si vous voulez apprendre cela, il n'y a pas de mal.

  • miARN chez les mammifères :
  • Les bases du miARN se fixent aux bases de l'ARNm par appariement de bases complémentaires.
  • Les ribosomes sont empêchés de se fixer au brin d'ARNm, ce qui empêche la traduction de se produire.

NB : Ici encore, il n'est pas nécessaire de savoir que l'ARNm est dégradé ou stocké dans l'organisme de traitement.

L'épigénétique implique des modifications héréditaires de la fonction des gènes, sans modification de la séquence des bases d'ADN. Ces changements sont causés par des changements dans l'environnement (plus d'exposition à la pollution) qui inhibent la transcription par :

  • Augmentation de la méthylation de l'ADN :Un groupe méthyle (connu sous le nom de marque épigénétique) s'attache à la cytosine qui doit faire partie du nucléotide qui est attaché à la guanine par une liaison phosphodiester. NB: Vous pouvez être confus en ce moment, mais regardez le diagramme ci-dessous d'un brin d'ADN et remarquez à quel nucléotide de la cytosine le groupe méthyle se joint. Notez que le nucléotide à l'extrême droite du brin et le troisième à partir de la gauche n'ont pas de groupe méthyle car ils ne sont pas à côté d'un nucléotide avec la guanine comme base. La jonction du groupe méthyle ne doit pas être confondue en se joignant à la cytosine qui est complémentaire de la guanine sur l'autre brin car c'est faux. Aussi le groupe méthyle – CH3 – ne modifie pas la séquence de base mais la structure. À mesure que la structure a changé, il est devenu plus difficile pour les enzymes de se fixer à l'ADN, ce qui arrête l'expression d'un gène. Si le gène suppresseur de tumeur n'est pas transcrit, il peut provoquer un cancer.

  • Diminution des histones associées : Un groupe acétyle – COCH3 – est une autre marque épigénétique qui se fixe aux protéines histones pour rendre la chromatine (mélange d'ADN enroulé autour des protéines histones) moins condensée pour faciliter l'expression génétique. Le problème survient lorsque l'histone désacétylase rompt la liaison entre la protéine histone et le groupe acétyle. L'ADN devient très condensé, ce qui rend difficile l'expression des gènes par les enzymes. NB : L'histone déacétylase peut être abrégée en HDAC mais il est préférable de conserver le nom complet.

Les modifications épigénétiques de l'ADN sont heureusement réversibles, elles sont donc de bonnes cibles pour les médicaments pour arrêter les effets de l'épigénétique. Ces médicaments peuvent soit arrêter la méthylation de l'ADN, soit inhiber l'histone désacétylase permettant aux groupes acétyle de rester attachés à l'ADN.


Adresse actuelle : Institut Max-Planck pour la physique des systèmes complexes, Nöthnitzer Str. 38, 01187, Dresde, Allemagne

Affiliations

Center for non-coding RNA in Technology and Health, Université de Copenhague, Grønnegårdsvej 3, 1870, Frederiksberg C, Danemark

Nikolai Hecker, Stefan E. Seemann, Asli Silahtaroglu, Walter L. Ruzzo et Jan Gorodkin

Département des sciences vétérinaires et animales, Université de Copenhague, Grønnegårdsvej 3, 1870, Frederiksberg C, Danemark

Nikolai Hecker, Stefan E. Seemann et Jan Gorodkin

Institut Max-Planck de biologie cellulaire moléculaire et de génétique, Pfotenhauerstr. 108, 01307, Dresde, Allemagne

Département de médecine cellulaire et moléculaire, Université de Copenhague, Blegdamsvej 3B, 2200, Copenhague N, Danemark

Paul G. Allen School of Computer Science & Engineering et Department of Genome Sciences, University of Washington, 185 Stevens Way, WA, 98195-2350, Seattle, États-Unis

Centre de recherche sur le cancer Fred Hutchinson, 1100 Fairview Ave. N., WA, 98109, Seattle, États-Unis

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

Tous les auteurs ont contribué à la conception du projet. N.H. a effectué l'analyse et rédigé le manuscrit complet. W.L.R. et N.H. a conçu l'approche de régression et l'approche pour l'analyse phylogénétique. S.E.S. contribué à l'analyse des structures secondaires de l'ARN. COMME. contribué à l'interprétation de la pertinence biologique des résultats. J.G. a défini et supervisé le projet. Tous les auteurs ont révisé et approuvé le manuscrit de manière critique.

Auteurs correspondants


Remarques finales

Le nombre sans précédent d'éléments fonctionnels identifiés dans cette étude fournit une ressource précieuse à la communauté scientifique et améliore considérablement notre compréhension du génome humain. Nos analyses ont révélé de nombreux aspects nouveaux de l'expression et de la régulation des gènes ainsi que l'organisation de ces informations, comme illustré par les articles d'accompagnement (voir http://www.encodeproject.org/ENCODE/pubs.html pour les publications ENCODE collectées). Cependant, il existe encore de nombreux détails spécifiques, en particulier sur les processus mécanistes qui génèrent ces éléments et comment et où ils fonctionnent, qui nécessitent des expériences supplémentaires pour élucider.

L'étendue de la couverture - de notre ensemble de bases la plus haute résolution et la plus conservatrice impliquées dans les exons de gènes codant pour les protéines GENCODE (2,9 %) ou la liaison à l'ADN d'une protéine spécifique (8,5 %) à l'ensemble de marques le plus large et le plus général couvrant le génome ( environ 80%), avec de nombreuses gradations entre les deux, présente un spectre d'éléments avec différentes propriétés fonctionnelles découvertes par ENCODE. Au total, 99 % des bases connues dans le génome se trouvent à moins de 1,7 kb de tout élément ENCODE, tandis que 95 % des bases sont à moins de 8 kb d'un motif de facteur de transcription lié ou d'une empreinte de DNase I. Il est intéressant de noter que, même en utilisant les estimations les plus prudentes, la fraction de bases susceptibles d'être impliquées dans la régulation directe des gènes, bien qu'incomplète, est significativement plus élevée que celle attribuée aux exons codant pour les protéines (1,2%), ce qui laisse penser que davantage d'informations dans le le génome humain peut être plus important pour la régulation des gènes que pour la fonction biochimique. De nombreux éléments régulateurs ne sont pas limités à travers l'évolution des mammifères, ce qui jusqu'à présent a été l'une des indications les plus fiables d'un événement biochimique important pour l'organisme. Ainsi, nos données fournissent des indicateurs orthologues pour suggérer des éléments fonctionnels possibles.

Surtout, pour la première fois, nous avons une puissance statistique suffisante pour évaluer l'impact de la sélection négative sur les éléments spécifiques aux primates, et toutes les classes ENCODE présentent des preuves de sélection négative dans ces éléments uniques aux primates. De plus, même avec notre estimation la plus prudente des éléments fonctionnels (8,5% des régions putatives de liaison ADN/protéine) et en supposant que nous ayons déjà échantillonné la moitié des éléments de notre facteur de transcription et de notre diversité de types cellulaires, on estimerait qu'au minimum 20 % (17 % d'exons de gènes de liaison aux protéines et 2,9 % d'exons de gènes codant pour les protéines) du génome participent à ces fonctions spécifiques, le chiffre probable étant significativement plus élevé.

La large couverture des annotations ENCODE améliore notre compréhension des maladies courantes avec une composante génétique, des maladies génétiques rares et du cancer, comme le montre notre capacité à lier des associations autrement anonymes à un élément fonctionnel. ENCODE et des études similaires constituent une première étape vers l'interprétation du reste du génome - au-delà des gènes codant pour les protéines - augmentant ainsi les études génétiques de maladies courantes avec des hypothèses vérifiables. De telles informations justifient d'effectuer un séquençage du génome entier (plutôt que de l'exome uniquement, 1,2 % du génome) sur des maladies rares et d'étudier des variantes somatiques dans des éléments fonctionnels non codants, par exemple dans le cancer. De plus, comme les analyses GWAS associent généralement la maladie aux SNP dans de grandes régions, la comparaison avec les éléments fonctionnels non codants ENCODE peut aider à identifier des variantes causales putatives en plus d'affiner la localisation par des techniques de cartographie fine 78 . La combinaison des données ENCODE avec des informations spécifiques aux allèles dérivées de séquences génomiques individuelles fournit des informations spécifiques sur l'impact d'une variante génétique. En effet, nous pensons qu'un objectif important serait d'utiliser des données fonctionnelles telles que celles dérivées de ce projet pour attribuer chaque variante génomique à son impact possible sur les phénotypes humains.