Informations

Trouver les fonctions des gènes - Biologie


Trouver les fonctions des gènes

Battre des records

Avec 473 gènes, la cellule minimale nouvellement créée, JCVI-syn3.0, possède au moins 50 gènes de moins que le détenteur du record de la nature pour le génome le plus court chez les organismes vivants autonomes, Mycoplasme génital – qui a 525 gènes.

Les cellules minimales se sont avérées vivre, croître et se diviser, formant des amas de cellules dans une boîte de laboratoire contenant des nutriments pour les fournir.

L'exploit s'appuie sur une étude menée par l'équipe de Venter en 2010 qui a dévoilé JCVI-syn1.0, la première bactérie vivante dépendante d'une copie synthétique d'un génome existant. Ce génome a été conçu dans un ordinateur, avant assemblage et insertion dans les cellules.

Lui et ses collègues de l'institut, co-dirigés par Hutchison, ont cherché à réduire au minimum les 901 gènes de JCVI-syn1.0 pour soutenir la vie. Ils ont commencé avec une version de JCVI-syn1.0, le bogue synthétique de 2010 qu'ils ont créé en transplantant une copie générée par ordinateur du génome entier de Mycoplasme mycoïde, une bactérie naturelle comprenant quelque 900 gènes, dans une coquille bactérienne hôte vide.

À l'aide de transposons, des gènes sauteurs qui s'insèrent dans des sections d'ADN et perturbent des gènes individuels, l'équipe a testé les gènes dont les bactéries pourraient se passer.

Leur premier coup de couteau dans une cellule minimaliste a échoué. « Chacune de nos conceptions a échoué parce que nous les avons basées sur notre base de connaissances existante », déclare Venter.

Il s'est avéré plus tard que certains gènes qu'ils considéraient comme non essentiels étaient cruciaux - mais comme ils venaient par paires, l'organisme pourrait encore survivre si un seul d'entre eux était supprimé. Lorsqu'ils ont réalisé cela, ils ont pu réduire le génome de manière plus fiable tout en conservant une cellule vivante et en croissance.

"Pour obtenir une cellule viable, les chercheurs devaient faire des découvertes sur de nombreux gènes essentiels et semi-essentiels que nous ne connaissions pas", explique Steven Benner de la Foundation for Applied Molecular Evolution à Alachua, en Floride.


Que sont les gènes et pourquoi sont-ils importants ?

Tous les êtres vivants ont des gènes. Ils existent dans tout le corps. Les gènes sont un ensemble d'instructions qui déterminent à quoi ressemble l'organisme, son apparence, comment il survit et comment il se comporte dans son environnement.

Les gènes sont constitués d'une substance appelée acide désoxyribonucléique, ou ADN. Ils donnent des instructions à un être vivant pour fabriquer des molécules appelées protéines.

Un généticien est une personne qui étudie les gènes et comment ils peuvent être ciblés pour améliorer certains aspects de la vie. Le génie génétique peut offrir une gamme d'avantages pour les humains, par exemple, l'augmentation de la productivité des plantes alimentaires ou la prévention des maladies chez l'homme.

Partager sur Pinterest Les gènes sont responsables de tous les aspects de la vie.

Les gènes sont une section de l'ADN qui est en charge de différentes fonctions comme la fabrication de protéines. De longs brins d'ADN avec beaucoup de gènes constituent les chromosomes. Les molécules d'ADN se trouvent dans les chromosomes. Les chromosomes sont situés à l'intérieur du noyau des cellules.

Chaque chromosome est une longue molécule unique d'ADN. Cet ADN contient des informations génétiques importantes.

Les chromosomes ont une structure unique, qui aide à garder l'ADN étroitement enroulé autour des protéines appelées histones. Si les molécules d'ADN n'étaient pas liées par les histones, elles seraient trop longues pour tenir à l'intérieur de la cellule.

Les gènes varient en complexité. Chez l'homme, leur taille varie de quelques centaines de bases d'ADN à plus de 2 millions de bases.

Différents êtres vivants ont des formes et des nombres de chromosomes différents. Les humains ont 23 paires de chromosomes, soit un total de 46. Un âne a 31 paires de chromosomes, un hérisson en a 44 et une mouche des fruits n'en a que 4.

L'ADN contient les instructions biologiques qui rendent chaque espèce unique.

L'ADN est transmis des organismes adultes à leur progéniture pendant la reproduction. Les éléments constitutifs de l'ADN sont appelés nucléotides. Les nucléotides ont trois parties : un groupe phosphate, un groupe sucre et l'un des quatre types de bases azotées.

Un gène consiste en une longue combinaison de quatre bases nucléotidiques différentes, ou produits chimiques. Il existe de nombreuses combinaisons possibles.

Différentes combinaisons des lettres ACGT donnent aux gens des caractéristiques différentes. Par exemple, une personne avec la combinaison ATCGTT peut avoir les yeux bleus, tandis qu'une personne avec la combinaison ATCGCT peut avoir les yeux marron.

Pour récapituler plus en détail:

Gènes portent les codes ACGT. Chaque personne a des milliers de gènes. Ils sont comme un programme informatique, et ils font de l'individu ce qu'il est.

Un gène est une minuscule section d'une longue molécule d'ADN en double hélice, qui consiste en une séquence linéaire de paires de bases. Un gène est n'importe quelle section de l'ADN avec des instructions codées qui permettent à une cellule de produire un produit spécifique – généralement une protéine, telle qu'une enzyme – qui déclenche une action précise.

ADN est le produit chimique qui apparaît dans les brins. Chaque cellule du corps d'une personne a le même ADN, mais l'ADN de chaque personne est différent. C'est ce qui rend chaque personne unique.

L'ADN est composé de deux longs brins appariés en spirale dans la célèbre double hélice. Chaque brin contient des millions de blocs de construction chimiques appelés bases.

Les gènes décident presque tout sur un être vivant. Un ou plusieurs gènes peuvent affecter un trait spécifique. Les gènes peuvent également interagir avec l'environnement d'un individu et modifier ce que le gène produit.

Les gènes affectent des centaines de facteurs internes et externes, par exemple si une personne aura une couleur d'yeux particulière ou quelles maladies elle peut développer.

Certaines maladies, telles que la drépanocytose et la maladie de Huntington, sont héréditaires et elles sont également affectées par les gènes.

Un gène est une unité de base de l'hérédité dans un organisme vivant. Les gènes viennent de nos parents. Nous pouvons hériter de nos traits physiques et de la probabilité de contracter certaines maladies et conditions d'un parent.

Les gènes contiennent les données nécessaires pour construire et maintenir des cellules et transmettre des informations génétiques à la progéniture.

Chaque cellule contient deux jeux de chromosomes : un jeu vient de la mère et l'autre vient du père. Le spermatozoïde mâle et l'ovule femelle portent chacun un seul jeu de 23 chromosomes, dont 22 autosomes plus un chromosome sexuel X ou Y.

Une femme hérite d'un chromosome X de chaque parent, mais un homme hérite d'un chromosome X de sa mère et d'un chromosome Y de son père.

Le Human Genome Project (HGP) est un projet de recherche scientifique majeur. Il s'agit de la plus grande activité de recherche jamais réalisée dans le domaine de la science moderne.

Il vise à déterminer la séquence des paires chimiques qui composent l'ADN humain et à identifier et cartographier les 20 000 à 25 000 environ gènes qui composent le génome humain.

Le projet a été lancé en 1990 par un groupe de chercheurs internationaux, les National Institutes of Health (NIH) des États-Unis et le Department of Energy.

L'objectif était de séquencer 3 milliards de lettres, ou paires de bases, dans le génome humain, qui constituent l'ensemble complet de l'ADN du corps humain.

En faisant cela, les scientifiques espéraient fournir aux chercheurs des outils puissants, non seulement pour comprendre les facteurs génétiques des maladies humaines, mais aussi pour ouvrir la porte à de nouvelles stratégies de diagnostic, de traitement et de prévention.

Le HGP a été achevé en 2003, et toutes les données générées sont disponibles en accès libre sur Internet. Outre les humains, le HGP a également examiné d'autres organismes et animaux, tels que la mouche des fruits et E. coli.

Plus de trois milliards de combinaisons de nucléotides, ou combinaisons d'ACGT, ont été trouvées dans le génome humain, ou la collection de caractéristiques génétiques qui peuvent constituer le corps humain.

La cartographie du génome humain rapproche les scientifiques du développement de traitements efficaces pour des centaines de maladies.

Le projet a alimenté la découverte de plus de 1 800 gènes de maladies. Cela a permis aux chercheurs de trouver plus facilement un gène suspecté de provoquer une maladie héréditaire en quelques jours. Avant que cette recherche ne soit effectuée, cela aurait pu prendre des années pour trouver le gène.

Les tests génétiques peuvent montrer à un individu s'il présente un risque génétique pour une maladie spécifique. Les résultats peuvent aider les professionnels de la santé à diagnostiquer les conditions.

Le HGP devrait accélérer les progrès de la médecine, mais il reste encore beaucoup à apprendre, notamment en ce qui concerne le comportement des gènes et leur utilisation dans le traitement. Au moins 350 produits issus de la biotechnologie font actuellement l'objet d'essais cliniques.

En 2005, le HapMap, un catalogue de variations génétiques ou d'haplotypes communs dans le génome humain, a été créé. Ces données ont permis d'accélérer la recherche des gènes impliqués dans les maladies humaines courantes.

Ces dernières années, les généticiens ont découvert une autre couche de données génétiques héréditaires qui n'est pas contenue dans le génome, mais dans « l'épigénome », un groupe de composés chimiques qui peuvent dire au génome quoi faire.

Dans le corps, l'ADN détient les instructions pour la construction des protéines, et ces protéines sont responsables d'un certain nombre de fonctions dans une cellule.

L'épigénome est composé de composés chimiques et de protéines qui peuvent se fixer à l'ADN et diriger diverses actions. Ces actions incluent l'activation et la désactivation des gènes. Cela peut contrôler la production de protéines dans des cellules particulières.

Les commutateurs génétiques peuvent activer et désactiver les gènes à différents moments et pour différentes durées.

Récemment, des scientifiques ont découvert des commutateurs génétiques qui augmentent la durée de vie et améliorent la forme physique des vers. Ils pensent que cela pourrait être lié à une augmentation de la durée de vie des mammifères.

Les commutateurs génétiques qu'ils ont découverts impliquent des enzymes qui sont accélérées après un léger stress au début du développement.

Cette augmentation de la production d'enzymes continue d'affecter l'expression des gènes tout au long de la vie de l'animal.

Cela pourrait conduire à une percée dans l'objectif de développer des médicaments capables de basculer ces commutateurs pour améliorer la fonction métabolique humaine et augmenter la longévité.

Marquage des gènes

Lorsque des composés épigénomiques se fixent sur l'ADN de la cellule et modifient la fonction, on dit qu'ils ont « marqué » le génome.

Les marques ne modifient pas la séquence de l'ADN, mais elles modifient la façon dont les cellules utilisent les instructions de l'ADN.

Les marques peuvent être transmises de cellule en cellule au fur et à mesure qu'elles se divisent, et elles peuvent même être transmises d'une génération à l'autre.

Des cellules spécialisées peuvent contrôler de nombreuses fonctions du corps. Par exemple, les cellules spécialisées des globules rouges fabriquent des protéines qui transportent l'oxygène de l'air vers le reste du corps. L'épigénome contrôle bon nombre de ces changements au sein du génome.

Les étiquettes chimiques sur l'ADN et les histones peuvent se réorganiser à mesure que les cellules spécialisées et l'épigénome changent tout au long de la vie d'une personne.

Le mode de vie et les facteurs environnementaux tels que le tabagisme, l'alimentation et les maladies infectieuses peuvent entraîner des changements dans l'épigénome. Ils peuvent exposer une personne à des pressions qui provoquent des réactions chimiques.

Ces réponses peuvent conduire à des changements directs dans l'épigénome, et certains de ces changements peuvent être dommageables. Certaines maladies humaines sont dues à des dysfonctionnements des protéines qui « lisent » et « écrivent » les marques épigénomiques.

Certains de ces changements sont liés au développement de la maladie.

Le cancer peut résulter de modifications du génome, de l'épigénome ou des deux. Les modifications de l'épigénome peuvent activer ou désactiver les gènes impliqués dans la croissance cellulaire ou la réponse immunitaire. Ces changements peuvent provoquer une croissance incontrôlée, une caractéristique du cancer ou une incapacité du système immunitaire à détruire les tumeurs.

Les chercheurs du réseau Cancer Genome Atlas (TCGA) comparent les génomes et les épigénomes des cellules normales avec ceux des cellules cancéreuses dans l'espoir de compiler une liste actuelle et complète des changements épigénomiques possibles qui peuvent conduire au cancer.

Les chercheurs en épigénomique s'efforcent de cartographier les emplacements et de comprendre les fonctions de toutes les étiquettes chimiques qui marquent le génome. Ces informations peuvent conduire à une meilleure compréhension du corps humain et à la connaissance des moyens d'améliorer la santé humaine.

Thérapie génique

En thérapie génique, des gènes sont insérés dans les cellules et les tissus d'un patient pour traiter une maladie, généralement une maladie héréditaire. La thérapie génique utilise des sections d'ADN pour traiter ou prévenir une maladie. Cette science est encore à ses débuts, mais il y a eu un certain succès.

Par exemple, en 2016, des scientifiques ont rapporté qu'ils avaient réussi à améliorer la vue de 3 patients adultes atteints de cécité congénitale en utilisant la thérapie génique.

En 2017, un endocrinologue de la reproduction, nommé John Zhang, et une équipe du New Hope Fertility Center de New York ont ​​utilisé une technique appelée thérapie de remplacement mitochondrial de manière révolutionnaire.

Ils ont annoncé la naissance d'un enfant d'une mère porteuse d'une anomalie génétique mortelle. Les chercheurs ont combiné l'ADN de deux femmes et d'un homme pour contourner le défaut.

Le résultat était un petit garçon en bonne santé avec trois parents génétiques. Ce type de recherche n'en est qu'à ses débuts et beaucoup de choses sont encore inconnues, mais les résultats semblent prometteurs.

Les scientifiques étudient différentes façons de traiter le cancer à l'aide de la thérapie génique. La thérapie génique expérimentale peut utiliser les propres cellules sanguines des patients pour tuer les cellules cancéreuses. Dans une étude, 82 pour cent des patients ont vu leur cancer diminuer d'au moins la moitié à un moment donné pendant le traitement.

Des tests génétiques pour prédire le cancer

Une autre utilisation de l'information génétique est d'aider à prédire qui est susceptible de développer une maladie, par exemple, la maladie d'Alzheimer à début précoce et le cancer du sein.

Les femmes porteuses du gène BRCA1 ont un risque significativement plus élevé de développer un cancer du sein. Une femme peut subir un test pour savoir si elle est porteuse de ce gène. Les porteurs de BRCA1 ont 50% de chances de transmettre l'anomalie à chacun de leurs enfants.

Des tests génétiques pour une thérapie personnalisée

Les scientifiques disent qu'un jour, nous pourrons tester un patient pour savoir quels médicaments spécifiques lui conviennent le mieux, en fonction de sa constitution génétique. Certains médicaments fonctionnent bien pour certains patients, mais pas pour d'autres. La thérapie génique est encore une science en pleine croissance, mais avec le temps, elle pourrait devenir un traitement médical viable.


Notes de bas de page

Des documents électroniques supplémentaires sont disponibles en ligne à l'adresse https://dx.doi.org/10.6084/m9.figshare.c.4392737.

Publié par la Royal Society sous les termes de la Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, qui permet une utilisation sans restriction, à condition que l'auteur et la source d'origine soient crédités.

Les références

et al. 1992 La séquence complète d'ADN du chromosome III de levure. La nature 357, 38-46. (doi:10.1038/357038a0) Crossref, PubMed, ISI, Google Scholar

et al. 1996 La vie avec 6000 gènes . Science 274, 546, 563-567. (doi:10.1126/science.274.5287.546) Crossref, PubMed, ISI, Google Scholar

. 1996 De la séquence d'ADN à la fonction biologique . La nature 379, 597-600. (http://dx.doi.org/10.1038/379597a0) Crossref, PubMed, ISI, Google Scholar

Hodges PE, McKee AH, Davis BP, Payne WE, Garrels JI

. 1999 The Yeast Proteome Database (YPD) : un modèle pour l'organisation et la présentation de données fonctionnelles à l'échelle du génome . Acides nucléiques Res. 27, 69-73. (doi:10.1093/nar/27.1.69) Crossref, PubMed, ISI, Google Scholar

Wu LF, Hughes TR, Davierwala AP, Robinson MD, Stoughton R, Altschuler SJ

. 2002 Prédiction à grande échelle de Saccharomyces cerevisiae fonction des gènes en utilisant des clusters transcriptionnels qui se chevauchent . Nat. Genet. 31, 255-265. (doi: 10.1038/ng906) Crossref, PubMed, ISI, Google Scholar

Christie KR, Hong EL, Cherry JM

. 2009 Annotations fonctionnelles pour le Saccharomyces cerevisiae génome : les connus et les inconnus connus . Tendances Microbiol. 17, 286-294. (doi:10.1016/j.tim.2009.04.005) Crossref, PubMed, ISI, Google Scholar

Gibney PA, Hickman MJ, Bradley PH, Matese JC, Botstein D

. 2013 Portrait phylogénétique du Saccharomyces cerevisiae génome fonctionnel. G3 (Bethesda ) 3, 1335-1340. (doi: 10.1534/g3.113.006585) Crossref, PubMed, Google Scholar

. 2007 Pourquoi y a-t-il encore plus de 1000 gènes de levure non caractérisés ? La génétique 176, 7-14. (doi: 10.1534/genetics.107.074468) Crossref, PubMed, ISI, Google Scholar

Hughes TR, Robinson MD, Mitsakakis N, Johnston M

. 2004 La promesse de la génomique fonctionnelle : compléter l'encyclopédie d'une cellule . Cour. Avis. Microbiole. 7, 546-554. (http://dx.doi.org/10.1016/j.mib.2004.08.015) Crossref, PubMed, ISI, Google Scholar

Balakrishnan R, Park J, Karra K, Hitz BC, Binkley G, Hong EL, Sullivan J, Micklem G, Cherry JM

. 2012 YeastMine—un entrepôt de données intégré pour Saccharomyces cerevisiae les données en tant que boîte à outils polyvalente . Base de données 2012, barre062. (doi: 10.1093/database/bar062) Crossref, Google Scholar

, 2012 InterMine : un système d'entrepôt de données flexible pour l'intégration et l'analyse de données biologiques hétérogènes . Bioinformatique 28, 3163-3165. (doi: 10.1093/bioinformatics/bts577) Crossref, PubMed, ISI, Google Scholar

Rhee SY, Wood V, Dolinski K, Draghici S

. 2008 Usage et usage abusif des annotations de l'ontologie du gène . Nat. le révérend Genet. 9, 509-515. (doi: 10.1038/nrg2363) Crossref, PubMed, ISI, Google Scholar

Écluse A, Rutherford K, Harris MA, Bois V

. 2018 PomBase : la ressource scientifique de la levure de fission , p. 49-68. New York, NY : Humana Press , Google Scholar

. 2019 PomBase 2018 : la réimplémentation par l'utilisateur de la base de données sur les levures de fission offre un accès rapide et intuitif à des informations diverses et interconnectées . Acides nucléiques Res. 47, D821-D827. (doi: 10.1093/nar/gky961 Crossref, PubMed, ISI, Google Scholar

Boyle EI, Weng S, Gollub J, Jin H, Botstein D, Cherry JM, Sherlock G

. 2004 GO::TermFinder—logiciel open source permettant d'accéder aux informations d'ontologie génétique et de trouver des termes d'ontologie génétique significativement enrichis associés à une liste de gènes . Bioinformatique 20, 3710-3715. (doi: 10.1093/bioinformatics/bth456) Crossref, PubMed, ISI, Google Scholar

Gaudet P, Škunca N, Hu J, Dessimoz C

. 2017 Introduction à l'ontologie des gènes . Méthodes en biologie moléculaire, vol. 1446 . New York, NY : Humana Press . Référence croisée, Google Scholar

Hayles J, Wood V, Jeffery L, Hoe K-L, Kim D-U, Park H-O, Salas-Pino S, Heichinger C, Infirmière P

. 2013 Une ressource à l'échelle du génome des gènes du cycle cellulaire et de la forme cellulaire de la levure à fission . Ouvert. Biol. 3, 130053. (doi: 10.1098/rsob.130053) Lien, ISI, Google Scholar

et al. 2008 Le portrait génomique chimique de la levure : découvrir un phénotype pour tous les gènes . Science 320, 362-365. (doi:10.1126/science.1150021) Crossref, PubMed, ISI, Google Scholar

(éds). 2015 Biologie systémique de la maladie d'Alzheimer . Méthodes en biologie moléculaire. New York, NY : Humana Press . Google Scholar

Edwards AM, Isserlin R, Bader GD, Frye SV, Willson TM, Yu FH

. 2011 Trop de routes non empruntées . La nature 470, 163-165. (doi: 10.1038/470163a) Crossref, PubMed, ISI, Google Scholar

Stoeger T, Gerlach M, Morimoto RI, Nunes Amaral LA

. 2018 Enquête à grande échelle sur les raisons pour lesquelles des gènes potentiellement importants sont ignorés . PLoS Biol. 16, 1-25. (doi: 10.1371/journal.pbio.2006643) Crossref, ISI, Google Scholar

. 2017 InterPro en 2017-au-delà de la famille de protéines et des annotations de domaine . Acides nucléiques Res. 45, D190-D199. (doi: 10.1093/nar/gkw1107) Crossref, PubMed, ISI, Google Scholar

et al. 2006 Clonage ORFeome et analyse globale de la localisation des protéines chez la levure à fission Schizosaccharomyces pombe . Nat. Biotechnologie. 24, 841-847. (doi: 10.1038/nbt1222) Référence croisée, PubMed, ISI, Google Scholar

et al. 2010 Analyse d'un ensemble de délétions de gènes à l'échelle du génome chez la levure à fission Schizosaccharomyces pombe . Nat. Biotechnologie. 28, 617-623. (doi: 10.1038/nbt.1628) Crossref, PubMed, ISI, Google Scholar

et al. 2014 Identification de nouveaux acteurs dans la division cellulaire, la réponse aux dommages de l'ADN et la morphogenèse par la construction de souches de délétion de Schizosaccharomyces pombe . G3 (Bethesda ) 5, 361-370. (doi: 10.1534/g3.114.015701) Crossref, PubMed, Google Scholar

. 1997 Preuve moléculaire d'une duplication ancienne de l'ensemble du génome de la levure. La nature 387, 708-713. (doi: 10.1038/42711) Crossref, PubMed, ISI, Google Scholar


Reconnaissance

Les auteurs remercient Sean Aller pour ses commentaires utiles et David Selby pour avoir partagé son expertise dans le développement R paquets.

Le financement

Ce travail est financé par l'Université de Warwick et par les Conseils de recherche en biotechnologie et en biologie et en ingénierie et en sciences physiques (BB– et EPSRC), avec les ID de subvention : EP/L016494/1 (au Centre de formation doctorale en biologie synthétique, SynBioCDT ), BB/K003240/2 (à OSS), BB/M017982/1 (à Warwick Integrative Synthetic Biology Centre, WISB).


Matériaux et méthodes

Séquences et alignements d'ADN

Séquences d'ADN des régions de contrôle du locus β-globine (LCR) d'humain (loci GenBank combinés HUMHBB et HUMBGLOBC), galago (OCU60902), lapin (loci GenBank combiné OCU63091 et RABBGLOB), chèvre (GOTGLOBE), vache (BOVBG) et souris (un classement des loci AF071080, MMMLCRHS4, MMMLCRHS3, MMCONREG et MMBGCXD fourni par M. Bender) ont été alignés à l'aide du programme yama2 (12). Les séquences et les alignements complets sont disponibles sur notre Globin Gene Server (13, 14) à l'adresse : http://globin.cse.psu.edu/. Les Escherichia coli La séquence K-12 est de Blattner et al. (15). Les séquences de bactéries apparentées ont été obtenues à partir des sites suivants : Salmonelle typhimurium, ftp://genome.wustl.edu/pub/gsc1/sequence/st.louis/bacterial/salmonella/B_STM/B_STM.full.seq Salmonella typhi, ftp://ftp.sanger.ac.uk/pub/pathogens/st/ST.dbs Salmonella paratyphiA, ftp://genome.wustl.edu/pub/gsc1/sequence/st.louis/bacterial/salmonella/B_SPA/BEFORE_MELD/B_SPA.full.seq Pneumonie à Klebsiella, ftp://genome.wustl.edu/pub/gsc1/sequence/st.louis/bacterial/salmonella/B_KPN/B_KPN.full.seq.

Les régions sélectionnées pour les calibrations des paramètres étaient 7188–7487, 11240–11510 et 64561–64826 (−263 à +3) pour HS3, HS2 et le HBB promoteur, respectivement, dans la séquence humaine combinée. Une position nucléotidique donnée dans cette séquence est 2687 plus grande que dans le locus GenBank HUMHBB. La liste des positions nucléotidiques attribuées comme fonctionnelles se trouve sur le site Web, ainsi que des références.

La région sélectionnée pour l'étalonnage par rapport à la bactérie araBAD-araC la région régulatrice commence juste avant le codon de départ ATG de arabe (orienté vers la gauche) et se termine juste avant le codon de départ ATG de araC (orienté vers la droite). Cela correspond aux positions 70049 à 70386 dans le E. coli séquence. Pour aligner les cinq séquences bactériennes, les séquences qui correspondent aux araBAD-araC région intergénique en comparaisons par paires avec la E. coli séquences ont été extraites puis alignées simultanément.

Programmes pour trouver des blocs de séquences conservés

Certains paramètres sont communs à tous les outils. La longueur minimale des régions à rapporter et le nombre minimal de séquences qui doivent être actives (c'est-à-dire présentes dans cette région de l'alignement) sont sélectionnables par l'utilisateur. De plus, la recherche peut être effectuée dans tout l'alignement ou elle peut être restreinte à une partie spécifiée par une plage donnée dans l'une quelconque des séquences. Les résultats peuvent être soit rapportés sous forme de liste des points terminaux des régions sélectionnées avec leurs séquences consensus/ancestrales/centres associées (expliquées ci-dessous) ou affichés sous forme de régions encadrées dans un diagramme d'alignement. Un serveur exécutant ces programmes sur l'alignement des groupes de gènes de -globine de mammifères est disponible sur le Globin Gene Server.

Chaque service public dispose d'au moins deux façons de traiter les lacunes. Dans le premier, les colonnes contenant un symbole d'espace seront rejetées, de sorte que les régions rapportées ne contiennent aucun espace. Alternativement, les espaces peuvent être traités comme des caractères ordinaires. Les codes d'ambiguïté (par exemple, W représentant A ou T) peuvent être autorisés dans les colonnes. Tous les détails sur le traitement des lacunes et des codes d'ambiguïté sont disponibles sur notre site Web.

se mettre d'accord. Cet utilitaire localise les régions dans un alignement donné qui ont un bon accord de colonne. Les colonnes sont examinées individuellement pour déterminer si elles satisfont ou non à un seuil spécifié par l'utilisateur pour l'accord par lettre, et des séries de colonnes réussissant ce test sont signalées.

infocon. Lors de la recherche de régions conservées dans les alignements, la longueur de la région est souvent un indicateur fiable que certaines fonctionnalités ont été préservées à travers l'espèce. Cependant, comme la conservation n'a pas besoin d'être parfaite, de telles régions pourraient être fragmentées en morceaux conservés trop petits pour être détectés, et un moyen systématique de relier les plus petites régions est nécessaire. Les deux utilitaires suivants que nous décrivons, infocon et phylogène, essayez de résoudre ce problème. L'idée est d'attribuer un score numérique à chaque colonne, puis de rechercher des séries de colonnes remplissant les deux conditions suivantes : (i) leur score cumulé (obtenu en additionnant les scores des colonnes individuelles) n'est pas inférieur au score de l'un de leurs sous-séries et (ii) elles sont maximales avec cette propriété, c'est-à-dire qu'elles ne sont plus contenues dans une plus longue période ayant la propriété (i). Nous appelons ces régions des « trajets complets ». Deux parcours complets ne peuvent pas se chevaucher partiellement, c'est-à-dire que s'ils ont une position en commun, ils doivent être identiques ( 16).

Les infocon L'outil trouve des séries complètes de colonnes avec un contenu informatif élevé dans l'alignement donné. Pour ce faire, chaque colonne se voit attribuer un score intermédiaire qui mesure son contenu informatif, basé sur les fréquences des lettres à la fois dans la colonne et dans l'alignement dans son ensemble (11, 17). La valeur exacte de ce score est la fraction 1/L du logarithme du rapport de vraisemblance obtenu pour la fréquence des lettres dans l'alignement et dans la colonne examinée, où L est le nombre de séquences actives dans la colonne d'alignement. À titre d'exemple numérique, considérons l'alignement de la figure 1A, qui fait partie d'un alignement plus long. Les fréquences globales des lettres dans l'alignement le plus long (non illustré) sont FUNE = 58 525/192 535, FC = 36 937/192 535, Fg = 38 963/192 535 et FT = 58 110/192 535, puisque le nombre de lettres A, C, G et T dans l'alignement est 58 525, 36 937, 38 963 et 58 110, pour un total de 192 535. De même, les fréquences de lettres dans la colonne 1 du l'alignement (C,C,T) sont fcUNE = 0, fcC = 2/3, fcg = 0 et fcT = 1/3. L est 3.


Annotation à haut débit de génomes eucaryotes

Trouver des gènes dans les bactéries est relativement facile, en grande partie parce que les génomes bactériens codent à environ 90 % pour les protéines, avec des segments intergéniques relativement courts entre chaque paire de gènes. Le problème de la recherche de gènes consiste principalement à décider lequel des six cadres de lecture possibles (trois dans chaque direction) contient la protéine, et les chercheurs de gènes informatiques en profitent pour produire des résultats très précis. Ainsi, bien que nous ne connaissions toujours pas les fonctions de nombreux gènes bactériens, nous pouvons au moins être sûrs que leurs séquences d'acides aminés sont correctes.

Chez les eucaryotes, en revanche, le problème de la recherche de gènes est beaucoup plus difficile, car (i) les gènes sont peu nombreux et (ii) les gènes sont interrompus par des introns. Ainsi, alors que 90 % d'un génome bactérien typique est couvert par des séquences codant pour des protéines, seulement environ 1,3 % du génome humain (40,2 Mb dans la base de données CHESS 2.2 [2]) comprend des exons codant pour des protéines. Le pourcentage est encore plus faible dans les génomes plus grands, tels que les méga-génomes des pins et autres conifères. Pour cette raison et d'autres, les meilleurs chercheurs de gènes automatisés sont beaucoup moins précis sur les eucaryotes. La curation manuelle ne résoudra pas ce dilemme, pour la raison évidente qu'elle n'évolue pas, et pour la raison moins évidente que même une analyse humaine minutieuse ne fournit pas toujours une réponse claire. Pour illustrer ce dernier point : dans une comparaison récente de tous les transcrits codant pour des protéines et lncRNA dans les bases de données de gènes humains RefSeq et Gencode, seuls 27,5% des transcrits Gencode avaient exactement les mêmes introns que les gènes RefSeq correspondants [2]. Ainsi, même après 18 ans d'efforts, la structure précise exon-intron de nombreux gènes humains codant pour des protéines n'est pas établie. L'annotation de la plupart des autres eucaryotes, à l'exception de petits organismes modèles intensivement étudiés comme la levure, la mouche des fruits et Arabidopsis-est en pire état que l'annotation humaine.

Une solution à haut débit apporte au moins une solution partielle à ce problème : le séquençage de l'ARN (RNA-seq). Avant l'invention de l'ARN-seq, les scientifiques ont travaillé dur pour générer des transcrits complets qui pourraient fournir une annotation « de référence » pour une espèce. L'idée était que si nous avions la séquence d'ARN messager complète d'un gène, nous pourrions simplement l'aligner sur le génome pour révéler la structure exon-intron du gène. La Mammalian Gene Collection, un effort visant à obtenir ces ARN pour l'homme et quelques autres espèces, s'est terminée en 2009 avec l'annonce que 92% des gènes codant pour les protéines humaines avaient été capturés [3]. Ce projet, bien qu'extrêmement utile, était très coûteux, difficilement évolutif et toujours pas complet. (Notamment, la Mammalian Gene Collection n'a tenté de capturer qu'une seule isoforme de chaque gène. Nous savons maintenant que la plupart des gènes humains ont plusieurs isoformes.) La technologie RNA-seq, en revanche, fournit un moyen rapide de capturer la plupart des gènes exprimés pour n'importe quelle espèce. En alignant les lectures RNA-seq sur un génome, puis en assemblant ces lectures, nous pouvons construire une approximation raisonnablement bonne (y compris des isoformes alternatives) du contenu génétique complet d'une espèce, comme mes collègues et moi l'avons fait pour le génome humain [2] .

Ainsi, un pipeline d'annotation moderne tel que MAKER [4] peut utiliser des données RNA-seq, combinées à des alignements sur des bases de données de protéines connues et d'autres entrées, pour faire un bon travail de recherche de tous les gènes et même d'attribution de noms à beaucoup d'entre eux.

Cette solution s'accompagne de plusieurs mises en garde majeures. Premièrement, RNA-seq ne capture pas précisément tous les gènes d'un génome. Certains gènes sont exprimés à de faibles niveaux ou dans seulement quelques tissus, et ils pourraient être totalement ignorés à moins que les données de séquençage de l'ARN ne soient vraiment complètes. De plus, de nombreux transcrits exprimés dans un échantillon de tissu ne sont pas des gènes : ils pourraient représenter des transcrits incomplètement épissés, ou ils pourraient simplement être du bruit. Par conséquent, nous avons besoin d'une vérification indépendante avant de pouvoir être certain que toute région exprimée est un gène fonctionnel. Même pour les gènes qui sont exprimés de manière répétée à des niveaux élevés, déterminer s'ils codent pour des protéines ou représentent plutôt des ARN non codants est un problème toujours non résolu. L'annotation humaine Gencode actuelle (version 30), par exemple, contient plus de gènes d'ARN que de protéines [5], mais personne ne sait ce que font la plupart de ces gènes d'ARN.

Une autre mise en garde est que parce que les génomes provisoires peuvent contenir des milliers de contigs déconnectés, de nombreux gènes seront brisés parmi plusieurs contigs (ou échafaudages) dont l'ordre et l'orientation sont inconnus. Le problème se produit dans toutes les espèces, mais il est bien pire pour les génomes provisoires où la taille moyenne des contigs est inférieure à la durée d'un gène typique. Cela rend pratiquement impossible pour le logiciel d'annotation de rassembler correctement les gènes à la place, le logiciel aura tendance à annoter de nombreux fragments de gènes (résidant sur différents contigs) avec les mêmes descriptions, et le nombre total de gènes pourrait être considérablement surgonflé. Même lorsqu'ils n'ont pas de lacunes, certains génomes provisoires ont des taux d'erreur élevés qui peuvent introduire des codons d'arrêt erronés ou des décalages de trame au milieu des gènes. Il n'y a aucun moyen pour un logiciel d'annotation de résoudre facilement ces problèmes : la seule solution est d'améliorer les assemblages et de ré-annoter.


Un nombre croissant de variantes d'épissure

L'ARN-seq a également révélé une autre surprise : l'épissage alternatif, l'initiation alternative de la transcription et la terminaison alternative de la transcription se produisaient beaucoup plus fréquemment que quiconque auparavant, affectant peut-être jusqu'à 95 % des gènes humains [7, 8]. L'implication de ces découvertes est que même si nous savons où se trouvent tous les gènes, nous avons encore un travail considérable pour découvrir toutes les isoformes de ces gènes, et encore plus de travail pour déterminer si ces isoformes ont une fonction ou si elles représentent simplement des erreurs d'épissage. , comme certains l'ont soutenu [9].


Gène : types et fonctions du gène

Le terme gène a été introduit par Johanssen en 1909. Avant lui, Mendel avait utilisé le mot facteur pour une unité particulaire spécifique, distincte et particulaire de l'hérédité qui participe à l'expression d'un trait. Johanssen a défini le gène comme une unité élémentaire d'hérédité qui peut être attribuée à un trait particulier.

Les travaux de Morgan suggèrent que le gène est le segment le plus court du chromosome qui peut être séparé par croisement, peut subir une mutation et influencer l'expression d'un ou plusieurs traits. Presently, a gene is defined as a unit of inher­itance composed of a segment of DNA or chromosome situated at a specific locus (gene locus) which carries coded information associated with a specific function and can undergo crossing over as well as mutation.

(i) A unit of genetic material which is able to replicate,

(ii) It is a unit of recombination, i.e., capable of undergoing crossing over,

(iii) A unit of genetic material which can undergo mutation,

(iv) A unit of heredity connected with somatic structure or function that leads to a phenotypic expression. Lewin (2000) has defined gene to be a sequence of DNA that codes for a diffusible product.

From their work on Neurospora auxotrophs, Beadle and Tatum (1948) proposed one- gene one-enzyme hypothesis and defined gene as a unit of hereditary material that specifies a single enzyme. Yanofsky et al (1965) observed that certain enzymes could be composed of more than one polypeptide.

They replaced one-gene one-enzyme hypothesis with one gene one-polypeptide hypothesis (gene is a unit of hereditary material that specifies the synthesis of a single polypeptide). By this time it had become clear that hereditary material of chro­mosome is DNA and that a gene is linear segment of DNA called cistron.

Therefore, the term cistron has become synonym with gene. Further, a gene or cistron can not only synthesise a polypeptide but also ribosomal or transfer RNA. Cistron (or gene) is a segment of DNA consisting of a stretch of base sequences those codes for one polypeptide, one transfer RNA (tRNA) or one ribosomal RNA (rRNA) molecule. Currently such a gene is called structural gene.

The genetic system also contains a number of regulatory genes which control the functioning of structural genes. However, there are several exceptions e.g., overlapping genes, poly-protein genes, split genes, etc.

A gene or cistron has many positions or sites where mutations can occur. A change in single nucleotide can give rise to a mutant phenotype, e.g., sickle cell anaemia. Similarly, two defective cistrons may recombine to form a wild type cistron. Despite the above changes in the concepts of structural mutational and re-combinational features of the gene, the func­tional concept remains the same— it is a unit of heredity.

Types of Genes:

1. House Keeping Genes (Constitutive Genes):

They are those genes which are constantly expressing themselves in a cell because their products are required for the normal cellular activities, e.g., genes for glycolysis, ATP-ase

2. Non-constitutive Genes (Luxury Genes):

The genes are not always expressing themselves in a cell. They are switched on or off according to the requirement of cellular activities, e.g., gene for nitrate reductase in plants, lactose system in Escherichia coli. Non- constitutive genes are of further two types, inducible and repressible.

The genes are switched on in response to the presence of a chemical substance or inducer which is required for the functioning of the product of gene activity, e.g., nitrate for nitrate reductase.

They are those genes which continue to express themselves till a chemical (often an end product) inhibits or represses their activity. Inhibition by an end product is known as feedback repression.

5. Multigenes (Multiple Gene Family):

It is a group of similar or nearly similar genes for meeting requirement of time and tissue specific products, e.g., globin gene family (e, 5, (3, у on chromosome 11, oc and 8 on chromosome 16).

The genes occur in multiple copies because their products are required in larger quantity, e.g., histone genes, tRNA genes, rRNA genes, actin genes.

The genes are present in single copies (occasionally 2—3 times), e.g., protein coding genes. They form 60—70% of the functional genes. Duplica­tions, mutations and exon reshuffling can form new genes.

They are genes which have homology to functional genes but are unable to produce functional products due to intervening nonsense codons, insertions, de­letions and inactivation of promoter regions, e.g., several of snRNA genes.

They are eukaryotic genes which lack introns. Processed genes have been formed probably due to reverse transcription or retroviruses. Processed genes are generally non-functional as they lack promoters.

They were discovered in 1977 by many workers but credit is given to Sharp and Roberts (1977). Split genes are those genes which possess extra or nonessential regions interspersed with essential or coding parts. The nonessential parts are called introns, spacer DNA or intervening sequences (IVS). Essential or coding parts are called exons. Transcribed intronic regions are removed before RNA passes out into cytoplasm. Split genes are characteristic of eukaryotes.

However, certain eukaryotic genes are completely exonic or non-split e.g., histone genes, interferon genes. Split genes have also been recorded in prokaryotes, thymidylate synthase gene and ribonucleotide reductase gene in T4. A gene that produces calcitonin in thyroid forms a neuropeptide in hypothalamus by removing an exon. Adenovirus has also a mechanism to produce 15—20 different proteins from a single tran­scriptional unit by differential splicing.

11. Transposons (Jumping Genes Hedges and Jacob, 1974):

They are segments of DNA that can jump or move from one place in the genome to another. Transposons were first discovered by Me Clintock (1951) in case of Maize when she found that a segment of DNA moved into gene coding for pigmented kernels and produced light coloured kernels.

Transposons possess repetitive DNA, either similar or inverted, at their ends, some 5, 7 or 9-nucleotide long. Enzyme transposase separates the segment from its original by cleaving the repetitive sequences at its ends.

There are many types of transposons. In human beings the most common types of transposons belong to Alu family (having a site for cutting by restriction enzyme Alu I). The number of nucleotides per transposon is about 300 with about 300,000 copies in the genome. Passage of transposons from one place to another brings about reshuffling of nucleotide sequences in genes. Reshuffling in introns often changes expression of genes, e.g., proto-oncogenes → oncogenes. New genes may develop by exon shuffling. Other changes caused by transposons are mutations, through insertions, deletions and translocations.

In ф x 174, genes В E and К overlap other genes.

Structural genes are those genes which have encoded informa­tion for the synthesis of chemical substances required for cellular machinery.

The chemical substances may be:

(a) Polypeptides for the formation of structural proteins (e.g., colloidal complex of protoplasm, cell membranes, elastin of ligaments, collagen of tendons or carti­lage, actin of muscles, tubulin of microtubules, etc.). (b) Polypeptides for the synthesis of enzymes,

(c) Transport proteins like haemoglobin of erythrocytes, lipid transporting pro­teins, carrier proteins of cell membranes, etc.

(d) Proteinaceous hormones, e.g., insulin, growth hormone, parathyroid hormone,

(e) Antibodies, antigens, certain toxins, blood coagu­lation factors, etc.

(f) Non-translated RNAs like tRNAs, rRNA. Broadly speaking, structural genes either produce mRNAs for synthesis of polypeptides/proteins/enzymes or noncoding RNAs.

14. Regulatory Genes (Regulatory Sequences):

Regulatory genes do not transcribe RNAs for controlling structure and functioning of the cells. Instead, they control the func­tions of structural genes. The important regulatory genes are promoters, terminators, operators and repressor producing or regulator genes. Repressor does not take part in cellular activity. Instead, it regulates the activity of other genes. Therefore, repressor producing gene is of intermediate nature.

15. Tissue Specific Genes:

They are genes which are expressed only in certain specific tissues and not in others.

Gene Functions:

(i) Genes are components of genetic material and are thus units of inheritance,

(ii) They control the morphology or phenotype of individuals,

(iii) Replication of genes is essential for cell division,

(iv) Genes carry the hereditary information from one generation to the next,

(v) They control the structure and metabolism of the body,

(vi) Reshuffling of genes at the time of sexual reproduction produces variations,

(vii) Different linkages are produced due to crossing over,

(viii) Genes undergo mutations and change their expression,

(ix) New genes and consequently new traits develop due to reshuffling of exons and introns.

(x) Genes change their expression due to position effect and transposons.

(xi) Differentiation or formation of different types of cells, tissues and organs in various parts of the body is controlled by expression of certain genes and non-expression of others,

(xii) Development or production of different stages in the life history is controlled by genes.


Voir la vidéo: GÉNÉTIQUE II Vidéo 2 Génétique des populations (Décembre 2021).