Informations

Comment les biologistes déduisent-ils l'ORF correct d'une séquence d'ADN ?


Chaque séquence d'ADN (ARN) a 6 cadres de lecture ouverts (ORF) possibles. Ma question est la suivante : quelles sont les bases théoriques de in vitro ou in silico essaie de trouver le cadre de lecture correct d'une séquence ?

S'agit-il simplement de la distance entre les codons Start et Stop, ou existe-t-il d'autres facteurs ayant des impacts plus importants sur ce sujet ?


TransDecoder est un programme couramment utilisé pour extraire des régions codantes probables à partir d'assemblages de transcriptome, qui effectue les opérations suivantes pour effectuer un appel :

TransDecoder identifie les séquences de codage probables sur la base des critères suivants :

  • un cadre de lecture ouvert (ORF) de longueur minimale est trouvé dans une séquence de transcription
  • un score de log-vraisemblance similaire à celui calculé par le logiciel GeneID est > 0.
  • le score de codage ci-dessus est le plus élevé lorsque l'ORF est noté dans le 1er cadre de lecture par rapport aux scores dans les 5 autres cadres de lecture.
  • si un ORF candidat est trouvé entièrement encapsulé par les coordonnées d'un autre ORF candidat, le plus long est signalé. Cependant, un seul transcrit peut rapporter plusieurs ORF (autorisant les opérons, les chimères, etc.).
  • facultatif, le peptide putatif a une correspondance avec un domaine Pfam au-dessus du score de coupure de bruit.

Donc, en substance, recherchez l'ORF le plus long, puis utilisez une métrique secondaire (modèle de Markov caché, tableau de pondération de position, requête de base de données, etc.) pour affiner votre prédiction.


Comment les biologistes déduisent-ils l'ORF correct d'une séquence d'ADN ? - La biologie

Il y a quelques années, le généticien pionnier Craig Venter est devenu viral en n'apparaissant pas dans un clip vidéo. Le présentateur d'un biologiste de TED talk&mdasha nommé Riccardo Sabbatini&mdash a accueilli Venter sur scène pour expliquer la quantité stupéfiante d'informations dans le code génétique humain. Alors que les gens commençaient à applaudir, cinq assistants ont émergé des coulisses, faisant rouler des chariots contenant 175 livres de la taille d'une encyclopédie sur la scène. Venter, le véritable scientifique ne viendrait pas, a expliqué Sabbatini, mais à l'intérieur de ces livres se trouvaient 262 000 pages contenant les 3 milliards de lettres d'ADN du génome de l'homme éminent et "la perception visuelle du code de la vie". Le public a eu le souffle coupé lorsque Sabbatini a ouvert l'un des livres : même étendues sur 175 volumes, les lettres devaient être écrites si petites que chaque page ressemblait à un carré noir rempli de points.

C'est le grand défi auquel sont confrontés les détectives génétiques d'aujourd'hui. Il y a près de deux décennies, le projet du génome humain a achevé la première carte complète de nos gènes, promettant de nouvelles perspectives grandioses sur les maladies et les traitements, mais il a été extrêmement difficile de donner un sens significatif à ce flot de données. Désormais, les biologistes informaticiens connaissant les logiciels exploitent les progrès de l'apprentissage automatique et de l'exploration de données pour commencer à faire ce que l'esprit humain seul ne pourrait pas. Ils effectuent des comparaisons entre les individus et entre les espèces, à la recherche de modèles significatifs. Ils identifient quelles parties du génome, une fois mutées, sont les plus susceptibles de provoquer une maladie. Et certains ont commencé à appliquer de nouveaux outils d'analyse pour sauver des vies.

« Nous commençons à voir l'application d'approches d'apprentissage automatique dans l'interprétation des variations génétiques chez les patients humains », a déclaré David Goldstein, directeur fondateur de l'Institute for Genomic Medicine du Columbia University Medical Center.

C'est une approche pionnière à l'Université de Californie à Santa Cruz (UCSC) au début des années 2000, avec une grande partie des travaux clés effectués par un jeune étudiant diplômé ayant une formation en biologie et en informatique nommé Adam Siepel. À ce moment-là, les généticiens avaient déjà séquencé le code génétique beaucoup plus petit d'une autre espèce, le poisson Fugu. Peu de temps après, ils ont terminé le génome humain, rapidement suivi par les génomes de souris et de rat. Les chercheurs ont aligné les différents codes de comparaison, dans l'espoir d'identifier les régions génétiques les plus importantes, explique Jim Kent, le chercheur scientifique de l'UCSC qui avait dirigé l'effort pour assembler ce premier génome humain complet.

Après que Kent et ses collègues aient mis en place le projet, il est revenu à Siepel de concevoir un programme qui a transformé la comparaison entre les espèces en une base de données consultable. L'objectif était de permettre aux chercheurs du monde entier de saisir des séquences génétiques spécifiques et de recevoir un résultat prédisant la probabilité que cette séquence ait une certaine importance fonctionnelle. Kent et son équipe ont estimé que si un certain morceau d'ADN apparaît presque le même à travers des espèces divergentes et qu'il est « hautement conservé », dans la terminologie de la génétique, il doit être crucial pour la vie.

"Nous recherchions des choses qui semblaient avoir été soumises à une très forte sélection pour rester inchangées pendant des millions d'années, car si elles étaient conservées par l'évolution, elles seraient probablement importantes", explique Siepel, qui est maintenant président de le Simons Center for Quantitative Biology du Cold Spring Harbor Laboratory, une institution de recherche scientifique privée à but non lucratif de Long Island.

Adam Siepel scanne le génome humain pour trouver les sections les plus cruciales pour la santé et la survie.
Crédit : CSHL

En exécutant des données génétiques via des programmes informatiques de reconnaissance de formes, Siepel a développé des modèles mathématiques d'évolution qui ont identifié des séquences génétiques susceptibles d'être essentielles à la survie. Ces modèles ont été intégrés au UCSC Genome Browser, un site Web public contenant une copie du génome humain et une variété d'autres outils pour lui donner un sens. Le site comprenait également des outils de visualisation et des bases de données qui permettent au généticien de saisir un gène spécifique et d'afficher des annotations expliquant ce que l'on sait actuellement de son rôle et de sa fonction. À la grande surprise de Siepel, dit-il, sa piste sur le navigateur de génome "a décollé comme une traînée de poudre".

«Aujourd'hui, plusieurs centaines de milliers de chercheurs biomédicaux utilisent ces informations», déclare Benedict Paten, directeur du Computational Genomics Laboratory et directeur associé de l'UC Santa Cruz Genomics Institute, se référant spécifiquement à la base de données à code conservé de Siepel. « Cela a eu un impact énorme. »

Siepel a depuis continué à s'appuyer sur cette approche. Dans un article de 2015 en Génétique de la nature, il a dévoilé une nouvelle méthode de calcul qui analyse les variations au sein de l'ensemble du génome humain, plutôt qu'entre les espèces, pour attribuer ce qu'il appelle un "score de conséquence sur la condition physique (fitCons)", pour estimer la probabilité qu'une mutation spécifique dans la vaste séquence génétique causer des problèmes. À titre d'exemple de la puissance de petits changements dans le génome, une erreur de seulement deux lettres génétiques sur le chromosome humain 14 peut amener une personne à avoir encore la fibrose kystique, sans espoir de guérison.

"Plus le score fitCons est élevé, plus la mutation est rare dans la population humaine, ce qui implique que ceux qui en ont une ne survivront probablement pas assez longtemps pour transmettre cette mutation à leur progéniture", explique Siepel. En 2017, il a introduit une méthode de calcul connexe appelée LINSIGHT, visant à faciliter la prédiction de l'impact des mutations qui agissent indirectement : elles n'affectent pas les gènes qui dirigent la création de protéines vitales dans le corps, mais elles changent plutôt de parties de l'ADN qui modulent l'action de ces gènes codant pour les protéines.

En parallèle, Goldstein et ses collègues ont mis au point une méthode d'exploration de données qui examine le taux de variabilité au sein des populations humaines et la mesure dans laquelle les mutations semblent n'avoir aucun effet délétère. Leurs résultats permettent d'écarter plus facilement certaines mutations comme cause de la maladie. Ils appellent leur approche le « score d'intolérance ». Il fonctionne en calculant le taux de variation entre les populations humaines. En moyenne, chaque personne naîtra avec environ 100 nouvelles mutations, qui devraient être dispersées au hasard dans le génome. En analysant l'ADN d'un grand nombre de personnes, Goldstein peut alors voir combien de mutations apparaissent réellement dans une séquence spécifique d'ADN et à quelle fréquence elles sont transmises. De cette façon, lui et son équipe peuvent déduire combien de mutations cette séquence « tolérera » avant qu'elle n'ait un impact négatif sur la santé et que la pression de sélection ne commence à l'éliminer.

Si une séquence donnée a beaucoup moins de mutations que prévu dans la population globale, Goldstein lui signalerait un score de tolérance faible, ce qui signifie qu'elle mérite une étude plus approfondie. Plus le score de tolérance est bas, plus cette séquence est susceptible d'être l'une des sources de problèmes pour un patient atteint d'une mystérieuse maladie génétique.

Ces divers outils fonctionnent ensemble pour aider les médecins à déterminer lesquelles des nombreuses caractéristiques génétiques inhabituelles d'un patient pourraient être à l'origine de problèmes de santé. "Il n'est pas rare de trouver des milliers de candidats raisonnables, parmi lesquels un patient peut en avoir eu cinquante ou cent qui sont tout à fait plausibles", explique Kent de l'UCSC. Des outils tels que la conséquence de la condition physique de Siepel pourraient réduire ce nombre par un fait de cinq, et le score de tolérance de Goldstein pourrait le réduire encore plus.

Les avantages de la biologie computationnelle sont bien plus importants. Bientôt, il pourrait être possible d'introduire la séquence d'ADN d'un patient dans un programme informatique et, en utilisant l'intelligence artificielle, de recevoir un diagnostic instantané et automatisé et une analyse des parties du génome qui causent la maladie. Une fois que les médecins ont identifié les mécanismes biologiques spécifiques à l'origine de ces maladies, ils pourraient être en mesure de synthétiser des médicaments adaptés au génome spécifique de ce patient ou, peut-être, de corriger la section défectueuse de l'ADN à l'aide d'un outil d'édition de gènes connu sous le nom de CRISPR. Mais le piratage du génome aide déjà les médecins à sauver des vies.

Goldstein cite l'exemple d'une fillette de quatre ans atteinte d'une maladie neurologique progressive qui avait affaibli le haut de son corps au point qu'elle ne pouvait plus lever les bras ou tenir la tête. Ses médecins étaient en grande partie perplexes et craignaient qu'elle ne meure. Mais en appliquant les outils de la biologie computationnelle pour compléter sa propre expertise et expérience médicales, Goldstein a pu détecter toutes les mutations spécifiques à son ADN et identifier les deux les plus susceptibles de causer les problèmes de la jeune fille. Finalement, en considérant également ses symptômes, lui et son équipe ont découvert une mutation d'un gène important dans la capacité du corps à absorber la vitamine B2 et la maladie mdasha si rare qu'elle se trouve chez environ 60 personnes dans le monde. Quelques mois après avoir pris des suppléments vitaminiques par voie orale, la jeune fille a pu rendre visite à ses médecins pour les remercier en courant dans le couloir, leur donnant à tous des high-five.

Dans ce cas, guérir le patient nécessitait un mélange de détective médical à l'ancienne et d'apprentissage automatique de pointe. C'est la façon dont la médecine est susceptible de rester pendant un certain temps, mais avec les machines de piratage génétique qui tendent de plus en plus la main. « Il y a plus d'enthousiasme pour ce que les approches d'apprentissage automatique pourraient faire à l'avenir que pour le grand impact qu'elles ont aujourd'hui. La réalité est que les applications les plus sérieuses de la génomique dans un contexte médical nécessitent toujours un jugement d'expert », déclare Goldstein.

La raison, explique-t-il, revient aux 3 milliards de lettres d'ADN (ou aux 262 000 pages imprimées) du génome humain. L'apprentissage automatique fonctionne bien lorsqu'il est appliqué à un ensemble de données déjà bien exploré. Par exemple, les informaticiens qui tentent de concevoir des voitures autonomes peuvent s'appuyer sur une connaissance détaillée des règles de la route, des comportements des conducteurs, des obstacles courants, des causes d'accidents, etc. "L'intelligence artificielle peut très bien commencer à conduire des voitures parce que l'espace de ce qui se passe lorsque vous conduisez une voiture est raisonnablement exploré, mais les approches d'IA directes pour l'interprétation du génome ne fonctionnent pas bien en ce moment", note Goldstein. Et même avec cet avantage, les véhicules entièrement autonomes ne sont pas encore assez bons pour se lancer dans le monde.

Le projet LINSIGHT de Siepel sera important pour fournir des informations sur l'ensemble du génome humain, et pas seulement sur le 1% qui a une fonction biologique bien comprise. Pendant ce temps, la notation de l'intolérance aidera en identifiant les parties du génome humain qui sont les plus susceptibles d'être associées à la maladie et sur la base entièrement d'une analyse de données informatisée, sans aucune hypothèse ou biais humain dans le mélange. Goldstein pense que les scientifiques devront compiler et comparer les gènes de millions de personnes avant qu'une IA puisse analyser utilement l'ensemble de votre constitution génétique, identifier les problèmes et indiquer des traitements spécifiques.

"Donc, pour ceux d'entre nous qui se considèrent comme des experts informés dans l'interprétation de la variation génomique, je pense que nous avons encore des emplois pendant au moins cinq ans et plus", dit-il. Après cela, cependant, une révolution encore plus grande attend.


ADN recombinant

Beaucoup de nos médicaments, une grande partie de notre nourriture et même nos vêtements sont maintenant produits à l'aide de la technologie de l'ADN recombinant. Au lieu de dépendre d'une mutation aléatoire et d'une sélection naturelle ou artificielle, nous avons maintenant la capacité de manipuler directement les gènes des organismes pour créer de nouvelles protéines et de nouvelles capacités dans nos bactéries, champignons, plantes et animaux domestiqués.

Clonage moléculaire

Les biologistes moléculaires ont inventé le terme "clonage moléculaire" pour décrire le processus de réplication sélective d'un segment choisi d'ADN. Le segment d'ADN cloné peut être répliqué dans une cellule, en utilisant la technologie « ADN recombinant » ou dans un tube à essai, en utilisant la réaction en chaîne par polymérase (PCR).

La technologie de l'ADN recombinant conduit à des organismes génétiquement modifiés (OGM). L'ADN recombinant nécessite 3 outils moléculaires clés :

  1. La coupe de l'ADN à des sites spécifiques est le plus souvent effectuée par des enzymes appelées endonucléases de restriction (enzymes de restriction). Les enzymes de restriction effectuent souvent des coupes décalées au niveau de séquences palindromiques spécifiques de 4, 6 ou 8 pb dans l'ADN duplex, laissant des «extrémités collantes» caractéristiques qui peuvent s'hybrider les unes aux autres via une liaison hydrogène entre des bases complémentaires sur les surplombs simple brin.
  2. Ligature de fragments d'ADN avec une enzyme appelée ADN ligase. L'ADN ligase, la même enzyme utilisée lors de la réplication de l'ADN cellulaire pour lier les fragments d'Okazaki, crée des liaisons phosphodiester covalentes entre deux fragments d'ADN qui ont été coupés par la même enzyme de restriction, ou qui ont les mêmes "extrémités collantes" compatibles.
  3. Un “vecteur”, tel qu'un plasmide, qui peut être utilisé pour insérer un nouveau segment d'ADN via la coupe et la ligature d'enzymes de restriction. Le plasmide contenant le segment d'ADN inséré se répliquera dans les cellules hôtes.

L'alternative à l'utilisation de plasmides recombinants consiste à copier et à amplifier directement un segment d'ADN spécifique par PCR. La PCR nécessite une paire d'amorces qui correspondent aux extrémités du segment d'ADN souhaité.

Même des segments d'ADN aléatoires, où les séquences de bases sont inconnues, peuvent être amplifiés en ligaturant des amorces adaptatrices, de courts segments d'ADN synthétique de séquence connue, aux extrémités des molécules d'ADN cibles.

Clonage de gènes eucaryotes

Le clonage moléculaire de gènes eucaryotes est souvent soit irréalisable, soit indésirable, ou les deux, car ils contiennent de nombreux grands introns. Les vecteurs plasmidiques ont une taille limite pratique de moins de 10 kilo-paires de bases (kpb), et la PCR est également difficile au-delà d'environ 10 kb.

L'ARNm, dépourvu d'introns, est une version compacte d'un gène eucaryote qui conserve toutes les informations de codage des protéines. L'enzyme transcriptase inverse peut être utilisée, avec une amorce oligo-dT complémentaire de la queue polyA, pour synthétiser une molécule d'ADN complémentaire (ADNc). L'ADNc peut ensuite être cloné dans un plasmide ou amplifié par PCR en ligaturant des adaptateurs qui contiennent des sites de clivage par endonucléase de restriction ou des séquences d'amorces PCR.

Un ADNc est synthétisé à partir d'ARNm en utilisant une transcriptase inverse et des amorces oligo-dT. La transcriptase inverse dégradera également l'ARNm de la molécule hybride ADNc:ARNm. L'ADN polymérase utilise les fragments d'ARNm ou les amorces aléatoires pour synthétiser le 2e brin de la molécule d'ADNc. Des adaptateurs avec des sites d'endonucléase de restriction ou des séquences d'amorces PCR peuvent être ligaturés aux extrémités de l'ADNc terminé pour faciliter le clonage dans des plasmides ou l'amplification par PCR. Illustration originale de J. Choi

Exprimer des gènes clonés : les organismes génétiquement modifiés


Une carte de pUC18, figure 1 de Bensasson et al. 2004 Hérédité 92:483 Un organisme génétiquement modifié (OGM) est un organisme qui a été manipulé afin qu'il porte du nouveau matériel génétique, soit d'une espèce différente, soit synthétisé en laboratoire. Le but de la création d'OGM est généralement de modifier leurs traits, le plus souvent pour qu'ils expriment un nouveau gène.

Expression de gènes étrangers chez les bactéries

Les vecteurs plasmidiques pour le clonage et l'expression dans les bactéries (voir la carte pUC18 ci-dessus) doivent avoir

  • Une origine de réplication de l'ADN (ou Je) qui dirige leur réplication dans la cellule hôte
  • sites d'endonucléase de restriction (polylinker) qui se produisent une seule fois sur le vecteur, pour l'insertion de segments d'ADN clonés
  • un gène marqueur sélectionnable, tel que la résistance aux antibiotiques (bla code pour la bêta-lactamase pour la résistance à l'ampicilline), de sorte que les cellules qui ne contiennent pas le plasmide peuvent être éliminées
  • un moyen de distinguer les cellules qui ont le plasmide d'origine des cellules qui ont un plasmide recombinant.
  • un promoteur pour conduire la transcription (et la traduction) du gène étranger inséré

La dernière caractéristique est importante car la ligature des segments d'ADN plasmidiques et étrangers favorise la religature des extrémités du plasmide sans insert d'ADN étranger, ce qui donne le plasmide original "vide" sans insert d'ADN étranger. Les vecteurs plasmidiques ont donc le site de clonage dans un deuxième gène de résistance aux antibiotiques ou dans le lacZ gène (code pour la bêta-galactosidase). L'insertion d'un segment d'ADN étranger perturbera le gène. Colonies de E. coli les cellules qui ont des plasmides vides (pas d'ADN étranger inséré) ont un lacZ gène, produisent une bêta-galactosidase fonctionnelle et clivent un colorant incolore appelé X-gal pour libérer le colorant bleu insoluble X et virent au bleu. E. coli les cellules qui ont des plasmides avec des inserts d'ADN étrangers ne produisent pas de bêta-galactosidase et sont incapables de cliver X-gal. Ces colonies restent blanches. Les colonies bleues sont jetées et les colonies blanches sont prélevées pour des tests supplémentaires.

Clonage dans l'extrémité 5′ du lacZ gène signifie également que le E. coli cellule peut exprimer une protéine codée par l'ADN inséré. Les lac le promoteur fournit un moyen de réguler la transcription, et les séquences codant pour les protéines dans l'ADN inséré peuvent être exprimées sous la forme d'une protéine de fusion, contenant les premiers acides aminés du E. coli le gène de la bêta-galactosidase et tout acide aminé codé dans le même cadre de lecture par la séquence d'ADN insérée.

Expression de gènes étrangers chez les eucaryotes

Les vecteurs pour l'expression de gènes étrangers dans les cellules eucaryotes doivent fournir des promoteurs eucaryotes appropriés en amont du site de clonage, pour la transcription par la cellule hôte eucaryote, ainsi que des signaux de polyadénylation et de terminaison de transcription en aval. Pour les organismes unicellulaires tels que la levure et les cellules cultivées, des plasmides bactériens contenant des gènes étrangers peuvent être transformés dans les cellules. L'ADN plasmidique pénètre dans le noyau et s'insère à des emplacements aléatoires dans les chromosomes de la cellule hôte. Pour les organismes multicellulaires, la livraison de gènes dans les cellules de l'organisme pose des défis particuliers et nécessite des vecteurs et des méthodes de livraison spéciaux. Nous décrivons ces défis pour une application, la thérapie génique humaine, dans la section suivante.

Thérapie génique

La thérapie génique pose un défi particulier dans la fourniture d'ADN recombinant dans les cellules hôtes. La technologie de l'ADN recombinant peut facilement cloner une copie fonctionnelle d'un gène défectueux et l'insérer dans un vecteur avec les séquences régulatrices correctes. Mais comment introduire ce gène fonctionnel dans les cellules d'une personne déjà née ? Les techniques les plus prometteuses utilisent des virus. Les virus ont évolué pour être très efficaces pour transmettre leur propre information génétique aux cellules hôtes. Le remplacement des gènes de réplication virale par un gène thérapeutique humain élimine la capacité du virus à se répliquer, tout en cooptant le mécanisme d'infection virale pour délivrer le gène thérapeutique dans les noyaux des cellules hôtes.

Même alors, seul un petit pourcentage de cellules est infecté et réparé (rappelez-vous que ces virus thérapeutiques ne peuvent pas se répliquer pour infecter d'autres cellules). De plus, les avantages de la thérapie génique virale sont de courte durée, car les cellules « réparées » vieillissent, meurent et sont remplacées par des cellules génétiquement non modifiées.

Une solution prometteuse à ces défis est de trouver et de modifier génétiquement cellules souches, ces cellules qui continueront à se diviser et à reconstituer les cellules du corps pour le reste de la vie du patient. Les cellules souches génétiquement modifiées peuvent être renvoyées dans le corps du patient et ont le potentiel de fournir et de reconstituer des cellules sanguines et des tissus génétiquement modifiés pour le reste de la vie du patient.

Édition du génome

Une technologie développée ces dernières années et largement adoptée dans les laboratoires de recherche du monde entier est la technologie CRISPR-Cas9 et ses variantes. CRISPR signifie C lustered R egularly I nterspersed S hort Palindromic R epeats. Cas9 est une enzyme protéique qui lie les ARN courts fabriqués à partir des gènes CRISPR pour reconnaître et cliver les séquences d'ADN qui correspondent aux ARN CRISPR. Cette technologie permet aux chercheurs de supprimer, d'ajouter ou de remplacer des morceaux particuliers d'ADN dans une cellule. L'édition du génome humain peut être moins controversée que la modification génétique humaine, car aucun ADN non humain n'est ajouté.

Voici une vidéo de conférence TED de Jennifer Doudna, l'une des développeurs de la technologie CRISPR et lauréate du 202e prix Nobel de chimie :

Essentiellement, Cas9 est une protéine qui coupe l'ADN. Alors que les endonucléases de restriction coupent l'ADN sur des sites fixes, Cas9 est programmable. Cas9 cible le site d'ADN à couper en utilisant un ARN guide court (ARNsg). Cas9 se lie au sgRNA et coupe l'ADN partout où le sgRNA se lie à une séquence d'ADN complémentaire. Ainsi, dans n'importe quel organisme où la séquence du génome est connue, les scientifiques peuvent créer un sgRNA pour cibler une séquence d'ADN particulière dans le génome et la couper. Une fois que Cas9 a coupé l'ADN pour créer une rupture d'ADN double brin, le système de réparation de l'ADN de la cellule coupe les extrémités cassées et les ligature ensemble, créant souvent de petites délétions à la suite de la coupe. Si une séquence d'ADN homologue est disponible (correspond aux séquences autour des extrémités coupées), le système de réparation de l'ADN de la cellule utilise l'ADN correspondant comme modèle pour réparer la rupture de l'ADN. Ce système de réparation dépendant de l'homologie copie les informations de séquence dans la matrice d'ADN lorsqu'il relie les extrémités cassées ensemble. En fournissant la protéine Cas9, l'ARN sg et une matrice d'ADN homologue qui inclut un changement souhaité, les scientifiques ont réussi à apporter des modifications précises aux génomes de nombreux types de cellules et d'organismes, y compris des cellules humaines en culture.

Protéine Cas9 et ARNsg liés à l'ADN cible, sur la base de la structure d'Anders et al 2014 Nature. CC-BY-SA par le projet Wiki Cas9.

Après le clivage par Cas9, le système de réparation des cassures d'ADN de la cellule utilisera une séquence d'ADN homologue pour remplacer le gène ciblé, ou utilisera une jonction d'extrémité non homologue qui provoque de petites mutations par délétion. Modifié par JChoi à partir de l'image CC-BY-SA de Carroll, D. Ingénierie du génome avec des nucléases à doigts de zinc. Société de génétique d'Amérique, 2011, 188(4), pp 773-782.

Mets le tout ensemble:

En classe, nous discuterons de la manière dont ces concepts sont appliqués aux méthodes actuelles de thérapie génique en cours de recherche et de développement.

Vidéo de conférence du Dr Choi sur la technologie de l'ADN recombinant (en un seul morceau de 39 minutes, jusqu'à ce que je trouve le temps de le refaire en plusieurs courts segments):


Comment les biologistes déduisent-ils l'ORF correct d'une séquence d'ADN ? - La biologie

Quelle est la probabilité qu'un étudiant de Berkeley spécialisé en biologie intégrative redevienne professeur dans le même département ? La probabilité est plus élevée que vous ne le pensez. L'IB compte trois professeurs qui étaient d'anciens étudiants de premier cycle, sur un total de 37 professeurs, mais un seul de ces trois anciens/professeurs est aussi versé en probabilités que le Dr John Huelsenbeck. Probablement.

Huelsenbeck est un biologiste computationnel et évolutionniste. Il s'intéresse à la façon de reconstruire l'histoire phylogénétique de la vie - le problème de la phylogénie - en comparant des séquences d'ADN prélevées sur différentes espèces. Le résultat d'une analyse phylogénétique est un arbre, représentant les relations des espèces. Une grande partie de ses recherches concerne un domaine statistique appelé inférence bayésienne, qui permet aux scientifiques de tenir compte de l'incertitude dans leurs analyses.

Mais ses intérêts ne s'arrêtent pas là. "Je suis également intéressé par ce que vous pouvez faire avec les phylogénies une fois que vous les avez, quels types de questions évolutives vous pouvez aborder avec les phylogénies."

Lorsque Huelsenbeck était étudiant à Berkeley, il s'est intéressé à la paléontologie. Il a suivi les cours de Carol Hickman et a travaillé sur le terrain avec David Lindberg, des professeurs qui sont maintenant ses collègues.

En tant qu'étudiant diplômé en paléontologie à l'Université du Texas à Austin, Huelsenbeck essayait de déterminer si l'on devait inclure des fossiles dans une analyse phylogénétique. "Les fossiles posent un problème pour l'analyse phylogénétique. Un fossile est incomplet par rapport aux organismes vivants où l'on peut séquencer le génome ou comparer les tissus mous à d'autres espèces. D'un autre côté, les fossiles peuvent avoir une forme plus proche de l'ancêtre », et ainsi le fossile peut fournir des informations importantes qui ne sont disponibles chez aucune espèce vivante. La question était simple : l'inclusion d'un fossile dans une analyse phylogénétique aide-t-elle à résoudre la phylogénie, malgré la relative incomplétude de ce fossile ? Huelsenbeck a fait des simulations informatiques pour explorer ce problème, et cela a changé la trajectoire de ses recherches : " J'ai vraiment aimé coder et programmer et répondre aux questions d'un point de vue théorique. "

Huelsenbeck a continué à travailler sur le problème de la phylogénie. Les phylogénies sont généralement construites en utilisant les séquences d'ADN de plusieurs organismes. Cependant, un ensemble de données peut produire de nombreux arbres évolutifs possibles, selon les hypothèses que le chercheur fait sur le processus d'évolution. Chaque arbre a une probabilité de représenter les vraies relations, compte tenu des données disponibles. Huelsenbeck s'est intéressé à comparer les probabilités de différentes phylogénies, en utilisant une méthode statistique appelée inférence bayésienne.

L'inférence bayésienne tire son nom d'un théorème introduit pour la première fois par Thomas Bayes, un ministre et mathématicien vivant dans l'Angleterre du XVIIIe siècle. Le théorème de Bayes décrit comment on peut mettre à jour les croyances sur une hypothèse à la lumière de nouvelles données. "Je considère l'inférence bayésienne comme un modèle pour la façon dont la science fonctionne, ou devrait fonctionner", déclare Huelsenbeck. "Les scientifiques commencent avec un ensemble de croyances sur le monde, qu'ils testent par l'expérimentation. Un bayésien affirme que ces croyances sur le monde peuvent être exprimées sous forme de probabilités. » Le scientifique fait alors quelques observations expérimentales. À la lumière de ces nouvelles observations, dit Huelsenbeck, "Si vous êtes un scientifique, vous devriez modifier ces croyances d'une manière ou d'une autre. Le théorème de Bayes vous dit comment vous devez modifier ces croyances, comment vous devez modifier vos probabilités concernant différentes hypothèses.

Huelsenbeck explique cela à l'aide d'un exemple. Imaginez un nouveau-né, "un bébé très logique qui connaît bien les probabilités", dit-il, qui, après avoir observé le coucher et le lever du soleil, se demande si ce cycle se répétera. Ce bébé génial a également accès à une réserve à vie de billes noires et blanches. Pensant que les deux événements - une répétition du cycle coucher/lever du soleil et l'alternative sinistre - sont également probables, il met à la fois une bille noire et une bille blanche dans son sac. La bille noire représente une répétition du cycle, tandis que la bille blanche représente un jour (ou une nuit) continuel. Chaque jour ensuite, après avoir observé un autre cycle coucher/lever de soleil, il met une bille noire dans le sac, représentant une autre répétition de coucher/lever de soleil. "Après une vie d'expérience et après avoir assisté à des milliers de couchers de soleil, le sac du bébé va contenir de très nombreuses billes noires, représentant toutes les preuves expérimentales qu'il a accumulées. La seule bille blanche représente l'incertitude initiale du bébé."

Mais qu'est-ce que toutes ces billes ont à voir avec les arbres évolutifs ? Fondamentalement, vous voulez calculer la probabilité qu'un arbre particulier soit correct, en fonction de vos données - votre sac de billes, ou dans une analyse phylogénétique, une collection de séquences d'ADN. L'inférence bayésienne vous permet de comparer chaque arbre à tous les autres arbres possibles qui pourraient être créés à l'aide de vos données. C'est en fait encore plus compliqué - chaque arbre est créé à l'aide d'un modèle d'évolution, et chaque modèle a beaucoup de paramètres qui lui sont associés. Et, dit Huelsenbeck, « la façon la plus raisonnable de traiter le grand nombre de paramètres est dans un cadre bayésien ».

En fin de compte, l'inférence bayésienne vous permet de déterminer la probabilité qu'un arbre donné soit le bon arbre. Ce qui vous permet de comparer les histoires évolutives possibles et de choisir celle qui s'est le plus probablement produite.

En 2000, Huelsenbeck a écrit un programme informatique qui utilise l'inférence bayésienne pour comparer les arbres phylogénétiques, afin de déterminer quel arbre a la plus grande probabilité d'être correct. Il a écrit le programme pour ses propres recherches, et il l'a nommé MrBayes, explique-t-il, comme une "blague intérieure" pour moi-même. comme MrBayes. En 2001, Huelsenbeck a doté le programme d'une interface utilisateur appropriée. "Après cela, les gens ont vraiment commencé à l'utiliser. Il compte maintenant plus de 6 000 citations."

Donc, si vous entendez les gens appeler le Dr Huelsenbeck comme M. Bayes, ce n'est pas parce qu'il a un alter ego dangereux, comme le Dr Jekyll et M. Hyde. C'est parce que Huelsenbeck a écrit ce qui est maintenant un programme extrêmement populaire pour les analyses phylogénétiques utilisant l'inférence bayésienne.

Récemment, Huelsenbeck a tourné son attention vers le problème de l'incertitude d'alignement. Pour créer des arbres évolutifs, les phylogénéticiens partent des séquences d'ADN de chacune des espèces d'intérêt. Ces séquences doivent être alignées - empilées les unes sur les autres. Ensuite, leurs relations évolutives sont déterminées, sur la base des similitudes et des différences dans les séquences. Les séquences ne s'alignent jamais parfaitement après tout, ce sont les différences qui permettent aux scientifiques de reconstruire les relations évolutives.

Habituellement, les scientifiques choisissent intentionnellement des sections du génome faciles à aligner. Mais il devient de plus en plus courant de construire des phylogénies basées sur des génomes entiers. Dans ce cas, ils ne doivent pas choisir les parties qu'ils utilisent, car toutes les parties du génome peuvent fournir des informations importantes.

Il existe de nombreux programmes informatiques différents qui alignent les séquences d'ADN, et ces programmes utilisent différentes méthodes. Huelsenbeck et ses collègues ont mené une étude pour voir si l'utilisation de différentes méthodes d'alignement produit différents alignements, et donc différents arbres phylogénétiques. En effet, c'est le cas. "Il y a beaucoup d'incertitude dans l'alignement, et vos résultats peuvent changer en fonction de la méthode d'alignement que vous utilisez." Huelsenbeck pense que les scientifiques devraient garder cela à l'esprit : "Nous suggérons qu'ils traitent les alignements comme une variable aléatoire, comme quelque chose qui est incertain, et qu'ils tiennent compte de l'incertitude dans l'analyse phylogénétique."

Huelsenbeck utilise un cadre bayésien pour examiner l'incertitude dans d'autres aspects de l'évolution. Dans l'un de ses projets, il s'intéresse à l'incertitude dans le choix d'un modèle d'évolution. Il existe plusieurs modèles d'évolution, qui décrivent la probabilité que différents types de changements se produisent le long d'une séquence d'ADN. Habituellement, les scientifiques utiliseront un modèle d'évolution dans leur analyse, bien qu'ils ne soient pas nécessairement sûrs qu'il s'agisse du modèle correct pour chaque gène (un gène peut suivre un modèle, tandis que le gène d'à côté en suit un autre). Huelsenbeck exhorte les gens à utiliser une classe de modèles, au lieu d'un seul, de sorte que le modèle lui-même comporte une certaine incertitude, qui est prise en compte dans l'analyse.

Alors que le travail de Huelsenbeck traite de beaucoup d'incertitudes, il est sûr d'une chose maintenant qu'il est de retour à Berkeley : "Je suis un fan de Cal."

Huelsenbeck enseignera un cours de phylogénétique statistique pour les étudiants diplômés, IB 206. Il enseigne également un cours d'introduction à la programmation, conçu pour les biologistes. Dans quelques années, il enseignera la section d'évolution de la biologie d'introduction (Bio 1B), ce qui, dit Huelsenbeck, « ​​serait formidable, car j'ai suivi ce cours en tant qu'étudiant de premier cycle. J'ai un peu de respect pour ça."


Analyse phylogénétique à cadre de lecture ouvert sur le cloud

L'analyse phylogénétique est devenue essentielle dans la recherche des relations évolutives entre les virus. Ces relations sont représentées sur des arbres phylogénétiques, dans lesquels les virus sont regroupés en fonction de la similarité des séquences. Les relations évolutives virales sont identifiées à partir de cadres de lecture ouverts plutôt que de séquences complètes. Récemment, le cloud computing est devenu populaire pour développer des outils bioinformatiques basés sur Internet. Biocloud est un service informatique bioinformatique efficace, évolutif et robuste. Dans cet article, nous proposons un service d'analyse phylogénétique à cadre de lecture ouvert basé sur le cloud. Le service proposé intègre le cadre Hadoop, la technologie de virtualisation et les méthodes d'analyse phylogénétique pour fournir un bioservice à haute disponibilité et à grande échelle. Dans une étude de cas, nous analysons les relations phylogénétiques entre Norovirus. Les relations évolutives sont élucidées en alignant différentes séquences de cadres de lecture ouverts. La plateforme proposée identifie correctement les relations évolutives entre les membres de Norovirus.

1. Introduction

La compréhension des relations évolutives entre les groupes d'organismes est devenue de plus en plus dépendante de l'analyse phylogénétique. Les phylogénies sont généralement présentées sous forme de diagrammes arborescents, appelés arbres phylogénétiques. Ces arbres sont construits à partir de similitudes et de différences génétiques entre différents organismes. L'analyse de séquence comparative est une méthode utile par laquelle on peut identifier un gène, déduire la fonction du produit d'un gène et identifier de nouveaux éléments fonctionnels. En comparant plusieurs séquences sur toute leur longueur, les chercheurs peuvent trouver des résidus conservés qui sont probablement préservés par la sélection naturelle. La reconstruction de séquences ancestrales peut révéler le timing et la directionnalité des mutations. Ces analyses comparatives reposent sur la construction de l'arbre phylogénétique.

Un cadre de lecture est un ensemble de triplets consécutifs ne se chevauchant pas de trois nucléotides consécutifs. Un codon est un triplet équivalent à un acide aminé ou à un signal d'arrêt pendant la traduction. Un cadre de lecture ouvert (ORF) est la section du cadre de lecture ne contenant aucun codon d'arrêt. Une protéine ne peut pas être fabriquée si la transcription de l'ARN cesse avant d'atteindre le codon d'arrêt. Par conséquent, pour s'assurer que le codon d'arrêt est traduit à la position correcte, le site de pause de terminaison de transcription est situé après l'ORF. Les ORF peuvent identifier des régions traduites dans des séquences d'ADN. Les ORF longs indiquent les régions codant pour une protéine candidate dans une séquence d'ADN. Les ORF ont également été utilisés pour classer diverses familles de virus [1–3], y compris les membres de Norovirus [3, 4]. L'Open Reading Frame Finder (ORF Finder) [5] est un outil d'analyse graphique qui recherche les cadres de lecture ouverts dans les séquences d'ADN. Le programme ORF Investigator [6] fournit des informations sur les séquences codantes et non codantes et effectue l'alignement par paires de différentes régions d'ADN. Cet outil identifie efficacement les ORF et les convertit en codes d'acides aminés, déclarant leurs positions respectives dans la séquence. L'alignement par paire détecte également les mutations, y compris les polymorphismes mononucléotidiques entre les séquences. StarORF [7] facilite l'identification de la ou des protéines codées dans une séquence d'ADN. Tout d'abord, la séquence d'ADN est transcrite en ARN et tous les ORF potentiels sont identifiés. Ces ORF sont codés dans chacun des six cadres de traduction (3 dans le sens direct et 3 dans le sens inverse), afin que les utilisateurs puissent identifier le cadre de traduction produisant la séquence codante de protéine la plus longue.

Plusieurs organismes biologiques ont mis en place des outils bioinformatiques sur des sites Web. Le National Center for Biotechnology Information (NCBI) [8] fournit de nombreux outils pour comparer les séquences de nucléotides ou de protéines stockées dans une base de données, y compris les algorithmes BLAST bien connus. NCBI fournit également plusieurs bases de données, telles que GenBank et SNP, dans lesquelles les biologistes peuvent rechercher des homologies ou des fonctions spécifiques. Le Laboratoire européen de biologie moléculaire (EMBL) [9] fournit gratuitement des données et des outils bioinformatiques en ligne à toutes les facettes de la communauté scientifique. Ces données et outils sont indispensables dans les études médicales et biologiques. La plupart de ces services sont accessibles via Internet et utilisés en ligne.

Le cloud computing est un concept récemment développé qui fournit des ressources informatiques, matérielles ou logicielles, sur Internet. De nombreux types de cloud computing ont été proposés, tels que l'infrastructure en tant que service (IaaS), la plate-forme en tant que service (PaaS), le logiciel en tant que service (SaaS), le réseau en tant que service (NaaS) et le stockage en tant que service (STaaS ). La plupart de ces services reposent sur la technologie de virtualisation, c'est-à-dire la création de plates-formes matérielles virtuelles, de systèmes d'exploitation, de périphériques de stockage et de ressources réseau.Le cloud computing est apprécié pour sa convivialité, sa virtualisation, son orientation centrée sur Internet, la variété des ressources, l'adaptation automatique, l'évolutivité, l'optimisation des ressources, le paiement à l'utilisation, les SLA de service (Accords de niveau de service) et les SLA d'infrastructure [10]. De nombreux fournisseurs de cloud computing distribuent ces ressources à la demande à partir de grands pools de ressources installés dans des centres de données. Amazon EC2 [11] fournit un service d'infrastructure, tandis que Google App Engine [12] et Azure Services Platform de Microsoft [13] fournissent des services de plate-forme. Dans le monde universitaire, de nombreux projets de cloud computing sont en cours de construction ou pleinement opérationnels [14-17].

Le cloud computing est essentiellement un système de distribution qui permet le calcul parallèle. Hadoop [18] est un framework logiciel open source qui prend en charge le calcul distribué à forte intensité de données. Sous Hadoop, les applications peuvent être implémentées sur de grands clusters d'ordinateurs de base. Le cluster Hadoop comprend un seul nœud maître et plusieurs nœuds esclaves. Le nœud maître attribue des tâches aux nœuds esclaves, qui terminent les tâches attribuées. Hadoop fournit le modèle de programmation MapReduce pour le traitement parallèle de grands ensembles de données. La tâche de calcul est divisée en de nombreuses petites tâches, chacune pouvant être exécutée ou réexécutée sur un nœud de calcul dans le cluster Hadoop. MapReduce fournit également un système de fichiers distribué, le Hadoop Distributed File System (HDFS), qui stocke les données sur les nœuds de calcul [19], permettant une bande passante agrégée très élevée à travers le cluster. Les deux map/reduce et le système de fichiers distribué sont robustes contre les pannes. Plusieurs outils d'analyse de séquences ont été redéveloppés en tant qu'outils cloud basés sur l'architecture Hadoop, tels que CloudBlast [20] et CrossBow [21]. Par conséquent, les outils en ligne standard peuvent être portés sur l'architecture cloud. Une telle importation d'outils préexistants constitue l'objectif principal de la bioinformatique en tant que service (BaaS).

Dans cet article, nous développons un service cloud d'analyse phylogénétique ORF à haute disponibilité et à grande échelle basé sur la technologie de virtualisation et Hadoop. Ce service fournit des analyses phylogénétiques à partir d'ORF basées sur des clusters Hadoop pour prendre en charge plusieurs requêtes. L'essence de l'environnement de cloud computing est la virtualisation. La puissance de calcul physique est considérée comme un utilitaire utilisateur-payeur que les utilisateurs peuvent demander à leur guise. L'utilitaire est également appelé machine virtuelle. Chaque nœud d'un cluster Hadoop est une machine virtuelle. Les utilisateurs peuvent télécharger leurs données ou fichiers de séquence via le nœud maître (portail Web), puis soumettre un travail. Le travail est affecté au nœud esclave contenant les données téléchargées, et le nœud esclave termine le travail. Étant donné que les comparaisons ORF ont établi sans ambiguïté l'homologie de Norovirus [22], nous adoptons ici Norovirus comme étude de cas. Les résultats montrent que l'outil d'analyse basé sur le cloud proposé, grâce à la technologie de virtualisation et au framework Hadoop, peut facilement faciliter le BaaS. L'outil phylogénétique ORF basé sur le cloud proposé est disponible à l'adresse http://bioinfo.cs.pu.edu.tw/CloudORF/.

2. Méthodes

Dans cet article, nous proposons un service d'analyse phylogénétique ORF basé sur le cloud combinant le framework Hadoop, la technologie de virtualisation, l'outil d'arbre phylogénétique et l'analyse de la diversité. Comme mentionné précédemment, la plate-forme cloud est construite à partir de la virtualisation et du framework Hadoop. Hadoop est exécuté sur les machines virtuelles créées par la technologie de virtualisation telle que la machine virtuelle basée sur le noyau (KVM). Hadoop effectue l'analyse phylogénétique de manière informatique distribuée. L'architecture sous-jacente garantit l'élasticité, l'évolutivité et la disponibilité du service cloud proposé.

2.1. Analyse phylogénétique

Le service cloud proposé intègre le processus de recherche ORF, les contractions d'arbres phylogénétiques et l'analyse de la diversité ORF pour générer une analyse phylogénétique complète. La procédure d'analyse est décrite ci-dessous et illustrée à la figure 1.


Différence entre les chaînes de Markov et les HMM

Dans l'exemple météorologique, les états dits « cachés » étaient des états déjà connus des chercheurs. Chaque individu connaît la probabilité d'émission d'une saison en fonction d'un certain régime météorologique, car les données météorologiques nous ont fourni ces données au fil du temps.

Dans les modèles de Markov cachés, ces observations ou émissions résulteraient d'un ensemble particulier de probabilités. Les états seraient cachés à l'observateur et il y aurait des observations générées avec certaines probabilités dans chaque état (souvent appelées probabilités d'émission).

En termes simples, les HMM sont utilisés lorsque les observations/émissions proviennent de un ensemble d'états de systèmes que nous ne pouvons pas observer. Ceci est différent des chaînes de Markov, qui ont déjà des états prédéfinis.


ADN de monstre

Dans le petit monde de l'ADN, nous pourrions appeler les génomes des monstres. Ces énormes ensembles d'informations comprennent tous les codes de tous les gènes présents dans un organisme. À partir des génomes, nous pouvons en apprendre davantage sur les traits, les maladies et l'évolution d'une espèce, et ce n'est qu'un début. Qu'est-ce qu'un tel ensemble de données monstre pourrait faire pour nous s'il s'agissait de notre propre monstre nord-américain – le monstre de Gila ? Biologiste informatique Mélissa Wilson Sayres raconte au Dr Biology le monstre de Gila, le venin salvateur dans sa salive et ce que nous pourrions apprendre du génome du monstre.

Image du monstre de Gila par Josh Olander via Wikimedia Commons

Sujet Code temporel
Introduction [Journée de l'ADN] 00:00
Qu'est-ce qu'un génome ? 01:23
Quand la séquence du génome humain a-t-elle été terminée? 03:27
Le projet Monster DNA. 03:54
Qu'est-ce qu'un monstre de Gila ? 04:35
Le génome du monstre de Gila et le défi Animal Superpower. 06:19
Pourquoi s'intéresse-t-on au génome d'un monstre de Gila ? 08:15
Le monstre de Gila crache. 08:58
Caractéristiques uniques du monstre de Gila. 10:43
Perte de l'habitat du monstre de Gila. 11:27
Le problème de la relocalisation des monstres de Gila 11:57
Combien et combien de fois les monstres de Gila mangent-ils et boivent-ils ? 13:16
La chose inhabituelle à propos des chromosomes sexuels du monstre Gila 15:01
Que faites-vous des informations sur le génome ? 16:53
Qui utiliserait les informations du génome du monstre Gila ? 18:19
L'ADN est étonnamment efficace pour stocker des informations. 18:38
Qui est impliqué dans la lecture du génome ? 19:06
Que faites-vous avec 400 millions de minuscules morceaux d'ADN dedans ? 20:20
Le chercheur de premier cycle. 20:52
Trois questions. 22:14
Quand avez-vous su pour la première fois que vous vouliez être biologiste ? 22:23
Vous avez toujours aimé les maths ? 25:12
Que feriez-vous si vous ne pouviez pas être biologiste ? 26:44
Avis aux futurs biologistes. 28:34
Approuver. [apprendre/jouer - Les bases de l'ADN - Décoder un génome de monstre - Journée de l'ADN] 30:23

Télécharger la transcription PDF

Dr Biologie: C'est "Ask a Biologist", une émission sur le monde vivant et je suis le Dr Biologie. Au cas où vous ne l'auriez pas marqué sur votre calendrier, chaque année, le 25 avril est désigné comme la Journée internationale de l'ADN. Vous vous demandez peut-être « Pourquoi choisissons-nous le 25 avril ? » Eh bien, c'est à cette date en 1953 que la structure de l'ADN a été publiée pour la première fois dans la revue Nature.

Au fait, ADN signifie acide désoxyribonucléique. Et je sais que cela semble être une bouchée, mais cela semble juste parce qu'après tout, nous parlons de quelque chose. C'est le plan et l'ensemble d'instructions pour tous les êtres vivants. Bien que la découverte de la structure de l'ADN ait été une étape importante, l'apprentissage de son fonctionnement en paquets d'informations a depuis occupé les scientifiques.

Mon invitée aujourd'hui est Melissa Wilson Sayres, une biologiste informatique qui occupe des postes à la School of Life Sciences et au Center for Evolution & Medicine, au Biodesign Institute de l'Arizona State University.

Ses travaux portent sur la génétique des populations, la biologie du sexe et environ une demi-douzaine d'autres intérêts de recherche. Pour cette émission, nous découvrons un nouveau projet, vous pourriez l'appeler un monstre d'un projet ADN. Bienvenue à l'émission, Melissa, et merci d'avoir pris le temps de parler de certains de vos travaux.

Mélissa Wilson Sayres: Merci beaucoup de m'avoir reçu. Je ne peux pas en parler assez.

Dr Biologie: Au début de l'émission, j'ai parlé brièvement de l'ADN, qui est l'acide désoxyribonucléique, mais je n'ai pas utilisé le mot génome. Pouvez-vous donner une introduction de 60 secondes ‑‑ et je vous donnerai quelques secondes de plus si vous en avez besoin ‑‑ sur le génome.

Dr Mélissa: Le génome est ce que nous considérons comme l'ensemble des morceaux d'ADN dans nos cellules. Typiquement, c'est tout l'ADN qui est transmis du parent génétique à la progéniture génétique. Vous vous demandez peut-être pourquoi j'ai utilisé le mot génétique, et j'essaie de l'utiliser pour préciser que nous pouvons avoir beaucoup de relations familiales.

Lorsque nous étudions l'ADN, nous nous intéressons vraiment à la personne, ou aux personnes dont l'ADN nous a aidés à nous former, mais cela n'invalide aucune des autres relations familiales que nous avons.

Le génome lui-même peut être constitué des gènes dont nous entendons généralement parler, vous pourriez donc entendre parler d'une variante d'un gène impliqué dans le risque de cancer du sein, ou d'une variante d'un gène impliqué, généralement dans le risque de cancer ou dans un autre risque de maladie.

Il y a beaucoup de morceaux de notre ADN entre ces gènes qui sont impliqués dans la régulation du moment et de l'endroit où ces gènes sont activés. Par exemple, chaque cellule de notre corps commence par avoir le même ADN, mais mes yeux ne ressemblent pas à mes orteils.

La raison en est qu'il y a le timing et la quantité de gènes est différente dans mes yeux et dans mes orteils. En plus de ces morceaux d'ADN qui régulent quand et où les gènes sont activés, il y a beaucoup de choses entre les deux qui remplissent en quelque sorte l'espace.

Certains d'entre eux sont des éléments parasites qui occupent des parties de notre ADN. Certains d'entre eux sont des gènes qui étaient présents mais qui sont morts. Certaines d'entre elles sont des régions dont nous essayons encore de comprendre ce qu'elles font. C'est en quelque sorte la chose la plus intéressante pour moi, c'est que nous avons tout cet espace dans une très petite cellule et nous essayons de comprendre ce que fait tout dans cet espace.

Dr Biologie: Quand vous parlez du génome humain, c'est quelque chose qui était en fait l'un des premiers génomes séquencés, et c'est essentiellement la représentation de toutes les pièces qui s'y trouvent. Et c'était clair en 2003 et nous sommes toujours en train de comprendre ce que nous avons démêlé. Je pense que le message, quand j'y pense, est "Wow. Il y a tellement plus à apprendre juste dans le génome humain."

Nous allons juste changer de vitesse. Au début de la série, je parlais d'un projet d'ADN de monstre, et c'était un peu un teaser.

Dr Mélissa: [des rires]

Dr Biologie: . pour le public. Parlons de votre ADN de monstre ou de votre projet de génome de monstre.

Dr Mélissa: Pour préfacer cela, j'étudie l'ADN humain et l'ADN de mammifère depuis environ 11 ans. Bien que parfois nous puissions appeler une personne un monstre, je n'ai jamais eu l'occasion d'étudier l'ADN de monstre et maintenant, étant à l'ASU, j'ai développé une collaboration avec le Dr Dale DeNardo qui, pendant une grande partie de sa carrière, a étudié le monstre de Gila. Le monstre de Gila, je dois dire, j'ai complètement craqué pour cette espèce. C'est incroyable.

Typiquement, quand je parle aux gens et que je mentionne le monstre de Gila, j'obtiens deux réponses, soit « Qu'est-ce que c'est ? et ce que c'est, c'est ce beau reptile à motifs noir et orange qui n'est pas très grand. Plus gros qu'un lézard anole mais plus petit qu'un chat, je dirais, et il y a beaucoup de caractéristiques intéressantes à ce sujet.

L'autre réponse que je reçois est "J'ai tellement peur d'eux. J'espère ne pas me faire attaquer par un monstre de Gila." À cela, je dois aussi répondre qu'ils ne sont pas agressifs. En règle générale, il est dit que vous devez vous aider à vous faire mordre par un monstre de Gila.

Ils ont une morsure très douloureuse et ils sont décrits comme l'un des deux seuls lézards venimeux, mais ils n'ont pas de glandes à venin de la même manière que les serpents ou même une glande à venin comme l'ornithorynque, ce qui est merveilleux. Mais leur morsure, quand quelqu'un a été mordu, elle est parfois décrite comme de la lave enflammée dans vos veines. [des rires]

Donc, vous ne voulez pas vous faire mordre, mais vous devez vraiment essayer de vous faire mordre. J'ai maintenant regardé beaucoup, beaucoup de vidéos sur YouTube de personnes enregistrant des monstres de Gila, ou des interactions de monstres de Gila entre leur chat, ou un Bobcat, ou un écureuil. La seule fois où j'ai vu quelqu'un se faire mordre, c'est en piquant à plusieurs reprises le monstre de Gila et en le contournant.

Les gens disent : « Oh, le monstre de Gila vous mordra s'il est provoqué. » Et bien, si tu me piques tout le temps, je pourrais te mordre aussi. [des rires]

Dr Biologie: Exact [rires] . Entrons dans notre génome de monstre Gila. Permettez-moi de mentionner que cela fait partie du Animal Superpower Challenge [experiment.com]. J'aime ça en soi.

Généralement, lorsque vous faisiez une recherche, dans le passé, vous alliez au NIH, ou à la NSF, ou à un organisme subventionnaire fédéral, ou peut-être à un grand organisme subventionnaire philanthropique, pour obtenir un financement. En fait, vous faites du financement participatif pour séquencer le génome du monstre Gila. Parlons-en.

Dr Mélissa: Il y a plusieurs raisons. La première est qu'il devient en fait beaucoup plus difficile d'obtenir du financement de ces grandes agences pour faire un génome. Les génomes ne sont plus la chose difficile, extrêmement coûteuse et extrêmement chronophage qu'ils étaient autrefois. Cela ne veut pas dire qu'ils sont bon marché, encore.

Faire un génome de monstre Gila complet de haute qualité coûtera environ 30 000 $. L'assemblage du génome humain a coûté des millions de dollars. En perspective c'est beaucoup moins cher. Il peut être difficile de trouver des financements auprès des agences traditionnelles pour cela.

De plus, l'une des choses qui m'a toujours passionné est de travailler avec le public et d'essayer de partager la science que nous faisons. C'est une façon d'avoir l'adhésion directe du public, sur la science que nous faisons.

Je peux répondre aux questions. La façon dont le site que nous utilisons, experiment.com, est configuré est que les gens peuvent poser des questions une fois qu'ils ont soutenu le projet. À propos du projet, ils peuvent partager des histoires qu'ils ont eues. Nous pouvons construire la communauté d'intérêt autour du monstre de Gila, de sa biologie, et ce que nous visons, c'est le séquençage de son génome.

Dr Biologie: Pourquoi séquencerions-nous le génome du monstre de Gila ? En tant qu'espèce, les humains étaient très. eh bien, qu'est-ce que j'aurais à dire ?

Dr Mélissa: Narcissique [rires] .

Dr Biologie: Oui. C'est un grand mot, ce qui signifie que tout tourne autour de nous, n'est-ce pas ? C'est tout à propos de nous. Pourquoi s'intéresse-t-on au génome d'un monstre de Gila ?

Dr Mélissa: Il y a plusieurs raisons pour lesquelles nous devrions nous intéresser au génome du monstre de Gila. Pour une grande partie de la population, les lézards sont effrayants et dégoûtants. Pour eux, j'espère que ce projet les convaincra que, ce n'est pas vrai, des lézards, ou des serpents et des lézards. Particulièrement pas vrai du monstre de Gila.

Nous espérons montrer en particulier avec le défi du super pouvoir animal que le monstre Gila, selon nous, a un super pouvoir. Ce super pouvoir est qu'il y a un peptide dans son venin, ou pour être plus précis dans sa salive, parce qu'ils n'ont pas les glandes à venin, dans sa salive, n'est-ce pas ?

Nous sommes intéressés par le crachat de monstre de Gila. Il y a un peptide là-bas qui est étudié depuis une vingtaine d'années maintenant et qui est utilisé dans des traitements très efficaces pour le diabète de type II. Vous pourriez vous demander le crachat de monstre de Gila ! Eh bien, pour certaines de ces personnes qui ont suffisamment piqué les monstres de Gila et qui se sont fait mordre, l'une des choses qui a été remarquée est que leur taux d'insuline chuterait lorsqu'elles étaient mordues par le monstre de Gila.

Il y avait du travail pour essayer de comprendre quelle partie de cette salive menait à la régulation de l'insuline. Le défi est cependant que nous ne savons pas grand-chose sur l'ADN des gènes qui sont exprimés dans le crachat de monstre de Gila.

Vous pouvez penser à la salive et à ce qui compose la salive du monstre de Gila, comme d'autres organes. Tout comme il faut certains gènes pour que mes ongles soient différents de mon nez, il faut des gènes différents pour obtenir la salive du monstre de Gila telle qu'elle est et pour obtenir cette sensation de lave brûlante.

Avec un génome, nous pouvons commencer à voir combien de gènes il y a. Nous pouvons regarder leurs séquences, peut-être quels gènes interagissent avec lesquels. Une partie importante qui n'est pas souvent transmise lorsque nous étudions l'ADN est que les gènes n'agissent pas par eux-mêmes, ils agissent dans des voies, ils ont des partenaires avec lesquels ils corégulent.

Une partie de ce que nous pouvons faire avec le génome du monstre de Gila est d'essayer de déduire quels gènes travaillent ensemble dans un groupe, ce qui permet en fait à ce peptide d'être utile dans le traitement du diabète de type II.

Il y a d'autres choses, juste en général, qui sont intéressantes à propos du monstre de Gila qui lui sont uniques. Il vit dans le désert, il est donc originaire de l'Arizona et certaines des choses qu'il fait, c'est qu'il stocke de la graisse dans sa queue. Il stocke également de l'eau dans sa vessie afin qu'il puisse boire une quantité d'eau suffisante et l'absorber plus tard dans sa vessie, ce qui est intéressant et étrange. Mais il a ces bizarreries, c'est moi qui suis un mammifère, non ? Juger quelque chose d'autre pour faire quelque chose d'une manière différente, mais je pense que sa physiologie est vraiment intéressante.

D'autres raisons pour lesquelles vous devriez vouloir trouver le monstre de Gila sont que c'est juste cette créature fantastique et unique qui est spécifique à notre environnement désertique. Il ne vit pas à travers les États-Unis. L'une des choses que nous découvrons, c'est qu'au fur et à mesure que les gens construisent leurs maisons, nous empiétons sur les habitats des monstres de Gila.

Il y a deux défis. L'une est que les monstres de Gila suivent leur route typique en essayant de trouver de la nourriture, en essayant de survivre, et les gens, qui font de la désinformation, ont peur d'eux et les blessent et les tuent. Tout le monde ne le fait pas, certaines personnes appelleront les services de chasse et de pêche, et ils viendront prendre les monstres de Gila. Mais pour une raison quelconque et nous ne comprenons pas pourquoi, les monstres de Gila ne peuvent pas être relogés.

Ils ne survivent pas si nous essayons de leur donner un nouveau terrier. J'ai déménagé de Californie à ici. J'ai grandi dans le Nebraska. J'ai déménagé en Pennsylvanie. J'ai l'air d'aller bien. Je peux trouver de la nourriture, je trouve un abri. Les monstres de Gila ne semblent pas très bien faire avec ça. Nous n'avons pas de ressources génétiques pour déterminer la diversité génétique des monstres de Gila. Dans quelle mesure l'empiètement humain sur leurs habitats les affecte-t-il.

Non seulement pouvons-nous mieux comprendre leur rôle dans le traitement du diabète, mais nous pouvons également générer des ressources qui peuvent être utilisées pour la conservation des monstres de Gila.

Dr Biologie: Je ne savais pas qu'on ne pouvait pas déplacer un monstre de Gila.

Dr Mélissa: C'est typiquement ce que mon collaborateur, Dale DeNardo, a vécu. Il a pu suivre les monstres de Gila, quelle est leur portée et les regarder, et il travaille en étroite collaboration avec Game and Fish et il a plusieurs monstres de Gila dans son laboratoire pour cette raison. Ils sont assez sédentaires, vous pouvez donc les regarder, ils ne se dandinent pas. Je ne suis pas sûr du meilleur mot pour décrire comment ils marchent, mais se dandiner en est peut-être le plus proche.

Dr Biologie: Surtout un plein.

Dr Mélissa: Oui, un plein. Oh, je n'ai pas mentionné qu'une autre chose fascinante à leur sujet est qu'ils peuvent manger un cinquième à un tiers de leur poids corporel en une seule séance et qu'ils le dévorent.[rires] C'est juste comme, "Gulp, gulp, gulp." Et ils mangent généralement des œufs ou des mammifères juvéniles, mais s'ils peuvent en avoir un, ils attraperont un écureuil ou un lapin et avaleront le tout. En pensant à un tiers de votre poids corporel, cela représenterait une personne de 150 livres mangeant 50 livres de nourriture.

Dr Biologie: Wow.

Dr Biologie: Revenons à notre génome. Le projet du génome humain a duré 13 ans. Comme vous l'avez mentionné, des millions de millions de dollars et de nombreux scientifiques à travers le monde. Vous avez dit qu'il en coûterait environ 30 000 $ pour séquencer le génome du monstre de Gila. Combien de temps cela va prendre?

Dr Mélissa: Nous prévoyons que cela prendra moins d'un an. Ces 30 000 $ ne comprennent pas le coût des gens pour l'analyser. Nous avons cette partie couverte. Il s'agit simplement d'extraire l'ADN et de le découper en petits morceaux, puis de le séquencer. Et puis nous récupérerons ces informations et nous les assemblerons.

C'est en partie pourquoi nous sommes vraiment capables de le faire avec le financement participatif. Nous allons en faire le premier tiers dans le financement participatif. Il y a donc plusieurs étapes pour créer un génome complet de haute qualité, et la première partie est l'échafaudage du génome. Une partie est que nous allons obtenir l'ADN de trois mâles et de trois femelles afin que nous puissions avoir une idée de la diversité génétique des monstres de Gila mais aussi, et je n'avais pas encore mentionné cela, l'une des choses vraiment fascinantes à propos de Les monstres de Gila pour moi.

C'est à ce moment-là que je me suis intéressé pour la première fois à eux, c'est que chez l'homme, nous avons une détermination chromosomique du sexe, c'est-à-dire que les individus avec deux chromosomes X ont généralement des ovaires et font des ovules et que les individus avec un chromosome X et Y ont généralement des testicules et fabriquent des spermatozoïdes. Le X et le Y sont de tailles très différentes. Le chromosome Y est très petit et a perdu beaucoup de gènes.

Nous savons qu'en peignant les chromosomes, vous pouvez prendre une cellule et peindre les chromosomes. Les monstres de Gila sont tout le contraire. Les femelles ont un gros chromosome et un petit chromosome dégradé. Les mâles ont les deux gros chromosomes sexuels. Ils ont donc une détermination sexuelle chromosomique comme nous, mais juste à l'opposé.

Une partie de ce qui m'intéresse en science fondamentale est d'essayer de comprendre quels sont les gènes et le chromosome sexuel du monstre de Gila. Ont-ils un seul commutateur réglementaire comme le font les humains ? Ou la détermination du sexe se produit-elle différemment chez eux ? Pour moi, quand j'ai dit que j'étudiais les humains et les mammifères, une grande partie de ce que j'étudie est l'évolution des chromosomes sexuels et les différences sexuelles. Ici, c'est aussi l'occasion d'observer les différences de sexe chez un monstre.

Dr Biologie: [rires] Nous devons vraiment dire que c'est l'un de ces noms que je connais, Dale et la plupart des gens qui travaillent avec les monstres de Gila, auraient souhaité ne pas avoir le monstre étiqueté sur eux parce que c'est vraiment injuste. J'ai passé pas mal de temps avec lui juste parce que j'ai aussi eu Dale dans la série.

Je pense qu'ils sont, à bien des égards, mignons. Ils sont très intéressants parce qu'ils sont différents.

Dr Mélissa: Ils s'accroupissent et ils ont de petites queues potelées, et ça pourrait être un dragon, ça pourrait être un monstre ours en peluche, non ?

Dr Biologie: Un bon dragon. [rires] Que faites-vous des informations que vous obtenez lors du séquençage d'un génome ? Où va-t-elle, l'information ? Que font les scientifiques avec ?

Dr Mélissa: L'une des choses sur lesquelles nous voulons être absolument clairs est que lorsque nous aurons la séquence du génome, celle-ci sera accessible au public. N'importe qui, n'importe où, pourra télécharger et consulter le génome du monstre Gila. L'une des premières choses que nous faisons est de le comparer aux génomes des différentes espèces que nous avons.

Par exemple, pour illustrer pourquoi nous faisons cela, je dis : « Je veux que vous me parliez des humains ». Ensuite, je vous ai juste donné un humain et j'ai dit: "Parlez-moi, parlez-moi des humains." Eh bien, ce n'est pas très utile à moins d'avoir quelque chose à comparer.

Avec le monstre de Gila, nous allons tous les deux comparer avec différents individus de monstre de Gila, et nous allons également comparer avec différentes espèces afin que nous puissions voir quelles parties de l'ADN du monstre de Gila sont très conservées et peuvent donc être très importantes. Quelles parties changent très rapidement chez le monstre de Gila et donc peut-être une partie de ce qui rend les monstres de Gila si uniques avec sa salive, avec son motif, avec son stockage de graisse, avec sa vessie qui stocke l'eau.

En comparant avec d'autres espèces, nous pouvons voir à la fois ce qui est unique et ce qui est partagé entre ces espèces.

Dr Biologie: Cela m'amène donc à savoir qui utiliserait ces informations pour que je puisse voir les sociétés pharmaceutiques ? Évidemment, à des fins médicales. Comme vous l'avez mentionné, la conservation pourrait nous expliquer pourquoi ils ne sont peut-être pas faciles à déplacer. Ce qui m'intéresse, c'est que lorsque nous parlons d'ADN comme vous l'avez mentionné, il se trouve à l'intérieur de toutes ces cellules, et il est conditionné de manière à être extrêmement efficace car il contient beaucoup d'informations.

Il faut un certain temps pour savoir quelles sont ces informations. C'est comme donner à quelqu'un une énorme bibliothèque. Ce n'est pas parce que vous avez la bibliothèque que vous la comprenez parce que vous devez la lire et dans certains cas, vous deviez comprendre la langue.

Dr Mélissa: Oui.

Dr Biologie: Qui est impliqué là-dedans ? Qui va faire ce travail ? C'est toi et Dale mais je soupçonne qu'il y a plus.

Dr Mélissa: Pour la première étape et vous avez tout à fait raison. Ce que nous faisons en fait, si je peux développer votre métaphore, c'est que nous construisons la bibliothèque et ensuite nous allons laisser cette ressource être partagée avec tout le monde. Pour la construction de cette partie ressource, ce seront des personnes qui travailleront avec moi dans le laboratoire.

Nous avons des chercheurs postdoctoraux, des personnes qui ont un doctorat et qui ont une formation supplémentaire. Nous avons des gens qui font des études supérieures en ce moment. Il y a à la fois des étudiants en master et un doctorant entrant.

L'une des choses qui me passionne le plus, c'est que nous avons beaucoup d'étudiants de premier cycle impliqués dans ce projet. Si vous êtes intéressé, vous pouvez aller sur mon site Web et voir que je me suis vraiment consacré à la formation d'étudiants de premier cycle en biologie et en biologie computationnelle. Acquérir les compétences dont ils auront besoin et qui sont transposables à tout type de recherche biologique qui les intéresserait.

Une partie de ce projet consistera en une formation à ces différents niveaux sur ce que vous faites lorsque vous récupérez un fichier contenant 400 millions de minuscules morceaux d'ADN. C'est le puzzle le plus compliqué auquel vous puissiez penser et personne ne vous montre l'image de ce que vous devriez assembler.

Nous allons travailler avec eux pour découvrir différentes pièces de la façon dont vous assemblez ce puzzle parce que vous adoptez une certaine stratégie. C'est l'un des autres aspects du financement participatif, c'est qu'il nous permet vraiment de nous concentrer également sur la formation des étudiants.

Dr Biologie: Je dois mentionner que c'est l'une des choses, je pense que l'École des sciences de la vie fait un très bon travail et par conception. Les étudiants de premier cycle qui viennent à l'ASU et qui veulent entrer dans le monde de la science, vous ne vous contentez pas de l'étudier, vous le faites.

Dr Mélissa: Oui. C'est l'une des choses que j'ai remarquées dans mon laboratoire et dans de nombreux autres laboratoires de recherche ici. Faire de la recherche en tant qu'étudiant de premier cycle à l'ASU, ce n'est pas seulement laver de la verrerie, ce n'est pas seulement par osmose être avec d'autres personnes. Vous êtes impliqué dans les projets et c'est à la fois incroyable et parfois frustrant car la science ne nous donne pas toujours exactement ce que nous recherchons. Nous pouvons nous heurter à des murs et à des défis.

Pour moi, la partie la plus importante de la formation de premier cycle ici est que nous travaillons ensemble afin qu'ils ne luttent pas seuls. Nous luttons en tant que groupe pour essayer de comprendre quels sont les défis, ou comment nous pouvons les surmonter et en faire vraiment les étudiants préparés et intégrés.

Je ne considère pas dans mon laboratoire qu'il y ait une hiérarchie. Il y a des gens qui ont une formation et une expertise dans certaines compétences et ils aident à former d'autres personnes qui ont besoin d'acquérir ces compétences, mais les personnes ayant l'expertise peuvent être un étudiant en deuxième année qui travaille déjà dans le laboratoire depuis un an et demi ou c'est peut-être le postop qui arrive. Nous travaillons vraiment en équipe.

Dr Biologie: Je veux passer à une partie du spectacle que je fais avec tous mes scientifiques. J'ai trois questions. Nous allons sauter dedans. Quand avez-vous su pour la première fois que vous vouliez être scientifique ? Y a-t-il eu un moment, aha ?

Dr Mélissa: Non. Il n'y a pas eu de moment aha. J'ai toujours aimé le monde naturel qui m'entoure. Peut-être que le moment était de réaliser ce que je voulais faire en science, mais j'ai toujours pensé que la science était intéressante. En particulier, je m'intéressais réellement aux mathématiques. Je me suis spécialisé en mathématiques en tant que premier cycle.

Ce qui m'a poussé à passer à mon domaine particulier, c'est que j'ai fait une expérience de recherche pour des étudiants de premier cycle à l'Université du Nebraska Lincoln dans le département de mathématiques où nous avons travaillé sur la biologie mathématique. Nous avons utilisé des systèmes d'équations différentielles pour modéliser la croissance tumorale et comment nous pourrions la traiter.

Je suppose que de voir à quel point le calcul en mathématiques était utile à la biologie et que nous pourrions faire de réelles différences significatives en biologie en utilisant le calcul et les mathématiques. Cela a vraiment changé la donne pour moi sur l'endroit où je pensais aller.

J'ai postulé à l'école doctorale dans le département de mathématiques et dans un département de biologie qui avait un programme de bioinformatique. J'ai fini par choisir évidemment le programme de bioinformatique. Ce qui était vraiment intéressant dans ce programme, c'est qu'il m'a permis de faire des rotations avec différentes personnes.

En tant que major en mathématiques, je n'ai pas fait de recherche en biologie expérimentale. J'avais fait de la génétique. J'avais pris quelques cours de biologie mais j'en étais un. J'étais étonné qu'ils m'aient laissé entrer parce que c'était un programme de biologie computationnelle et que je n'avais une formation ni en biologie ni en informatique au même niveau que mes pairs. Je reconnais maintenant pourquoi parce qu'en science c'est vraiment utile d'avoir une diversité d'opinions.

Même si je me sentais un peu comme si je n'étais pas à ma place, j'espère avoir pu contribuer aux choses d'une manière significative. Pendant que j'étais là-bas, j'ai appris pour la première fois à propos de la levure et cela sentait bon dans le laboratoire comme le pain chaque jour que nous allions entrer et faire pousser la levure et faire différentes expériences avec elles.

J'ai fait une rotation en travaillant avec l'Arabidopsis, cette herbe à moutarde. Ma troisième rotation concernait la génétique des chromosomes sexuels et je me suis retrouvé à rester éveillé la nuit à lire des articles supplémentaires, à essayer d'absorber tout ce que je pouvais et à me rendre compte qu'il y avait plus de questions que de réponses dans ma tête. Je me retrouve toujours à ressentir de cette façon chaque jour qu'il y a plus de choses que je veux savoir sur ce domaine.

Dr Biologie: As-tu toujours aimé les maths ?

Dr Mélissa: Oui j'ai toujours aimé les maths.

Dr Biologie: Tu es toujours doué pour ça ?

Dr Mélissa: Je suppose que j'ai toujours bien fait. Je reçois parfois ces questions et c'est un défi pour moi parce que je ne suis pas un mathématicien, donc je suis nul aux échecs. J'ai toujours essayé d'aimer les échecs parce que j'avais l'impression que si vous êtes bon en maths, vous devriez être bon aux échecs. Je ne sais pas pourquoi j'ai eu cette perception.

Je ne me suis jamais senti comme un magicien des maths, mais parce que j'aimais les maths et que j'avais des parents qui m'encourageaient à faire ce que j'aimais, je suis resté avec mais je n'ai jamais senti que j'étais vraiment excellent dans ce domaine. J'ai des pairs avec qui j'ai suivi des cours et avec qui j'ai pu voir qu'il y avait un déclic pour eux et tout était rapide et facile tout le temps.

Ce n'était pas facile pour moi mais c'était amusant et je suppose que je me sens très chanceux d'avoir des professeurs et une famille qui m'ont soutenu pour faire les choses que je trouvais amusantes au lieu de ce que j'étais. Je suis le plus frustré avec celui-ci. Je suis parent maintenant et je vois d'autres parents dire "Oh, les maths, c'est dur, ne t'en fais pas. Les maths sont difficiles pour tout le monde. Essayez juste de passer au travers" mais être dur ne veut pas dire que c'est toujours possible. être amusant.

Je suppose que c'est pour ça que j'hésite un peu avec ça parce que je n'ai jamais eu l'impression que ça m'était particulièrement facile, mais c'était comme résoudre des problèmes. C'était comme faire des puzzles et je pensais que c'était amusant et donc ce n'était pas facile mais je voulais en faire plus.

Dr Biologie: Maintenant, je vais tout enlever. Nous avons emprunté ce chemin.

Dr Mélissa: [des rires]

Dr Biologie: Je vais prendre toutes les choses que vous avez faites. Vous ne pouvez pas être un scientifique, je vais prendre. les mathématiques vont disparaître. Je vais retirer l'enseignement parce que je sais que vous aimeriez enseigner. C'est un exercice et des étirements. Que feriez-vous et que seriez-vous si vous pouviez faire quelque chose ou être quelque chose ?

Dr Mélissa: Si je ne peux pas faire les choses que je fais maintenant, je serais un artiste. J'aime dessiner, dessiner et peindre et j'apprécie la quantité de travail et de passion qui y sont consacrés autant que dans n'importe quel domaine. J'avais l'habitude de garder des livres à croquis. J'avais l'habitude de penser à faire de l'art tout le temps. Ce n'est peut-être pas si étrange. Il y a beaucoup de créativité dans la science comme dans l'art.

Certaines des personnes que je trouve aiment le plus faire de la science et elles aiment aussi réfléchir à différentes manières de le faire en essayant de voir la question sous un angle différent. De la même manière, les artistes ont souvent leur vision unique de la vie et de la réalité. Il n'y a pas un point de vue qui est exactement correct.

Nous pouvons l'interpréter de différentes manières. Je suis toujours un artiste en dehors et j'essaie vraiment de les soutenir parce que ce que font les artistes, c'est fondamentalement créer de nouvelles informations de la même manière que les scientifiques créent de nouvelles informations.

Dr Biologie: Pour ajouter à cela, nous concevons des expériences. Nous utilisons le mot design pour une raison. Avoir la capacité d'aborder un problème sous différents angles comme vous l'avez dit est très important pour l'artiste et le scientifique.

Dr Mélissa: Peut-être que j'ai contourné votre. « vous ne pouvez pas faire les choses que vous faites déjà. » Mais, je veux toujours être un créateur.

Dr Biologie: La dernière question, quels conseils auriez-vous pour un jeune scientifique ou peut-être quelqu'un qui a fait une autre carrière et qui se rend compte qu'il aime vraiment les mathématiques ou qu'il aime la biologie et qu'il veut changer ?

Dr Mélissa: Tu peux le faire. Je dis que je suis un peu pris au dépourvu par cette question. L'un des défis pour entrer dans la science est de penser que les gens qui le font ont déjà tout maîtrisé. Nous ne sommes pas des maîtres. Il y a ce concept selon lequel plus vous apprenez, moins vous en savez parce que vous reconnaissez tout ce qu'il y a encore à découvrir.

Pour quiconque essaie de se lancer dans la science, il y aura toujours des choses que vous ne savez pas parce qu'il y a toujours des choses qu'aucun de nous ne sait. De temps en temps, il y aura des gens que vous rencontrerez qui vous jugeront pour votre parcours ou pour ce que vous savez ou ne savez pas.

Peut-être que le meilleur conseil est de réaliser que se lancer dans la science, la science n'est pas différent de tout autre domaine en ce sens qu'il y a des gens qui vous soutiendront, il y a des gens qui ont un gros ego, il y a des préjugés qui existent dans la science qui ce n'est pas abrité. Nous sommes des humains faisant de la science et vous êtes un humain qui peut aussi faire de la science et vous êtes les bienvenus.

Dr Biologie: Sur ce, Melissa Wilson Sayres vous remercie de m'avoir rendu visite aujourd'hui.

Dr Mélissa: Merci beaucoup de m'avoir reçu.

Dr Biologie: Vous avez écouté Ask a Biologist et mon invitée a été Melissa Wilson Sayres, une biologiste informatique qui occupe des postes à la School of Life Sciences et au Center for Evolution & Medicine du Biodesign Institute de l'Arizona State University.

Pour en savoir plus sur le défi de la superpuissance animale, vous pouvez pointer votre navigateur sur experiment.com/grants/animal‑superpower. Nous avons également un lien sur le site Web compagnon de l'émission ainsi que quelques autres liens pour en savoir plus sur l'ADN.

Le podcast Ask a Biologist est produit sur le campus de l'Arizona State University et est enregistré dans le studio local de la School of Life Sciences, qui est une unité académique du College of Liberal Arts and Sciences.


Résumé

Fond

La soumission de séquences d'ADN aux bases de données de séquences publiques est une étape essentielle, mais insuffisamment automatisée, dans le processus de génération et de diffusion de nouvelles données de séquences d'ADN. Malgré la centralité des soumissions de bases de données à la recherche biologique, la gamme d'outils logiciels disponibles qui facilitent la préparation de données de séquences pour les soumissions de bases de données est faible, en particulier pour les séquences générées via des codes-barres d'ADN végétal et fongique. Les procédures de soumission actuelles peuvent être complexes et d'un temps prohibitif pour tout sauf un petit nombre de séquences d'entrée. Un outil logiciel convivial est nécessaire pour rationaliser la préparation des fichiers pour les soumissions à la base de données des séquences d'ADN qui sont couramment générées dans les codes à barres de l'ADN des plantes et des champignons.

Méthodes

Un package Python a été développé qui convertit les séquences d'ADN des formats de fichiers plats communs EMBL et GenBank en feuilles de calcul délimitées par des tabulations prêtes à être soumises (appelées « listes de contrôle ») pour un téléchargement ultérieur vers la section des séquences annotées des Archives européennes des nucléotides ( ENA). L'outil logiciel, intitulé « EMBL2checklists », convertit automatiquement les séquences d'ADN, leurs caractéristiques d'annotation et les métadonnées associées dans le format idiosyncratique des listes de contrôle ENA spécifiques aux marqueurs et, ainsi, génère des fichiers qui peuvent être téléchargés via le système de soumission Webin interactif de l'ENA.

Résultats

Les listes de contrôle EMBL2 fournissent un outil simple et indépendant de la plate-forme qui automatise la conversion des séquences de codes-barres d'ADN courantes en feuilles de calcul facilement modifiables qui ne nécessitent aucun traitement supplémentaire, mais leur téléchargement vers l'ENA via le système de soumission interactif Webin. Le logiciel est équipé d'un graphique intuitif ainsi que d'une interface de ligne de commande efficace pour son fonctionnement. L'utilité du logiciel est illustrée par son application dans quatre études récentes, y compris des études phylogénétiques végétales et métagénomiques fongiques.

Discussion

Les listes de contrôle EMBL2 comblent le fossé entre les suites logicielles courantes pour l'assemblage et l'annotation de séquences d'ADN et le processus de soumission de données interactif de l'ENA. Il représente une solution facile à utiliser pour les biologistes des plantes et des champignons sans expertise en bioinformatique pour générer des listes de contrôle prêtes à être soumises à partir de données de séquence d'ADN communes. Il permet le post-traitement des listes de contrôle ainsi que le partage du travail pendant le processus de soumission et résout un goulot d'étranglement critique dans l'effort visant à accroître la participation au partage public des données.

Citation: Gruenstaeudl M, Hartmaring Y (2019) Listes de contrôle EMBL2 : un package Python pour faciliter la soumission conviviale de séquences de codes-barres d'ADN végétal et fongique à l'ENA. PLoS ONE 14(1) : e0210347. https://doi.org/10.1371/journal.pone.0210347

Éditeur: Ruslan Kalendar, Université d'Helsinki, FINLANDE

A reçu: 9 octobre 2018 Accepté: 20 décembre 2018 Publié : 10 janvier 2019

Droits d'auteur: © 2019 Gruenstaeudl, Hartmaring. Il s'agit d'un article en libre accès distribué selon les termes de la licence d'attribution Creative Commons, qui permet une utilisation, une distribution et une reproduction sans restriction sur tout support, à condition que l'auteur et la source d'origine soient crédités.

Disponibilité des données: Les listes de contrôle EMBL2 sont disponibles gratuitement via l'index des packages Python sous https://pypi.org/project/EMBL2checklists/ et peuvent être installées via n'importe quel système de gestion de packages compatible PyPI tel que pip (https://pip.pypa.io) ou setuptools (https://pypi.org/project/setuptools/). Le code source des listes de contrôle EMBL2 est disponible via la page GitHub de MG sous https://github.com/michaelgruenstaeudl/EMBL2checklists. Un protocole étape par étape comprenant des instructions, des liens et des animations sur l'installation et l'utilisation recommandées du logiciel est fourni sur protocols.io (http://dx.doi.org/10.17504/protocols.io.v6me9c6).

Le financement: Cette enquête a été financée par la Deutsche Forschungsgemeinschaft (DFG, Fondation allemande pour la recherche) – numéro de projet 418670221 – et par une subvention de démarrage de la Freie Universität Berlin (Initiativmittel der Forschungskommission), toutes deux à MG. Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Intérêts concurrents : Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.


JP a un B.S. en informatique et est actuellement étudiant diplômé en biologie, se concentrant sur le développement d'outils pour l'analyse du génome polyploïde. ZL est un étudiant de premier cycle au laboratoire d'Udall. MH est un étudiant diplômé du laboratoire Udall. JU est professeur agrégé à l'Université Brigham Young et est le conseiller académique de JP, ZL et MH.

Wu TD, Nacu S : détection rapide et tolérante aux SNP de variantes complexes et d'épissage en lectures courtes. Bioinformatique. 2010, 26 : 873-881. 10.1093/bioinformatique/btq057.

Langmead B, Salzberg SL : alignement rapide à lecture espacée avec le nœud papillon 2. Nat Meth. 2012, 9 : 357-359. 10.1038/nmeth.1923.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J : Le format d'alignement/carte de séquence et SAMtools. 2009, Oxford, Royaume-Uni : Bioinformatique

Page JT, Gingle AR, Udall JA: PolyCat: une ressource pour la catégorisation du génome des lectures de séquençage à partir d'organismes allopolyploïdes. G3 (Bethesda). 2013, 3 : 517-525. 2013.

Rutkoski JE, Poland J, Jannink J-L, Sorrells ME: Imputation de marqueurs non ordonnés et impact sur la précision de la sélection génomique. G3 (Bethesda). 2013, 3 : 427-439. 2013.

Troyanskaya O, Cantor M, Sherlock G, Brown P, Hastie T, Tibshirani R, Botstein D, Altman RB : méthodes d'estimation des valeurs manquantes pour les puces à ADN. Bioinformatique. 2001, 17 : 520-525. 10.1093/bioinformatique/17.6.520.

Bansal V, Bafna V : HapCUT : un algorithme efficace et précis pour le problème d'assemblage d'haplotypes. 2008

Browning BL, Browning SR : Une approche unifiée de l'imputation du génotype et de l'inférence de phase d'haplotype pour de grands ensembles de données de trios et d'individus non apparentés. Suis J Hum Genet. 2009, 84 : 210-223. 10.1016/j.ajhg.2009.01.005.

He D, Eskin E : Hap-seqX : algorithme accéléré pour le phasage des haplotypes avec imputation à l'aide de données de séquence. Gène. 2012, 518 : 2-6.

Lloyd S : Quantification des moindres carrés en PCM. IEEE Trans Inf Théorie. 1982, 28 : 129-137. 10.1109/TIT.1982.1056489.

Ding C, He X : Regroupement K-Means via l'analyse en composantes principales. 2004, New York, NY, États-Unis : ACM Press, 29-

Thorvaldsdóttir H, Robinson JT, Mesirov JP : Visionneuse de génomique intégrative (IGV) : visualisation et exploration de données génomiques haute performance. Bref Bioinform. 2013, 14 : 178-192. 10.1093/bib/bbs017.

Zhao M, Wang Q, Wang Q, Jia P, Zhao Z : outils de calcul pour la détection de la variation du nombre de copies (CNV) à l'aide de données de séquençage de nouvelle génération : caractéristiques et perspectives. BMC Bioinformatique. 2013, 14 : S1-

Rabiner LR : Un tutoriel sur les modèles de Markov cachés et des applications sélectionnées en reconnaissance vocale. Proc IEEE. 1989, 77 : 1-30.

Robinson MD, Robinson MD, McCarthy DJ, McCarthy DJ, Smyth GK : edgeR : un ensemble de bioconducteurs pour l'analyse différentielle de l'expression des données d'expression génique numérique. Bioinformatique. 2009, 26 : 139-140.

Stajich JE, Block D, Boulez K, Brenner SE : La boîte à outils bioperl : modules Perl pour les sciences de la vie. Génome. 2002, 12 : 1611-1618. 10.1101/gr.361602.

Barnett DW, Garrison EK, Quinlan AR : BamTools : API C++ et boîte à outils pour l'analyse et la gestion des fichiers BAM. 2011, Oxford, Royaume-Uni : Bioinformatique

Drummond AJ, Ashton B, Buxton S, Cheung M : Drummond : Geneious v5. 4 - Google Scholar. 2011, Aukland, Nouvelle-Zélande : Biomatters Ltd


[Aide] Un vrai "biologiste" qui ne croit pas à l'évolution m'explique pourquoi l'ADN prouve la création

J'ai donc eu une conversation récemment sur reddit avec /u/Thornlord. Il prétend être un vrai biologiste diplômé qui "travaille avec l'ARN dans un laboratoire".

Je suis assez ennuyé par ses affirmations, mais je voulais savoir ce que vous en pensez. Surtout pour les personnes qui sont généticiennes, ou qui en savent assez sur la génétique :

Pourquoi? Pensez-vous qu'il existe des preuves irréfutables de l'évolution qu'ils ont dû étudier dans l'un de mes cours ?

La preuve prétendue que vous entendez n'est pas différente de ce que vous entendez partout ailleurs en fin de compte.

comment se fait-il que vous ayez étudié pour obtenir ce diplôme sans accepter l'évolution, l'épine dorsale de la biologie ?

Comment l'évolution de l'épine dorsale de la biologie? Je pense que l'épine dorsale de la biologie serait la chimie, si quelque chose.

En ce moment, par exemple, notre projet examine comment certaines protéines interagissent avec l'ARN qui a subi une oxydation. Peu importe d'où viennent l'ARN ou les protéines pour cela. Qu'ils aient été créés par une intelligence ou formés par l'évolution ou qu'ils se soient réunis par accident dans le tube à essai, ils fonctionnent toujours de la même manière.

Être un créationniste parmi les évolutionnistes me donne en fait un énorme avantage. Les évolutionnistes ne peuvent pas demander Pourquoi quelque chose a été conçu comme il est, seulement comment c'est arrivé. Cependant, je connais le Créateur, donc je peux demander pourquoi il conçoit les choses de certaines manières et fait des prédictions et des inférences basées sur cela.

Par exemple, savez-vous comment l'ADN est double brin ?

Un brin est appelé brin « sens » et l'autre brin « antisens ». Pendant longtemps, on a pensé que seul le brin sens codait, tandis que le brin antisens ne codait pour rien et était essentiellement là pour aider à la réplication.

Mais si la Création est vraie, ce n'est pas ce que nous nous attendrions à voir. L'intelligence qui nous a créés nous a donné la conception la plus efficace possible. La perte de la moitié du code génétique n'aurait aucun sens alors que cela pourrait doubler la quantité d'informations que l'ADN pourrait coder en utilisant ce brin.

Et c'est exactement ce que nous commençons à voir. Selon ici, «… la quantité de transcription [c'est-à-dire la production d'ARN] qui se produit ne peut pas être entièrement expliquée par les ensembles actuels d'annotations à l'échelle du génome. Les preuves indiquent que la plupart des deux brins du génome humain pourraient être transcrits… »

Mais il n'y a aucun moyen pour que cela évolue. Si vous modifiez un brin, vous modifiez l'autre. Une seule mutation vers le brin antisens ne servirait qu'à supprimer les informations dans le brin sens bien avant qu'elle ne crée une quelconque information dans le brin antisens. Donc, même si vous obteniez des informations sur le brin antisens, vous reviendrez avec du charabia inutile sur le brin sens.

Pour obtenir des informations sur les deux brins, vous avez besoin que les séquences sur les deux brins soient très soigneusement arrangées ensemble. C'est un travail compliqué et délicat dont les mutations sont totalement incapables - vous avez besoin d'une intelligence très sage pour le planifier à l'avance.

Donc, si Création est vraie, nous nous attendrions à des informations sur les deux volets. Si l'évolution est vraie, nous nous attendrions (et on a pensé à tort que c'est le cas) qu'un seul volet contienne des informations utiles.

La création peut nous conduire à des endroits que nous n'aurions jamais trouvés – ou que nous aurions trouvés beaucoup moins rapidement – ​​si nous pensions que l'évolution était vraie. J'espère pouvoir en être la preuve vivante avec ma carrière - c'est une des principales raisons pour lesquelles j'ai choisi la biologie.


Voir la vidéo: Miks karud talvel magavad? (Janvier 2022).