Informations

Cacher des séquences identiques dans l'interface Web NCBI


Il existe parfois des séquences identiques dans Genbank/Genpept, provenant le plus souvent de la même espèce mais de souches différentes. C'est-à-dire que si je recherche "bacteria chitine synthase", la protéine 624-aa de Dickeya dadantii apparaît trois fois. Il existe même un lien "protéines identiques".

Existe-t-il un filtre que je puisse utiliser pour obtenir une seule séquence de chaque groupe de séquences identiques ? Je veux dire, à part analyser le fichier téléchargé sur mon propre ordinateur.


Je ne sais pas s'il existe un moyen sur GenBank, mais UniProt propose UniRef où vous pouvez regrouper des séquences redondantes ou spécifier une coupure inférieure (comme 90% d'identité).


J'ai écrit un petit script pour supprimer des séquences identiques de fasta pour obtenir ce dont j'ai besoin. Pour imprimer la liste des séquences supprimées, décommentez la ligne 22

# ! /usr/bin/python3 # Supprime les séquences identiques du fichier fasta import sys de Bio import SeqIO sequences={} #C'est là que les séquences seront stockées #probablement appeler str(seq.seq) à chaque test sera plus lent avec open(sys .argv[1], 'r') comme fasta : parser=SeqIO.parse(fasta,'fasta') pour la séquence dans l'analyseur : séquences[seq.id]=str(seq.seq) l=list(sequences.keys ()) pour j in range(0,len(l)-1,1) : essayez : s=sequences[l[j]] pour k in range(j+1,len(l)-1,1) : if sequences[l[k]]==sequences[l[j]]: del sequences[l[k]] sauf KeyError: passez #print(l[j],file=sys.stderr) pour j dans sequences.keys (): print('>',j,'
',sequences[j])

PAMDB, une base de données et un site Web de typage et d'analyse de séquences multilocus pour les microbes associés aux plantes

Bien qu'il existe des différences de séquence d'ADN adéquates entre les bactéries associées aux plantes et les bactéries pathogènes pour les plantes pour faciliter les approches moléculaires pour leur identification, l'identification à un niveau taxonomique prédictif de leur phénotype est un défi. Le problème est l'absence d'une taxonomie qui décrit la variation génétique à une résolution biologiquement pertinente et d'une base de données contenant des souches de référence pour la comparaison. De plus, l'évolution moléculaire, la génétique des populations, l'écologie et l'épidémiologie de nombreuses bactéries phytopathogènes et associées aux plantes sont encore mal comprises. Pour relever ces défis, une base de données avec interface Web a été spécialement conçue pour les micro-organismes associés aux plantes et phytopathogènes. La base de données sur les microbes associés aux plantes (PAMDB) comprend, à ce jour, des données provenant d'études de typage et d'analyse de séquences multilocus (MLST/MLSA) d'Acidovorax citrulli, de Pseudomonas syringae, de Ralstonia solanacearum et de Xanthomonas spp. En utilisant les données déposées dans PAMDB, une phylogénie robuste de Xanthomonas axonopodis et des bactéries apparentées a été déduite, et la diversité existant dans le genre Xanthomonas et dans Xanthomonas spp. a été comparée à la diversité de P. syringae et R. solanacearum. De plus, nous montrons comment PAMDB facilite la distinction entre différents agents pathogènes qui causent des maladies presque identiques. La conception évolutive de PAMDB facilitera l'ajout de plus d'agents phytopathogènes à l'avenir.


Fond

Les algorithmes d'alignement de séquences populaires, tels que BLAST [1] ou FASTA [2], utilisent des matrices de scores de substitution pour mesurer la similarité entre deux séquences d'acides aminés ou de nucléotides. Dans une matrice de substitution de protéines 20 × 20, chaque élément s je est un score dérivé de la probabilité que, dans des séquences homologues, les acides aminés je et j descendent d'un ancêtre commun. Les recherches de similarité de séquence sont généralement plus performantes pour détecter des homologues distants lorsqu'elles utilisent soit des matrices spécialisées pour des classes de protéines particulières [3–11], soit des matrices de score spécifiques à la position (PSSM) [12–23].

Un PSSM associé à une séquence de longueur je est un je × 20 matrice, où élément s je est dérivé de la probabilité que des séquences apparentées aient un acide aminé j au poste PSSM je. Un PSSM est construit à partir d'un alignement de séquences multiples (MSA) de protéines apparentées et modélise les substitutions d'acides aminés particulières à une famille de protéines et à une position de séquence spécifiques.

Des programmes d'alignement multiples séparés peuvent être utilisés pour construire les MSA à partir desquels les PSSM sont dérivés [18]. Position Specific Iterated BLAST (PSI-BLAST) [23] a introduit la stratégie de génération automatique de MSA et de leurs PSSM associés à partir des résultats de recherches dans les bases de données, de manière itérative. La sortie de l'itération je est utilisé pour construire un PSSM et rechercher la base de données de séquences par itération je + 1. Biegert et Söding [24] ont développé Context-Specific BLAST (CS-BLAST), qui calcule un PSSM initial en utilisant une séquence de requêtes et une bibliothèque de profils courts. Pour construire cette bibliothèque, les auteurs construisent d'abord un grand nombre de MSA en alignant des sous-ensembles de séquences de l'ensemble de la base de données de protéines non redondantes (NR) [25] les uns avec les autres, en utilisant deux itérations de PSI-BLAST. Ces MSA, convertis en profils de fréquence d'acides aminés, sont divisés en courtes fenêtres et regroupés pour créer la bibliothèque de profils. CS-BLAST atteint une meilleure sensibilité que PSI-BLAST.

On peut également utiliser une collection existante de MSA préconstruits pour dériver un PSSM. Nous adoptons une approche connexe ici, en utilisant la base de données de domaines conservés (CDD) [26], une ressource NCBI pour identifier les domaines conservés dans les séquences de protéines. Cette base de données comprend des modèles de domaine organisés manuellement qui sont affinés à l'aide de structures 3D de protéines, ainsi que des modèles construits à partir de groupes de séquences apparentées avec une structure inconnue. Chaque domaine conservé (CD), représenté par un MSA de segments de séquences homologues, est converti en un PSSM pour faciliter une recherche efficace [26]. Les outils logiciels pour rechercher des collections de PSSM incluent HMMER [27], IMPALA [28], RPS-BLAST et GLOBAL [29].

Nous décrivons Domain Enhanced Look-up Time Accelerated BLAST (DELTA-BLAST), un nouvel outil qui utilise d'abord RPS-BLAST pour aligner une séquence de requête sur des domaines conservés dans CDD, puis effectue une recherche dans la base de données de séquences à l'aide d'un PSSM dérivé du domaines. La méthode de construction PSSM est similaire à celle de PSI-BLAST, mais commence par aligner la requête sur des CD plutôt que sur des séquences individuelles. La figure 1 montre un aperçu de la stratégie de DELTA-BLAST.

Vue d'ensemble de la recherche de séquences avec DELTA-BLAST. DELTA-BLAST recherche le CDD avec la requête fournie, utilise des domaines alignés pour calculer un PSSM et recherche une base de données de séquences avec ce PSSM.

Nos principaux objectifs pour DELTA-BLAST sont d'utiliser un PSSM dans la recherche (comme dans PSI-BLAST) pour trouver plus d'homologues, mais pour éviter le temps passé dans la recherche BLASTP initiale. DELTA-BLAST nous permet également d'explorer s'il est préférable d'utiliser des alignements homologues plus longs pour construire rapidement un PSSM que les profils courts de Biegert et Söding [24]. Dans des travaux futurs, il pourrait servir de plate-forme pour expérimenter différentes méthodes pour trouver rapidement des correspondances initiales à une requête qui peut ensuite être utilisée pour construire un PSSM.

Nous démontrons que, lorsqu'il est utilisé avec CDD, DELTA-BLAST est plus sensible que CS-BLAST et PSI-BLAST. Ce résultat témoigne non seulement de l'efficacité de DELTA-BLAST, mais aussi de l'étendue de la collection CDD.

DELTA-BLAST est entièrement intégré au site Web NCBI BLAST et au package autonome BLAST+. Il est disponible à partir du lien « Protein BLAST » sur le site Web de NCBI BLAST (http://blast.ncbi.nlm.nih.gov). Une recherche DELTA-BLAST sur le site Web peut être suivie d'itérations PSI-BLAST ou les résultats peuvent être traités plus avant par l'arbre de distance ou plusieurs outils d'alignement. Un nouveau programme nommé deltablaste sera fait partie du package de ligne de commande BLAST+ à partir de la version 2.2.26+. Le code source et les applications des plates-formes populaires sont disponibles sur http://ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/.


Tutoriel sur les formats de fichiers

Cette section explique certains des formats de fichiers couramment utilisés en bioinformatique. Les informations fournies ici sont basiques et conçues pour aider les utilisateurs à distinguer les différents formats. Veuillez vous référer au manuel d'utilisation ou à d'autres ressources d'information sur le Web pour plus de détails.

RAPIDE

Extensions de fichiers : fichier.fa, fichier.fasta, fichier.fsa

Le format Fasta est un moyen simple de représenter des séquences de nucléotides ou d'acides aminés d'acides nucléiques et de protéines. Il s'agit d'un format très basique avec deux lignes minimum. La première ligne appelée ligne de commentaire commence par « > » et donne des informations de base sur la séquence. Il n'y a pas de format défini pour la ligne de commentaire. Toute autre ligne commençant par '' sera ignorée. Les lignes avec '' ne sont pas une caractéristique courante des fichiers fasta. Après la ligne de commentaire, la séquence d'acide nucléique ou de protéine est incluse dans le code standard à une lettre. Tous les tabulateurs, espaces, astérisques, etc. dans l'ordre seront ignorés.

FASTQ

Extensions de fichiers : fichier.fastq, fichier.sanfastq, fichier.fq

Le format Fastq a été développé par l'institut Sanger afin de regrouper la séquence et ses scores de qualité (Q : score de qualité phred). Dans les fichiers fastq, chaque entrée est associée à 4 lignes.

  • La ligne 1 commence par un caractère ‘ @ ‘ et est un identifiant de séquence et une description facultative.
  • Ligne 2 Séquence en code standard à une lettre.
  • La ligne 3 commence par un caractère ‘ + ‘ et est éventuellement suivie à nouveau par le même identifiant de séquence (et toute description supplémentaire).
  • La ligne 4 code les valeurs de qualité de la séquence de la ligne 2 et doit contenir le même nombre de symboles que les lettres de la séquence.

Description détaillée sur le format fastq :

Ligne 1: @K00188:208:HFLNGBBXX:3:1101:1428:1508 2:N:0:CTTGTA

Ligne 2: ATAATAGGATCCCTTTTCCTGGAGCTGCCTTTAGGTAATGTAGTATCTNATNGACTGNCNCCANANGGCTAAAGT

Ligne 4 : AAAFFJJJJJJJJJJJJJJJJJFJJFJJJJJFJJJJJJJJJJJJJJJJ#FJ#JJJJF#F#FJJ#F#JJJFJJJJJ

Un score de qualité (échelle PHRED) pour chaque paire de bases. Il indique à quel point nous pouvons être sûrs que la base a été séquencée et identifiée correctement.

où p est la probabilité que l'appel de base correspondant soit incorrect.

Niveau de qualité Phred Probabilité que la base s'appelle fausse Précision de l'appel de base
10 1 sur 10 90%
20 1 sur 100 99%
30 1 sur 1000 99.90%
40 1 sur 10000 99.99%
50 1 sur 100000 100.00%

Fastq-sanger détient un score PHRED de 0-93 tandis que fastq-Illumina fournit des scores PHRED de 0-62. Plutôt que de donner des valeurs numériques du score PHRED, elles sont fournies en codes de caractères ASCII de 33 à 126. Pourquoi 33 à 126 ? Parce que 33 à 126 codes pour des caractères uniques, le score peut donc être représenté par un seul caractère. Référez-vous au tableau ci-dessous.

Basée sur le caractère de base (caractère qui représente zéro score PHRED), l'échelle PHRED est souvent appelée FHRED+33 (caractère ASCII !) ou FHRED+64 (caractère ASCII ?). La figure ci-dessous illustre l'utilisation de PHRED dans différentes notations de séquençage.

Il est essentiel de déterminer le type de score PHRED utilisé dans les fichiers .fastq avant de les traiter. Les fichiers Illumina .fastq actuels ont un score PHRED de +33. Veuillez consulter https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/ pour plus de détails.

SAM (carte d'alignement de séquence)

Les Format SAM est un format texte pour stocker des données de séquence dans une série de colonnes ASCII délimitées par des tabulations. Le plus souvent, il est généré en tant que version lisible par l'homme de son format frère BAM, qui stocke les mêmes données sous une forme binaire compressée, indexée.

Les fichiers au format SAM sont générés après le mappage des lectures sur la séquence de référence. Il s'agit d'un format de texte délimité par des tabulations avec un en-tête et un corps. Les lignes d'en-tête commencent par « @ », contrairement aux lignes d'alignement. L'en-tête contient des informations génériques sur le fichier SAM ainsi que des informations sur la version, si le fichier est trié, des informations sur la séquence de référence, etc. Les enregistrements d'alignement constituent le corps du fichier. Chaque ligne/enregistrement d'alignement comporte 11 champs obligatoires décrivant les informations d'alignement essentielles.

Quelques termes utilisés dans le manuel SAM :

Modèle : Le fragment d'ADN qui a été mesuré

Lectures : Selon la méthodologie, un modèle peut produire une ou plusieurs lectures. Ces lectures peuvent couvrir le modèle entier ou juste une sous-section de celui-ci. Les lectures provenant du même modèle couvrent généralement différentes parties du modèle et peuvent représenter le modèle lui-même ou son complément inverse.

Segments : chaque lecture peut produire un ou plusieurs alignements qui à leur tour auront des régions alignées appelées segments. À partir de ces segments, il peut être possible de déduire la taille du modèle d'origine.


source : http://samtools.github.io/hts-specs/SAMv1.pdf

Col. 1 QNAME :

Requête NOM. Les lectures/segments ayant le même QNAME sont considérés comme provenant du même modèle. Un QNAME « * » indique que l'information n'est pas disponible. Dans un fichier SAM, une lecture peut occuper plusieurs lignes d'alignement, lorsque son alignement est chimérique .

Col. 2 DRAPEAU:

Combinaison d'indicateurs au niveau du bit.

BIT La description
1 0x1 modèle comportant plusieurs segments dans le séquençage
2 0x2 chaque segment correctement aligné selon l'aligneur
4 0x4 segment non mappé
8 0x8 segment suivant dans le modèle non mappé
16 0x10 SEQ complémenté à l'envers
32 0x20 SEQ du segment suivant dans le modèle étant inversé complété le premier segment dans le modèle
64 0x40 le premier segment du modèle
128 0x80 le dernier segment du modèle
256 0x100 alignement secondaire
512 0x200 ne pas passer les filtres, tels que les contrôles de qualité de la plate-forme/du fournisseur
1024 0x400 PCR ou duplicata optique
2048 0x800 alignement supplémentaire

Col. 3 RNAME:

Nom de la séquence de référence. Il fait généralement référence au nombre de chromosomes.

Col. 4 PDV:

Position de mappage la plus à gauche de la première base correspondante en lecture. Il a une indexation basée sur 1. Si pos est défini sur 0, cela représente une lecture non mappée. Pour une paire de lecture READ1/1 et READ1/2 et une seule Read2

Col. 5 MAPQ:

Il indique la qualité MAPpping. MAPQ= -10log10(Probabilité que la position cartographique soit erronée). MAPQ=255 indique que la qualité de mappage n'est pas disponible.

Col. 6 CIGARE:

Une chaîne qui décrit l'alignement.

OP BAM La description
M 0 correspondance d'alignement (peut être une correspondance ou une non-concordance de séquence)
je 1 insertion à la référence
2 suppression de la référence
N 3 région ignorée de la référence
S 4 écrêtage doux (séquences écrêtées présentes dans SEQ)
H 5 écrêtage dur (séquences écrêtées NON présentes dans SEQ)
P 6 remplissage (suppression silencieuse de la référence rembourrée
= 7 correspondance de séquence
X 8 non-concordance de séquence

La différence entre H et S est que si la séquence de non-concordance est signalée comme faisant partie de la séquence de lecture dans le fichier d'alignement, il s'agit d'un écrêtage logiciel. Souvent, la région de mésappariement correspond ailleurs dans la séquence de référence et dans ce cas, la région de mésappariement est supprimée de la séquence de lecture signalée dans l'alignement et est appelée écrêtage dur.

La valeur CIGAR de Read2 dans l'exemple POS sera :

cccc ne correspond nulle part ailleurs dans la référence donc un écrêtage doux. , 5 correspondances (GATAC), 2 insertions (TA), 4 correspondances (GTAA), 1(*) suppression, 3 correspondances (GAT), 2 (..)région ignorée de la référence (N), 4 correspondances (GTCT)

Col. 7 RNEXT , Col. 8 PNEXT:

RNEXT et PNEXT est de connaître la référence et la position d'un partenaire de lecture d'extrémité appariée pour les outils de visualisation. RNEXT est le nom du chromosome ou du contig sur lequel le modèle suivant d'une paire s'aligne. RNEXT de la valeur « = » signifie aligner sur la même référence et « * » ne représente aucune information disponible (séquençage à une seule extrémité). PNEXT où s'aligne l'autre lecture de la paire (Information non disponible =0, Sinon valeur POS de la paire).

Read1/1 et Read1/2 sont appariés et Read 3 n'est pas apparié. Ainsi, les valeurs RNEX et PNEXT seront

Col. 9 TLEN : LENgth du modèle observé

Il représente la longueur de référence couverte par les lectures de fin de paire. La distance entre la base mappée la plus à gauche et la base mappée la plus à droite dans les lectures appariées. Pour les lectures non appariées, c'est 0.

Col. 10 SEQ: Séquence de lecture ou Segment.

Col. 11 QUAL : valeurs de score PHRED de lecture. Si '*' aucune valeur n'est stockée.

Un fichier BAM (Binary Alignment/Map) est la version binaire compressée du Sequence Alignment/Map (SAM), une représentation compacte et indexable des alignements de séquences de nucléotides. Les données entre SAM et BAM sont exactement les mêmes. Les fichiers BAM binaires sont de petite taille et idéaux pour stocker des fichiers d'alignement. Exiger que samtools affiche le fichier.

VCF (format/fichier d'appel de variante)

VCF est un format de fichier texte avec un en-tête (version d'information VCF, échantillon, etc.) et les lignes de données constituent le corps du fichier.

Cela contient des méta-informations et est inclus après la chaîne « ## ». Il est recommandé d'inclure les entrées INFO, FILTER et FORMAT pour une meilleure explication du champ de données.

D'autres informations telles qu'un allèle alternatif, un champ d'assemblage, un champ contig, un champ d'échantillon, un champ de pedigree peuvent également être incluses.

Les lignes de données ont 8 colonnes obligatoires.

#CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO.

Le format VCF a un manuel très bien expliqué disponible sur https://samtools.github.io/hts-specs/VCFv4.2.pdf .

GFF (format de caractéristiques générales ou format de recherche de gènes)

Extensions de fichiers : fichier.gff2, fichier. gff3, fichier.gff

Il a 8 premiers champs comme GFF2 mais diffère dans le champ 9 dans l'attribution d'attributs. 2 sont mis en évidence ici.
(a) GFF3 a une meilleure fonction d'imbrication. Lie les fonctionnalités à la balise parente

(b) La manière la plus générale de représenter un gène codant pour une protéine est ce que l'on appelle le « gène à trois niveaux ». Le niveau supérieur est une caractéristique du type « gène » qui regroupe les transcrits du gène. et les éléments réglementaires. Sous ce niveau se trouvent un ou plusieurs transcrits de type “mRNA”. Ce niveau peut également accueillir des promoteurs et d'autres éléments cis-régulateurs. Au troisième niveau se trouvent les composants des transcrits d'ARNm, le plus souvent des segments codant pour CDS et des UTR. Cet exemple montre comment représenter un gène nommé “EDEN” qui possède trois transcrits d'ARNm épissés alternativement :

Source : http://gmod.org/wiki/GFF3
GFF (format de caractéristiques générales ou format de recherche de gènes). GFF peut être utilisé pour tout type de caractéristique (transcriptions, exon, intron, promoteur, 3 'UTR, éléments répétitifs, etc.) associé à la séquence, alors que GTF est principalement destiné aux gènes/transcriptions. GFF3 est la dernière version et une amélioration par rapport au format GFF2. Cependant, de nombreuses bases de données ne sont toujours pas équipées pour gérer la version GFF3. Les différences seront expliquées plus loin dans le texte.

Le format GFF a 9 colonnes obligatoires et elles sont séparées par des tabulations. Les 9 colonnes sont les suivantes.

Col. 1 Séquence de référence:

Il s'agit de l'ID de la séquence de référence utilisée pour établir le système de coordonnées pour l'annotation. Généralement le nom ou le numéro du chromosome.

Col. 2 La source:

Cela explique comment l'annotation d'entité est dérivée.La source est un qualificateur de texte libre destiné à décrire l'algorithme ou la procédure d'exploitation qui a généré cette fonctionnalité. Il s'agit généralement du nom d'un logiciel, tel que “Genescan” ou d'un nom de base de données, tel que “Genbank.” En effet, la source est utilisée pour étendre l'ontologie des caractéristiques en ajoutant un qualificatif au type créant un nouveau type composite qui est une sous-classe du type dans la colonne type. Il n'est pas nécessaire de spécifier une source. S'il n'y a pas de source, mettez un “.” (un point) dans ce champ.

Col. 3 Caractéristique:

Le nom du type d'entité, comme “gene” ou “exon”. Dans un fichier GFF bien structuré, toutes les caractéristiques enfants (exons, introns, etc.) suivent toujours la ligne caractéristique de leurs parents (transcription). De cette façon, ils font partie d'un seul bloc

Col. 4 Début:

Génomique Début de la fonctionnalité.

Début génomique de la fonctionnalité

Col. 6 But:

Valeur numérique qui indique généralement la confiance de la source sur l'entité annotée. Une valeur de “.” (un point) est utilisée pour définir une valeur nulle. La sémantique de la partition est mal définie. Au format GFF3, il est fortement recommandé d'utiliser les valeurs E pour les caractéristiques de similarité de séquence et les valeurs P pour les caractéristiques de prédiction de gènes ab initio. S'il n'y a pas de score, mettez un “.” (un point) dans ce champ.

Col. 7 Brin:

Champ qui indique le brin de détection de l'entité. « + » : brin Watson et « - » : brin crick. « ? » peut être utilisé pour les fonctionnalités dont l'échouage est pertinent, mais inconnu.

Col. 8 Trame (GFF2 et GTF) ou Phase (GFF3) :

Pour les entités de type “CDS”, la phase indique où commence la caractéristique en référence au cadre de lecture. La phase est l'un des nombres entiers 0, 1 ou 2, indiquant le nombre de bases qui doivent être retirées du début de cette caractéristique pour atteindre la première base du codon suivant. En d'autres termes, une phase de 𔄘” indique que le prochain codon commence à la première base de la région décrite par la ligne courante, une phase de 𔄙” indique que le prochain codon commence à la deuxième base de cette région, et une phase de 𔄚” indique que le codon commence à la troisième base de cette région. A NE PAS confondre avec la trame, qui est simplement start modulo 3. S'il n'y a pas de phase, mettez un “.” (un point) dans ce champ.

Pour les entités de brin avant, la phase est comptée à partir du champ de départ. Pour les entités à brin inversé, la phase est comptée à partir du champ de fin.

La phase est obligatoire pour toutes les fonctionnalités de CDS.

Expliqué, disons que ### et *** représentent des exons consécutifs.

CTG C ​​est la première base (0), T est la deuxième base (1), G est la troisième base (2)

Col. 9 Champ Attribut ou Groupe :

Toutes les lignes du même groupe sont liées entre elles en un seul élément. Le terrain de groupe est un défi. Il est utilisé de plusieurs manières distinctes :

  • pour regrouper une seule caractéristique de séquence qui s'étend sur une plage discontinue, telle qu'un alignement avec intervalle.
  • pour nommer une caractéristique, ce qui permet de la récupérer par son nom.
  • pour ajouter une ou plusieurs notes à l'annotation.
  • pour ajouter un autre nom

L'un des problèmes de GFF2 est qu'il n'est capable de représenter qu'un seul niveau d'imbrication de fonctionnalités. Ceci est principalement un problème lorsqu'il s'agit de gènes qui ont plusieurs transcrits épissés alternativement. GFF2 est incapable de gérer la hiérarchie à trois niveaux de gène transcription exon. La plupart des gens contournent ce problème en déclarant une série de transcrits et en leur donnant des noms similaires pour indiquer qu'ils proviennent du même gène.

La deuxième limitation est que si GFF2 vous permet de créer des hiérarchies à deux niveaux, telles que transcription exon, il n'a aucune idée de la direction de la hiérarchie. Il ne sait donc pas si l'exon est une sous-fonction de la transcription, ou vice-versa. Cela signifie que vous devez utiliser des “agrégateurs” pour trier les relations. C'est une douleur importante dans le cou. Pour cette raison, le format GFF2 a été déprécié au profit des bases de données au format GFF3.

GTF (format de transfert de gènes)

GTF a le même format que les fichiers GFF. Il a les mêmes 9 champs qui décrivent les caractéristiques liées au gène/transcrit. Le champ groupe/attribut a été étendu à une liste d'attributs. Chaque attribut consiste en une paire type/valeur. Les attributs doivent se terminer par un point-virgule et être séparés de tout attribut suivant par exactement un espace. La liste d'attributs doit commencer par les deux attributs obligatoires :

valeur gene_id : Un identifiant unique au monde pour la source génomique de la séquence.

valeur transcript_id : Un identifiant unique au monde pour la transcription prévue.


DEVELOPPEMENTS RÉCENTS

Nouvelle page de soumission

En 2014, NCBI a publié une version révisée de la page d'accueil principale de NCBI qui comprend six nouveaux boutons, dont l'un est intitulé « Soumettre ». Ce bouton mène à une nouvelle page Soumettre qui sert de point de départ unifié pour tout type de soumission de données à NCBI. Si un utilisateur est connecté à NCBI, la bannière principale de la page Soumettre renvoie aux soumissions de cet utilisateur, ce qui facilite le suivi des soumissions en cours ou en commence de nouvelles. La page fournit un menu QuickStart qui permet aux utilisateurs de naviguer vers les différents sites de soumission, ainsi qu'un « assistant » qui permet aux utilisateurs de parcourir toutes les ressources de soumission. Les futures versions de cet assistant incluront un questionnaire pour guider les utilisateurs vers le site de soumission le plus approprié.

Modifications à venir des identifiants de séquence

Comme décrit pour la première fois dans les notes de version de GenBank 199.0 en décembre 2013, et discuté plus en détail dans les notes de version de GenBank 209.0, NCBI est en train de supprimer progressivement l'utilisation des numéros GI comme identifiants de séquence. Les numéros GI ont été introduits pour la première fois dans GenBank 81.0 (février 1994) en tant qu'identifiant supplémentaire au numéro d'accession qui ferait référence de manière stable à une version particulière d'un enregistrement de séquence. En 1997, un tel suivi de version a été ajouté aux numéros d'accession sous la forme d'un suffixe entier qui s'incrémente à chaque mise à jour des données de séquence dans un enregistrement. Par exemple, AC020606.7 fait référence à un enregistrement dont les données de séquence ont été mises à jour six fois. De cette façon, l'identifiant IG et l'identifiant accession.version se réfèrent de manière unique à une version donnée d'un enregistrement de séquence, et les deux identifiants ont été inclus dans les enregistrements GenBank pendant des années pour prendre en charge les deux approches. Compte tenu du nombre croissant de soumissions de données, il est devenu clair qu'il est maintenant temps pour nous de passer à l'étape suivante et de supprimer les anciens identifiants GI redondants et de conserver un identifiant unique pour les séquences, l'accession.version plus lisible par l'homme. Ce changement simplifiera le processus de suivi des séquences sans aucune perte de fonctionnalité. Par conséquent, au cours des prochains mois, nous n'affecterons plus d'IG à un nombre progressivement croissant de nouvelles séquences. (Les exemples actuels de telles séquences sont des contigs non annotés dans les projets WGS et TSA.) Les enregistrements de séquences avec les IG existantes les conserveront, et les services NCBI qui acceptent les IG en entrée continueront d'être pris en charge. NCBI ajoutera la prise en charge des identifiants accession.version à tous les services qui ne les prennent pas actuellement en charge. Au fur et à mesure que NCBI effectue cette transition, nous encourageons tous les utilisateurs dont les flux de travail dépendent des IG à commencer à planifier à utiliser les identifiants accession.version à la place. Au fur et à mesure que ce processus se déroule, NCBI fournira des annonces supplémentaires sur nos plateformes de médias sociaux et nos flux d'actualités, ainsi que dans les notes de publication de GenBank.

Assistant de soumission d'ARNr 16S

Le portail de soumission NCBI propose désormais un nouvel assistant pour aider les soumissionnaires de séquences d'ARNr 16S provenant de microbes (submit.ncbi.nlm.nih.gov/genbank/help/). Cet assistant est destiné aux échantillons bactériens ou archéens provenant soit de sources environnementales non cultivées, soit de souches pures cultivées. Les échantillons doivent être uniquement des séquences d'ARNr 16S et ne doivent pas être des lectures brutes provenant de technologies de nouvelle génération. Les séquences soumises à l'aide de l'assistant seront automatiquement traitées et vérifiées pour les chimères, la contamination vectorielle, les séquences de mauvaise qualité et d'autres problèmes.

Séquences non vérifiées

Comme indiqué précédemment (6), dans le cadre du processus d'examen standard des nouvelles soumissions, le personnel de GenBank peut étiqueter les séquences comme non vérifiées si l'exactitude des données de séquences ou des annotations soumises ne peut pas être confirmée. Jusqu'à ce que le demandeur soit en mesure de résoudre ces problèmes, la ligne de définition de la séquence commencera par « UNVERIFIED » : et la séquence ne sera pas incluse dans les bases de données BLAST. Ce traitement est étendu aux soumissions génomiques où l'organisme source est incertain, il y a des preuves de contamination ou il y a d'autres problèmes avec les données. En plus de l'étiquette NON VÉRIFIÉE dans la ligne de définition, une brève description des problèmes sera saisie dans le champ COMMENTAIRE de l'enregistrement.


<p>Cette section décrit les modifications post-traductionnelles (PTM) et/ou les événements de traitement.<p><a href='/help/ptm_processing_section' target='_top'>Plus. </a></p> PTM / Traitement i

Traitement des molécules

Clé de fonctionnalitéPoste(s)Description Actions Vue graphiqueLongueur
<p>Cette sous-section de la section "PTM / Traitement" indique la présence d'un peptide signal N-terminal.<p><a href='/help/signal' target='_top'>Plus. </a></p> Peptide signal i 1 – 19 Analyse de séquence Ajouter BLAST 19
<p>Cette sous-section de la section "PTM/Traitement" décrit l'étendue d'une chaîne polypeptidique dans la protéine mature après le traitement ou le clivage protéolytique.<p><a href='/help/chain' target='_top'>Plus. </a></p> Chaîne i PRO_0000341217 20 – 230 Protéine HIDE1 Ajouter BLAST 211

Modifications des acides aminés

Clé de fonctionnalitéPoste(s)Description Actions Vue graphiqueLongueur
<p>Cette sous-section de la section <a href="http://www.uniprot.org/help/ptm%5Fprocessing%5Fsection">PTM / Processing</a> spécifie la position et le type de chaque groupe glycane lié de manière covalente (mono- , di- ou polysaccharide).<p><a href='/help/carbohyd' target='_top'>Plus. </a></p> Glycosylation i 48 Analyse de séquence d'asparagine liée à N (GlcNAc. ) 1
Je glycosylation 97 Analyse de séquence d'asparagine liée à N (GlcNAc. ) 1

Mots-clés - PTM i

Bases de données protéomiques

jPOST - Référentiel/base de données standard du Japon sur le protéome

MassIVE - Environnement virtuel interactif de spectrométrie de masse

MaxQB - La base de données MaxQuant

PaxDb, une base de données des moyennes d'abondance de protéines dans les trois domaines de la vie

Base de données d'identifications protéomiques

ProteomicsDB : une ressource de protéome multi-organismes

Bases de données PTM

GlyGen : ressources informatiques et informatiques pour la glycoscience

Ressource intégrée iPTMnet pour les PTM dans le contexte de la biologie des systèmes

Ressource complète pour l'étude des modifications post-traductionnelles des protéines (PTM) chez l'homme, la souris et le rat.


Contenu

Les premières séquences du génome humain ont été publiées sous une forme provisoire presque complète en février 2001 par le Human Genome Project [15] et Celera Corporation. [16] L'achèvement de l'effort de séquençage du projet du génome humain a été annoncé en 2004 avec la publication d'un projet de séquence du génome, ne laissant que 341 lacunes dans la séquence, représentant un ADN hautement répétitif et autre qui ne pouvait pas être séquencé avec la technologie disponible au temps. [8] Le génome humain a été le premier de tous les vertébrés à être séquencé jusqu'à un tel quasi-achèvement, et en 2018, les génomes diploïdes de plus d'un million d'humains individuels avaient été déterminés à l'aide du séquençage de nouvelle génération. [17] En 2021, il a été signalé que le consortium T2T avait comblé toutes les lacunes. C'est ainsi qu'est né un génome humain complet sans lacunes. [18]

Ces données sont utilisées dans le monde entier en sciences biomédicales, en anthropologie, en médecine légale et dans d'autres branches de la science. De telles études génomiques ont conduit à des progrès dans le diagnostic et le traitement des maladies, et à de nouvelles connaissances dans de nombreux domaines de la biologie, y compris l'évolution humaine.

En juin 2016, les scientifiques ont officiellement annoncé HGP-Write, un plan de synthèse du génome humain. [19] [20]

Bien que « l'achèvement » du projet du génome humain ait été annoncé en 2001, [14] il restait des centaines de lacunes, avec environ 5 à 10 % de la séquence totale restant indéterminée. L'information génétique manquante se trouvait principalement dans les régions hétérochromatiques répétitives et à proximité des centromères et des télomères, mais aussi dans certaines régions euchromatiques codant pour les gènes. [21] Il restait 160 lacunes euchromatiques en 2015 lorsque les séquences couvrant 50 autres régions auparavant non séquencées ont été déterminées. [22] Ce n'est qu'en 2020 que la première séquence télomère à télomère vraiment complète d'un chromosome humain a été déterminée, à savoir le chromosome X. [23]

La longueur totale du génome humain de référence, qui ne représente la séquence d'aucun individu spécifique, dépasse 3 milliards de paires de bases. Le génome est organisé en 22 paires de chromosomes, appelées autosomes, plus la 23e paire de chromosomes sexuels (XX) chez la femelle et (XY) chez le mâle. Ce sont toutes de grandes molécules d'ADN linéaires contenues dans le noyau cellulaire. Le génome comprend également l'ADN mitochondrial, une molécule circulaire relativement petite présente en plusieurs exemplaires dans chaque mitochondrie.

Données du génome humain de référence, par chromosome [24]
Chromosome Longueur
(mm)
Base
paires
Variantes Protéine-
codage
gènes
Pseudo-
gènes
Le total
longue
ARNnc
Le total
petit
ARNnc
miARN ARNr snRNA snoARN Divers
ARNnc
Liens Centromère
position
(Mbp)
Cumul
(%)
1 85 248,956,422 12,151,146 2058 1220 1200 496 134 66 221 145 192 EBI 125 7.9
2 83 242,193,529 12,945,965 1309 1023 1037 375 115 40 161 117 176 EBI 93.3 16.2
3 67 198,295,559 10,638,715 1078 763 711 298 99 29 138 87 134 EBI 91 23
4 65 190,214,555 10,165,685 752 727 657 228 92 24 120 56 104 EBI 50.4 29.6
5 62 181,538,259 9,519,995 876 721 844 235 83 25 106 61 119 EBI 48.4 35.8
6 58 170,805,979 9,130,476 1048 801 639 234 81 26 111 73 105 EBI 61 41.6
7 54 159,345,973 8,613,298 989 885 605 208 90 24 90 76 143 EBI 59.9 47.1
8 50 145,138,636 8,221,520 677 613 735 214 80 28 86 52 82 EBI 45.6 52
9 48 138,394,717 6,590,811 786 661 491 190 69 19 66 51 96 EBI 49 56.3
10 46 133,797,422 7,223,944 733 568 579 204 64 32 87 56 89 EBI 40.2 60.9
11 46 135,086,622 7,535,370 1298 821 710 233 63 24 74 76 97 EBI 53.7 65.4
12 45 133,275,309 7,228,129 1034 617 848 227 72 27 106 62 115 EBI 35.8 70
13 39 114,364,328 5,082,574 327 372 397 104 42 16 45 34 75 EBI 17.9 73.4
14 36 107,043,718 4,865,950 830 523 533 239 92 10 65 97 79 EBI 17.6 76.4
15 35 101,991,189 4,515,076 613 510 639 250 78 13 63 136 93 EBI 19 79.3
16 31 90,338,345 5,101,702 873 465 799 187 52 32 53 58 51 EBI 36.6 82
17 28 83,257,441 4,614,972 1197 531 834 235 61 15 80 71 99 EBI 24 84.8
18 27 80,373,285 4,035,966 270 247 453 109 32 13 51 36 41 EBI 17.2 87.4
19 20 58,617,616 3,858,269 1472 512 628 179 110 13 29 31 61 EBI 26.5 89.3
20 21 64,444,167 3,439,621 544 249 384 131 57 15 46 37 68 EBI 27.5 91.4
21 16 46,709,983 2,049,697 234 185 305 71 16 5 21 19 24 EBI 13.2 92.6
22 17 50,818,468 2,135,311 488 324 357 78 31 5 23 23 62 EBI 14.7 93.8
X 53 156,040,895 5,753,881 842 874 271 258 128 22 85 64 100 EBI 60.6 99.1
Oui 20 57,227,415 211,643 71 388 71 30 15 7 17 3 8 EBI 10.4 100
ADNmt 0.0054 16,569 929 13 0 0 24 0 2 0 0 0 EBI N / A 100
le total 3,088,286,401 155,630,645 20412 14600 14727 5037 1756 532 1944 1521 2213

Analyse originale publiée dans la base de données Ensembl de l'European Bioinformatics Institute (EBI) et du Wellcome Trust Sanger Institute. Longueurs de chromosomes estimées en multipliant le nombre de paires de bases par 0,34 nanomètres (distance entre les paires de bases dans la structure la plus courante de la double hélice d'ADN une estimation récente des longueurs de chromosomes humains basée sur des données mises à jour rapporte 205,00 cm pour le génome mâle diploïde et 208,23 cm pour les femmes, correspondant à des poids de 6,41 et 6,51 picogrammes (pg), respectivement [25] ). Le nombre de protéines est basé sur le nombre de transcrits d'ARNm précurseurs initiaux et n'inclut pas les produits d'épissage alternatif de pré-ARNm, ou les modifications de la structure de la protéine qui se produisent après la traduction.

Les variations sont des différences de séquence d'ADN uniques qui ont été identifiées dans les séquences individuelles du génome humain analysées par Ensembl en décembre 2016. Le nombre de variations identifiées devrait augmenter à mesure que d'autres génomes personnels sont séquencés et analysés. En plus du contenu génique indiqué dans ce tableau, un grand nombre de séquences fonctionnelles non exprimées ont été identifiées dans tout le génome humain (voir ci-dessous). Les liens ouvrent des fenêtres vers les séquences chromosomiques de référence dans le navigateur de génome EBI.

Les petits ARN non codants sont des ARN d'au moins 200 bases qui n'ont pas de potentiel de codage des protéines. Ceux-ci incluent : les microARN, ou miARN (régulateurs post-transcriptionnels de l'expression des gènes), les petits ARN nucléaires ou snARN (les composants ARN des spliceosomes) et les petits ARN nucléolaires, ou snoARN (impliqués dans le guidage des modifications chimiques vers d'autres molécules d'ARN). Les ARN longs non codants sont des molécules d'ARN de plus de 200 bases qui n'ont pas de potentiel de codage des protéines. Ceux-ci incluent : les ARN ribosomiques, ou ARNr (les composants ARN des ribosomes), et divers autres ARN longs impliqués dans la régulation de l'expression des gènes, les modifications épigénétiques des nucléotides de l'ADN et des protéines histones, et la régulation de l'activité des protéines codant pour les protéines. gènes. De petits écarts entre le nombre total de petits ARNnc et le nombre de types spécifiques de petits ncNRA résultent du fait que les premières valeurs proviennent de la version 87 d'Ensembl et la dernière de la version 68 d'Ensembl.

Le nombre de gènes dans le génome humain n'est pas tout à fait clair car la fonction de nombreux transcrits reste incertaine. Ceci est particulièrement vrai pour l'ARN non codant. Le nombre de gènes codant pour les protéines est mieux connu mais il existe encore de l'ordre de 1 400 gènes discutables qui peuvent ou non coder des protéines fonctionnelles, généralement codées par de courts cadres ouverts de lecture.

Divergences dans les estimations du nombre de gènes humains entre différentes bases de données, en juillet 2018 [26]
Gencode [27] Ensemble [28] Réf [29] ÉCHECS [30]
gènes codant pour les protéines 19,901 20,376 20,345 21,306
Gènes lncRNA 15,779 14,720 17,712 18,484
ARN antisens 5501 28 2694
divers ARN 2213 2222 13,899 4347
Pseudogènes 14,723 1740 15,952
total des relevés de notes 203,835 203,903 154,484 328,827

Contenu de l'information Modifier

Le génome humain haploïde (23 chromosomes) est long d'environ 3 milliards de paires de bases et contient environ 30 000 gènes. [31] Étant donné que chaque paire de bases peut être codée sur 2 bits, cela représente environ 750 mégaoctets de données. Une cellule somatique (diploïde) individuelle contient le double de cette quantité, soit environ 6 milliards de paires de bases. Les hommes en ont moins que les femmes car le chromosome Y est d'environ 57 millions de paires de bases alors que le X est d'environ 156 millions. Étant donné que les génomes individuels varient en séquence de moins de 1 % les uns des autres, les variations du génome d'un humain donné à partir d'une référence commune peuvent être compressées sans perte à environ 4 mégaoctets. [32]

Le taux d'entropie du génome diffère significativement entre les séquences codantes et non codantes. Elle est proche du maximum de 2 bits par paire de bases pour les séquences codantes (environ 45 millions de paires de bases), mais moins pour les parties non codantes. Il varie entre 1,5 et 1,9 bits par paire de bases pour le chromosome individuel, à l'exception du chromosome Y, qui a un taux d'entropie inférieur à 0,9 bits par paire de bases. [33]

Le contenu du génome humain est généralement divisé en séquences d'ADN codantes et non codantes. L'ADN codant est défini comme les séquences qui peuvent être transcrites en ARNm et traduites en protéines au cours du cycle de vie humain. Ces séquences n'occupent qu'une petite fraction du génome (<2%). L'ADN non codant est composé de toutes ces séquences (environ 98 % du génome) qui ne sont pas utilisées pour coder des protéines.

Certains ADN non codants contiennent des gènes pour des molécules d'ARN avec des fonctions biologiques importantes (ARN non codant, par exemple ARN ribosomique et ARN de transfert). L'exploration de la fonction et de l'origine évolutive de l'ADN non codant est un objectif important de la recherche génomique contemporaine, y compris le projet ENCODE (Encyclopedia of DNA Elements), qui vise à étudier l'ensemble du génome humain, en utilisant une variété d'outils expérimentaux dont les résultats sont indicatifs. d'activité moléculaire.

Parce que l'ADN non codant dépasse largement l'ADN codant, le concept de génome séquencé est devenu un concept analytique plus ciblé que le concept classique de gène codant pour l'ADN. [34] [35]

Les séquences codant pour les protéines représentent le composant le plus largement étudié et le mieux compris du génome humain. Ces séquences conduisent finalement à la production de toutes les protéines humaines, bien que plusieurs processus biologiques (par exemple, les réarrangements de l'ADN et l'épissage alternatif du pré-ARNm) puissent conduire à la production de beaucoup plus de protéines uniques que le nombre de gènes codant pour les protéines. La capacité modulaire complète de codage des protéines du génome est contenue dans l'exome et consiste en des séquences d'ADN codées par des exons qui peuvent être traduites en protéines. En raison de son importance biologique et du fait qu'il constitue moins de 2% du génome, le séquençage de l'exome a été le premier jalon majeur du projet du génome humain.

Nombre de gènes codant pour les protéines. Environ 20 000 protéines humaines ont été annotées dans des bases de données telles qu'Uniprot. [37] Historiquement, les estimations du nombre de gènes de protéines ont considérablement varié, allant jusqu'à 2 000 000 à la fin des années 1960, [38] mais plusieurs chercheurs ont souligné au début des années 1970 que la charge mutationnelle estimée des mutations délétères plaçait une limite supérieure de environ 40 000 pour le nombre total de loci fonctionnels (cela comprend les gènes codant pour les protéines et les gènes fonctionnels non codants). [39] Le nombre de gènes codant pour les protéines humaines n'est pas significativement plus grand que celui de nombreux organismes moins complexes, tels que le ver rond et la mouche des fruits. Cette différence peut résulter de l'utilisation extensive de l'épissage alternatif du pré-ARNm chez l'homme, qui offre la possibilité de construire un très grand nombre de protéines modulaires grâce à l'incorporation sélective d'exons.

Capacité de codage des protéines par chromosome. Les gènes codant pour les protéines sont répartis de manière inégale sur les chromosomes, allant de quelques dizaines à plus de 2000, avec une densité de gènes particulièrement élevée dans les chromosomes 1, 11 et 19. Chaque chromosome contient diverses régions riches et pauvres en gènes, qui peut être corrélé avec les bandes chromosomiques et le contenu en GC. [40] La signification de ces modèles non aléatoires de densité génétique n'est pas bien comprise. [41]

Taille des gènes codant pour les protéines. La taille des gènes codant pour les protéines dans le génome humain montre une énorme variabilité. Par exemple, le gène de l'histone H1a (HIST1HIA) est relativement petit et simple, dépourvu d'introns et codant pour un ARNm de 781 nucléotides de long qui produit une protéine de 215 acides aminés à partir de son cadre de lecture ouvert de 648 nucléotides. La dystrophine (DMD) était le plus grand gène codant pour les protéines dans le génome humain de référence de 2001, couvrant un total de 2,2 millions de nucléotides, [42] tandis qu'une méta-analyse systématique plus récente des données mises à jour du génome humain a identifié un gène codant pour les protéines encore plus grand, RBFOX1 (RNA binding protein, fox-1 homologue 1), couvrant un total de 2,47 millions de nucléotides. [43] Titine (TTN) a la séquence codante la plus longue (114 414 nucléotides), le plus grand nombre d'exons (363), [42] et l'exon unique le plus long (17 106 nucléotides). Comme estimé sur la base d'un ensemble organisé de gènes codant pour des protéines sur l'ensemble du génome, la taille médiane est de 26 288 nucléotides (moyenne = 66 577), la taille médiane des exons, 133 nucléotides (moyenne = 309), le nombre médian d'exons, 8 ( moyenne = 11), et la protéine codée médiane a une longueur de 425 acides aminés (moyenne = 553). [43]

Exemples de gènes codant pour des protéines humaines [44]
Protéine Chrome Gène Longueur Exons Longueur de l'exon Longueur d'intron Épissage alternatif
Protéine de susceptibilité au cancer du sein de type 2 13 BRCA2 83,736 27 11,386 72,350 Oui
Régulateur de conductance transmembranaire de la mucoviscidose 7 CFTR 202,881 27 4,440 198,441 Oui
Cytochrome b TA MTCYB 1,140 1 1,140 0 non
Dystrophine X DMD 2,220,381 79 10,500 2,209,881 Oui
Glycéraldéhyde-3-phosphate déshydrogénase 12 GAPDH 4,444 9 1,425 3,019 Oui
Sous-unité bêta de l'hémoglobine 11 HBB 1,605 3 626 979 non
Histone H1A 6 HIST1H1A 781 1 781 0 non
Titine 2 TTN 281,434 364 104,301 177,133 Oui

L'ADN non codant est défini comme l'ensemble des séquences d'ADN d'un génome qui ne se trouvent pas dans les exons codant pour les protéines et qui ne sont donc jamais représentées dans la séquence d'acides aminés des protéines exprimées. Selon cette définition, plus de 98% des génomes humains sont composés d'ADNc.

De nombreuses classes d'ADN non codant ont été identifiées, notamment des gènes d'ARN non codant (par exemple, ARNt et ARNr), des pseudogènes, des introns, des régions non traduites d'ARNm, des séquences d'ADN régulatrices, des séquences d'ADN répétitives et des séquences liées à des éléments génétiques mobiles.

De nombreuses séquences incluses dans les gènes sont également définies comme de l'ADN non codant. Ceux-ci comprennent des gènes pour l'ARN non codant (par exemple, ARNt, ARNr) et des composants non traduits de gènes codant pour des protéines (par exemple, des introns et des régions non traduites 5' et 3' de l'ARNm).

Les séquences codant pour les protéines (en particulier, les exons codants) constituent moins de 1,5% du génome humain. [14] De plus, environ 26% du génome humain sont des introns. [45] À part les gènes (exons et introns) et les séquences régulatrices connues (8-20 %), le génome humain contient des régions d'ADN non codant. La quantité exacte d'ADN non codant qui joue un rôle dans la physiologie cellulaire a été vivement débattue. Une analyse récente du projet ENCODE indique que 80 % de l'ensemble du génome humain est soit transcrit, se lie à des protéines régulatrices ou est associé à une autre activité biochimique. [12]

Il reste cependant controversé si toute cette activité biochimique contribue à la physiologie cellulaire, ou si une partie substantielle de cela est le résultat du bruit transcriptionnel et biochimique, qui doit être activement filtré par l'organisme. [46] En excluant les séquences codant pour les protéines, les introns et les régions régulatrices, une grande partie de l'ADN non codant est composée de : De nombreuses séquences d'ADN qui ne jouent pas un rôle dans l'expression des gènes ont des fonctions biologiques importantes. Des études de génomique comparative indiquent qu'environ 5% du génome contient des séquences d'ADN non codant hautement conservées, parfois sur des échelles de temps représentant des centaines de millions d'années, ce qui implique que ces régions non codantes sont soumises à une forte pression évolutive et à une sélection positive. [47]

Beaucoup de ces séquences régulent la structure des chromosomes en limitant les régions de formation de l'hétérochromatine et en régulant les caractéristiques structurelles des chromosomes, telles que les télomères et les centromères. D'autres régions non codantes servent d'origine à la réplication de l'ADN. Enfin, plusieurs régions sont transcrites en ARN fonctionnel non codant qui régule l'expression des gènes codant pour les protéines (par exemple [48] ), la traduction et la stabilité de l'ARNm (voir miARN), la structure de la chromatine (y compris les modifications des histones, par exemple [49] ), l'ADN la méthylation (par exemple [50] ), la recombinaison de l'ADN (par exemple [51] ) et la régulation croisée d'autres ARN non codants (par exemple [52] ). Il est également probable que de nombreuses régions non codantes transcrites ne jouent aucun rôle et que cette transcription soit le produit d'une activité ARN polymérase non spécifique. [46]

Pseudogènes Modifier

Les pseudogènes sont des copies inactives de gènes codant pour des protéines, souvent générés par duplication de gènes, qui sont devenus non fonctionnels par l'accumulation de mutations inactivantes. Le nombre de pseudogènes dans le génome humain est de l'ordre de 13 000, [53] et dans certains chromosomes est presque le même que le nombre de gènes fonctionnels codant pour des protéines. La duplication de gènes est un mécanisme majeur par lequel un nouveau matériel génétique est généré au cours de l'évolution moléculaire.

Par exemple, la famille des gènes des récepteurs olfactifs est l'un des exemples les mieux documentés de pseudogènes dans le génome humain. Plus de 60 pour cent des gènes de cette famille sont des pseudogènes non fonctionnels chez l'homme. En comparaison, seulement 20 pour cent des gènes de la famille des gènes des récepteurs olfactifs de la souris sont des pseudogènes. La recherche suggère qu'il s'agit d'une caractéristique spécifique à l'espèce, car les primates les plus proches ont tous proportionnellement moins de pseudogènes. Cette découverte génétique aide à expliquer le sens de l'odorat moins aigu chez l'homme par rapport aux autres mammifères. [54]

Gènes pour l'ARN non codant (ARNnc) Modifier

Les molécules d'ARN non codantes jouent de nombreux rôles essentiels dans les cellules, en particulier dans les nombreuses réactions de synthèse des protéines et de traitement de l'ARN. L'ARN non codant comprend l'ARNt, l'ARN ribosomique, le microARN, le snRNA et d'autres gènes d'ARN non codant comprenant environ 60 000 ARN longs non codants (lncRNA). [12] [55] [56] [57] Bien que le nombre de gènes lncRNA signalés continue d'augmenter et que le nombre exact dans le génome humain reste à définir, beaucoup d'entre eux sont considérés comme non fonctionnels. [58]

De nombreux ARNnc sont des éléments essentiels de la régulation et de l'expression des gènes. L'ARN non codant contribue également à l'épigénétique, à la transcription, à l'épissage de l'ARN et à la machinerie traductionnelle. Le rôle de l'ARN dans la régulation génétique et la maladie offre un nouveau niveau potentiel de complexité génomique inexplorée. [59]

Introns et régions non traduites de l'ARNm Modifier

En plus des molécules d'ARNnc codées par des gènes discrets, les transcrits initiaux des gènes codant pour les protéines contiennent généralement de vastes séquences non codantes, sous la forme d'introns, de régions non traduites en 5' (5'-UTR) et de régions non traduites en 3' (3'-UTR). Dans la plupart des gènes codant pour des protéines du génome humain, la longueur des séquences d'intron est de 10 à 100 fois la longueur des séquences d'exon.

Séquences d'ADN régulatrices Modifier

Le génome humain possède de nombreuses séquences régulatrices différentes qui sont cruciales pour contrôler l'expression des gènes. Des estimations prudentes indiquent que ces séquences représentent 8% du génome, [60] cependant, les extrapolations du projet ENCODE donnent que 20 [61] -40% [62] du génome sont des séquences régulatrices de gènes. Certains types d'ADN non codant sont des « commutateurs » génétiques qui ne codent pas pour les protéines, mais régulent quand et où les gènes sont exprimés (appelés amplificateurs). [63]

Les séquences régulatrices sont connues depuis la fin des années 1960. [64] La première identification de séquences régulatrices dans le génome humain reposait sur la technologie de l'ADN recombinant. [65] Plus tard avec l'avènement du séquençage génomique, l'identification de ces séquences pourrait être déduite par la conservation évolutive. La branche évolutive entre les primates et la souris, par exemple, s'est produite il y a 70 à 90 millions d'années. [66] Ainsi, les comparaisons informatiques des séquences de gènes qui identifient les séquences non codantes conservées seront une indication de leur importance dans des fonctions telles que la régulation des gènes. [67]

D'autres génomes ont été séquencés avec la même intention d'aider les méthodes guidées par la conservation, par exemple le génome du poisson-globe. [68] Cependant, les séquences régulatrices disparaissent et réévoluent au cours de l'évolution à un rythme élevé. [69] [70] [71]

À partir de 2012, les efforts se sont tournés vers la recherche d'interactions entre l'ADN et les protéines régulatrices par la technique ChIP-Seq, ou des lacunes où l'ADN n'est pas emballé par des histones (sites hypersensibles à la DNase), qui indiquent tous deux où se trouvent des séquences régulatrices actives dans le type cellulaire étudié. [60]

Séquences d'ADN répétitives Modifier

Les séquences d'ADN répétitives représentent environ 50 % du génome humain. [72]

Environ 8% du génome humain se compose de puces à ADN en tandem ou de répétitions en tandem, des séquences répétées de faible complexité qui ont plusieurs copies adjacentes (par exemple "CAGCAGCAG. "). [73] Les séquences en tandem peuvent être de longueurs variables, de deux nucléotides à des dizaines de nucléotides. Ces séquences sont très variables, même parmi des individus étroitement apparentés, et sont donc utilisées pour les tests ADN généalogiques et l'analyse ADN médico-légale. [74]

Séquences répétées de moins de dix nucléotides (par exemple la répétition dinucléotidique (AC)m) sont appelées séquences microsatellites. Parmi les séquences microsatellites, les répétitions trinucléotidiques sont d'une importance particulière, car elles se produisent parfois dans les régions codantes des gènes pour les protéines et peuvent conduire à des troubles génétiques. Par exemple, la maladie de Huntington résulte d'une expansion de la répétition trinucléotidique (CAG)m au sein de la Huntingtine gène sur le chromosome humain 4. Les télomères (les extrémités des chromosomes linéaires) se terminent par une répétition hexanucléotidique microsatellite de la séquence (TTAGGG)m.

Les répétitions en tandem de séquences plus longues (matrices de séquences répétées de 10 à 60 nucléotides de long) sont appelées minisatellites.

Éléments génétiques mobiles (transposons) et leurs reliques Modifier

Les éléments génétiques transposables, les séquences d'ADN qui peuvent se répliquer et insérer des copies d'elles-mêmes à d'autres endroits dans un génome hôte, sont un composant abondant dans le génome humain. La lignée de transposons la plus abondante, Alu, a environ 50 000 copies actives, [75] et peut être inséré dans des régions intragéniques et intergéniques. [76] Une autre lignée, LINE-1, a environ 100 copies actives par génome (le nombre varie selon les personnes). [77] Avec les reliques non fonctionnelles d'anciens transposons, ils représentent plus de la moitié de l'ADN humain total. [78] Parfois appelés "gènes sauteurs", les transposons ont joué un rôle majeur dans la sculpture du génome humain. Certaines de ces séquences représentent des rétrovirus endogènes, des copies d'ADN de séquences virales qui se sont intégrées de manière permanente dans le génome et sont maintenant transmises aux générations suivantes.

Les éléments mobiles du génome humain peuvent être classés en rétrotransposons LTR (8,3 % du génome total), SINE (13,1 % du génome total), y compris les éléments Alu, les LINE (20,4 % du génome total), les SVA et les transposons d'ADN de classe II (2,9 % du génome total).

Génome humain de référence Modifier

À l'exception des jumeaux identiques, tous les humains présentent une variation significative des séquences d'ADN génomique. Le génome humain de référence (HRG) est utilisé comme référence de séquence standard.

Il y a plusieurs points importants concernant le génome humain de référence :

  • Le HRG est une séquence haploïde. Chaque chromosome est représenté une fois.
  • Le HRG est une séquence composite et ne correspond à aucun individu humain réel.
  • Le HRG est périodiquement mis à jour pour corriger les erreurs, les ambiguïtés et les "lacunes" inconnues.
  • Le HRG ne représente en aucun cas un individu humain « idéal » ou « parfait ». Il s'agit simplement d'une représentation ou d'un modèle standardisé qui est utilisé à des fins de comparaison.

Le Genome Reference Consortium est responsable de la mise à jour du HRG. La version 38 est sortie en décembre 2013. [79]

Mesurer la variation génétique humaine Modifier

La plupart des études sur la variation génétique humaine se sont concentrées sur les polymorphismes mononucléotidiques (SNP), qui sont des substitutions dans des bases individuelles le long d'un chromosome. La plupart des analyses estiment que les SNP se produisent en moyenne sur 1 000 paires de bases dans le génome humain euchromatique, bien qu'ils ne se produisent pas à une densité uniforme. Ainsi suit la déclaration populaire selon laquelle « nous sommes tous, sans distinction de race, génétiquement identiques à 99,9 % », [80] bien que cela soit quelque peu nuancé par la plupart des généticiens. Par exemple, on pense maintenant qu'une fraction beaucoup plus importante du génome est impliquée dans la variation du nombre de copies. [81] Un effort de collaboration à grande échelle pour cataloguer les variations SNP dans le génome humain est entrepris par le projet international HapMap.

Les loci génomiques et la longueur de certains types de petites séquences répétitives sont très variables d'une personne à l'autre, ce qui est à la base des technologies d'empreintes génétiques et de tests de paternité ADN. Les portions hétérochromatiques du génome humain, qui totalisent plusieurs centaines de millions de paires de bases, seraient également assez variables au sein de la population humaine (elles sont si répétitives et si longues qu'elles ne peuvent pas être séquencées avec précision avec la technologie actuelle). Ces régions contiennent peu de gènes, et il n'est pas clair si un effet phénotypique significatif résulte d'une variation typique des répétitions ou de l'hétérochromatine.

La plupart des mutations génomiques grossières dans les cellules germinales des gamètes entraînent probablement des embryons non viables, cependant, un certain nombre de maladies humaines sont liées à des anomalies génomiques à grande échelle. Le syndrome de Down, le syndrome de Turner et un certain nombre d'autres maladies résultent de la non-disjonction de chromosomes entiers. Les cellules cancéreuses présentent fréquemment une aneuploïdie des chromosomes et des bras chromosomiques, bien qu'une relation de cause à effet entre l'aneuploïdie et le cancer n'ait pas été établie.

Cartographier la variation génomique humaine Modifier

Alors qu'une séquence de génome répertorie l'ordre de chaque base d'ADN dans un génome, une carte du génome identifie les points de repère. Une carte du génome est moins détaillée qu'une séquence du génome et facilite la navigation dans le génome. [82] [83]

Un exemple de carte de variation est le HapMap développé par le projet international HapMap. Le HapMap est une carte d'haplotypes du génome humain, "qui décrira les modèles communs de variation de séquence d'ADN humain". [84] Il répertorie les modèles de variations à petite échelle dans le génome qui impliquent des lettres d'ADN simples, ou des bases.

Les chercheurs ont publié la première carte basée sur des séquences de la variation structurelle à grande échelle à travers le génome humain dans le journal La nature en mai 2008. [85] [86] Les variations structurelles à grande échelle sont des différences dans le génome chez les personnes qui vont de quelques milliers à quelques millions de bases d'ADN, certaines sont des gains ou des pertes d'étendues de séquence du génome et d'autres apparaissent comme des ré- arrangements d'étirements de séquence. Ces variations incluent des différences dans le nombre de copies que les individus ont d'un gène particulier, des délétions, des translocations et des inversions.

Variation structurelle Modifier

La variation structurelle fait référence à des variantes génétiques qui affectent de plus grands segments du génome humain, par opposition aux mutations ponctuelles. Souvent, les variants structurels (SV) sont définis comme des variants de 50 paires de bases (pb) ou plus, tels que des délétions, duplications, insertions, inversions et autres réarrangements. Environ 90 % des variantes structurelles sont des délétions non codantes, mais la plupart des individus ont plus d'un millier de ces délétions, la taille des délétions allant de dizaines de paires de bases à des dizaines de milliers de pb. [87] En moyenne, les individus portent

3 variantes structurelles rares qui modifient les régions codantes, par ex. supprimer les exons. Environ 2% des individus portent des variantes structurelles ultra-rares à l'échelle de la mégabase, en particulier des réarrangements. C'est-à-dire que des millions de paires de bases peuvent être inversées au sein d'un chromosome ultra-rare, ce qui signifie qu'elles ne se trouvent que chez des individus ou des membres de leur famille et sont donc apparues très récemment. [87]

Fréquence SNP à travers le génome humain Modifier

Les polymorphismes mononucléotidiques (SNP) ne se produisent pas de manière homogène dans le génome humain. En fait, il existe une énorme diversité dans la fréquence des SNP entre les gènes, reflétant différentes pressions sélectives sur chaque gène ainsi que différents taux de mutation et de recombinaison à travers le génome. Cependant, les études sur les SNP sont biaisées en faveur des régions codantes, les données générées à partir de celles-ci sont peu susceptibles de refléter la distribution globale des SNP dans tout le génome.Par conséquent, le protocole du Consortium SNP a été conçu pour identifier les SNP sans biais envers les régions codantes et les 100 000 SNP du Consortium reflètent généralement la diversité des séquences à travers les chromosomes humains. Le consortium SNP vise à augmenter le nombre de SNP identifiés dans le génome à 300 000 d'ici la fin du premier trimestre 2001. [88]

Changements dans séquence non codante et changements synonymes de séquence de codage sont généralement plus fréquents que les changements non synonymes, reflétant une plus grande pression sélective réduisant la diversité aux positions dictant l'identité des acides aminés. Les changements transitionnels sont plus fréquents que les transversions, les dinucléotides CpG présentant le taux de mutation le plus élevé, probablement en raison de la désamination.

Génomes personnels Modifier

Une séquence de génome personnel est une séquence (presque) complète des paires de bases chimiques qui composent l'ADN d'une seule personne. Étant donné que les traitements médicaux ont des effets différents sur différentes personnes en raison de variations génétiques telles que les polymorphismes mononucléotidiques (SNP), l'analyse des génomes personnels peut conduire à un traitement médical personnalisé basé sur des génotypes individuels. [89]

La première séquence de génomes personnels à déterminer était celle de Craig Venter en 2007. Les génomes personnels n'avaient pas été séquencés dans le cadre du projet public du génome humain pour protéger l'identité des volontaires qui ont fourni des échantillons d'ADN. Cette séquence a été dérivée de l'ADN de plusieurs volontaires d'une population diversifiée. [90] Cependant, au début de l'effort de séquençage du génome Celera Genomics dirigé par Venter, la décision a été prise de passer du séquençage d'un échantillon composite à l'utilisation de l'ADN d'un seul individu, révélé plus tard être Venter lui-même. Ainsi, la séquence du génome humain de Celera publiée en 2000 était en grande partie celle d'un seul homme. Le remplacement ultérieur des premières données dérivées du composite et la détermination de la séquence diploïde, représentant les deux ensembles de chromosomes, plutôt qu'une séquence haploïde initialement rapportée, a permis la libération du premier génome personnel. [91] En avril 2008, celle de James Watson est également terminée. En 2009, Stephen Quake a publié sa propre séquence du génome dérivée d'un séquenceur de sa propre conception, l'Héliscope. [92] Une équipe de Stanford dirigée par Euan Ashley a publié un cadre pour l'interprétation médicale des génomes humains mis en œuvre sur le génome de Quake et a pris pour la première fois des décisions médicales tenant compte du génome entier. [93] Cette équipe a étendu l'approche à la famille West, la première famille séquencée dans le cadre du programme de séquençage du génome personnel d'Illumina. [94] Depuis lors, des centaines de séquences génomiques personnelles ont été publiées, [95] dont celles de Desmond Tutu, [96] [97] et d'un Paléo-Esquimau. [98] En 2012, l'ensemble des séquences génomiques de deux trios familiaux parmi 1092 génomes a été rendu public. [3] En novembre 2013, une famille espagnole a rendu public quatre ensembles de données d'exome personnels (environ 1% du génome) sous une licence de domaine public Creative Commons. [99] [100] Le Personal Genome Project (commencé en 2005) est parmi les rares à rendre accessibles au public à la fois les séquences du génome et les phénotypes médicaux correspondants. [101] [102]

Le séquençage des génomes individuels a encore dévoilé des niveaux de complexité génétique qui n'avaient pas été appréciés auparavant. La génomique personnelle a permis de révéler le niveau important de diversité du génome humain attribué non seulement aux SNP, mais également aux variations structurelles. Cependant, l'application de ces connaissances au traitement des maladies et dans le domaine médical n'en est qu'à ses tout débuts. [103] Le séquençage de l'exome est devenu de plus en plus populaire en tant qu'outil d'aide au diagnostic des maladies génétiques, car l'exome ne contribue qu'à 1 % de la séquence génomique, mais représente environ 85 % des mutations qui contribuent de manière significative à la maladie. [104]

Knockouts humains Modifier

Chez l'homme, les knock-outs de gènes se produisent naturellement sous forme de knock-outs de gènes hétérozygotes ou homozygotes avec perte de fonction. Ces knock-out sont souvent difficiles à distinguer, en particulier au sein de milieux génétiques hétérogènes. Ils sont également difficiles à trouver car ils se produisent dans les basses fréquences.

Les populations avec des taux élevés de consanguinité, comme les pays avec des taux élevés de mariages entre cousins ​​germains, affichent les fréquences les plus élevées de knock-out de gènes homozygotes. Ces populations comprennent les populations du Pakistan, de l'Islande et des Amish. Ces populations avec un niveau élevé de parenté ont fait l'objet de recherches sur l'élimination humaine qui ont permis de déterminer la fonction de gènes spécifiques chez l'homme. En distinguant des knock-outs spécifiques, les chercheurs sont en mesure d'utiliser des analyses phénotypiques de ces individus pour aider à caractériser le gène qui a été assommé.

Les knock-outs dans des gènes spécifiques peuvent provoquer des maladies génétiques, potentiellement avoir des effets bénéfiques, voire n'avoir aucun effet phénotypique. Cependant, déterminer l'effet phénotypique d'un knock-out et chez l'homme peut être difficile. Les défis à la caractérisation et à l'interprétation clinique des knock-out incluent la difficulté à appeler des variantes d'ADN, à déterminer la perturbation de la fonction protéique (annotation) et à prendre en compte l'influence du mosaïcisme sur le phénotype. [105]

L'étude sur le risque d'infarctus du myocarde au Pakistan est une étude majeure qui a examiné les KO chez l'homme. Il a été constaté que les individus possédant un knock-out du gène hétérozygote de perte de fonction pour le gène APOC3 avaient des triglycérides inférieurs dans le sang après avoir consommé un repas riche en graisses par rapport aux individus sans la mutation. Cependant, les individus possédant des knock-outs du gène de perte de fonction homozygote du gène APOC3 présentaient le niveau le plus bas de triglycérides dans le sang après le test de charge en graisse, car ils ne produisent aucune protéine APOC3 fonctionnelle. [106]

La plupart des aspects de la biologie humaine impliquent à la fois des facteurs génétiques (héréditaires) et non génétiques (environnementaux). Certaines variations héritées influencent des aspects de notre biologie qui ne sont pas de nature médicale (taille, couleur des yeux, capacité de goûter ou de sentir certains composés, etc.). De plus, certaines maladies génétiques ne provoquent la maladie qu'en combinaison avec des facteurs environnementaux appropriés (tels que l'alimentation). Avec ces mises en garde, les troubles génétiques peuvent être décrits comme des maladies cliniquement définies causées par une variation de la séquence d'ADN génomique. Dans les cas les plus simples, le trouble peut être associé à la variation d'un seul gène. Par exemple, la mucoviscidose est causée par des mutations du gène CFTR et est le trouble récessif le plus courant dans les populations caucasiennes avec plus de 1 300 mutations différentes connues. [107]

Les mutations causant des maladies dans des gènes spécifiques sont généralement graves en termes de fonction génique et sont heureusement rares, ainsi les troubles génétiques sont également rares individuellement. Cependant, étant donné qu'il existe de nombreux gènes qui peuvent varier pour causer des troubles génétiques, dans l'ensemble, ils constituent une composante importante des conditions médicales connues, en particulier en médecine pédiatrique. Les troubles génétiques caractérisés moléculairement sont ceux pour lesquels le gène causal sous-jacent a été identifié. Actuellement, il existe environ 2 200 troubles de ce type annotés dans la base de données de l'OMIM. [107]

Les études sur les troubles génétiques sont souvent réalisées au moyen d'études familiales. Dans certains cas, des approches basées sur la population sont utilisées, en particulier dans le cas des populations dites fondatrices telles que celles de la Finlande, du Canada français, de l'Utah, de la Sardaigne, etc. Le diagnostic et le traitement des troubles génétiques sont généralement effectués par un généticien-médecin. formé en génétique clinique/médicale. Les résultats du projet du génome humain sont susceptibles de fournir une disponibilité accrue des tests génétiques pour les troubles liés aux gènes, et éventuellement un traitement amélioré. Les parents peuvent être dépistés pour les conditions héréditaires et conseillés sur les conséquences, la probabilité d'héritage et comment l'éviter ou l'améliorer chez leur progéniture.

Il existe de nombreux types de variation de séquence d'ADN, allant des chromosomes complets supplémentaires ou manquants aux modifications d'un seul nucléotide. Il est généralement présumé qu'une grande partie de la variation génétique naturelle dans les populations humaines est phénotypiquement neutre, c'est-à-dire qu'elle n'a que peu ou pas d'effet détectable sur la physiologie de l'individu (bien qu'il puisse y avoir des différences fractionnaires de fitness définies sur des périodes évolutives). Les troubles génétiques peuvent être causés par tout ou partie des types connus de variation de séquence. Pour caractériser moléculairement une nouvelle maladie génétique, il est nécessaire d'établir un lien de causalité entre une variante de séquence génomique particulière et la maladie clinique à l'étude. De telles études constituent le domaine de la génétique moléculaire humaine.

Avec l'avènement du génome humain et du projet international HapMap, il est devenu possible d'explorer des influences génétiques subtiles sur de nombreuses maladies courantes telles que le diabète, l'asthme, la migraine, la schizophrénie, etc. des gènes particuliers et certaines de ces maladies, souvent avec beaucoup de publicité dans les médias en général, ceux-ci ne sont généralement pas considérés comme des troubles génétiques en soi car leurs causes sont complexes, impliquant de nombreux facteurs génétiques et environnementaux différents. Ainsi, il peut y avoir désaccord dans des cas particuliers quant à savoir si une condition médicale spécifique doit être qualifiée de maladie génétique.

Les autres troubles génétiques mentionnés sont le syndrome de Kallman et le syndrome de Pfeiffer (gène FGFR1), la dystrophie cornéenne de Fuchs (gène TCF4), la maladie de Hirschsprung (gènes RET et FECH), le syndrome de Bardet-Biedl 1 (gènes CCDC28B et BBS1), le syndrome de Bardet-Biedl 10 (gène BBS10), et la dystrophie musculaire facioscapulohumérale de type 2 (gènes D4Z4 et SMCHD1). [108]

Le séquençage du génome est désormais capable de réduire le génome à des emplacements spécifiques pour trouver plus précisément les mutations qui entraîneront une maladie génétique. Les variants à nombre de copies (CNV) et les variants à nucléotide unique (SNV) peuvent également être détectés en même temps que le séquençage du génome avec les nouvelles procédures de séquençage disponibles, appelées séquençage de nouvelle génération (NGS). Celui-ci n'analyse qu'une petite partie du génome, environ 1 à 2 %. Les résultats de ce séquençage peuvent être utilisés pour le diagnostic clinique d'une maladie génétique, y compris le syndrome d'Usher, la maladie rétinienne, les déficiences auditives, le diabète, l'épilepsie, la maladie de Leigh, les cancers héréditaires, les maladies neuromusculaires, les immunodéficiences primaires, l'immunodéficience combinée sévère (SCID) et maladies des mitochondries. [109] Le NGS peut également être utilisé pour identifier les porteurs de maladies avant la conception. Les maladies pouvant être détectées dans ce séquençage comprennent la maladie de Tay-Sachs, le syndrome de Bloom, la maladie de Gaucher, la maladie de Canavan, la dysautonomie familiale, la mucoviscidose, l'amyotrophie spinale et le syndrome de l'X fragile. Le séquençage suivant du génome peut être réduit pour rechercher spécifiquement des maladies plus répandues dans certaines populations ethniques. [110]

1:15000 chez les Caucasiens américains

1:176 dans les communautés mennonites/amish

Des études de génomique comparative des génomes de mammifères suggèrent qu'environ 5% du génome humain a été conservé par l'évolution depuis la divergence des lignées existantes il y a environ 200 millions d'années, contenant la grande majorité des gènes. [111] [112] Le génome de chimpanzé publié diffère de celui du génome humain de 1,23% dans les comparaisons de séquences directes. [113] Environ 20 % de ce chiffre s'explique par la variation au sein de chaque espèce, ne laissant que

Divergence de séquence cohérente de 1,06 % entre les humains et les chimpanzés au niveau des gènes partagés. [114] Cette différence nucléotide par nucléotide est cependant éclipsée par la partie de chaque génome qui n'est pas partagée, y compris environ 6 % de gènes fonctionnels uniques aux humains ou aux chimpanzés. [115]

En d'autres termes, les différences considérables observables entre les humains et les chimpanzés peuvent être dues autant ou plus à la variation au niveau du génome dans le nombre, la fonction et l'expression des gènes plutôt qu'aux changements de séquence d'ADN dans les gènes partagés. En effet, même chez l'homme, il s'est avéré qu'il y avait une quantité auparavant non appréciée de variation du nombre de copies (CNV) qui peut représenter jusqu'à 5 à 15 % du génome humain. En d'autres termes, entre humains, il pourrait y avoir +/- 500 000 000 de paires de bases d'ADN, certaines étant des gènes actifs, d'autres inactivées, ou actives à différents niveaux. La pleine signification de cette découverte reste à voir. En moyenne, un gène codant pour une protéine humaine typique diffère de son orthologue de chimpanzé par seulement deux substitutions d'acides aminés. Près d'un tiers des gènes humains ont exactement la même traduction protéique que leurs orthologues de chimpanzé. Une différence majeure entre les deux génomes est le chromosome humain 2, qui équivaut à un produit de fusion des chromosomes 12 et 13 de chimpanzé [116] (renommés plus tard en chromosomes 2A et 2B, respectivement).

Les humains ont subi une perte extraordinaire de gènes de récepteurs olfactifs au cours de notre évolution récente, ce qui explique notre odorat relativement grossier par rapport à la plupart des autres mammifères. Les preuves évolutives suggèrent que l'émergence de la vision des couleurs chez les humains et plusieurs autres espèces de primates a diminué le besoin d'odorat. [117]

En septembre 2016, des scientifiques ont rapporté que, sur la base d'études génétiques sur l'ADN humain, tous les non-Africains dans le monde d'aujourd'hui peuvent être attribués à une seule population qui a quitté l'Afrique il y a entre 50 000 et 80 000 ans. [118]

L'ADN mitochondrial humain est d'un grand intérêt pour les généticiens, car il joue sans aucun doute un rôle dans la maladie mitochondriale. Il éclaire également l'évolution humaine par exemple, l'analyse de la variation du génome mitochondrial humain a conduit à postuler un ancêtre commun récent pour tous les humains sur la lignée maternelle (voir Ève mitochondriale).

En raison de l'absence d'un système de vérification des erreurs de copie, [119] l'ADN mitochondrial (ADNmt) a un taux de variation plus rapide que l'ADN nucléaire. Ce taux de mutation 20 fois plus élevé permet à l'ADNmt d'être utilisé pour un traçage plus précis de l'ascendance maternelle. [ citation requise ] Les études de l'ADNmt dans les populations ont permis de retracer d'anciennes voies de migration, comme la migration des Amérindiens de Sibérie [120] ou des Polynésiens d'Asie du Sud-Est. [ citation requise ] Il a également été utilisé pour montrer qu'il n'y a aucune trace d'ADN de Néandertal dans le mélange de gènes européens hérité d'une lignée purement maternelle. [121] En raison de la manière restrictive tout ou rien de l'héritage de l'ADNmt, ce résultat (aucune trace d'ADNmt de Néandertal) serait probable à moins qu'il n'y ait un grand pourcentage d'ascendance néandertalienne ou qu'il y ait une forte sélection positive pour cet ADNmt. Par exemple, en remontant 5 générations, seul 1 des 32 ancêtres d'une personne a contribué à l'ADNmt de cette personne, donc si l'un de ces 32 était un pur Néandertal, un

3% de l'ADN autosomique de cette personne seraient d'origine néandertalienne, mais ils auraient un

97% de chance de n'avoir aucune trace d'ADNmt de Néandertal. [ citation requise ]

L'épigénétique décrit une variété de caractéristiques du génome humain qui transcendent sa séquence d'ADN primaire, telles que l'encapsidation de la chromatine, les modifications des histones et la méthylation de l'ADN, et qui sont importantes pour réguler l'expression des gènes, la réplication du génome et d'autres processus cellulaires. Les marqueurs épigénétiques renforcent et affaiblissent la transcription de certains gènes mais n'affectent pas la séquence réelle des nucléotides de l'ADN. La méthylation de l'ADN est une forme majeure de contrôle épigénétique de l'expression des gènes et l'un des sujets les plus étudiés en épigénétique. Au cours du développement, le profil de méthylation de l'ADN humain subit des changements spectaculaires. Dans les cellules germinales précoces, le génome a des niveaux de méthylation très faibles. Ces faibles niveaux décrivent généralement des gènes actifs. Au fur et à mesure que le développement progresse, les étiquettes d'empreinte parentale conduisent à une activité de méthylation accrue. [122] [123]

Les modèles épigénétiques peuvent être identifiés entre les tissus d'un individu ainsi qu'entre les individus eux-mêmes. Les gènes identiques qui ne diffèrent que par leur état épigénétique sont appelés épiallèles. Les épiallèles peuvent être classés en trois catégories : ceux directement déterminés par le génotype d'un individu, ceux influencés par le génotype et ceux entièrement indépendants du génotype. L'épigénome est également fortement influencé par des facteurs environnementaux. L'alimentation, les toxines et les hormones ont un impact sur l'état épigénétique. Des études sur la manipulation alimentaire ont démontré que les régimes alimentaires déficients en méthyle sont associés à une hypométhylation de l'épigénome. De telles études établissent l'épigénétique comme une interface importante entre l'environnement et le génome. [124]

  1. ^"GRCh38.p13". ncbi. Consortium de référence du génome. Récupéré le 8 juin 2020 .
  2. ^
  3. Brown TA (2002). Le génome humain (2e éd.). Oxford : Wiley-Liss.
  4. ^ uneb
  5. Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, Kang HM, Marth GT, McVean GA (novembre 2012). « Une carte intégrée de la variation génétique de 1 092 génomes humains ». La nature. 491 (7422) : 56-65. Code bibliographique : 2012Natur.491. 56T. doi: 10.1038/nature11632. PMC3498066 . PMID23128226.
  6. ^
  7. Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, et al. (octobre 2015). « Une référence mondiale pour la variation génétique humaine ». La nature. 526 (7571) : 68-74. Code bibliographique : 2015Natur.526. 68T. doi: 10.1038/nature15393. PMC4750478 . PMID26432245.
  8. ^
  9. Consortium d'analyse du séquençage des chimpanzés (2005). « Séquence initiale du génome du chimpanzé et comparaison avec le génome humain » (PDF) . La nature. 437 (7055) : 69-87. Code Bib : 2005Natur.437. 69.. doi : 10.1038/nature04072 . PMID16136131. S2CID2638825.
  10. ^
  11. Varki A, Altheide TK (décembre 2005). « Comparaison des génomes humains et chimpanzés : recherche d'aiguilles dans une botte de foin ». Recherche sur le génome. 15 (12) : 1746-1758. doi: 10.1101/gr.3737405 . PMID16339373.
  12. ^
  13. Wade N (23 septembre 1999). "Le nombre de gènes humains est mis à 140 000, un gain significatif". Le New York Times.
  14. ^ uneb
  15. Consortium international de séquençage du génome humain (octobre 2004). « Fin de la séquence euchromatique du génome humain ». La nature. 431 (7011) : 931–45. Code Bib : 2004Natur.431..931H. doi: 10.1038/nature03001 . PMID15496913.
  16. ^
  17. Ezkurdia I, Juan D, Rodriguez JM, Frankish A, Diekhans M, Harrow J, Vazquez J, Valencia A, Tress ML (novembre 2014). « De multiples éléments de preuve suggèrent qu'il pourrait y avoir aussi peu que 19 000 gènes humains codant pour des protéines ». Génétique moléculaire humaine. 23 (22) : 5866-78. doi: 10.1093/hmg/ddu309. PMC4204768 . PMID24939910.
  18. ^
  19. Saey TH (17 septembre 2018). « Un recomptage des gènes humains élève le nombre à au moins 46 831 ». Actualités scientifiques.
  20. ^
  21. Alles J, Fehlmann T, Fischer U, Backes C, Galata V, Minet M, et al. (avril 2019). « Une estimation du nombre total de vrais miARN humains ». Recherche sur les acides nucléiques. 47 (7) : 3353-3364. doi: 10.1093/nar/gkz097. PMC6468295 . PMID30820533.
  22. ^ unebc
  23. Pennisi E (septembre 2012). "Génomique. Le projet ENCODE écrit l'éloge de l'ADN indésirable". Science. 337 (6099): 1159-1161. doi:10.1126/science.337.6099.1159. PMID22955811.
  24. ^
  25. Zhang S (28 novembre 2018). "300 millions de lettres d'ADN manquent du génome humain". L'Atlantique.
  26. ^ unebc
  27. Consortium international de séquençage du génome humain (février 2001). « Séquençage initial et analyse du génome humain ». La nature. 409 (6822): 860-921. Code Bib : 2001Natur.409..860L. doi: 10.1038/35057062 . PMID11237011.
  28. ^Le Consortium international de séquençage du génome humain publie une séquence et une analyse du génome humain
  29. ^
  30. Pennisi E (février 2001). "Le génome humain". Science. 291 (5507) : 1177–80. doi:10.1126/science.291.5507.1177. PMID11233420. S2CID38355565.
  31. ^
  32. Molteni M (19 novembre 2018). "Maintenant, vous pouvez séquencer votre génome entier pour seulement 200 $". Filaire.
  33. ^
  34. Wrighton K (février 2021). « Remplir les lacunes télomère à télomère ». Jalons de la nature : séquençage génomique: S21.
  35. ^
  36. Pollack A (2 juin 2016). "Les scientifiques annoncent HGP-Write, projet pour synthétiser le génome humain". New York Times . Récupéré le 2 juin 2016 .
  37. ^
  38. Boeke JD, Church G, Hessel A, Kelley NJ, Arkin A, Cai Y, et al. (juillet 2016). "Le projet Génome-Écrire". Science. 353 (6295) : 126-7. Code bibliographique : 2016Sci. 353..126B. doi:10.126/science.aaf6850. PMID27256881. S2CID206649424.
  39. ^
  40. Zhang S (28 novembre 2018). "300 millions de lettres d'ADN manquent du génome humain". L'Atlantique . Récupéré le 16 août 2019 .
  41. ^
  42. Chaisson MJ, Huddleston J, Dennis MY, Sudmant PH, Malig M, Hormozdiari F, et al. (janvier 2015). « Résoudre la complexité du génome humain à l'aide du séquençage d'une seule molécule ». La nature. 517 (7536) : 608–11. Code Bib : 2015Natur.517..608C. doi: 10.1038/nature13907. PMC4317254. PMID25383537.
  43. ^
  44. Miga KH, Koren S, Rhie A, Vollger MR, Gershman A, Bzikadze A, et al. (septembre 2020). « L'assemblage de télomères à télomères d'un chromosome X humain complet ». La nature. 585 (7823) : 79-84. Code Bib : 2020Natur.585. 79M. doi: 10.1038/s41586-020-2547-7. PMC7484160. PMID32663838.
  45. ^Ensembl genome browser version 87 [lien mort permanent] (décembre 2016) pour la plupart des valeurs Ensembl genome browser release 68 (juillet 2012) pour miRNA, rRNA, snRNA, snoRNA.
  46. ^
  47. Piovesan A, Pelleri MC, Antonaros F, Strippoli P, Caracausi M, Vitale L (février 2019). « Sur la longueur, le poids et la teneur en GC du génome humain ». Notes de recherche BMC. 12 (1) : 106. doi:10.1186/s13104-019-4137-z. PMC6391780. PMID30813969.
  48. ^
  49. Salzberg SL (août 2018). "Questions ouvertes : combien de gènes avons-nous ?". BMC Biologie. 16 (1) : 94. doi:10.1186/s12915-018-0564-x. PMC6100717 . PMID30124169.
  50. ^
  51. "Statistiques Gencode, version 28". Archivé de l'original le 2 mars 2018 . Récupéré le 12 juillet 2018 .
  52. ^
  53. "Ensemble statistiques pour la version 92.38, correspondant au Gencode v28" . Récupéré le 12 juillet 2018 .
  54. ^
  55. " NCBI Homo sapiens Annotation Libération 108 ". NIH. 2016.
  56. ^
  57. "Statistiques d'échecs, version 2.0". Centre de biologie computationnelle. Université Johns Hopkins.
  58. ^
  59. « Achèvement du projet du génome humain : questions fréquemment posées ». Institut national de recherche sur le génome humain (NHGRI) . Récupéré le 2 février 2019 .
  60. ^
  61. Christley S, Lu Y, Li C, Xie X (janvier 2009). « Les génomes humains comme pièces jointes d'e-mails ». Bioinformatique. 25 (2) : 274-5. doi: 10.1093/bioinformatique/btn582 . PMID18996942.
  62. ^
  63. Liu Z, Venkatesh SS, Maley CC (octobre 2008). "Couverture de l'espace de séquence, entropie des génomes et potentiel de détection d'ADN non humain dans des échantillons humains". BMC Génomique. 9: 509. doi:10.1186/1471-2164-9-509. PMC2628393. PMID18973670. , figure. 6, en utilisant les estimateurs Lempel-Ziv du taux d'entropie.
  64. ^
  65. Waters K (7 mars 2007). "Génétique moléculaire". Encyclopédie de philosophie de Stanford . Consulté le 18 juillet 2013 .
  66. ^
  67. Gannett L (26 octobre 2008). "Le projet du génome humain". Encyclopédie de philosophie de Stanford . Consulté le 18 juillet 2013 .
  68. ^Graphique à secteurs PANTHER sur la page d'accueil du système de classification PANTHER. Récupéré le 25 mai 2011
  69. ^Liste des protéines humaines du protéome humain de référence d'Uniprot consulté le 28 janvier 2015
  70. ^
  71. Kauffman SA (mars 1969). « Stabilité métabolique et épigenèse dans des réseaux génétiques construits au hasard ». Journal de biologie théorique. 22 (3) : 437-67. doi:10.1016/0022-5193(69)90015-0. PMID5803332.
  72. ^
  73. Ohno S (1972). « Un argument pour la simplicité génétique de l'homme et d'autres mammifères ». Journal de l'évolution humaine. 1 (6) : 651-662. doi:10.1016/0047-2484(72)90011-5.
  74. ^
  75. Sémon M, Mouchiroud D, Duret L (février 2005). « Relation entre l'expression génique et le contenu en GC chez les mammifères : signification statistique et pertinence biologique ». Génétique moléculaire humaine. 14 (3) : 421–7. doi: 10.1093/hmg/ddi038 . PMID15590696.
  76. ^ M. Huang, H. Zhu, B. Shen, G. Gao, "Une démarche non aléatoire à travers le génome humain", 3e Conférence internationale sur la bioinformatique et le génie biomédical (UCBBE, 2009), 1-3
  77. ^ uneb
  78. Bang ML, Centner T, Fornoff F, Geach AJ, Gotthardt M, McNabb M, Witt CC, Labeit D, Gregorio CC, Granzier H, Labeit S (2001). « La séquence complète du gène de la titine, l'expression d'une isoforme de titine inhabituelle d'environ 700 kDa et son interaction avec l'obscurine identifient un nouveau système de liaison de la ligne Z à la bande I ». Recherche sur la circulation. 89 (11) : 1065-1072. doi: 10.1161/hh2301.100981 . PMID11717165.
  79. ^ uneb
  80. Piovesan A, Caracausi M, Antonaros F, Pelleri MC, Vitale L (2016). « GeneBase 1.1 : un outil pour résumer les données des ensembles de données génétiques NCBI et son application à une mise à jour des statistiques génétiques humaines ». Base de données : le journal des bases de données biologiques et de la conservation. 2016: baw153. doi: 10.1093/base de données/baw153. PMC5199132 . PMID28025344.
  81. ^Navigateur du génome de l'Ensembl (juillet 2012)
  82. ^
  83. Gregory TR (septembre 2005). « Synergie entre séquence et taille en génomique à grande échelle ». Nature Avis Génétique. 6 (9) : 699-708. doi: 10.1038/nrg1674. PMID16151375. S2CID24237594.
  84. ^ uneb
  85. Palazzo AF, Akef A (juin 2012). « L'exportation nucléaire en tant qu'arbitre clé de « l'identité de l'ARNm » chez les eucaryotes ». Biochimica et Biophysica Acta (BBA) - Mécanismes de régulation des gènes. 1819 (6) : 566-77. doi:10.1016/j.bbagrm.2011.12.012. PMID22248619.
  86. ^
  87. Ludwig MZ (décembre 2002). « L'évolution fonctionnelle de l'ADN non codant ». Opinion actuelle en génétique et développement d'amp. 12 (6) : 634-9. doi:10.1016/S0959-437X(02)00355-6. PMID12433575.
  88. ^
  89. Le juge Martens, Laprade L, Winston F (juin 2004). « La transcription intergénique est nécessaire pour réprimer le gène Saccharomyces cerevisiae SER3 ». La nature. 429 (6991) : 571-4. Code Bib : 2004Natur.429..571M. doi: 10.1038/nature02538. PMID15175754. S2CID809550.
  90. ^
  91. Tsai MC, Manor O, Wan Y, Mosammaparast N, Wang JK, Lan F, Shi Y, Segal E, Chang HY (août 2010). « Long ARN non codant comme échafaudage modulaire des complexes de modification des histones ». Science. 329 (5992) : 689-93. Code bibliographique : 2010Sci. 329..689T. doi:10.1126/science.1192002. PMC2967777. PMID20616235.
  92. ^
  93. Bartolomei MS, Zemel S, Tilghman SM (mai 1991). « L'empreinte parentale du gène H19 de souris ». La nature. 351 (6322) : 153-5. Code Bib : 1991Natur.351..153B. doi: 10.1038/351153a0. PMID1709450. S2CID4364975.
  94. ^
  95. Kobayashi T, Ganley AR (septembre 2005). « Régulation de la recombinaison par dissociation de la cohésine induite par la transcription dans les répétitions d'ADNr ». Science. 309 (5740) : 1581-4. Code bibliographique : 2005Sci. 309.1581K. doi:10.1126/science.1116102. PMID16141077. S2CID21547462.
  96. ^
  97. Salmena L, Poliseno L, Tay Y, Kats L, Pandolfi PP (août 2011). "Une hypothèse ceRNA : la pierre de Rosette d'un langage ARN caché ?". Cellule. 146 (3) : 353-8. doi:10.1016/j.cell.2011.07.014. PMC3235919 . PMID21802130.
  98. ^
  99. Pei B, Sisu C, Frankish A, Howald C, Habegger L, Mu XJ, Harte R, Balasubramanian S, Tanzer A, Diekhans M, Reymond A, Hubbard TJ, Harrow J, Gerstein MB (2012). « La ressource pseudogène GENCODE ». Biologie du génome. 13 (9) : R51. doi:10.1186/fr-2012-13-9-r51. PMC3491395 . PMID22951037.
  100. ^
  101. Gilad Y, Man O, Pääbo S, Lancet D (mars 2003). « Perte spécifique humaine de gènes récepteurs olfactifs ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 100 (6) : 3324-7. Code Bib : 2003PNAS..100.3324G. doi: 10.1073/pnas.0535697100. PMC152291 . PMID12612342.
  102. ^
  103. Iyer MK, Niknafs YS, Malik R, Singhal U, Sahu A, Hosono Y, Barrette TR, Prensner JR, Evans JR, Zhao S, Poliakov A, Cao X, Dhanasekaran SM, Wu YM, Robinson DR, Beer DG, Feng FY , Iyer HK, Chinnaiyan AM (mars 2015). « Le paysage des longs ARN non codants dans le transcriptome humain ». Génétique de la nature. 47 (3) : 199-208. doi: 10.1038/ng.3192. PMC4417758 . PMID25599403.
  104. ^
  105. Eddy SR (décembre 2001). « Les gènes d'ARN non codants et le monde de l'ARN moderne ». Nature Avis Génétique. 2 (12) : 919-29. doi: 10.1038/35103511. PMID11733745. S2CID18347629.
  106. ^
  107. Managadze D, Lobkovsky AE, Wolf YI, Shabalina SA, Rogozin IB, Koonin EV (2013). « Le lincRNome mammifère vaste et conservé ». Biologie computationnelle PLOS. 9 (2) : e1002917. Code bibliographique : 2013PLSCB. 9E2917M. doi: 10.1371/journal.pcbi.1002917. PMC3585383. PMID23468607.
  108. ^
  109. Palazzo AF, Lee ES (2015). « ARN non codant : qu'est-ce qui est fonctionnel et qu'est-ce qui est indésirable ? » Frontières en génétique. 6: 2. doi:10.3389/fgene.2015.00002. PMC4306305 . PMID25674102.
  110. ^
  111. Mattick JS, Makunin IV (avril 2006). « ARN non codant ». Génétique moléculaire humaine. 15 Spéc n° 1 : R17–29. doi: 10.1093/hmg/ddl046 . PMID16651366.
  112. ^ uneb
  113. Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (septembre 2012). « Une encyclopédie intégrée des éléments d'ADN dans le génome humain ». La nature. 489 (7414) : 57-74. Code bibliographique : 2012Natur.489. 57T. doi: 10.1038/nature11247. PMC3439153 . PMID22955616.
  114. ^
  115. Birney E (5 septembre 2012). "ENCODER : Mes propres pensées". Blog d'Ewan : Bioinformaticien en général.
  116. ^
  117. Le juge Stamatoyannopoulos (septembre 2012). « Qu'est-ce que notre génome code ? » Recherche sur le génome. 22 (9) : 1602-111. doi:10.1101/gr.146506.112. PMC3431477. PMID22955972.
  118. ^
  119. Carroll SB, Gompel N, Prudhomme B (mai 2008). "Régler l'évolution". Scientifique américain. 298 (5) : 60-67. Code Bib : 2008SciAm.298e..60C. doi: 10.1038/scientificamerican0508-60. PMID18444326.
  120. ^
  121. Miller JH, Ippen K, Scaife JG, Beckwith JR (1968). « La région promoteur-opérateur de l'opéron lac d'Escherichia coli ». J. Mol. Biol. 38 (3) : 413–20. doi:10.1016/0022-2836(68)90395-1. PMID4887877.
  122. ^
  123. Wright S, Rosenthal A, Flavell R, Grosveld F (1984). « Séquences d'ADN requises pour l'expression régulée des gènes de la bêta-globine dans les cellules érythroleucémiques murines ». Cellule. 38 (1) : 265-73. doi:10.1016/0092-8674(84)90548-8. PMID6088069. S2CID34587386.
  124. ^
  125. Nei M, Xu P, Glazko G (février 2001). « Estimation des temps de divergence à partir de séquences multiprotéiques pour quelques espèces de mammifères et plusieurs organismes éloignés ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 98 (5) : 2497–502. Code bibliographique : 2001PNAS. 98.2497N. doi: 10.1073/pnas.051611498. PMC30166 . PMID11226267.
  126. ^
  127. Loots GG, Locksley RM, Blankespoor CM, Wang ZE, Miller W, Rubin EM, Frazer KA (avril 2000). « Identification d'un régulateur de coordonnées des interleukines 4, 13 et 5 par des comparaisons de séquences inter-espèces ». Science. 288 (5463) : 136-40. Code bibliographique : 2000Sci. 288..136L. doi:10.1126/science.288.5463.136. PMID10753117. Sommaire
  128. ^
  129. Meunier M. "Genoscope et Whitehead annoncent une couverture de séquence élevée du génome de Tetraodon nigroviridis". Génoscope. Archivé de l' original le 16 octobre 2006 . Récupéré le 12 septembre 2006 .
  130. ^
  131. Romero IG, Ruvinsky I, Gilad Y (juillet 2012). « Des études comparatives de l'expression des gènes et l'évolution de la régulation des gènes ». Nature Avis Génétique. 13 (7) : 505-16. doi: 10.1038/nrg3229. PMC4034676. PMID22705669.
  132. ^
  133. Schmidt D, Wilson MD, Ballester B, Schwalie PC, Brown GD, Marshall A, Kutter C, Watt S, Martinez-Jimenez CP, Mackay S, Talianidis I, Flicek P, Odom DT (mai 2010). « Cinq vertébrés ChIP-seq révèle la dynamique évolutive de la liaison au facteur de transcription ». Science. 328 (5981) : 1036–40. Code bibliographique : 2010Sci. 328.1036S. doi:10.1126/science.1186176. PMC3008766 . PMID20378774.
  134. ^
  135. Wilson MD, Barbosa-Morais NL, Schmidt D, Conboy CM, Vanes L, Tybulewicz VL, Fisher EM, Tavaré S, Odom DT (octobre 2008). « Transcription spécifique à l'espèce chez les souris portant le chromosome humain 21 ». Science. 322 (5900) : 434-8. Code bibliographique : 2008Sci. 322..434W. doi:10.1126/science.1160930. PMC3717767 . PMID18787134.
  136. ^
  137. Treangen TJ, Salzberg SL (janvier 2012). « ADN répétitif et séquençage de nouvelle génération : défis et solutions informatiques ». Nature Avis Génétique. 13 (1) : 36-46. doi: 10.1038/nrg3117. PMC3324860 . PMID22124482.
  138. ^
  139. Duitama J, Zablotskaya A, Gemayel R, Jansen A, Belet S, Vermeesch JR, Verstrepen KJ, Froyen G (mai 2014). « Analyse à grande échelle de la variabilité de répétition en tandem dans le génome humain ». Recherche sur les acides nucléiques. 42 (9) : 5728-41. doi: 10.1093/nar/gku212. PMC4027155 . PMID24682812.
  140. ^
  141. Pierce BA (2012). Génétique : une approche conceptuelle (4e éd.). New York : W.H. Homme libre. p. 538-540. ISBN978-1-4292-3250-0.
  142. ^
  143. Bennett EA, Keller H, Mills RE, Schmidt S, Moran JV, Weichenrieder O, Devine SE (décembre 2008). "Rétrotransposons Alu actifs dans le génome humain". Recherche sur le génome. 18 (12) : 1875-1883. doi:10.1101/gr.081737.108. PMC2593586. PMID18836035.
  144. ^
  145. Liang KH, Yeh CT (2013). « Un réseau de restriction d'expression génique médié par des séquences Alu sens et antisens situées sur des ARN messagers codant pour les protéines ». BMC Génomique. 14: 325. doi:10.1186/1471-2164-14-325. PMC3655826 . PMID23663499.
  146. ^
  147. Brouha B, Schustak J, Badge RM, Lutz-Prigge S, Farley AH, Moran JV, Kazazian HH (avril 2003). « Les L1 chauds représentent la majeure partie de la rétrotransposition dans la population humaine ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 100 (9) : 5280-5. Code bibliographique : 2003PNAS..100.5280B. doi: 10.1073/pnas.0831042100. PMC154336 . PMID12682288.
  148. ^
  149. Barton NH, Briggs DE, Eisen JA, Goldstein DB, Patel NH (2007). Évolution. Cold Spring Harbor, NY : Presse de laboratoire de Cold Spring Harbor. ISBN978-0-87969-684-9.
  150. ^
  151. NCBI. "GRCh38 – hg38 – Génome – Assemblage – NCBI". ncbi.nlm.nih.gov . Consulté le 15 mars 2019 .
  152. ^
  153. "du discours de Bill Clinton sur l'état de l'Union en 2000". Archivé de l'original le 21 février 2017 . Récupéré le 14 juin 2007 .
  154. ^
  155. Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, et al. (novembre 2006). « La variation globale du nombre de copies dans le génome humain ». La nature. 444 (7118): 444-54. Code bibliographique : 2006Natur.444..444R. doi: 10.1038/nature05329. PMC2669898. PMID17122850.
  156. ^
  157. "Qu'est-ce qu'un génome ?". Genomenewsnetwork.org. 15 janvier 2003 . Récupéré le 31 mai 2009 .
  158. ^
  159. NCBI_user_services (29 mars 2004). « Fiche d'information sur la cartographie ». Ncbi.nlm.nih.gov. Archivé de l' original le 19 juillet 2010 . Récupéré le 31 mai 2009 .
  160. ^
  161. "À propos du projet". HapMap. Récupéré le 31 mai 2009 .
  162. ^
  163. "Version 2008 : les chercheurs produisent la première carte de séquence de la variation structurelle à grande échelle dans le génome humain". génome.gov. Récupéré le 31 mai 2009 .
  164. ^
  165. Kidd JM, Cooper GM, Donahue WF, Hayden HS, Sampas N, Graves T, et al. (mai 2008). « Cartographie et séquençage de la variation structurelle de huit génomes humains ». La nature. 453 (7191) : 56-64. Code Bib : 2008Natur.453. 56K. doi: 10.1038/nature06862. PMC2424287. PMID18451855.
  166. ^ uneb
  167. Abel HJ, Larson DE, Regier AA, Chiang C, Das I, Kanchi KL, et al. (juillet 2020). « Cartographie et caractérisation de la variation structurelle dans 17 795 génomes humains ». La nature. 583 (7814) : 83-89. doi : 10.1038/s41586-020-2371-0. PMC7547914 . PMID32460305.
  168. ^
  169. Gray IC, Campbell DA, Spurr NK (2000). « Les polymorphismes nucléotidiques simples comme outils en génétique humaine ». Génétique moléculaire humaine. 9 (16) : 2403-2408. doi: 10.1093/hmg/9.16.2403 . PMID11005795.
  170. ^
  171. Lai E (juin 2001). « Application des technologies SNP en médecine : leçons apprises et défis futurs ». Recherche sur le génome. 11 (6) : 927-9. doi: 10.1101/gr.192301 . PMID11381021.
  172. ^
  173. « Achèvement du projet du génome humain : questions fréquemment posées ». génome.gov. Récupéré le 31 mai 2009 .
  174. ^
  175. Chanteur E (4 septembre 2007). "Le génome de Craig Venter". Examen de la technologie du MIT . Récupéré le 25 mai 2010 .
  176. ^
  177. Pushkarev D, Neff NF, Quake SR (septembre 2009). « Le séquençage d'une molécule unique d'un génome humain individuel ». Biotechnologie naturelle. 27 (9) : 847-50. doi: 10.1038/nbt.1561. PMC4117198. PMID19668243.
  178. ^
  179. Ashley EA, Butte AJ, Wheeler MT, Chen R, Klein TE, Dewey FE, et al. (mai 2010). « Évaluation clinique incorporant un génome personnel ». Lancette. 375 (9725) : 1525-1535. doi:10.1016/S0140-6736(10)60452-7. PMC2937184. PMID20435227.
  180. ^
  181. Dewey FE, Chen R, Cordero SP, Ormond KE, Caleshu C, Karczewski KJ, et al. (septembre 2011). « Risque génétique échelonné du génome entier dans un quatuor familial utilisant une séquence de référence allèle majeure ». PLOS Génétique. 7 (9) : e1002280. doi: 10.1371/journal.pgen.1002280 . PMC3174201. PMID21935354.
  182. ^
  183. « Complete Genomics ajoute 29 ensembles de données complets de séquençage du génome humain à couverture élevée à son référentiel génomique public ».
  184. ^
  185. Échantillon I (17 février 2010). « Le génome de Desmond Tutu séquencé dans le cadre de l'étude de la diversité génétique ». Le gardien.
  186. ^
  187. Schuster SC, Miller W, Ratan A, Tomsho LP, Giardine B, Kasson LR, et al. (février 2010). « Génomes Khoisan et Bantu complets d'Afrique australe ». La nature. 463 (7283): 943-7. Code Bib : 2010Natur.463..943S. doi: 10.1038/nature08795. PMC3890430 . PMID20164927.
  188. ^
  189. Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, et al. (février 2010). « Ancienne séquence du génome humain d'un paléo-esquimau éteint ». La nature. 463 (7282) : 757–62. Code Bib : 2010Natur.463..757R. doi: 10.1038/nature08835. PMC3951495 . PMID20148029.
  190. ^
  191. Corpas M, Cariaso M, Coletta A, Weiss D, Harrison AP, Moran F, Yang H (12 novembre 2013). « Un ensemble complet de données génomiques familiales du domaine public ». bioRxiv10.1101/000216 .
  192. ^
  193. Corpas M (juin 2013). "Crowdsourcing le corpasome". Code source pour la biologie et la médecine. 8 (1) : 13. doi:10.1186/1751-0473-8-13. PMC3706263. PMID23799911.
  194. ^
  195. Mao Q, Ciotlos S, Zhang RY, Ball MP, Chin R, Carnevali P, et al. (octobre 2016). « Les séquences entières du génome et les haplotypes phasés expérimentalement de plus de 100 génomes personnels ». GigaScience. 5 (1) : 42. doi:10.1186/s13742-016-0148-z. PMC5057367 . PMID27724973.
  196. ^
  197. Cai B, Li B, Kiga N, Thusberg J, Bergquist T, Chen YC, et al. (Septembre 2017). « Appariement des phénotypes aux génomes entiers : leçons tirées de quatre itérations des défis de la communauté du projet de génome personnel ». Mutation humaine. 38 (9) : 1266-1276. doi:10.1002/humu.23265. PMC5645203. PMID28544481.
  198. ^
  199. Gonzaga-Jauregui C, Lupski JR, Gibbs RA (2012). « Le séquençage du génome humain dans la santé et la maladie ». Revue annuelle de médecine. 63: 35-61. doi:10.1146/annurev-med-051010-162644. PMC3656720 . PMID22248320.
  200. ^
  201. Choi M, Scholl UI, Ji W, Liu T, Tikhonova IR, Zumbo P, Nayir A, Bakkaloğlu A, Ozen S, Sanjad S, Nelson-Williams C, Farhi A, Mane S, Lifton RP (novembre 2009). "Diagnostic génétique par capture d'exome entier et séquençage d'ADN massivement parallèle". Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 106 (45) : 19096-101. Code bibliographique : 2009PNAS..10619096C. doi: 10.1073/pnas.0910672106. PMC2768590 . PMID19861545.
  202. ^ uneb
  203. Narasimhan VM, Xue Y, Tyler-Smith C (avril 2016). "Les porteurs humains de knock-out : morts, malades, sains ou améliorés ?". Tendances en médecine moléculaire. 22 (4) : 341-351. doi:10.1016/j.molmed.2016.02.006. PMC4826344. PMID26988438.
  204. ^
  205. Saleheen D, Natarajan P, Armean IM, Zhao W, Rasheed A, Khetarpal SA, et al. (avril 2017). « Coups de grâce humains et analyse phénotypique dans une cohorte avec un taux élevé de consanguinité ». La nature. 544 (7649): 235-239. Code bibliographique : 2017Natur.544..235S. doi: 10.1038/nature22034. PMC5600291 . PMID28406212.
  206. ^ uneb
  207. Hamosh A, Scott AF, Amberger J, Bocchini C, Valle D, McKusick VA (janvier 2002). « L'héritage mendélien en ligne chez l'homme (OMIM), une base de connaissances sur les gènes humains et les troubles génétiques ». Recherche sur les acides nucléiques. 30 (1) : 52-5. doi: 10.1093/nar/30.1.52 . PMC99152 . PMID11752252.
  208. ^
  209. Katsanis N (novembre 2016). « Le continuum de causalité dans les troubles génétiques humains ». Biologie du génome. 17 (1) : 233. doi:10.1186/s13059-016-1107-9. PMC5114767. PMID27855690.
  210. ^
  211. Wong LC (2017). "Aperçu de l'utilité clinique du séquençage de nouvelle génération dans les diagnostics moléculaires des troubles génétiques humains". Dans Wong LC (éd.). Diagnostic moléculaire clinique de nouvelle génération basé sur le séquençage des troubles génétiques humains. Éditions internationales Springer. p. 1–11. doi:10.1007/978-3-319-56418-0_1. ISBN978-3-319-56418-0. Absent ou vide |title= (aide)
  212. ^
  213. Fedick A, Zhang J (2017). « Prochaine génération de dépistage des porteurs ». Dans Wong LC (éd.). Diagnostic moléculaire clinique de nouvelle génération basé sur le séquençage des troubles génétiques humains. Éditions internationales Springer. p. 339-354. doi:10.1007/978-3-319-56418-0_16. ISBN978-3-319-56418-0. Absent ou vide |title= (aide)
  214. ^
  215. Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, Agarwala R, Ainscough R, Alexandersson M, et al. (décembre 2002). « Séquençage initial et analyse comparative du génome de la souris ». La nature. 420 (6915) : 520-62. Code Bib : 2002Natur.420..520W. doi: 10.1038/nature01262 . PMID12466850. la proportion de petits segments (50 à 100 pb) dans le génome des mammifères soumis à une sélection (purifiante) peut être estimée à environ 5 %. Cette proportion est beaucoup plus élevée que ce qui peut être expliqué par les seules séquences codant pour les protéines, ce qui implique que le génome contient de nombreuses caractéristiques supplémentaires (telles que des régions non traduites, des éléments régulateurs, des gènes non codant pour les protéines et des éléments structurels chromosomiques) sous sélection pour la fonction biologique .
  216. ^
  217. Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, Margulies EH, et al. (juin 2007). "Identification et analyse d'éléments fonctionnels dans 1% du génome humain par le projet pilote ENCODE". La nature. 447 (7146) : 799-816. Code Bib : 2007Natur.447..799B. doi: 10.1038/nature05874. PMC2212820 . PMID17571346.
  218. ^
  219. Le Consortium d'analyse du séquençage des chimpanzés (septembre 2005). « Séquence initiale du génome du chimpanzé et comparaison avec le génome humain ». La nature. 437 (7055) : 69-87. Code Bib : 2005Natur.437. 69.. doi : 10.1038/nature04072 . PMID16136131. Nous calculons que la divergence nucléotidique à l'échelle du génome entre l'homme et le chimpanzé est de 1,23%, confirmant les résultats récents d'études plus limitées.
  220. ^
  221. Le Consortium d'analyse du séquençage des chimpanzés (septembre 2005). « Séquence initiale du génome du chimpanzé et comparaison avec le génome humain ». La nature. 437 (7055) : 69-87. Code Bib : 2005Natur.437. 69.. doi : 10.1038/nature04072 . PMID16136131. nous estimons que le polymorphisme représente 14 à 22% du taux de divergence observé et donc que la divergence fixe est

180 ms 11,4% ? 180 ms 11,4% Scribunto_LuaSandboxCallback::gsub 180 ms 11,4% Scribunto_LuaSandboxCallback::callParserFunction 120 ms 7,6% recursiveClone 80 ms 5,1% Scribunto_LuaSandboxCallback::getExpandedArgument:ScribedArgument 60 ms 3,8 % Scribunto_L ::getEntity 40 ms 2.5% [autres] 380 ms 24.1% Nombre d'entités Wikibase chargées : 1/400 -->


Téléchargez et imprimez cet article pour votre usage personnel académique, de recherche et pédagogique.

Achetez un seul numéro de Science pour seulement 15 $ US.

Science

Vol 306, numéro 5705
24 décembre 2004

Outils d'articles

Veuillez vous connecter pour ajouter une alerte pour cet article.

Par Paul Bertone , Viktor Stolc , Thomas E. Royce , Joel S. Rozowsky , Alexander E. Urban , Xiaowei Zhu , John L. Rinn , Waraporn Tongprasit , Manoj Samanta , Sherman Weissman , Mark Gerstein , Michael Snyder

Science 24 déc. 2004 : 2242-2246

Une recherche complète de séquences transcrites à partir des deux brins de l'ensemble du génome humain a identifié des gènes connus et des milliers de nouveaux potentiels.


Introduction

L'un des moyens les plus complets d'étudier la base moléculaire de la fonction cellulaire consiste à quantifier la présence de molécules d'ARN exprimées par un type cellulaire donné. Au fil des ans, le domaine de la génomique a collectivement constitué plusieurs référentiels d'expression génique à travers les états biologiques pour faciliter l'exploration des systèmes biologiques. En ce qui concerne les études à l'échelle du génome des ARN codés, un certain nombre de collections de clones d'ADNc partiels et complets ont été construits et séquencés précédemment [1-6]. Les données résultantes ont été utilisées pour l'annotation du génome, en particulier pour construire des modèles de gènes (NCBI RefSeq [4], Ensembl transcripts [7], Representative Transcript and Protein Sets (RTPS) [8]), et pour l'exploration de gènes actifs dans des contextes biologiques spécifiques. contextes (NCBI UniGene [4], DigiNorthern [9] et analyse interspécifique basée sur des ontologies simplifiées [10]). Cependant, la capacité de ces relevés à quantifier l'abondance d'ARN était limitée principalement en raison des performances de séquençage. Une autre approche pour évaluer l'expression des gènes est l'hybridation à des sondes préconçues (c'est-à-dire des puces à ADN) [11-13]. Des milliers d'études ont été publiées sur des profils d'expression génique à l'aide de puces à ADN (Gene Expression Omnibus [14], ArrayExpress [15], CIBEX [16]) et des collections d'ensembles de données organisés (GNF SymAtlas2 [17], EBI Gene expression atlas [18] , BioGPS [19]) sont devenus des outils populaires pour surveiller les niveaux d'expression des gènes. Cependant, la couverture des molécules d'ARN identifiables et la précision de la quantification sont limitées en raison de la conception de leur sonde, qui repose sur les connaissances existantes sur les espèces d'ARN.

Le développement récent de séquenceurs de nouvelle génération nous permet d'obtenir des profils d'ARN à l'échelle du génome de manière complète, quantitative et sans aucune prédétermination de ce qui doit être exprimé à l'aide de méthodes telles que l'analyse cap de l'expression génique (CAGE) [20] et RNA-seq [ 21]. En particulier, une variante du protocole CAGE utilisant un séquenceur à molécule unique [22] nous permet de quantifier les activités du site de démarrage de la transcription (TSS) à une résolution d'une seule paire de bases à partir d'environ 100 ng d'ARN total. Nous avons utilisé cette technologie pour capturer la régulation de la transcription dans divers états biologiques des cellules de mammifères dans le projet Functional Annotation of Mammalian Genomes 5 (FANTOM5) [23]. La collection se compose de plus de 1 000 échantillons humains et murins, dont la plupart sont dérivés de cellules primaires. Il s'agit d'un ensemble de données unique pour comprendre la transcription régulée dans les types de cellules de mammifères. La large couverture des états biologiques permet aux chercheurs de trouver des échantillons d'intérêt et d'inspecter des gènes actifs ou des facteurs de transcription dans leurs contextes biologiques. Le profilage complet de la collection d'échantillons offre la possibilité de rechercher tout gène, facteur de transcription ou ARN non codant d'intérêt et d'examiner dans quel contexte ils sont activés dans les états cellulaires des mammifères. Les profils TSS basés sur CAGE à une résolution de base unique permettent la corrélation de l'activité de transcription avec des motifs de séquence ou des caractéristiques épigénétiques. Dans des études précédentes, nous avons généré des profils TSS basés sur CAGE dans FANTOM3 [24,25] et FANTOM4 [26,27], mais la diversité des états biologiques et les capacités de quantification étaient assez limitées en raison de l'état des technologies à ce stade. Pour faciliter l'exploration des données FANTOM5 sous différents angles, nous avons préparé un ensemble de ressources de calcul, notamment une archive de données organisée et plusieurs systèmes de bases de données, afin que les chercheurs puissent facilement explorer, examiner et extraire des données. Ici, nous présentons les ressources en ligne avec la structure de données sous-jacente et décrivons leur utilisation potentielle dans plusieurs domaines de recherche. Ce travail fait partie du projet FANTOM5. Les téléchargements de données, les outils génomiques et les manuscrits co-publiés sont résumés à [28].


Premiers pas avec BEAST

Téléchargement de BEAST

Tutoriels d'introduction

En guise d'introduction à l'utilisation de BEAST, nous proposons des didacticiels d'introduction de base utilisant les applications graphiques de BEAST pour effectuer des analyses à l'aide des fichiers d'exemple fournis.

Citant la BÊTE

BEAST est issu de travaux antérieurs :

Drummond AJ, Nicholls GK, Rodrigo AG & Solomon W (2002) Estimation simultanée des paramètres de mutation, de l'histoire de la population et de la généalogie à partir de données de séquences espacées dans le temps. La génétique, 161, 1307-1320.

Rambaut A (2000) Estimation de la vitesse d'évolution moléculaire : incorporation de séquences non contemporaines dans les phylogénies du maximum de vraisemblance. Bioinformatique, 16, 395-399.

Pybus OG & Rambaut A (2002) GENIE : estimation de l'histoire démographique à partir de la phylogénie moléculaire. Bioinformatique, 18, 1404-1405.

BEAST est construit sur un vaste corpus de travaux antérieurs et les citations appropriées pour les modules, modèles et composants individuels seront répertoriés lors de l'exécution de BEAST.

Liste de diffusion BEAST-Users

Il est fortement conseillé aux utilisateurs de rejoindre la liste de diffusion BEAST. Cela sera utilisé pour annoncer les nouvelles versions et informer les utilisateurs des bogues et des problèmes.


Voir la vidéo: Digitark saade #sülearvutid: TOP 5 ehk parim valik karbist välja (Janvier 2022).