Informations

Prédire comment les protéines seront clivées


Est-il possible de prédire comment les protéines codées à partir de l'ARNm seront clivées ?

La raison pour laquelle cela m'intéressait est que j'ai effectué un travail initial pour traduire les séquences brutes d'ARN du coronavirus, que vous pouvez voir ici : https://github.com/imranq/coronavirus. La section de fond ci-dessous a plus d'informations sur mon approche.

Avec l'approche "naïve" pour traduire l'ARN du coronavirus, en utilisant AUG comme codon de départ, je suis capable d'identifier 7 des 24 protéines des séquences du laboratoire de Zhang. Cependant, j'ai également fait quelques correspondances de chaînes entre mes séquences d'acides aminés et les séquences d'acides aminés finales du laboratoire Zhang. Après avoir fait cette comparaison, je vois que j'ai 21 séquences protéiques sur 24 codées dans des séquences protéiques non clivées.

Ce serait bien d'obtenir les 24 protéines finales directement à partir du brin d'ARNm. S'il vous plaît aider. Merci!

Fond

Voici la série d'étapes que j'ai utilisées pour convertir l'ARN du coronavirus en protéines.

1. Les séquences d'ARN brutes sont ici (provenant du NIH) : https://github.com/imranq/coronavirus/blob/main/data/rawrna.json 2. Le script pour traduire l'ARN est ici (en supposant que AUG est le codon de démarrage) : https://github.com/imranq/coronavirus/blob/main/scripts/translate.js Les séquences protéiques traduites sont ici : https://github.com/imranq/coronavirus/blob/main/data /processed/translatedProteins.json 3. Le script utilisé pour générer une comparaison entre les protéines traduites et les séquences protéiques connues est ici (en utilisant la distance de levenshtein comme mesure de différence) : https://github.com/imranq/coronavirus/blob/ main/scripts/compareTranslated.js Les données générées à partir de ce script sont ici https://github.com/imranq/coronavirus/blob/main/data/processed/translatedComparison.json 4. Ensuite, nous détectons le clivage dans les protéines en exécutant un glissement fenêtre à travers les segments d'ARN entre les protéines connues et traduites. Le script pour le faire est ici : https://github.com/imranq/coronavirus/blob/main/scripts/detectCleavage.js 4. Enfin, nous fusionnons les ensembles de données que nous avons générés à partir des complexes de traduction et de protéines en un seul ensemble de données, des protéines traduites et complexes protéiques correspondant à des protéines connues. Les données générées à partir de cet algorithme se trouvent ici https://github.com/imranq/coronavirus/blob/main/data/processed/mergedProteins.json

À la fin de ce pipeline, nous obtenons 21 des 24 protéines appariées directement à partir de l'ARN.

Les références:

Voici les papiers / articles que j'ai recherchés pour répondre à cette question

Transformer les données du génome en protéines

Code génétique de la Khan Academy : https://www.khanacademy.org/science/ap-biology/gene-expression-and-regulation/translation/a/the-genetic-code-discovery-and-properties

Zhan Lab - SARS CoV 2 - Séquences de nucléotides, de régions codantes et de protéines https://zhanglab.ccmb.med.umich.edu/COVID-19/

Plus d'informations dans le fichier readme ici : https://github.com/imranq/coronavirus/blob/main/README.MD


Google AI résout un problème de biologie de longue date et presque impossible

L'équipe DeepMind de Google a développé un algorithme d'intelligence artificielle qui semble avoir relevé un défi biologique si compliqué qu'il a semblé presque impossible pendant des décennies.

DeepMind a annoncé lundi dans un article de blog que ses scientifiques avaient développé un algorithme, AlphaFold 2, qui résolvait ce qu'on appelle le problème de repliement des protéines : une entreprise scientifique ambitieuse dans le but de prédire la forme des protéines en se basant uniquement sur leur composition. Prédire la structure des protéines devrait considérablement améliorer la science biomédicale et permettre aux médecins de développer de nouveaux traitements encore plus rapidement.


G4. Prédiction de la structure des protéines membranaires

  • Contribution de Henry Jakubowski
  • Professeur (Chimie) au Collège de St. Benedict/St. John's University

Jusqu'à présent, nous avons discuté des protéines principalement globulaires qui sont solubles dans l'eau. On trouve également des protéines associées aux membranes. On trouve dans la nature deux grandes classes de protéines membranaires.

  • protéines membranaires périphériques : protéines hydrosolubles liées de manière réversible et non covalente à la membrane par des attractions électrostatiques entre les têtes polaires chargées des phospholipides et la protéine. Ces protéines peuvent souvent être libérées de la membrane par addition de sel élevé, car elles sont souvent attirées vers la bicouche par des interactions électrostatiques entre les groupes de tête phospholipidiques chargés et les groupes polaires/chargés à la surface de la protéine.
  • protéines membranaires intégrales : s'insèrent réellement dans la bicouche. Ceux-ci peuvent être libérés de la membrane et efficacement solubilisés par l'ajout d'amphiphiles à chaîne unique (détergents) qui forment une micelle mélangée avec la protéine membranaire intégrale. Les détergents non ioniques (Trition X-100, octylglucoside, etc.) sont souvent utilisés dans la purification des protéines membranaires. Les détergents ioniques (comme le SDS) non seulement solubilisent les protéines membranaires intégrales, mais les dénaturent également.

Figure : Types de protéines membranaires

Dans certaines de ces protéines membranaires intégrales, de grands domaines extracellulaires et intracellulaires de la protéine sont présents, reliés par les régions intramembranaires. La région couvrante intramembranaire se compose souvent soit d'une seule hélice alpha, soit de 7 régions hélicoïdales différentes qui zigzaguent à travers la membrane. Ces séquences transmembranaires peuvent être facilement déterminées par des calculs d'hydropathie. Par exemple, considérons la rhodopsine de protéine bovine membranaire intégrale. Sa séquence de 348 acides aminés (en code à une seule lettre) est illustrée ci-dessous :

MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLY
VTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLG
GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIP
EGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQES
ATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAV
YNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA

Les calculs du tracé de l'hydropathie de la rhodopsine montrent qu'il contient sept hélices transmembranaires qui s'enroulent à travers la membrane en serpentin.

Figure : Graphique de l'hydropathie à la rhodopsine

Figure : sept hélices transmembranaires

Résultats de l'hydropathie à la rhodopsine

Non. Borne N région transmembranaire Borne C taper longueur
1 40 LAAYMFLLIMLGFPINFLTLYVT 62 PRIMAIRE 23
2 71 PLNYILLNLAVADLFMVFGGFTT 93 SECONDAIRE 23
3 113 EGFFATLGGEIALWSLVVLAIER 135 SECONDAIRE 23
4 156 GVAFTWVMALACAAPPLVGWSRY 178 SECONDAIRE 23
5 207 MFVVHFIIPLIVIFFCYGQLVFT 229 PRIMAIRE 23
6 261 FLICWLPYAGVAFYIFTHQGSDF 283 PRIMAIRE 23
7 300 VYNPVIYIMMNKQFRNCMVTTLC 322 SECONDAIRE 23

En résumé, les tracés d'hydropathie sont donc utiles pour trouver des régions enfouies dans des protéines hydrosolubles, des hélices transmembranaires dans des protéines membranaires intégrales ainsi que de courtes étendues d'acides aminés polaires/chargés qui pourraient former des boucles de surface reconnaissables par les anticorps du système immunitaire. La taille de la fenêtre utilisée dans les graphiques d'hydropathie affecterait évidemment les résultats calculés. Des fenêtres de 20 acides aminés sont utiles pour déterminer les hélices transmembranaires tandis que des fenêtres de 5 à 7 acides aminés sont utilisées pour trouver des sites hydrophiles exposés en surface.

Les protéines membranaires doivent être solubilisées par addition d'amphiphiles monocaténaires (détergents). Les queues non polaires des détergents interagissent avec le domaine transmembranaire hydrophobe de la protéine membranaire formant une structure de type micellaire "mixte". Les détergents non ioniques comme le Triton X-100 et l'octyl-glucoside sont souvent utilisés pour solubiliser les protéines membranaires dans leur état quasi natif. En revanche, les détergents ioniques comme le dédécyle sulfate de sodium (avec un groupe de tête chargé négativement) dénaturent les protéines pendant le processus de solubilisation. Pour étudier les protéines membranaires dans un environnement plus natif, les protéines solubilisées par un détergent non ionique peuvent être reconstituées en structures de liposomes bicouches en utilisant des méthodes similaires à celles du laboratoire 1 dans lesquelles vous avez préparé de grandes vésicules unilamellaires (LUV) encapsulées dans un colorant. Cependant, il peut être difficile d'étudier les domaines intra- et extracellulaires des protéines membranaires dans les liposomes, étant donné que l'un de ces domaines est caché à l'intérieur du liposome. Une nouvelle technique qui supprime cette barrière a été récemment développée par Sligar. Il a créé un disque de protéine amphiphile avec une ouverture au centre. L'ouverture intérieure est tapissée de résidus non polaires, tandis que la surface extérieure du disque est polaire. Lorsque les disques ont été ajoutés aux phosphlipides, de petites bicouches se sont formées à l'intérieur du disque. Des protéines membranaires telles que le récepteur adrénergique b-2 pourraient être reconstituées dans les bicouches du nanodisque, permettant une exposition au solvant des domaines intracellulaires et extracellulaires de la protéine réceptrice.


AlphaFold est né de l'apprentissage en profondeur des jeux d'échecs, de go et de poker

Le succès du programme de prédiction du repliement des protéines de DeepMind, appelé AlphaFold, n'est pas inattendu. D'autres programmes d'apprentissage en profondeur écrits par DeepMind ont démoli les meilleurs joueurs d'échecs, de go et de poker du monde.

En 2016, Stockfish-8, un moteur d'échecs open source, était le champion du monde des échecs informatiques. Il évaluait 70 millions de positions d'échecs par seconde et disposait de siècles de stratégies d'échecs humaines accumulées et de décennies d'expérience informatique sur lesquelles s'appuyer. Il a joué efficacement et brutalement, battant sans pitié tous ses adversaires humains sans une once de finesse. Entrez dans l'apprentissage en profondeur.

Le 7 décembre 2017, le programme d'échecs d'apprentissage en profondeur de Google AlphaZero a battu Stockfish-8. Les moteurs d'échecs ont joué 100 parties, AlphaZero en a remporté 28 et en a égalé 72. Il n'a pas perdu une seule partie. AlphaZero n'a effectué que 80 000 calculs par seconde, contre 70 millions de calculs pour Stockfish-8, et il n'a fallu que quatre heures pour apprendre les échecs à partir de zéro en jouant contre lui-même quelques millions de fois et en optimisant ses réseaux neuronaux au fil de son expérience.

AlphaZero n'a rien appris des humains ou des jeux d'échecs joués par des humains. Il s'est enseigné et, dans le processus, a dérivé des stratégies jamais vues auparavant. Dans un commentaire dans le magazine Science, l'ancien champion du monde d'échecs Garry Kasparov a écrit qu'en apprenant de lui-même, AlphaZero a développé des stratégies qui « reflètent la vérité » des échecs plutôt que de refléter « les priorités et les préjugés » des programmeurs. "C'est l'incarnation du cliché" travaillez plus intelligemment, pas plus dur. ""

Comment les protéines se replient-elles ?


Prédiction d'un trouble protéique à partir de la séquence d'acides aminés

Le désordre structurel est vital pour la fonction des protéines dans divers processus biologiques. Il est donc hautement souhaitable de pouvoir prédire le degré d'ordre et de désordre à partir de la séquence d'acides aminés. Les chercheurs ont développé un outil de prédiction en utilisant l'apprentissage automatique avec des données expérimentales de RMN pour des centaines de protéines, ce qui devrait être utile pour les études structurelles et comprendre le rôle biologique et la régulation des protéines avec des régions désordonnées.

Au siècle dernier, Anfinsen a montré sans l'ombre d'un doute qu'une protéine peut retrouver sa structure tridimensionnelle « native » après avoir été placée dans des « conditions dénaturantes » où la structure de la protéine est dépliée. La conclusion profonde de ses expériences était qu'apparemment, l'information qui régit la recherche de l'état natif est cachée dans la séquence d'acides aminés. Les considérations thermodynamiques ont ensuite présenté une vue où le processus de pliage est comme rouler énergiquement en descente jusqu'au point le plus bas - jusqu'à la structure native unique. Ces découvertes ont souvent été liées au dogme central de la biologie moléculaire. Ainsi, un gène code pour une séquence d'acides aminés, et la séquence code pour une structure spécifique.

Entrez les protéines intrinsèquement désordonnées.

La percée suivante est venue avec l'avènement du séquençage rapide et bon marché du génome dans le sillage du projet du génome humain. de faible complexité. En d'autres termes, ces protéines ne contenaient pas les bons acides aminés pour se replier et les expériences ont confirmé qu'elles restaient « intrinsèquement désordonnées ». En outre, le génome humain s'est avéré avoir plus d'un tiers de ses gènes codant pour des protéines disordre!

Comment détecter un trouble protéique ?

Étant donné que les protéines désordonnées sont très flexibles, elles ne se prêtent pas à la cristallisation et, par conséquent, aucune information ne peut être obtenue à partir de la diffraction des rayons X sur les cristaux de protéines - l'approche qui a été si cruciale pour les protéines repliées. Au lieu de cela, ces protéines doivent être étudiées en solution, et pour cela la spectroscopie RMN (Résonance Magnétique Nucléaire) est l'outil le plus adapté. Dans cette méthode, une propriété physique quantique appelée « spin » est mesurée dans un champ magnétique puissant pour chaque atome de la molécule. Les fréquences exactes de précession des spins sont fonction de leur environnement, et c'est précisément cette fréquence qui permet aux chercheurs de mesurer quantitativement dans quelle mesure chaque acide aminé est ordonné ou désordonné dans la protéine.

Dans leur nouvel article, publié le 8 septembre 2020, le Dr Rupashree Dass, le professeur agrégé Frans Mulder et le professeur adjoint Jakob Toudahl Nielsen ont utilisé l'apprentissage automatique avec des données expérimentales de RMN pour des centaines de protéines afin de créer un nouvel outil bioinformatique qu'ils ont appelé ODiNPred. Ce programme de bioinformatique peut aider d'autres chercheurs à faire les meilleures prédictions possibles sur les régions de leurs protéines qui sont rigides et celles qui sont susceptibles d'être flexibles. Ces informations sont utiles pour les études structurelles, ainsi que pour comprendre le rôle biologique et la régulation des protéines intrinsèquement désordonnées.


Comment les protéines pénètrent-elles dans les mitochondries ?

Si la membrane interne est si imperméable, comment les protéines entrent-elles ?

La membrane externe des mitochondries contient la protéine « porine ». Cela forme un canal aqueux à travers lequel des protéines jusqu'à 10 000 daltons peuvent passer et entrer dans l'espace intermembranaire. En effet, les petites molécules s'équilibrent réellement entre la membrane externe et le cytosol. Cependant, la plupart des protéines ne peuvent pas pénétrer dans la matrice à moins qu'elles ne traversent la membrane interne. Cette membrane contient de la cardiolipine qui la rend pratiquement imperméable. Cela nécessite des mécanismes de transport à travers la membrane qui sont plus organisés et régulés. Une vue très simple du processus est schématisée dans cette caricature.

Ce chiffre est tiré d'Alberts et al, Molecular Biology of the Cell, Garland Publishing, N.Y. 1994, troisième édition

Le transport à travers les membranes mitochondriales nécessite l'action concertée d'un certain nombre de machines de translocation. La machinerie de la membrane externe est appelée le complexe de Tom (Trelocalisateur outer mmembrane) et celui de la membrane interne est appelé le complexe de Tim (Trelocalisateur jenier Menveloppe). Les protéines qui doivent aller jusqu'à la matrice ont un NH2 séquence de signal clivable (voir le dessin ci-dessus).

La plupart des protéines doivent être déroulées ou étirées pour passer par les translocateurs. Cela implique la liaison à l'ATP et est surveillé et stabilisé par une protéine chaperon, y compris hsp70. Ainsi, avant que la protéine puisse traverser le complexe de Tom, elle doit devenir « compétente pour la translocation ».

Transport à travers la membrane externe : caractéristiques du complexe de Tom.

Sans surprise, le complexe TOM comprendra des récepteurs d'importation qui reconnaissent initialement le peptide signal ou une séquence signal (ceux-ci incluent Tom20, Tom22 et Tom70). Différentes protéines utilisent différents récepteurs. Dans le dessin ci-dessus, le récepteur est représenté par un ovale bleu dans lequel le peptide signal est inséré. Les récepteurs amènent ensuite la protéine dans la région contenant les protéines translocatrices. Il s'agit en fait d'un complexe de protéines.
Il s'appelle le pore général d'importation (GIP) et il facilite la translocation de la préséquence de la protéine à travers la membrane externe. (le GIP est composé de Tom40, Tom5, Tom 6 et Tom7). Tom40 semble être l'élément central du pore et forme des oligomères. Il traverse la membrane sous la forme d'une série de 14 brins bêta antiparallèles qui forment un tonneau bêta. Il interagit également avec les chaînes polypeptidiques traversant le pore. Tous les autres composants de Tom dans GIP sont ancrés à la membrane externe par des segments transmembranaires hélicoïdaux (ancrages hydrophobes).

Étude récente de Tom40 : Rapaport, D et Neupert W, Biogenèse de Tom40, Composant principal du complexe TOM des mitochondries. J Cell Biol 146 321-332, 1999. L'étude a examiné comment Tom40 est entré dans la membrane externe et est devenu une partie du GIP. L'étude a rapporté que :

  • Premièrement, comme pour de nombreuses protéines mitochondriales, Tom40 nécessite des chaperons cytosoliques pour le préparer à l'entrée. Dans le cas de cette protéine, devenir "compétent pour la translocation" nécessite de l'ATP et un état partiellement replié (ce dernier est médié par le chaperon cytosolique (hsp70).
  • Deuxièmement, lorsqu'il est "compétent", il interagit avec le récepteur de surface, Tom20. Il n'y a pas de peptide signal clivable, cependant, les expériences montrant la nécessité d'un repliement partiel suggèrent que des informations de ciblage se trouvent dans des sites discontinus réunis dans le domaine replié.
  • L'insertion finale se fait dans des complexes de Tom préexistants. Cela nécessite une terminaison N intacte.
  • La dimérisation se produit après l'entrée dans la membrane.

Caractéristiques des complexes temporels

Les protéines mitochondriales destinées à la matrice ont souvent un peptide signal clivable sur la protéine qui doit être reconnu avant d'être admis par le translocateur mitochondrial. Ces protéines avec des "signaux amino terminaux" (votre texte), ou des "préprotéines" ou des "préséquences" (littérature actuelle) interagissent généralement avec Tom20 en premier. Ensuite, ils doivent traverser la membrane externe. Pour ce faire, ils sont transférés vers le complexe GIP : d'abord, ils interagissent avec Tom22 et Tom5 qui les conduit vers le pore formé par Tom40. Ils pénètrent ensuite dans la matrice en utilisant le complexe poreux constitué de Tim23 et Tim17 qui se trouvent dans la membrane interne. De plus, très important, leur entrée dépend du potentiel membranaire. Ceci est mis en place par les complexes de transport d'électrons. Rappelons que les ions hydrogène sont pompés dans l'espace intermembranaire créant un gradient de charge qui est plus négatif sur le site de la matrice. Ce potentiel membranaire aide en fait à attirer la protéine dans les canaux Tim23-Tim17. La protéine pénètre ensuite dans la matrice où la préprotéine clivable est coupée par une protéase, le MPP. mt-hsp 70 dans la matrice fonctionne avec Tim44 pour terminer le transfert complet vers la matrice. mthsp70 et Tim 44 en fait « attirent » la protéine dans la matrice par un processus qui nécessite de l'ATP. Il nécessite également le potentiel membranaire mis en place par la chaîne de transport d'électrons.

Certaines protéines mitochondriales destinées à la membrane interne ont une préséquence clivable suivie d'un ou plusieurs segments transmembranaires hydrophobes qui fonctionnent comme des séquences d'arrêt de transfert dans la MI ou servent à insérer le polypeptide dans la MI après son entrée dans la matrice. Ce sont comme les protéines membranaires de type I décrites dans l'unité sur le réticulum endoplasmique rugueux.

Cependant, d'autres protéines n'ont pas de signal de ciblage clivable (Types II et III). Les protéines mitochondriales qui ont une séquence signal interne (les exemples incluent un certain nombre de protéines dans la membrane interne) interagissent généralement avec Tom70 en tant que récepteur. Ensuite, après avoir traversé la membrane externe via le complexe GIP, ils entrent dans la voie spéciale de Tim. Cela peut impliquer des interactions avec de petits Tim de l'espace intermembranaire et Tim22-Tim54 de la membrane interne elle-même.

Les protéines qui n'ont pas de séquence signal de ciblage clivable ont souvent des signaux avec les caractéristiques suivantes : elles sont souvent un tronçon d'acides aminés chargés positivement (parfois adjacents à une membrane couvrant une région hydrophobe). Parfois, ceux-ci forment des boucles qui font face à la matrice. Rappelez-vous que la "règle interne positive" a des acides aminés chargés positivement concentrés du côté cytosolique pour les protéines insérées dans le réticulum endoplasmique rugueux. Ces protéines mitochondriales ont tendance à suivre cette règle, seule la matrice devient le site où les charges positives sont les plus nombreuses.

Exemples tirés de la littérature :

Davis, AJ, Ryan, KR et Jensen, RE Tim23p contient des signaux séparés et distincts pour le ciblage des mitochondries et l'insertion dans la membrane interne. Biologie moléculaire de la cellule 9 : 2577-2593 (1999).

  • Tim23 est l'une des protéines translocatrices de la membrane interne. Il n'a pas de préséquence amino-terminale. Les informations de ciblage se trouvent dans la protéine mature.
  • Tim23 a 4 segments transmembranaires et deux boucles chargées positivement face à la matrice. Que faut-il pour signaler une importation ?
  • Remplacement des acides aminés chargés positivement dans une ou les deux boucles par des résidus alanine.
  • Au moins une de ces boucles est requise pour l'insertion dans la membrane interne.
  • Le signal de ciblage vers les mitochondries se trouve dans au moins deux des segments transmembranaires hydrophobes.

Kurz, M, Martin, H, Rassow J, Pfanner, N et Ryan, MT. Biogenèse des protéines Tim de la voie d'import du transporteur mitochondrial : mécanismes de ciblage différentiel et croisement avec la voie d'import principale. Biologie moléculaire de la cellule 10 : 2461-2474 (1999). Comparaison de la voie et de la liaison de trois protéines Tim

  • Tim54 porte une séquence de translocation amino-terminale non clivée qui est chargée positivement. Cependant, il préfère utiliser Tom70 comme récepteur au lieu de Tom20. Après avoir traversé le GIP, il utilise sa séquence amino-terminale chargée positivement pour entrer dans la matrice. Il fallait des chaperons et de l'ATP pour accéder à la matrice.
  • Tim22 est une protéine hydrophobe qui utilise Tom20 pour cibler l'OM. Ensuite, il suit la route Tim pour les protéines porteuses, comme Tim23. Il ne nécessite pas hsp70 ou ATP pour l'entrée.
  • Les Small Tim se trouvent normalement dans l'espace intermembranaire et ne sont pas des protéines membranaires. Ils ont utilisé Tom20 pour leur récepteur et leur transfert vers le complexe GIP. Cependant, lorsque Tom20 a été détruit par la trypsine, ne laissant que Tom5, les petits Tim ont pu entrer.

Le dessin ci-dessus de votre texte montre d'autres façons dont les protéines peuvent être insérées dans les membranes internes et externes, une fois qu'elles sont reconnues par les récepteurs. Comme le montrent les protéines dans les exemples de la littérature ci-dessus, les mitochondries utilisent à la fois des signaux chargés positivement ainsi que des séquences hydrophobes couvrant la membrane pour se déplacer puis atteindre leur destination finale. Comme dans les exemples ci-dessus, il peut y avoir plusieurs sites de signal et d'insertion. Cependant, la distribution des acides aminés chargés aide à orienter la protéine de sorte que les charges positives soient dans la matrice. C'est ainsi que les cytochromes de la chaîne respiratoire ou les particules élémentaires sont insérés par des actions mitochondriales.

Ce chiffre est tiré d'Alberts et al, Molecular Biology of the Cell, Garland Publishing, N.Y. 1994, troisième édition

La figure suivante est tirée d'un autre texte de Lodish et al, Molecular Cell Biology. Il montre toute la séquence d'événements nécessaires pour introduire une protéine dans la matrice.

  • Étape 1 : La protéine se déplie lorsqu'elle se lie au chaperon hsp70. La zone positive rouge indique la séquence de ciblage. La liaison au chaperon dépend de l'ATP.
  • Étape 2 : la séquence de ciblage se lie au récepteur (généralement Tom20)
  • Étape 3. Le récepteur amène la protéine au site du translocateur. D'autres protéines Tom sont impliquées, mais Tom40 est le noyau du canal translocateur.
  • Étape 4 : La protéine est transloquée stimulée par le potentiel membranaire. Les complexes de transport d'électrons sur la membrane interne ont pompé H+ à travers l'espace intermembranaire, laissant la matrice plus négative. Cela attire la protéine (le signal est chargé positivement). Les protéines se déplacent à travers les translocateurs Tim. Tim 44 et hsp70 dans la matrice continuent à guider et à tirer la protéine à travers le pore. Un processus nécessitant un ATP.
  • Étape 5. un autre chaperon (appelé chaperonine), hsp60 provoque le repliement de la protéine dans sa séquence tertiaire. Également un processus nécessitant un ATP.
  • Étape 6. La préséquence est clivée dans la matrice.

Que se passe-t-il si une protéine importée est défectueuse ?

Des études sur la levure nous ont aidés à en savoir plus sur le récepteur et la machinerie de translocation contient un complexe de protéines qui fonctionnent ensemble pour permettre l'entrée. Dans la levure, ceux-ci ont été nommés MOMX. série, où le numéro désigne le numéro de la protéine. Une protéine importante dans la reconnaissance du peptide signal et sa liaison au récepteur est appelée "MOM19". MOM 19 travaille avec MOM 72 pour reconnaître et lier les protéines. Ensuite, MOM22 aide la protéine à passer du site de liaison du récepteur au point d'insertion au niveau de la membrane externe. L'importance de MOM19 peut être prouvée en ajoutant des anticorps à MOM19 et en bloquant l'importation.

Dans un article récent de Harkness et al (J Cell Biology 124 : 637-648, 1995), ils ont créé des cellules de levure mutantes qui comprenaient un gène défectueux pour MOM19.

Ils ont également inclus un marqueur résistant au médicament afin qu'ils puissent cultiver sélectivement des cellules avec le gène mutant (en présence du médicament, p = fluorophényl alanine, ou fpa). Ainsi, plus les cellules se développent longtemps dans le médicament, plus on trouvera de cellules mutantes résistantes aux médicaments. Les micrographies électroniques ci-dessus proviennent de leur article (cité ci-dessus). Ils montrent le résultat de la protéine MOM19 absente. Qu'est-ce qui manque dans les cellules cultivées pendant 16 ou 32 h dans le médicament ?

Quand ils ont fait les dosages pour les protéines, quelles protéines manquaient réellement ? Les tests ont montré qu'il y avait une diminution spectaculaire de la majeure partie de la chaîne respiratoire (chaîne de transport d'électrons), y compris les cytochromes a/a3 et b. Cependant, le cytochrome C n'a pas été affecté. Ceci suggère qu'une autre protéine doit contrôler son importation.


Manuel de préparation des protéines

Découvrez comment dessaler, échanger des tampons, concentrer et/ou éliminer les contaminants des échantillons de protéines, l'immunoprécipitation et d'autres méthodes de purification et de nettoyage des protéines à l'aide de divers outils de biologie des protéines Thermo Scientific dans ce manuel de 32 pages.

  • Immunoprécipitation (IP), co-IP et chromatine-IP
  • Étiquettes de purification de protéines recombinantes
  • Dialyse des échantillons de protéines en toute sécurité à l'aide des cassettes et appareils de dialyse Slide-A-Lyzer
  • Dessaler rapidement des échantillons avec une récupération élevée des protéines à l'aide des colonnes et des plaques de dessalage par centrifugation Zeba
  • Extraire efficacement des contaminants spécifiques à l'aide de résines optimisées pour l'élimination des détergents ou des endotoxines
  • Concentrez rapidement des échantillons de protéines diluées à l'aide des concentrateurs de protéines Pierce

Apprendre encore plus

Sélectionnez des produits

Les interactions protéiques sont fondamentalement caractérisées comme stables ou transitoires, et les deux types d'interactions peuvent être fortes ou faibles. Les interactions stables sont celles associées aux protéines qui sont purifiées sous forme de complexes multi-sous-unités, et les sous-unités de ces complexes peuvent être identiques ou différentes. L'hémoglobine et l'ARN polymérase centrale sont des exemples d'interactions multi-sous-unités qui forment des complexes stables.

Les interactions transitoires devraient contrôler la majorité des processus cellulaires. Comme son nom l'indique, les interactions transitoires sont de nature temporaire et nécessitent généralement un ensemble de conditions qui favorisent l'interaction, telles que la phosphorylation, les changements de conformation ou la localisation dans des zones discrètes de la cellule. Les interactions transitoires peuvent être fortes ou faibles, rapides ou lentes. Lorsqu'elles sont en contact avec leurs partenaires de liaison, les protéines interagissant de manière transitoire sont impliquées dans un large éventail de processus cellulaires, notamment la modification, le transport, le repliement, la signalisation, l'apoptose et le cycle cellulaire des protéines. L'exemple suivant fournit une illustration des interactions protéiques qui régulent les processus apoptotiques et anti-apoptotiques.


Interaction protéine-protéine BAD lourde. Panneau A : gel SDS-PAGE coloré au Coomassie de BAD-GST-HA-6xHIS léger et lourd recombinant purifié à partir de lysats HeLa IVT (L), en utilisant une affinité en tandem de résine de glutathion (E1) et de résine de cobalt (E2). L'écoulement (FT) de chaque colonne est indiqué. Panneau B : Schéma de la phosphorylation de BAD et des interactions protéiques pendant la survie cellulaire et la mort cellulaire (c'est-à-dire l'apoptose). Panneau C : couverture de séquence de protéine BAD montrant les sites de phosphorylation consensus Akt identifiés (boîte rouge). Panel D : spectres MS du peptide BAD marqué par un isotope stable HSSYPAGTEDDEGmGEEPSPFr.

Les protéines se lient les unes aux autres par une combinaison de liaisons hydrophobes, de forces de van der Waals et de ponts salins au niveau de domaines de liaison spécifiques sur chaque protéine. Ces domaines peuvent être de petites fentes de liaison ou de grandes surfaces et peuvent être longs de quelques peptides ou couvrir des centaines d'acides aminés. La force de la liaison est influencée par la taille du domaine de liaison. Un exemple de domaine de surface commun qui facilite des interactions protéine-protéine stables est la fermeture éclair à leucine, qui consiste en des hélices sur chaque protéine qui se lient les unes aux autres de manière parallèle grâce à la liaison hydrophobe de résidus leucine régulièrement espacés sur chaque α. -hélice qui se projettent entre les chaînes peptidiques hélicoïdales adjacentes. En raison du compactage moléculaire serré, les fermetures à glissière à leucine assurent une liaison stable pour les complexes multiprotéiques, bien que toutes les fermetures à glissière à leucine ne se lient pas de la même manière en raison des acides aminés non leucine dans l'hélice qui peuvent réduire le tassement moléculaire et donc la force de la interaction.

Deux domaines d'homologie Src (SH), SH2 et SH3, sont des exemples de domaines de liaison transitoires communs qui se lient à de courtes séquences peptidiques et se trouvent couramment dans les protéines de signalisation. Le domaine SH2 reconnaît les séquences peptidiques avec des résidus tyrosine phosphorylés, qui indiquent souvent l'activation de la protéine. Les domaines SH2 jouent un rôle clé dans la signalisation des récepteurs du facteur de croissance, au cours de laquelle la phosphorylation des récepteurs médiée par un ligand au niveau des résidus tyrosine recrute des effecteurs en aval qui reconnaissent ces résidus via leurs domaines SH2. Le domaine SH3 reconnaît généralement les séquences peptidiques riches en proline et est couramment utilisé par les kinases, les phospholipases et les GTPases pour identifier les protéines cibles. Bien que les domaines SH2 et SH3 se lient généralement à ces motifs, la spécificité des interactions protéiques distinctes est dictée par les résidus d'acides aminés voisins dans le motif respectif.

Le résultat de deux ou plusieurs protéines qui interagissent avec un objectif fonctionnel spécifique peut être démontré de plusieurs manières différentes. Les effets mesurables des interactions protéiques ont été décrits comme suit :

  • Modifier les propriétés cinétiques des enzymes, qui peuvent être le résultat de changements subtils dans la liaison au substrat ou d'effets allostériques
  • Permettre la canalisation du substrat en déplaçant un substrat entre des domaines ou des sous-unités, résultant finalement en un produit final prévu
  • Créer un nouveau site de liaison, généralement pour les petites molécules effectrices
  • Inactiver ou détruire une protéine
  • Modifier la spécificité d'une protéine pour son substrat grâce à l'interaction avec différents partenaires de liaison, par exemple, démontrer une nouvelle fonction qu'aucune des protéines ne peut présenter seule
  • Rôle réglementaire dans un événement en amont ou en aval

Habituellement, une combinaison de techniques est nécessaire pour valider, caractériser et confirmer les interactions protéiques. Des protéines auparavant inconnues peuvent être découvertes par leur association avec une ou plusieurs protéines connues. L'analyse des interactions protéiques peut également révéler des rôles fonctionnels uniques et imprévus pour des protéines bien connues. La découverte ou la vérification d'une interaction est la première étape pour comprendre où, comment et dans quelles conditions ces protéines interagissent in vivo et les implications fonctionnelles de ces interactions.

While the various methods and approaches to studying protein–protein interactions are too numerous to describe here, the table below and the remainder of this section focuses on common methods to analyze protein–protein interactions and the types of interactions that can be studies using each method. In summary, stable protein–protein interactions are easiest to isolate by physical methods like co-immunoprecipitation and pull-down assays because the protein complex does not disassemble over time. Weak or transient interactions can be identified using these methods by first covalently crosslinking the proteins to freeze the interaction during the co-IP or pull-down. Alternatively, crosslinking, along with label transfer and far–western blot analysis, can be performed independent of other methods to identify protein–protein interactions.

Common methods to analyze the various types of protein interactions

MéthodeProtein–protein interactions
Co-immunoprecipitation (co-IP)Stable or strong
Pull-down assayStable or strong
Crosslinking protein interaction analysisTransient or weak
Label transfer protein interaction analysisTransient or weak
Far–western blot analysisModerately stable

Co-immunoprecipitation (co-IP) is a popular technique for protein interaction discovery. Co-IP is conducted in essentially the same manner as an immunoprecipitation (IP) of a single protein, except that the target protein precipitated by the antibody, also called the "bait", is used to co-precipitate a binding partner/protein complex, or "prey", from a lysate. Essentially, the interacting protein is bound to the target antigen, which is bound by the antibody that is immobilized to the support. Immunoprecipitated proteins and their binding partners are commonly detected by sodium dodecyl sulfate–polyacrylamide gel electrophoresis (SDS-PAGE) and western blot analysis. The assumption that is usually made when associated proteins are co-precipitated is that these proteins are related to the function of the target antigen at the cellular level. This is only an assumption, however, that is subject to further verification.

Co-immunoprecipitation of cyclin B and Cdk1. The Thermo Scientific Pierce Protein A/G Magnetic Beads bind to Cdk1 antibody complexed with Cdk1. Cyclin B is bound to the Cdk1, and is captured along with its binding partner.


AlphaFold is born from deep-learning chess, Go and poker games

The success of DeepMind’s protein-folding prediction program, called AlphaFold, is not unexpected. Other deep-learning programs written by DeepMind have demolished the world’s best chess, Go and poker players.

In 2016 Stockfish-8, an open-source chess engine, was the world’s computer chess champion. It evaluated 70 million chess positions per second and had centuries of accumulated human chess strategies and decades of computer experience to draw upon. It played efficiently and brutally, mercilessly beating all its human challengers without an ounce of finesse. Enter deep learning.

On Dec. 7, 2017, Google’s deep-learning chess program AlphaZero thrashed Stockfish-8. The chess engines played 100 games, with AlphaZero winning 28 and tying 72. It didn’t lose a single game. AlphaZero did only 80,000 calculations per second, as opposed to Stockfish-8’s 70 million calculations, and it took just four hours to learn chess from scratch by playing against itself a few million times and optimizing its neural networks as it learned from its experience.

AlphaZero didn’t learn anything from humans or chess games played by humans. It taught itself and, in the process, derived strategies never seen before. In a commentary in Science magazine, former world chess champion Garry Kasparov wrote that by learning from playing itself, AlphaZero developed strategies that “reflect the truth” of chess rather than reflecting “the priorities and prejudices” of the programmers. “It’s the embodiment of the cliché ‘work smarter, not harder.’”


Repliement des protéines

The sequence of the amino acids – which is encoded in DNA – defines the protein’s 3D shape. The shape determines its function. If the structure of the protein changes, it is unable to perform its function. Correctly predicting protein folds based on the amino acid sequence could revolutionize drug design, and explain the causes of new and old diseases.

All proteins with the same sequence of amino acid building blocks fold into the same three-dimensional form, which optimizes the interactions between the amino acids. They do this within milliseconds, although they have an astronomical number of possible configurations available to them – about 10 to the power of 300. This massive number is what makes it hard to predict how a protein folds even when scientists know the full sequence of amino acids that go into making it. Previously predicting the structure of protein from the amino acid sequence was impossible. Protein structures were experimentally determined, a time-consuming and expensive endeavor.

Once researchers can better predict how proteins fold, they’ll be able to better understand how cells function and how misfolded proteins cause disease. Better protein prediction tools will also help us design drugs that can target a particular topological region of a protein where chemical reactions take place.


Cell Biology 04: The Secretory Pathway

The secretory pathway refers to the endoplasmic reticulum, Golgi apparatus and the vesicles that travel in between them as well as the cell membrane and lysosomes. It’s named ‘secretory’ for being the pathway by which the cell secretes proteins into the extracellular environment. But as usual, etymology only tells a fraction of the story. This pathway also processes proteins that will be membrane-bound (whether in the cellular membrane or in the ER or Golgi membranes themselves), as well as lysosomal enzymes, and also any proteins that will live their lives in the secretory pathway itself. It also does some things other than process proteins.

The cytosol and the ‘lumen’ (the liquid that fills the secretory pathway) are different chemical environments, and they normally never mix. The cytosol is reductive (when you’re in the cytosol, you keep meeting molecules that want to offer you electrons), and the ER, Golgi and extracellular environment are oxidative (molecules keep coming up to you asking for electrons). See redox if still confused. This makes for different protein-folding conditions: for instance, disulfide bonds usually only form in oxidative conditions. Moreover, different proteins may live only in the secretory pathway or only in the cytosol. The secretory pathway provides a route for the cell to handle things that might not be good to have in the cytoplasm, and/or are most useful when kept concentrated in a specialized compartment with their desired interacting partners. Hepatocytes (in the liver) sequester drugs and toxins in the smooth ER and break them down for excretion from the body there. The secretory pathway is not contiguous, but every movement between its components is in little bubbled-off microcosms of its own chemical world, called vesicles.

Many proteins that go through the secretory pathway never touch the cytosol – except the parts of membrane proteins that stick out on the cytosolic side. Many of them need chaperones to help with folding, and/or a whole series of post-translational modifications in order to be ready for their native function, and the secretory pathway specializes in providing them all of that.

Today’s lecture will focus on how proteins get translated into the ER and how they travel (in vesicles) between the ER, Golgi and other destinations. This is beautifully depicted in the Life of the Cell video:

Les endoplasmic reticulum is the first step in the secretory pathway. Its membrane is continuous with the outer nuclear membrane, though it’s not clear why that matters, since it’s not like proteins begin their life in the nucleus. Rather, mRNAs drift around in the cytoplasm until they get picked up by a ribosome interested in translating them. In ‘posttranslational translocation’ the new protein is moved into the ER after it’s translated. In the more interesting phenomenon called ‘cotranslational translocation’ the ribosome starts translation just like any other protein, but somewhere in the first 16 to 30 amino acids it hits a signal peptide (aka signal sequence). That signal’s motif is often 1 positively charged amino acid followed by 6-12 hydrophobic amino acids. This motif gets recognized by signal recognition particle (SRP, a ‘ribonucleoprotein’ or hybrid RNA/protein molecule) which binds to it and prevents the ribosome from continuing translation. Translation is stopped until the ribosome/SRP complex encounters an SRP receptor on the ER membrane. When they meet, SRP and its receptor each bind one GTP molecule in the ER membrane, which apparently strengthens their interaction. Fortuitously, this all happens adjacent to a Sec61 translocon – a protein complex that forms a channel crossing the ER membrane. The translocon is actually a complex of three different proteins (genes: SEC61A1 or SEC61A2, SEC61B, SEC61G), of which the Sec61a subunit has 10 membrane-spanning a-helices which form the channel. Once the ribosome is docked at the membrane it continues translation, pushing the signal peptide and eventually the whole protein through the channel into the ER lumen. When translation stops, SRP and SRP receptor both hydrolzye their GTP to release each other and the ribosome cargo (this has to require the energy of GTP, since the original binding was downhill), a signal peptidase cleaves the signal peptide off of the nascent protein, and the protein is free to start folding in the ER.

A couple of other players are involved for some ER proteins. Oligosaccharide transferase, which adds glycosyl groups to asparagines in the nascent protein, is part of the translocon complex and it actually performs glycosylation while the new protein is still being translated. So although we call glycosylation a ‘post-translational modification’ it is actually made during translation in this case. Also, to achieve their proper structure, some proteins need to be fully translated before they are allowed to start folding – if the N-terminal portion was allowed to start folding as soon as it entered the lumen, it would end up with the wrong overall structure. To prevent this, sometimes BiP the chaperone binds the protein to keep it unfolded for a while. Imagine BiP as another Pac-Man that bites down on the protein to keep it linear, like Hsc70 in the mitochondrial targeting process (see last week).

The first couple of minutes show the basic scenario described above. Then it moves on to a more complex scenario I’ll introduce in a minute. FYI, the video depicts two ‘controversial’ things not included in the above description: (1) the signal peptide being degraded in the membrane, and (2) a ‘plug protein’ that stops up the channel before/after translation. Not all scientists agree on these two things yet.

All of the proteins that we know go through the secretory pathway were pinpointed there by people doing localization experiments to see where in the cell a protein lies. A weird fact about the ER is that you can put the cell in a blender and afterwards the ER will just start reconnecting to itself, forming little ‘microsomes’ that are not attached to the nucleus but form contiguous bubbles of ER. You can then start to play games with proteases – which break down proteins – and detergents – which solubilize the ER membrane. Assuming your protein of interest is translated, you can check if it (1) survives protease treatment but (2) ne fait pas survive protease + detergent treatment, then it’s a secretory pathway protein. The logic is that in case (1) it was protected inside the ER, but in case (2) you dissolved the ER, so it got eaten by the protease. All this assumes you have an antibody or some other way of detecting whether the protein of interest is there after these treatments.

People also used such techniques to figure out that only 70 amino acids of a new protein can be translated before it becomes too late for that protein to end up in the ER. Remember, the signal peptide is in the first 16-30 amino acids, and translocation to the ER depends on SRP being present. Ribosomes translate at a predictable rate, so people got ribosomes started on translating some mRNA and then waited set amounts of time before adding SRP, to see how much translation could occur before SRP could no longer do its job.

The SRP receptor and the Sec61 proteins are ER membrane proteins – and there many other ER membrane, Golgi membrane and lysosome membrane proteins as well. In fact, even the membrane proteins (see class 02) of the cell membrane get processed in the secretory pathway. Many of these have several or tens of transmembrane domains (20-25 hydrophobic amino acids each) that have to be inserted in the correct order and orientation (for example, you really want your ion channels and transporters pointed in the right direction, into vs. out of the cell). Accordingly there are a bunch of fancy biological mechanisms for getting these proteins inserted into the membrane correctly. This is what the latter half of the above video depicts.

So here’s a tautology: some proteins have a topogenic sequence which determines their orientation in the membrane. This sequence is made of two types of signal sequences:

  • une stop-transfer sequence (abbreviated STA for some reason) is a 22-25 hydrophobic amino acid sequence somewhere in the middle of the protein that forms an alpha helix. When encountered it gets shoved into the membrane, and then translation of the rest of the protein continues in the cytosol. So this kind of ‘undoes’ the translocation to the ER that was started by the signal peptide at the beginning (N terminus) of the protein.
  • une signal anchor sequence (abbreviated SA) is also a 22-25aa hydrophobic alpha helix, but with a series of

With those two signals as building blocks, you can imagine a protein with a series of stop transfer and signal anchor sequences to create a whole series of back and forth transmembrane domains stitched into the membrane as if by a sewing machine. People have classified the membrane proteins into five categories:

  1. Type I has just a signal peptide and then one stop transfer in the middle. Therefore it ends up with its (hydrophilic) N terminus in the lumen, its (hydrophobic) middle in the membrane and its (hydrophilic) C terminus in the cytosol.
  2. Type II does not start with a signal peptide. It starts out like any other protein, but in the middle it has a signal anchor sequence with the +++ amino acids coming first and the hydrophobic series after. This makes the protein get translocated midway through translation, with the already-translated N-terminal part sticking out into the cytosol (since the +++ have to stay cytosolic) and the now-beginning-to-be-translated C-terminal part getting translated directly into the ER. So it ends up transmembrane with its C terminus in the ER and N terminus in the cytosol – opposite of Type I.
  3. Type III is like Type II – no signal peptide, just a signal anchor in the middle, but in this case the +++ come after the hydrophobic sequence, which reverses the orientation. So this ends up with its N terminus in the ER and its C terminus in the cytosol. Opposite of Type II and, in the end, the same as Type I, though it got there in a different way – it does not have a signal peptide that gets cleaved off in the ER.
  4. Type IV or ’multipass’ proteins have an alternating series of signal sequences and stop transfer sequences. These are clearly more than one ‘type’, yet are not nearly as diverse as your combinatoric imagination might allow. The orientation of the first signal sequence determines whether the N terminus will end up in the cytosol or ER, and total number of stop transfer + signal anchor sequences determines where the C terminus will end up: an even number = same side as N terminus, odd number = opposite side as N terminus. The STA and SA sequences have to strictly alternate, with the exception that you can start with two signal anchor sequences if the first one is oriented with the N terminus into the cytosol. Just to make a mockery of this categorization scheme, people have defined some incompletely-defined subtypes of Type IV, where Type IVa is N-terminal in cytosol (thus it starts like a Type II protein) and Type IVb is N-terminal in the lumen (it starts like a Type III protein but then has another SA sequence that puts it back into the ER). GLUT1 from Class 02 is a Type IVa. -anchored proteins, which are the fifth type but aren’t called Type V, start with a signal peptide and end with a hydrophobic C-terminus which stays embedded in the membrane. That hydrophobic end gets cleaved off and replaced with GPI, which also stays embedded in the membrane. PrP is one of these – more on that later.

By now we’ve discussed how proteins can end up in the ER lumen or spanning the ER membrane. Most proteins leave the ER within minutes, transported in vesicles bound for the Golgi and then later for excretion, lysosomes or the cell membrane. That forward direction of travel is called anterograde going backwards from Golgi to ER is retrograde transport.

Both types of transport take place in membrane-bound vesicles. These bud off of the membrane of wherever they’re coming from, and later fuse to the membrane of wherever they’re headed – beautifully depicted at

2:25 in the Life of the Cell video above. The body from which the vesicles form is the ‘donor compartment’, and the destination they later fuse to is the ‘acceptor compartment’.

The budding process requires that G proteins in the membrane recruit Coat proteins. Specifically, for anterograde transport, G protein Sar1 (gene: SAR1A) recruits COPII (‘cop two’) for retrograde transport, an ARF G protein recruits COPI (pronounced ‘cop one’). These G proteins are activated to do this job when GEF loads them with GTP, swapping out GDP.

So the steps in anterograde transport, for example, are as follows:

  1. Sec12-GEF (Sec stands for secretory) loads Sar1 with GTP. When bound to GDP, Sar1 just floats around the donor compartment, but when bound to GTP, it undergoes conformational change that causes its otherwise-buried N-terminal hydrophobic tail to protrude, making it stick into the membrane, where COPII proteins then start to accumulate because they really like that tail.
  2. The COPIIs start to polymerize and, due to its conformation, have an intrinsic preference for curvature, so their accumulation starts to make budding happen. At the same time, membrane bound proteins that need to be transported – identified by a DXE (i.e. aspartate-anything-glutamate) amino acid sequence that forms a binding site in their cytosolic part – get recruited to the newly forming vesicle. Membrane-bound proteins act as receptors, recruiting lumenal proteins that are bound for the Golgi to hang out in the concave space where they’ll end up in the vesicle once it forms.
  3. Once enough COPII have arrived, the vesicle buds off, at which point Sar1 hydrolyzes its GTP, providing the energy for it to suck its hydrophobic tail back into itself, cutting the COPIIs loose. The vesicle is now disconnected from the donor compartment.
  4. Now, for poorly explained (or poorly understood?) reasons, the coat of COPIIs just disassembles, exposing receptors under the coat which direct the targeting of the vesicle. Once the vesicle arrives at its destination, Rab-GTP embedded in the vesicle membrane interacts with a Rab effector embedded in the acceptor compartment membrane. A sideways glance is exchanged, interest is kindled. Soon the vesicle will fuse to the membrane. proteins present on both the v esicle and t arget membrane (V-SNARE and T-SNARE respectively) interact to bring the membranes even closer. In this example we’ll consider VAMP (the VAMP_ genes) as the V-SNARE and Syntaxin (the STX__ genes) and SNAP25 (SNAP25 gene) as the T-SNAREs. Syntaxin and SNAP25 are both membrane proteins Syntaxin has 1 alpha helix and SNAP25 has 2, all on the cytosolic side. The alpha helices drive the interaction with VAMP. The opposing sides’ alpha helices have extremely strong affinity for one another, bringing the membranes close enough to fuse. Once this has happened, prying the V-SNAREs and T-SNAREs apart again requires two proteins: NSF (gene: NSF stands for NEM sensitive factor) and alpha-SNAP (gene: NAPA), a soluble NSF attachment protein. NSF is an ATPase, and burns ATP to drive the energetically uphill disassembly of the complex.

Now for retrograde transport. Why is there retrograde transport at all? Here is a non-exhaustive list of some reasons:

  • Some membrane proteins start their life in the ER, need to get modified in the Golgi, but then need to get back to the ER. They do this with a KKXX amino acid sequence.
  • There’s also a KDEL amino acid sequence at the C terminus of some lumenal proteins which is suppsoed to keep them in the ER, but it’s not perfect – sometimes they end up in the Golgi, in which case they’re targeted back to the ER via retrograde transport dependent on that KDEL sequence for recognition. The mechanism is kind of neat – the proteins that recognize and bind to KDEL do so only at low pH, and the pH of the Golgi is lower than the ER, so they bind KDEL in the Golgi, then release it when they’re back in the more neutral pH of the ER.
  • Also, think about it, all the proteins that participate in anterograde transport – the V-SNARES, Rab, etc. – have to get back to the ER so they can do it all over again, like how the bus has to get back to the bus depot at the end of the day.
  • As we’ll see shortly, the Golgi come in multiple stages which depend on the addition of enzymes from further downstream.

The process of retrograde transport is not so different from anterograde. It uses ARF instead of Sar1, COPI instead of COPII, but it works the same: ARF loaded with GTP lets its hydrophobic tail stick into the membrane, attracting the attention of COPIs. COPI has two components, COPIalpha and COPIbeta, both of which interact with that KKXXX sequence to recruit membrane-bound proteins destined for retrograde transport. Some proteins also have an RR sequence (anywhere in the protein) which can flag them for retrograde transport.

The Golgi apparatus is not contiguous. It is a stacked set of separate subcompartments called sacs or cisternae. Different compartments have different properties and proteins visit them in a particular order. In order from ER to cell membrane, the Golgi compartments are called cis, medial, trans and trans-Golgi network. Each compartment has different enzymes that modify proteins, and the modifications have to happen in a certain order, hence the need for a stacked set of compartments.

But as proteins mature in the Golgi, it’s not as though they bud off in vesicles from one compartment and move to the next. Rather, the compartment they are already in moves outward and ‘matures’ as new enzymes are added to it (from further down the Golgi chain) via retrograde transport. Bizarre, non ? It’s kind of like if instead of moving from an elementary school to a middle school to a high school you just stayed in one school building for your whole childhood and adolescence, and they just brought in new textbooks and teachers every year to keep it appropriate to the grade that you and your classmates had now reached. Here’s what the Golgi look like as they move and evolve:

So there’s (little or) no anterograde transport within the Golgi, but plenty of retrograde transport to bring each new round of enzymes in. When proteins have finally completed the full K-12 curriculum of the Golgi network, they do undergo transport to move on to their final destinaton. They bud off in a vesicle which will go one of three places:

    – fusion with the cell membrane. Thus the lumenal proteins will be secreted extracellularly, and the membrane proteins will become cell membrane proteins. – these just stick around as vesicles in the cell until needed – where ‘needed’ means they do eventually undergo exocytosis. In neurons, this is where neurotransmitters are stored until an action potential demands their secretion into the synapse. In the stomach, the cells that produce gastric enzymes keep those enzymes in secretory vesicles until food intake triggers their release into the stomach. - where misfolded proteins go to get degraded.

The transport from the trans-Golgi network on to these destinations is different from the other transport discussed above and often involves clathrin (CLT__ genes). Vesicles budding off have a two-layer coat, with a dapter p rotein (AP) complexes as the inner layer and clathrin as the outer layer. The adapter proteins have a target signal with a YXXh motif (h = Φ = any hydrophobic amino acid). Clathrin forms the so-called ‘clathrin-triskelion’ formation shown here:


(Image thanks to Wikimedia Commons user Phoebus87)

Clathrin is also responsible for endocytosis – budding off of vesicles of extracellular stuff (and cell membrane proteins) to come dans la cellule. This is called clathrin-mediated endocytosis. Receptors in the cell membrane get endocytosed very frequently: the whole population of hormone receptors turns over about every hour, especially when hormones are being received. Taking up the receptor into a vesicle is one way for the cell to cut off the incoming signal until it can be processed.
The plasma membrane notes discuss cystic fibrosis briefly: CFTR is an ABC transporter responsible for pumping Cl - out of the cell (it also lets Na + in). Loss-of-function mutants don’t pump Cl - , which removes the driving force for osmosis, thickening the mucus and causing breathing problems. There are at least 127 different loss-of-function CFTR mutants (at least, that’s how many Natera tests for) that (if both alleles are disabled) cause cystic fibrosis. The most common mutation is ΔF508, which is

3% of all European CFTR alleles and about 70% of mutant ones. The loss of that one phenylalanine changes CFTR’s conformation so that the di-acidic exit code (amino acids D565 and D567) that targets CFTR for exocytotic vesicles is no longer correctly exposed and the protein never makes it to the cell membrane [Wang 2004].

discussion section

In section we read Hu 2009, who showed that atlastin proteins are involved in creating the tubular ER network. The evidence came almost entirely from protein-protein interactions. I was surprised this paper was a big deal, because there have been a million papers showing protein-protein interactions for huntingtin, and no one really believes all of them and it hasn’t necessarily gotten us any closer to knowing what huntingtin does or what goes wrong in Huntington’s Disease. But apparently Hu was able to make a pretty clean case for the atlastins’ interactions with reticulons as implying a role in ER formation. It helps that Hu was able to show a ‘genetic interaction’ in addition to a physical (binding) interaction. A ‘genetic interaction’ (I had to look it up) means when “Sometimes mutations in two genes produce a phenotype that is surprising in light of each mutation’s individual effects. This phenomenon, which defines genetic interaction, can reveal functional relationships between genes and pathways.” [Mani 2007].

This is a decade old, so some stuff may be outdated, but I found Harris 2003 (ft)’s review of PrP cell biology extremely clear and helpful. Kim & Hegde 2002 was also helpful. PrP is a secretory pathway protein. Its first 22 amino acids (MANLGCWMLVLFVATWSDLGLC) are a signal peptide that causes cotranslational translocation to the ER. Normally, PrP just gets GPI-linked at its C terminus and is anchored to the exoplasmic side of the membrane. But amino acids 111-134 (HMAGAAAAGAVVGGLGGYMLGSAM) are a sort of weak signal anchor sequence (Type II, with the +++ amino acids coming before the signal anchor) that sometimes but not always becomes a transmembrane domain, inverting the C terminus into the lumen. Even more confusingly, that sequence can sometimes just end up as a transmembrane domain sans pour autant the inversion, so that the N terminus is in the lumen. So there are three membrane topologies of PrP: regular old GPI-anchored, and two transmembrane orientations, as depicted in Harris 2003 Fig 3:

Note how weird Ctm PrP is. It’s transmembrane yet also GPI-anchored, and the N-terminal signal peptide is never cleaved off. Normally, the transmembrane forms are < 10% of total PrP. In some laboratory conditions the percentage is higher, and two of the GSS-causing mutations (A117V and P105L) also increase the fraction of Ctm PrP to 20-30% of all PrP. Of these three forms, there is a good amount of evidence that Ctm PrP is toxic, and that it might play a role in prion formation, though most genetic prion disease mutations (including FFI D178N) do not appear to affect the membrane topology of PrP or the fraction of Ctm PrP.

After PrP goes through the Golgi, it is targeted for the cell membrane. But according to Harris, it doesn’t just sit there – it frequently through clathrin-mediated endocytosis and cycles through the cell every

60 minutes, with some molecules being cleaved on each cycle. Copper stimulates this endocytosis of PrP. Most genetic prion disease mutations change the localization of PrP – usually when a mutation is present, less PrP is found on the cell surface, with more accumulating in the ER.

About Eric Vallabh Minikel

Eric Vallabh Minikel is on a lifelong quest to prevent prion disease. He is a scientist based at the Broad Institute of MIT and Harvard.