Informations

L'utilisation d'un seul codon stop avec un seul CDS chez les procaryotes pose-t-elle un problème ?


Toutes les séquences codant pour les protéines du registre iGEM sont censées se terminer par un double codon stop. Vraisemblablement, cela réduit le potentiel de lecture, ce qui pourrait être problématique si l'on élabore une conception polycistronique.

Cependant, si la conception est destinée à n'avoir qu'un seul CDS et vise un procaryote (qui a des mécanismes de libération de ribosomes "de secours"), y a-t-il un problème à n'utiliser qu'un seul codon d'arrêt ?


L'impact de toute lecture à partir d'un codon d'arrêt qui fuit dans une unité d'expression avec un seul CDS dépendrait probablement de plusieurs éléments, principalement (i) où se trouve le prochain codon d'arrêt dans le cadre, (ii) qu'essayez-vous de express, et (iii) à quel point le codon d'arrêt est-il fuyant ?

Dans les cas où le prochain codon d'arrêt dans le cadre n'est qu'à quelques paires de bases, il y aurait probablement peu d'impact, mais dans d'autres cas, le prochain codon d'arrêt pourrait être éloigné. Dans ces cas, il y a deux choses qui peuvent avoir un impact.

La première est qu'une longue séquence peptidique pourrait être ajoutée à votre protéine, ce qui, selon ce que vous exprimez, peut entraîner un mauvais repliement ou une perte de fonctionnalité de votre protéine.

La seconde est que vous pourriez obtenir un blocage du ribosome, surtout si l'un des codons entre votre codon d'arrêt et un deuxième codon d'arrêt nécessite des ARNt rares. Comme vous l'avez mentionné dans votre question, il existe des mécanismes de sauvetage dans ces scénarios, cependant si votre CDS est exprimé sous un promoteur fort sur un plasmide à nombre de copies élevé, ce mécanisme peut devoir être monté beaucoup plus souvent que d'habitude et entraîner une charge sur le cellule. Je dois noter qu'il s'agit d'une spéculation de ma part car je ne trouve aucune étude qui l'a montré.

L'impact réel que l'un de ces scénarios pourrait avoir sur votre système dépendrait probablement fortement de la fuite réelle du codon d'arrêt. Comme il existe de nombreux exemples de constructions qui n'utilisent qu'un seul TAA dans leur conception sans effets négatifs apparents, vraisemblablement dans des circonstances «normales», il y a peu de risque à utiliser un seul codon d'arrêt.


S'il n'y a qu'un seul CDS, il y aura vraisemblablement une terminaison transcriptionnelle directement après le CDS (après le codon d'arrêt en fait), ce qui rend presque négligeable toute lecture provenant de l'utilisation d'un seul codon d'arrêt.


Peut-être pourrais-je ajouter pour les systèmes eucaryotes qui terminent tous les codons d'arrêt par une seule protéine, eRF1, cette étude de Schmied et al. Je ne sais pas comment cela serait transféré aux systèmes procaryotes qui divergent dans son utilisation de deux facteurs de libération - RF1 et RF2. Je pensais que la résiliation par UAA, qui est partagée par les deux facteurs, serait assez stricte.


Prédire et classer les effets des mutations d'insertion et de délétion sur les régions codant pour les protéines

Les mutations dans les gènes peuvent affecter les protéines codées de plusieurs manières, et certains de ces effets sont contre-intuitifs. Comme pour toute autre connaissance, les étudiants doivent créer leur propre compréhension profonde du Dogme Central. Les élèves peuvent ne pas développer cette compréhension parce qu'ils ont peu d'occasions de s'exercer à manipuler des séquences d'ADN et à classer leurs effets. Une telle pratique peut améliorer l'appréciation des élèves pour la myriade d'effets possibles du changement d'ADN (mutation) sur la séquence d'acides aminés. Dans cette leçon, une série d'exercices échafaudés offre cette opportunité. Les élèves identifient d'abord les séquences de gènes à partir d'une base de données en ligne, créent leurs propres mutations d'insertion/délétion et prédisent les effets. Les élèves utilisent ensuite un outil Web pour traduire et observer l'effet de la mutation sur la séquence protéique. La comparaison ultérieure des effets prédits et observés utilise le test du chi carré. La discussion des résultats avec les pairs consiste à catégoriser les types d'effets possibles. La leçon se termine par un exercice demandant aux élèves de créer une mutation ayant un effet escompté sur la protéine. Ensemble, les exercices intègrent le raisonnement quantitatif et l'analyse statistique, la maîtrise de l'information et plusieurs niveaux d'apprentissage de Bloom. Les progrès des élèves sont contrôlés à l'aide de trois évaluations formatives et de trois évaluations sommatives.


Abréviations

Facteur d'initiation de la traduction eucaryote

Facteur d'initiation de la traduction procaryote

Facteur d'allongement de la traduction eucaryote

Facteur d'allongement de la traduction procaryote

Facteur de terminaison de la traduction eucaryote (facteur de libération)

Facteur de libération de la traduction procaryote

Facteur de recyclage des ribosomes

Protéine de la petite sous-unité ribosomique procaryote

Protéine de la grande sous-unité ribosomique eucaryote

Protéine de la petite sous-unité ribosomique procaryote

Protéine de la grande sous-unité ribosomique procaryote

Centre de peptidyl transférase

Complexe ribosome-chaîne naissante-ARNm

Mutation d'ambiguïté ribosomique

Désintégration de l'ARNm à médiation non-sens


Séquençage du génome mitochondrial complet de Eimeria mitis la souche USDA 50 (Apicomplexa : Eimeriidae) suggère des positions de départ conservées pour les régions codant mtCOI et mtCOIII

Quatre séquences mitochondriales complètes (mt) d'une lignée dérivée d'un seul oocyste de Eimeria mitis USDA 50 ont été obtenus (trois à partir de produits de PCR de génome entier clonés, un à partir de produits de PCR de génome entier directement séquencés). Le génome mt est long de 6 408 pb avec trois gènes (CytB, cytochrome c sous-unité I de l'oxydase (COI) et cytochrome c sous-unité III de l'oxydase (COIII)) et de nombreux fragments d'ADNr (grande sous-unité ADNr 13, petite sous-unité ADNr 10) était identique à d'autres Eimeria sp. mt génomes. Des positions de codon de départ conservées pour COI et COIII sont suggérées pour tous Eimeria mt génomes, ces positions de codon de départ existent et peuvent également être conservées, chez des parasites apicomplexes apparentés. Dans les trois produits de PCR clonés séparés de génomes mt presque complets, il y avait 26 différences de nucléotides (collectivement) par rapport au génome mt directement séquencé. Ces changements semblent être des erreurs d'incorporation de base pendant la PCR. Le séquençage direct de longs produits d'amplification PCR peut être plus susceptible de générer des séquences génomiques mt précises que le clonage et le séquençage ultérieur.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Exemple 4

La productivité des clones est analysée dans des expériences batch et fed batch utilisant différents formats. Le criblage initial des clones est effectué dans des dosages par lots de plaques de 24 puits en ensemençant des cellules dans des plaques de 24 puits secouées. Les concentrations d'anticorps dans le surnageant de culture cellulaire sont déterminées par HPLC protéine-A 10d après le démarrage de la culture. Les clones les plus producteurs sont également analysés dans des modèles de flacons agités en mode batch et fed batch. Les cultures en lots sont ensemencées dans un shaker flask 500 avec un volume de travail de 100 ml et sont cultivées dans une armoire à agitateur (non humidifiée) à 150 tr/min et 10 % de CO2. La viabilité des cellules doit être supérieure à 90 % au démarrage du test. La densité cellulaire d'ensemencement est de 2×10 5 c/mL. La concentration du produit/le nombre de cellules/la détermination de la viabilité ont eu lieu aux jours 3-7, 10 et 13. Les expériences de Fed batch sont effectuées dans les mêmes conditions mais avec une densité cellulaire de départ de 4 × 10 5 c/mL et avec un ajout régulier d'aliments. La stabilité clonale est évaluée en cultivant les cellules sur une période de 14 semaines avec des mesures de productivité en utilisant le modèle de lot de flacons agités toutes les deux semaines.


Résultats et discussion

Résumé et phylogénie du MAG du lac organique

Un MAG (Ga0307966_1000010) représentant un génome circulaire complet d'une longueur de 158 228 pb a été identifié dans les nouvelles données du métagénome d'Organic Lake. Le MAG a codé 194 gènes bactériens, dont 156 ont été déduits comme étant des CDS (tableau supplémentaire 2) avec 145 fonctions biologiques putatives attribuées (tableau supplémentaire 3). La plupart (76 protéines) ont été affectées à la traduction (y compris les modifications d'ARNt) (tableau supplémentaire 3). Les autres catégories étaient la synthèse des acides gras (y compris l'oxydation du pyruvate) (18 protéines), la biogenèse de la paroi cellulaire, y compris les lipopolysaccharides (17), l'assemblage de clusters de fer et de soufre (Fe-S) (8), le repliement et la stabilité des protéines (8), la réplication et la réparation ( 6), et transcription (6). Un total de 16 CDS n'a pu se voir attribuer aucune fonction, et certains ou tous pourraient être des pseudogènes. Le MAG avait une copie de chacun des gènes d'ARNr 23S, 16S et 5S et 34 gènes d'ARNt identifiables (tableau supplémentaire 2). Le potentiel génomique très restreint illustre que cette bactérie ne serait pas capable de croissance autonome, et nous la nommons Candidatus Organicella extenuata gén. et. sp. nov. le nom de genre dérive de la localité d'où la séquence MAG a été récupérée à l'origine (lac organique, Antarctique) avec l'ajout du suffixe latin diminutif -ella l'espèce 𠇎xtenuata” signifie réduit ou diminué en latin et fait référence à la génome très réduit.

MAG supplémentaires pour Californie. Organicella ont été générés à partir d'un certain nombre de métagénomes antarctiques (voir la section Californie. Répartition environnementale et hôte d'Organicella ci-dessous), permettant l'analyse de 23 Californie. Gènes d'ARNr 16S d'Organicella (tableau supplémentaire 4). L'analyse phylogénétique de ces gènes trouvés Californie. Organicella est le plus étroitement lié à Californie. Pinguicococcus (Serra et al., 2020), avec 85 % d'identité du gène de l'ARNr 16S (voir section Comparaison de Ca. Organicella et Ca. Génomes de Pinguicococcus au dessous de). Les deux Californie. Organicella et Californie. Les pinguicococcus appartiennent à un groupe de Verrucomicrobia non cultivés qui comprend également Californie. Nucleococcus et endosymbiotes apparentés de certains protistes amitochondries (Trichonymphe, caducée, et Oxymonas) présent dans les intestins postérieurs des termites (Yang et al., 2005 Hongoh et al., 2007 Ikeda-Ohtsubo et al., 2010 Sato et al., 2014 Figure 1). Ce groupe, précédemment appelé le « cluster de termites » (Sato et al., 2014), n'est pas étroitement lié à d'autres endosymbiotes verrucomicrobiens connus (Vandekerckhove et al., 2002) ou ectosymbiotes (Petroni et al., 2000). Étant donné que le cluster comprend désormais Californie. Organicella et Californie. Pinguicococcus, et ne contenant plus d'espèces exclusives à l'intestin des termites, nous suggérons que le groupe soit appelé le cluster « cluster “Nucleococcus". eucaryotes unicellulaires.

Figure 1. Phylogénie de Candidatus Organicella extenuata. Phylogénie de Verrucomicrobia et de bactéries apparentées basée sur des séquences d'ARNr 16S, montrant Californie. Organicella extenuata nichée à l'intérieur du nouveau groupe de “Nucleococcus” proposé autre que Californie. Organicella extenuata, ce cluster comprend l'endosymbionte cytoplasmique Californie. Pinguicoccus supinus d'un cilié d'eau douce et d'endosymbiotes intranucléaires de protistes amitochondriés résidant dans l'intestin postérieur des termites. L'arbre du maximum de vraisemblance a été construit avec 59 séquences, et les positions avec une couverture de site inférieure à 80 % ont été éliminées, ce qui a donné 1 415 positions dans l'ensemble de données final. Les valeurs d'amorçage > 70 sont affichées à côté des nœuds individuels. Fusobacterium varium est l'exogroupe. Les accessions sont indiquées sous forme d'accessions de nucléotides NCBI ou d'ID de gènes IMG : pour Californie. Organicella extenuata, des séquences ont été incluses pour le lac organique original MAG (contig Ga0307966_1000010, bases 107297..108828), le lac sans nom 18 (contig Ga0400283_000007, bases 52431..53966), et “Portals” Lake (contig Ga0400669_009478, bases 1 ..1071 et contig Ga0400669_039189, bases 1314..1821). Des séquences identiques à la séquence d'ARNr 16S du MAG d'origine d'Organic Lake ont été représentées dans les données de métagénome de 19 autres métagénomes d'Organic Lake et également dans le lac sans nom 13 (tableau supplémentaire 4). Notez que les accessions à neuf chiffres sont des IMG Gene ID et que toutes les autres sont des accessions NCBI Nucleotide.

Les Californie. Organicella + Californie. La branche de Pinguicococcus au sein du « cluster Nucleococcus » de l'arbre des gènes de l'ARNr 16S était beaucoup plus longue que les autres branches (Figure 1), et une topologie similaire s'est produite dans les arbres construits à l'aide de gènes marqueurs conservés (Figure supplémentaire 2). Ces longues branches n'étaient évidentes pour aucune autre séquence, y compris les endosymbiontes Californie. Nucléocoque et Californie. Xiphinematobacter (Figure 1), qui avaient tous deux des génomes beaucoup plus gros (∼ 1 Mbp) que Californie. Organicella et Californie. Pinguicococcus (Tableau supplémentaire 1). Les longues branches reflètent probablement l'évolution rapide des séquences et sont caractéristiques des génomes dégénérés (McCutcheon et Moran, 2012), en accord avec Californie. Organicella et Californie. Pinguicoccus étant les seuls représentants connus de Verrucomicrobia avec des génomes extrêmement réduits.

Caractéristiques des endosymbiotes

Les Californie. Organicella MAG présente un certain nombre de caractéristiques typiques des symbiotes obligatoires qui ont des génomes très réduits (McCutcheon et Moran, 2010, 2012). Le MAG a une densité de codage élevée (95 % pour tous les gènes et 90 % pour le CDS uniquement), avec des régions intergéniques raccourcies et 23 gènes qui se chevauchent (tableau supplémentaire 1), ce qui est caractéristique d'une réduction extrême du génome (Nakabachi et al., 2006 Moya et al., 2008). Le MAG a le code génétique 4 3 avec des codons stop UGA recodés en tryptophane. Il est à noter qu'un ARNt-Opal-TCA est également codé (Ga0307966_1000010189) qui présente la plus grande similitude avec trnW (UGA) des mitochondries de Paralémanée sp. (accession GenBank MG787097.1). Le recodage UGA-à-Trp est connu pour se produire rarement, ayant été trouvé dans les mycoplasmes (Yamao et al., 1985) certaines bactéries symbiotiques (McCutcheon et al., 2009), y compris Californie. Pinguicococcus (Serra et al., 2020) et plusieurs lignées mitochondriales (Knight et al., 2001). La conversion UGA en Trp permet la perte du facteur de libération de la chaîne peptidique 2 (PrfB) (qui reconnaît les codons UGA) par érosion du génome (McCutcheon et al., 2009). Le recodage UGA-to-Trp est généralement associé à une faible teneur en GC (McCutcheon et al., 2009), bien que certains endosymbiotes d'insectes avec UGA-to-Trp aient une teneur élevée en GC (par exemple, Californie. Hodgkinia cicadicola 58% Californie. Tremblaya princeps PCIT 59 %) (McCutcheon et Moran, 2012). Le contenu du GC du Californie. Organicella MAG est de 32 %, contre 25 % pour Californie. Pinguicococcus (Serra et al., 2020) (voir aussi Comparaison de Ca. Organicella et Ca. Génomes de Pinguicococcus, plus tard). Aucun élément mobile n'a été identifié dans le Californie. Organicella MAG, qui est un autre trait des symbiotes avec des génomes extrêmement réduits (McCutcheon et Moran, 2012).

La possession d'un complément minimal de gènes requis pour la transcription et la traduction (McCutcheon, 2010 McCutcheon et Moran, 2012), et une certaine capacité à effectuer la réplication de l'ADN, permet un niveau d'autonomie sur les processus cellulaires qui distingue les bactéries endosymbiotiques des organites (McCutcheon et Moran , 2012). Californie. Organicella code pour certaines enzymes impliquées dans la réplication de l'ADN, notamment l'ADN gyrase (GyrAB), l'ADN primase (DnaG) et l'ADN hélicase réplicative (DnaB), mais une ADN polymérase dédiée à la réplication de l'ADN n'était pas identifiable. Bien que certains endosymbiotes d'insectes soient dépourvus de l'holoenzyme ADN polymérase III, ils codent au moins la sous-unité de l'ADN polymérase (DnaE), responsable de l'activité de polymérisation 5’ à 3’ de la réplication de l'ADN (McCutcheon, 2010 McCutcheon et Moran, 2012) . En l'absence de DnaE, ​​la réplication génomique est vraisemblablement réalisée par des protéines hôtes (Serra et al., 2020). Comme dans de nombreux autres génomes d'endosymbiotes réduits, Californie. Organicella n'a pas la protéine DnaA pour l'initiation de la réplication de l'ADN, et cette fonction est vraisemblablement réalisée par l'hôte (Gil et al., 2003 López-Madrigal et al., 2013), peut-être en tant que mécanisme pour exercer un contrôle sur la prolifération des endosymbiotes (par exemple, Akman et al., 2002 Gil et al., 2003 Bennett et al., 2014 Bennett et Moran, 2015).

Trois sous-unités de l'ARN polymérase dirigée par l'ADN (RNAP) pour la transcription ont été identifiées (RpoA, RpoB et RpoC) ainsi qu'un facteur sigma (RpoD), des composants typiques des endosymbiontes (McCutcheon et Moran, 2012). Ainsi, les composantes du RNAP retenues par Californie. Organicella est parallèle à ceux de symbiotes non apparentés avec des génomes de taille comparable (McCutcheon, 2010 McCutcheon et Moran, 2012). Au total, 34 aminoacyl ARNt pour les 20 acides aminés protéinogènes ont été identifiés, ainsi que des aminoacyl ARNt synthétases (aaRS) pour 13 des acides aminés (Met, Leu, Ile, Val, Lys, Gly, Ser, Cys, Arg, Tyr, Ala, Phe et Glu) et une glutamyl/aspartyl-ARNt amidotransférase. L'aaRS manquant peut être fourni par l'hôte (Van Leuven et al., 2019), ou l'aaRS existant peut catalyser de multiples réactions d'aminoacylation (Moran et Bennett, 2014). Californie. Organicella code les facteurs d'initiation IF-1 et IF-2 (mais pas IF-3), les facteurs d'élongation EF-G, EF-Ts et EF-4, le facteur de libération traductionnelle PrfA (mais pas PrfB) et le facteur de recyclage des ribosomes. La plupart des sous-unités ribosomiques, mais pas toutes, ont été identifiées. Les endosymbiotes connus avec des génomes très réduits ne codent généralement pas pour un ensemble complet de protéines ribosomiques (McCutcheon, 2010 Moran et Bennett, 2014). Sous-unités ribosomiques individuelles qui n'ont pas pu être identifiées dans le Californie. Organicella MAG est également absente de certains endosymbiotes d'insectes obligatoires (par exemple, RplA, RpmC, RpmD, RpsF et RpmF) (Moran et Bennett, 2014). Certaines enzymes de modification de l'ARNt étaient également évidentes dans le Californie. Organicella MAG (par exemple, complexe Mnm et TsaD) qui sont généralement retenus dans les endosymbiontes (McCutcheon et Moran, 2012 Van Leuven et al., 2019) (voir Texte supplémentaire – Modification de l'ARNt).

La seule enzyme de réparation de l'ADN dédiée identifiable dans Californie. Organicella était un homologue RecA. Les capacités de réparation de l'ADN épuisées sont typiques des bactéries avec des génomes très réduits et contribuent à l'accumulation de substitutions délétères, y compris dans les CDS (McCutcheon et Moran, 2012 Bennett et Moran, 2015). Le pI moyen prédit de Californie. Les protéines d'Organicella étaient de 9,2 (tableau supplémentaire 3). Il a été proposé qu'un pI élevé (alcalin) du protéome des parasites intracellulaires et des endosymbiotes pourrait résulter de l'accumulation de mutations (Kiraga et al., 2007). Cependant, pas tous Californie. Les protéines Organicella devaient avoir un pI élevé. Notamment, les deux protéines les plus acides sont la ferredoxine (pI 4,1) et la protéine porteuse d'acyle (ACP) (pI 4,2), qui sont toutes deux des protéines naturellement acides (Knaff et Hirasawa, 1991 McAllister et al., 2006). Si un pI élevé provient de taux élevés de mutation, le pI acide de la ferredoxine et de l'ACP peut indiquer une forte sélection positive pour préserver la fonction.

Un autre trait qui est partagé entre Californie. Organicella et les symbiotes bactériens connus avec des génomes très réduits sont la rétention de protéines chaperons (GroES-GroEL DnaK) ces protéines chaperons sont censées améliorer les effets néfastes des substitutions délétères accumulées sur le repliement correct des protéines (Moran, 1996 McCutcheon et Moran, 2012) . Les bactéries qui synthétisent ces chaperons sont donc thermosensibles, limitant la tolérance thermique de leurs hôtes (Burke et al., 2010 Fan et Wernegreen, 2013 Moran et Bennett, 2014).L'instabilité thermique ne devrait pas être un problème pour les Californie. Organicella en Antarctique (Franzmann et al., 1987 Gibson, 1999 Yau et al., 2013). Les protéines qui sont endommagées et ne peuvent pas être correctement repliées pourraient être dégradées en peptides par le ClpXP codé (Sabree et al., 2013), bien que le sort des peptides ne soit pas clair en l'absence de peptidases identifiables.

Californie. Répartition environnementale et hôte d'Organicella

Pour examiner la distribution environnementale de Californie. Organicella, 337 métagénomes lacustres et marins de l'Antarctique ont été analysés, qui englobent 77 sites aquatiques différents de l'Antarctique, y compris une série temporelle (décembre 2006 à janvier 2015) et de profondeur du lac organique (figure supplémentaire 1 et tableau supplémentaire 5). Couverture de séquence de Californie. Les MAG d'Organicella du lac Organic étaient plus élevés en profondeur dans le lac et plus élevés en hiver qu'au printemps ou en été (tableau supplémentaire 5). Bien que la plus grande abondance de Californie. Organicella provenait d'Organic Lake (jusqu'à une profondeur de lecture médiane de 71), la couverture de lecture a montré Californie. Organicella était également présente dans sept autres lacs des collines Vestfold (figure supplémentaire 1), y compris un MAG complet d'un petit étang situé à 15 km du lac Organic (appelé lac 18) qui avait une profondeur de lecture médiane. de 22 et couverture de l'original Californie. Organicella MAG (Ga0307966_1000010) de 99,97 % (tableau supplémentaire 5). Les MAG d'Organic Lake (11 presque sur toute la longueur) avaient un ANI de ≥ 99,5 %, avec l'ANI de tous les MAG d'Organic Lake, du lac sans nom 18, du lac Portals et du lac sans nom 13, �,1 % . En dehors de ces Californie. Organicella MAG et Californie. Pinguicococcus, les meilleurs matchs de BLAST au Californie. Le gène d'ARNr 16S d'Organicella dans les bases de données NCBI-nr et IMG était de ≤ 82%. Cela indique qu'une seule espèce de Californie. Organicella est présente dans les collines de Vestfold, avec Californie. Pinguicococcus étant la seule espèce similaire identifiable ailleurs dans le monde.

Pour identifier le(s) hôte(s) potentiel(s) de Californie. Organicella, les métagénomes ont été co-assemblés à l'aide de Metabat, générant une Californie. Organicella MAG (k141_311079) plus 188 bacs hôtes potentiels. L'abondance de chaque bin a été déterminée pour chacun des 29 métagénomes où Californie. Organicella a été détectée en cartographiant les lectures du métagénome dans les bacs, et la corrélation des abondances des bacs a été calculée à l'aide de SparCC. L'abondance de Californie. Organicella était fortement corrélée positivement avec bin81 (r = 0.89, p = 0), bin149 (r = 0.95, p = 0), et contig k141_859071 (r = 0.85, p = 0). Les deux bacs et le contig étaient également fortement corrélés les uns aux autres (r = 0,94 – 0,99, p = 0). Bin81 (12 580 contigs) et bin149 (18 contigs) étaient dominés par des séquences attribuées au cilié Euplotes (Euplotidae, Spirotrichea et Ciliophora), et le contig de 8,1 kb, k141_859071 contenait un gène d'ARNr 28S (4 455 pb), une région d'un gène d'ARNr 5,8S et un gène d'ARNr 18S (1 895 pb) qui correspondaient à Euplotes (par exemple, ARNr 28S, 84,2 % d'identité avec Euplotes ediculatus sur 79 % de la longueur de la requête). Nous en déduisons que les bacs 81 et 149 plus le contig d'ARNr représentent un MAG qui appartient à une seule OTU que nous appelons “Euplotes sp. AntOrgLke” (tableau supplémentaire 6). Les Euplotes sp. AntOrgLke MAG (Supplementary Dataset 1) comprend 29,98 Mbp sur 12 599 contigs (le plus long contig 19 935 pb, N50 = 2 645, L50 = 3 806, GC = 38,15 %), avec 6 451 protéines prédites par rapport à la base de données TaxDB_uniclust90_2018_08 (Supplementary Dataset protein 2) et 15,3 par rapport à la base de données MERC_MMETSP_Uniclust50_profiles (jeu de données supplémentaire 3). Fait intéressant, l'abondance des Californie. Organicella MAG était fortement corrélée positivement avec la Euplotes sp. AntOrgLke MAG (r = 0.89, p = 0) (Figure 2), cohérent avec ce cilié étant l'hôte. De plus, les contigs appartenant à la Euplotes sp. Le génome mitochondrial AntOrgLke a également été détecté (tableau supplémentaire 7 jeu de données supplémentaire 4).

Figure 2. Co-occurrence de Candidatus Organicella extenuata et Euplotes sp. AntOrgLke dans les métagénomes antarctiques. L'abondance de Californie. Organicella extenuata (k141_311079) et Euplotes sp. AntOrgLke (bin81 + bin14 + contigk141_859071), calculé comme la somme de (longueur de contig × couverture de contig) pour tous les contigs, a été analysé à l'aide de SparCC pour déterminer leur cooccurrence (r, Coefficient de corrélation). Sur 29 métagénomes dans lesquels Californie. Organicella extenuata a été détectée, l'abondance de Euplotes sp. AntOrgLke fortement corrélé positivement avec l'abondance de Californie. Organicella extenuata (r = 0.89, p = 0), indiquant Euplotes sp. AntOrgLke était probablement l'hôte de Californie. Organicella extenuata. Aucun des 187 autres groupes représentant d'autres hôtes potentiels n'a présenté de corrélation positive au-dessus r = 0.54. X-étiquettes de l'axe : lac organique, identifiants de métagénome (voir le tableau supplémentaire 5) Autres lacs, noms de lacs (sans nom abrégé en UN).

Euplotes sp. AntOrgLke avait 97% d'identité d'ARNr 18S pour Euplotes cf. l'antarctique et E. vanleeuwenhoeki. La topologie de l'arbre était cohérente pour les trois séquences d'ARN polymérase (figure 3) et la séquence d'ARNr 18S (figure supplémentaire 3), et Euplotes sp. AntOrgLke semble être membre de Euplotes Clade A (Syberg-Olsen et al., 2016 Boscaro et al., 2018 Serra et al., 2020). L'AAI calculé à partir des données disponibles Euplotes données génomiques (six espèces, dont Euplotes sp. AntOrgLke) variait de 49 à 91%, avec Euplotes sp. AntOrgLke partage 53�% avec les cinq autres espèces (tableau supplémentaire 8). Ainsi, nos données indiquent Euplotes sp. AntOrgLke est probablement un nouveau membre antarctique du genre Euplotes, et Californie. Organicella est un endosymbiote verrucomicrobien d'une espèce ciliée connue sous le nom de Californie. Pinguicococcus (Serra et al., 2020). E. vanleeuwenhoeki, l'hôte de Californie. Pinguicoccus, est un cilié d'eau douce (Serra et al., 2020), alors que Organic Lake est hypersalin (Franzmann et al., 1987 Yau et al., 2013).

Figure 3. Phylogénie de Euplotes sp. AntOrgLke. Phylogénie du maximum de vraisemblance non enracinée des protéines de la sous-unité II de l'ARN polymérase des membres de Ciliophora montrant Euplotes sp. Clustering AntOrgLke avec les membres du Euplotes genre. Dans le groupe pour chaque type d'ARN polymérase (RPB, RPC et RPA), le pourcentage d'identité entre Euplotes sp. La protéine AntOrgLke et une protéine individuelle sont indiquées après le nom de l'espèce. Les valeurs d'amorçage ≥ 70 sont affichées à côté des nœuds individuels, et les séquences de protéines sont disponibles dans le jeu de données supplémentaire 5. Un total de 41 séquences d'acides aminés de la sous-unité II de l'ARN polymérase ont été utilisées dans l'analyse. Les positions avec moins de 80% de couverture du site ont été éliminées et 944 positions sont restées dans l'ensemble de données final, à l'exception de MSTRG.29381.1_fr3, Euplotes vannus qui était une séquence partielle (283 aa) et est marqué d'un&# x002A.

Euplotes est un genre spécifique de ciliés unicellulaires mobiles que l'on trouve dans de nombreux environnements aquatiques (Boscaro et al., 2019), y compris Organic Lake, où il a déjà été détecté sur la base de séquences d'ARNr SSU (Yau et al., 2013). Euplotes les espèces ont une propension à héberger une ou plusieurs bactéries endosymbiotiques, avec au moins six genres et 21 espèces connues à ce jour, qui résident toutes dans le cytoplasme (Boscaro et al., 2019 Serra et al., 2020). La majorité des rapports Euplotes les espèces d'endosymbiotes appartiennent aux protéobactéries et sont principalement des membres des Burkholderiaceae (par exemple, Polynucléobactérie) et les clades intracellulaires spécialisés Rickettsiales et Holosporales (Boscaro et al., 2019). L'exception est Californie. Pinguicoccus, membre de Verrucomicrobia, et le seul endosymbionte connu de E. vanleeuwenhoeki (Serra et al., 2020). Dans E. vanleeuwenhoeki, Californie. Les cellules de Pinguicococcus sont situées à l'état libre dans le cytoplasme et ont été fréquemment observées en contact avec les mitochondries et les gouttelettes lipidiques (Serra et al., 2020). L'avantage exact de Californie. Pinguicococcus à son hôte cilié n'est pas clair, bien qu'il soit peu probable qu'il soit nutritionnel (voir Californie. Interactions avec Organicella𠄾uplotes, plus tard) (Serra et al., 2020). De même, les fondements de la relation symbiotique entre les endosymbiotes protéobactériens et Euplotes ne sont pas clairs, y compris ceux qui sont des symbiotes essentiels (Polynucléobactérie, Californie. Protistobacter et Californie. Devosia) et des symbiotes accessoires, ces derniers pouvant être parasitaires (Boscaro et al., 2013, 2019).

Californie. Organicella𠄾uplotes Interactions

Une possibilité est que Californie. Organicella fournit des amas Fe-S et des acides gras à son hôte comme fondement d'une symbiose mutualiste (Figure 4). Ceci est pertinent pour Euplotes, dans lequel, comme chez les autres ciliés, le génome mitochondrial ne code pas ces fonctions. Nous avons identifié 41,8 ko de Euplotes sp. La séquence du génome mitochondrial AntOrgLke𠅊 une longueur comparable aux séquences du génome mitochondrial signalées pour d'autres Euplotes espèces (de Graaf et al., 2009 Serra et al., 2020). Comme les génomes mitochondriaux de E. crassus, E. minuta, et E. vanleeuwenhoeki, celui de Euplotes sp. AntOrgLke possède des gènes qui codent pour les protéines de la chaîne de transport d'électrons, les protéines ribosomiques, l'ARNr, l'ARNt et un cytochrome c protéine d'assemblage, ainsi que de multiples gènes qui n'ont aucune fonction connue, mais aucun gène identifiable de cluster Fe-S ou de synthèse d'acides gras (Tableau supplémentaire 7 Pritchard et al., 1990 de Graaf et al., 2009 Swart et al., 2011 Johri et al., 2019 Serra et al., 2020). Au sein du genre Euplotes, le code génétique mitochondrial comprend un seul codon stop (UAA), un seul codon inutilisé (UAG) et un UGA codant pour le tryptophane (Pritchard et al., 1990 Burger et al., 2000 Brunk et al., 2003 de Graaf et al. ., 2009 Swart et al., 2011). Par comparaison, dans Californie. Organicella, UGA est réaffecté à Trp, alors que UAA et UAG sont des codons stop.

Figure 4. Représentation de la fonction de Candidatus Organicella extenuata dans Euplotes sp. AntOrgLke. Les capacités métaboliques potentielles de Californie. Organicella extenuata se limite à l'assemblage et à la conversion, à l'activation et au transfert d'hexose et de sucres d'heptose de la biosynthèse des acides gras de type II de la biosynthèse des acides gras du pyruvate (Fe-S). Les Californie. Organicella extenuata MAG manque de gènes identifiables pour la glycolyse, le cycle de l'acide tricarboxylique (hormis l'oxydation du pyruvate), la voie des pentoses phosphates, la respiration, la fermentation, la génération d'ATP (soit par phosphorylation oxydative et ATP synthase, soit par phosphorylation au niveau du substrat), ou synthèse de phospholipides (hormis les acides gras), les acides aminés, les acides nucléiques ou les vitamines. Il n'y avait pas de gènes transporteurs identifiables. Les processus, les voies et les enzymes qui ont été supposés être fonctionnels dans Californie. Organicella extenuata est ombrée en rouge. OM, membrane externe IM, membrane interne LPS, lipopolysaccharide. Synthèse d'acides gras (type II) : PDH, pyruvate déshydrogénase CoA, coenzyme A ACP, protéine porteuse d'acyle ACC, complexe acétyl-CoA carboxylase FabD, malonyl-CoA-ACP-transacylase FabB et FabF, 3-oxoacyl-ACP synthase FabG, 3 -oxoacyl-ACP réductase FabZ, 3-hydroxyacyl-ACP déshydratase FabV, énoyl-ACP réductase. Synthèse de glycane : GT, glycosyltransférase (trois GT différents) Cold, GDP-4-keto-6-deoxy--mannose 3-déshydratase ColC, GDP-L-colitose synthase Udg, UDP-glucose 6-déshydrogénase LpsL, UDP-glucuronate épimérase Tkl, transcétolase GmhA, phosphoheptose isomérase HddA, -glycéro-α--manno-heptose 7-phosphate kinase HddC, -glycéro-α--manno-heptose 1-phosphate guanylyltransférase. Réplication de l'ADN : GyrAB, ADN gyrase DnaG, ADN primase DnaB, ADN hélicase réplicative. Transcription : RNAP, ARN polymérase. Traduction : ARNt, ARN de transfert aaRS, aminoacyl ARNt synthétases. Assemblage de cluster Fe-S : Fdx, ferredoxine SufS, cystéine désulfurase SUF, complexe d'assemblage de cluster Fe-S (SufCBD, SufU, SufT). Dans cette reconstruction, le pyruvate est fourni par l'hôte et le seul but de la PDH est de fournir le précurseur acétyl-CoA pour la synthèse des acides gras. La voie de synthèse des acides gras est fonctionnellement complète dans Californie. Organicella extenuata, avec FabF ou FabB se substituant à FabH manquant. Il existe trois voies impliquées dans la synthèse des sous-unités heptose (glycéro-manno-heptose) ou hexose (acide galacturonique colitose) des lipopolysaccharides glycanes dans Californie. Organicella extenuata, mais aucune de ces voies n'est complète et toutes dépendent de précurseurs exogènes.

Les Californie. Organicella MAG code pour les protéines de la ferredoxine et du facteur d'utilisation du soufre (SUF) impliquées dans la biogenèse des clusters Fe-S (SufCBD, SufU et SufT), y compris la cystéine désulfurase (SufS) pour la mobilisation du soufre de la cystéine (Selbach et al., 2014 Tableau supplémentaire 3). Chez les eucaryotes, les voies fer/soufre (ISC) et SUF sont les voies dominantes de synthèse des agrégats Fe-S, avec des protéines d'assemblage ISC situées dans les mitochondries, tandis que les protéines d'assemblage SUF sont localisées dans les organites plastidiques (Kispal et al., 1999 Tsaousis , 2019), ces derniers incluant les chloroplastes et les apicoplastes (Takahashi et al., 1986 Lill et Mühlenhoff, 2005 Lim et McFadden, 2010 Gisselberg et al., 2013), bien que, chez certains protistes, les protéines d'assemblage SUF soient localisées dans le cytoplasme (Tsaousis et al., 2012 Karnkowska et al., 2016). Typique des eucaryotes, Euplotes sp. AntOrgLke code des homologues de protéines ISC supposées être présentes dans le cilié modèle Tetrahymena thermophila, y compris la cystéine désulfurase (Nfs1), la ferredoxine (Yah1) et la ferredoxine réductase (Arh1) (Tableau supplémentaire 9) L'assemblage de l'ISC se produirait dans la mitochondrie et dépendrait des enzymes codées dans le noyau (Smith et al., 2007). Le système SUF de Californie. Organicella pourrait donc fonctionner comme un système d'assemblage de cluster Fe-S complémentaire à l'ISC. Le système SUF est plus résistant aux espèces réactives de l'oxygène que le système ISC (Santos-Garcia et al., 2014) ainsi, le système SUF codé par Californie. Organicella peut être particulièrement importante pour l'hôte dans des conditions de stress oxydatif en réponse à la dégradation des amas Fe-S des protéines de l'hôte (Tsaousis, 2019). Le système SUF peut être particulièrement pertinent pour Euplotes sp. AntOrgLke dans le lac Organic et les autres lacs des collines Vestfold en raison des conditions environnementales dominantes (concentrations élevées en oxygène, températures de congélation améliorées, irradiation UV Figure supplémentaire 1) qui favorisent la production d'espèces réactives de l'oxygène (Ricci et al., 2017).

Californie. Organicella code également une suite presque complète de gènes pour la synthèse bactérienne des acides gras de type II (FASII), à l'exception de FabH, une enzyme impliquée dans l'élongation des acides gras (voir Texte supplémentaire – Oxydation du pyruvate et synthèse des acides gras). Il est probable qu'une autre enzyme de condensation impliquée dans l'élongation des acides gras codée dans Californie. Organicella (FabB ou FabF) se substituerait à FabH, comme déduit pour Californie. Wigglesworthia, qui manque également de FabH mais code par ailleurs une voie FASII complète (Zientz et al., 2004 Parsons et Rock, 2013). A l'appui de cela, Escherichia coli et Lactococcus lactis mutants qui manquent fabH sont encore capables de synthétiser des acides gras (Morgan-Kiss et Cronan, 2008 Yao et al., 2012). Pour Californie. Organicella, le précurseur de l'acétyl-CoA pour la biosynthèse des acides gras à chaîne droite, serait généré à l'aide d'un complexe de pyruvate déshydrogénase (PDH), vraisemblablement à l'aide de pyruvate acquis de l'hôte (figure 4).

De nombreux protistes dépendent des acides gras fournis par le FASII mitochondrial pour des processus tels que la lipoylation d'enzymes essentielles ou pour l'incorporation dans les phospholipides malgré leur propre appareil FAS cytoplasmique (FAS type I), ces eucaryotes dépendent des acides gras fournis par les mitochondries (Stephens et al., 2007 Hiltunen et al., 2009). Cependant, comme chez les autres ciliés, le génome mitochondrial de Euplotes manque de gènes associés à FASII (Pritchard et al., 1990 Burger et al., 2000 Brunk et al., 2003 Swart et al., 2011 Johri et al., 2019). Ainsi, nous proposons l'hypothèse que Californie. Organicella fournit des acides gras à l'hôte à ces fins essentielles.

Une autre possibilité est que les acides gras soient fournis à l'hôte à titre nutritionnel. Par exemple, il est prouvé que les acides gras synthétisés par Californie. Blochmannia floridanus font partie du soutien nutritionnel symbiont&# x2019s à son hôte (fourmi charpentière Chromaiodes Camponotus) pendant les périodes où l'insecte hôte se nourrit d'exsudats riches en sucre (Zientz et al., 2004 Fan et Wernegreen, 2013). Cependant, nous considérons cela comme peu probable, étant donné qu'il a été prédit que les symbioses nutritionnelles ne seraient probablement pas nécessaires pour les algues hétérotrophes et les bactéries qui se nourrissent telles que Euplotes qui peuvent probablement obtenir tous leurs nutriments nécessaires à partir de leur alimentation (Boscaro et al., 2013, 2019 Serra et al., 2020).

Il est également possible que FASII dans Californie. Organicella contribue à ses propres besoins cellulaires, y compris la lipoylation de sa propre PDH et fournit des précurseurs pour la modification de sa propre enveloppe cellulaire (Figure 4). En plus de coder une voie FASII fonctionnellement complète, 17 Californie. Les gènes Organicella devraient être impliqués dans la biosynthèse des précurseurs des composants lipopolysaccharidiques : neuf protéines sont impliquées dans la biosynthèse des unités heptose et hexose (bien que nous n'ayons pas pu reconstruire des voies complètes), et huit protéines sont des glycosyltransférases qui pourraient être impliquées dans le transfert. de sucres activés par les nucléotides pour construire des chaînes glycanes (tableau supplémentaire 3 Texte supplémentaire – Synthèse des glycanes). Les endosymbiotes obligatoires avec des génomes < 500 kpb ont généralement peu ou pas de gènes pour la biogenèse de l'enveloppe cellulaire, ces voies étant particulièrement sujettes à la perte (McCutcheon et Moran, 2012 Moran et Bennett, 2014 Brown et al., 2015). Californie. Organicella manque d'acyltransférases nécessaires pour transférer l'acyl-ACP au glycérol-3-phosphate pour produire de l'acide phosphatidique, le précurseur des phospholipides dans les bactéries (Yao et al., 2012), et il n'y a pas de gènes identifiables pour la biosynthèse du squelette du glycérophosphate ou des groupes de tête de phospholipides ou pour le 3-désoxy--acide manno-octulosonique-lipide A (Kdo2-lipide A) précurseur des lipopolysaccharides (Wang et al., 2015).

Ainsi, Californie. Organicella, comme dans d'autres endosymbiontes avec des génomes très réduits, est supposée reposer entièrement sur des membranes dérivées de l'hôte (Baumann, 2005 McCutcheon et Moran, 2012 Husnik et McCutcheon, 2016). La présence de lipopolysaccharides et d'autres gènes liés à la paroi cellulaire n'est pas inhabituelle pour les bactéries symbiotiques avec des génomes plus grands (Zientz et al., 2004 Nikoh et al., 2011) par exemple, les endosymbiontes d'insectes Californie. Wigglesworthia et Californie. Le blochmannia (tous deux compris entre 615 et 706 kpb) code la majorité des gènes nécessaires à la synthèse d'une paroi cellulaire gram-négative normale, y compris les phospholipides et les lipopolysaccharides (Akman et al., 2002 Gil et al., 2003 Zientz et al., 2004 ). De plus, certaines bactéries obligatoirement symbiotiques avec des génomes plus grands (𾘀 kb) conservent un ensemble complet de gènes FASII (Akman et al., 2002 Gil et al., 2003 Nikoh et al., 2011 Lamelas et al., 2011 Chong et Moran , 2018).Chez ces symbiotes, la rétention des gènes nécessaires à la synthèse d'une paroi cellulaire Gram-négative normale (y compris les lipopolysaccharides) est possiblement destinée à la protection contre l'hôte et/ou reflète une association symbiotique relativement récente (Akman et al., 2002 Gil et al ., 2003). Cette dernière ne s'applique pas aux Californie. Organicella, avec la réduction extrême de la taille du génome reflétant une symbiose ancienne (Serra et al., 2020).

Néanmoins, Californie. Organicella pourrait apporter des composants glycanes à sa propre enveloppe cellulaire (y compris les lipopolysaccharides). Une possibilité est que les modifications de la paroi cellulaire de l'endosymbionte confèrent une certaine protection contre l'hôte, par exemple par la variation de la longueur des acides gras ou l'altération des fractions glycanes des lipopolysaccharides (polysaccharides noyau et/ou O-spécifiques) en utilisant des sucres modifiés par l'action des glycosyltransférases (Serra et al., 2020). Californie. Pinguicococcus a une taille de génome et une composition génétique très similaires à Californie. Organicella, y compris la rétention d'homologues des mêmes gènes liés aux glycanes/lipopolysaccharides (voir Comparaison de Ca. Organicella et Ca. Génomes de Pinguicococcus, plus tard). Californie. Pinguicococcus réside à l'état libre dans le cytoplasme de E. vanleeuwenhoeki, et il a été proposé que les endosymbiotes dans le cytoplasme de l'hôte des cellules eucaryotes soient confrontés à un environnement moins stable et peut-être hostile par rapport aux endosymbiotes qui sont enfermés dans des bactériocytes spécialisés ou des vésicules dérivées de l'hôte (Gil et al., 2003 Wu et al., 2004 Serra et al., 2020). Pour cette raison, Californie. Pinguicococcus peut exercer un certain contrôle sur la composition de son enveloppe cellulaire car il est en contact direct avec le cytoplasme de l'hôte (Serra et al., 2020). Cela pourrait aussi être vrai de Californie. Organicella, qui, sur la base de son étroite affiliation phylogénétique avec Californie. Pinguicococcus et avoir Euplotes en tant qu'hôte putatif, vit probablement dans le cytoplasme de l'hôte.

Comparaison de Californie. Organicella et Californie. Génomes de Pinguicococcus

La taille du génome de Californie. Organicella (158 228 pb, 194 gènes, 163 CDS) et Californie. Pinguicococcus (163 218 pb, 205 gènes, 168 CDS Serra et al., 2020) sont similaires à noter que les séquences protéiques pour le Californie. La séquence du génome de Pinguicoccus NCBI (accession CP039370) a été auto-prédite avec le code génétique 11, mais en utilisant le code génétique 4, nous prédisons un total de 200 gènes [cinq de moins que rapporté dans Serra et al. (2020)], composé de 163 CDS, 34 ARNt et des gènes d'ARNr 16S, 5S et 23S (tableau supplémentaire 1). Les deux génomes partagent une synténie étendue (Figure supplémentaire 4). Bien que les séquences de nucléotides génomiques soient trop divergentes pour calculer l'ANI, l'AAI entre les deux génomes symbiotes a été déterminé à 46% (AAI bidirectionnel basé sur 134 protéines, toutes prédites avec le code génétique 4). Les deux génomes conservent un petit sous-ensemble presque identique de gènes représentés dans Verrucomicrobia (Serra et al., 2020 Tableau supplémentaire 3). Ils partagent également des protéines homologues nécessaires à la réplication, à la transcription et à la traduction de l'ADN, en commun avec d'autres endosymbiotes, mais tous deux n'ont pas la sous-unité catalytique de l'ADN polymérase (DnaE), ce qui est exceptionnel parmi les endosymbiotes (Serra et al., 2020).

Californie. Pinguicococcus code les mêmes composants du système SUF et une voie FASII fonctionnellement complète que Californie. Organicella, suggérant que Californie. Pinguicococcus confère les mêmes avantages à ses Euplotes hôte que nous déduisons pour Californie. Organicella. L'intérêt est que Californie. Des cellules de Pinguicococcus ont souvent été observées associées à des gouttelettes lipidiques dans E. vanleeuwenhoeki cytoplasme, soulevant la possibilité d'un lien entre la rétention des gènes FASII et l'interaction avec les lipides de l'hôte (Serra et al., 2020). Californie. Pinguicococcus code également pour des homologues des mêmes glycosyltransférases et enzymes apparentées à l'heptose et à l'hexose codées dans Californie. Organicella (Tableau complémentaire 3). Néanmoins, Californie. Pinguicococcus conserve une protéine putative de synthèse des phospholipides (homologue CDP-diacylglycérol-glycérol-3-phosphate 3-phosphatidyltransférase) non identifiable dans Californie. Organicella. Californie. Pinguicoccus code pour un système thiorédoxine&# x2013thiorédoxine réductase (pour maintenir l'équilibre redox thiol-disulfure) et pour la glutamate déshydrogénase dépendante du NADP (pour la désamination oxydative réversible du glutamate), dont aucun n'est identifiable dans Californie. Organicella. Il existe également des variations entre les deux genres dans le complément exact des sous-unités ribosomiques, aaRS et sous-unités du facteur d'initiation (tableau supplémentaire 3), ces composants étant sujets à la perte parmi les endosymbiontes (Moran et Bennett, 2014). Cependant, Californie. Organicella et Californie. Les pinguicococcus possèdent les mêmes 34 gènes d'ARNt.

Dans l'ensemble, les données suggèrent que, comme leur divergence par rapport à un ancêtre commun avait un génome très réduit, une érosion génomique supplémentaire s'est produite indépendamment dans Californie. Organicella et Californie. Pinguicococcus, avec perte différentielle de certains gènes, notamment ceux impliqués dans la traduction. En revanche, SUF, FASII et certains gènes liés aux lipopolysaccharides/glycanes sont conservés entre les deux genres. Cela suggère que ces gènes particuliers jouent un rôle important dans les interactions de ces endosymbiotes avec leurs hôtes ciliés.


Conclusion

La grande majorité de la diversité eucaryote est représentée par des protistes [18], mais seuls quelques projets de séquençage du génome des protistes ont été publiés. Notre étude d'enquête sur les séquences a indiqué qu'une approche combinée utilisant à la fois un échantillonnage aléatoire du génome (GSS) et des EST réussit à identifier les gènes (tableau 1). Nous avons identifié 817 gènes à partir des séquences GSS, tandis que 473 gènes présentant des homologies dans d'autres organismes ont été détectés parmi les séquences EST. Comme nous avons collecté plus de deux fois plus de GSS que de séquences EST, le séquençage EST semble être légèrement plus efficace pour la découverte de gènes, si seule la quantité est considérée, comme prévu. Cependant, le séquençage EST est biaisé vers l'identification de gènes fortement exprimés, tels que les gènes impliqués dans le traitement de l'information génétique, en particulier la traduction, tandis que le séquençage GSS détecte une sélection plus aléatoire de gènes (tableau 1). Ce biais fonctionnel des gènes détectés dans les enquêtes EST peut être un avantage si l'objectif de l'étude est principalement d'identifier des gènes précédemment identifiés dans d'autres organismes en utilisant la même approche, mais constitue une limitation si l'échantillonnage de la diversité génétique est le but.

Nous avons découvert qu'une approche combinée du séquençage GSS et EST peut réussir à détecter à la fois des gènes fortement exprimés (et probablement aussi souvent largement distribués) et un ensemble de gènes plus diversifié. En combinaison avec le séquençage complet de quelques contigs, cette approche a été efficace pour révéler beaucoup de choses sur le S. salmonicida génome. Bien que nous ayons pu identifier plus de 600 gènes avec des fonctions annotées, les protéines hypothétiques conservées représentent toujours la plus grande catégorie (tableau 1), indiquant que les gènes avec des fonctions annotées ne donnent qu'une image partielle du véritable potentiel de codage. De plus, 13 des 38 gènes identifiés dans les contigs n'ont montré aucune similarité de séquence significative avec les gènes dans les bases de données, et 81 % et 45 % des séquences GSS et EST, respectivement, n'ont montré aucune similarité significative avec des gènes connus. Ceci suggère qu'une grande partie des gènes dans S. salmonicida le génome manque de similitude de séquence avec des gènes connus, malgré le fait qu'un G. lamblia le complément génique est inclus dans la base de données publique. Ainsi, le S. salmonicida Le génome a un potentiel de codage important et pour la plupart inconnu. Pourtant, les analyses des gènes pouvant être annotés n'ont pas seulement identifié des individus S. salmonicida des gènes et des voies métaboliques qui ont permis de mieux comprendre la biologie et l'évolution de l'organisme. De plus, ces analyses ont révélé plusieurs propriétés spécifiques à la lignée suggérant une grande diversité génomique entre S. salmonicida et d'autres eucaryotes étudiés, y compris son plus proche parent intensivement étudié, le diplomonad G. lamblia.

Nos analyses indiquent en effet que les génomes des diplomonades sont divers. Par exemple, dans le S. salmonicida génome, nous avons identifié des acquisitions de gènes, un biais de composition de base qui varie le long du génome, une utilisation des codons distincte de celle de G. lamblia, et les différences dans les processus biologiques moléculaires de base tels que la polyadénylation. G. lamblia et S. salmonicida ne représentent que deux espèces au sein des diplomonades, un groupe paraphylétique qui peut également inclure des entéromonades et des retortamonades, des organismes aux caractéristiques morphologiques distinctes [23, 24, 102]. La compréhension de ces groupes intéressants de protistes est très limitée au niveau génomique, et les projets génomiques de G. lamblia [103] et Spironucleus vortens [104], un autre pathogène des poissons, apportera des contributions majeures. Pourtant, les diplomonades sont très diverses, comme en témoignent un grand degré de divergence de séquences entre les membres du groupe et, comme indiqué ici, une grande variation dans la structure et le contenu génomiques. Des preuves indirectes d'un génome relativement petit (voir ci-dessus), ainsi qu'une teneur globale en G+C de 36 % et une faible fréquence de répétitions, font S. salmonicida un candidat idéal pour un projet de séquençage du génome entier. Un tel effort permettrait de mieux comprendre le mode de vie parasitaire de cet organisme, la fascinante diversité biologique des diplomonades, et d'élargir notre appréciation de la diversité et de l'évolution du génome chez les eucaryotes.


Molécules d'acide nucléique, protéines et anticorps :

Les molécules d'acide nucléique de l'invention peuvent être préparées par deux procédés généraux : (1) elles peuvent être synthétisées à partir de nucléotides triphosphates appropriés, ou (2) elles peuvent être isolées à partir de sources biologiques. Les deux méthodes utilisent des protocoles bien connus dans l'art.

La disponibilité d'informations sur les séquences nucléotidiques, telles que l'ADNc ayant les SEQ ID NO : 1 à 8, permet la préparation d'une molécule d'acide nucléique isolée de l'invention par synthèse d'oligonucléotides. Des oligonucléotides synthétiques peuvent être préparés par la méthode au phosphoramidite employée dans le synthétiseur d'ADN Applied Biosystems 38A ou des dispositifs similaires. La construction résultante peut être purifiée selon des procédés connus dans l'art, tels que la Chromatographie liquide à haute performance (HPLC). De longs polynucléotides double brin, tels qu'une molécule d'ADN de la présente invention, doivent être synthétisés par étapes, en raison des limitations de taille inhérentes aux procédés de synthèse d'oligonucléotides actuels. Ainsi, par exemple, une longue molécule double brin peut être synthétisée sous forme de plusieurs segments plus petits de complémentarité appropriée. Les segments complémentaires ainsi produits peuvent être recuits de telle sorte que chaque segment possède des extrémités cohésives appropriées pour la fixation d'un segment adjacent. Des segments adjacents peuvent être ligaturés par annelage de terminaisons cohésives en présence d'ADN ligase pour construire une longue molécule double brin entière. Une molécule d'ADN synthétique ainsi construite peut ensuite être clonée et amplifiée dans un vecteur approprié.

Conformément à la présente invention, les acides nucléiques ayant le niveau approprié d'homologie de séquence avec une partie ou la totalité des gènes des régions codantes et/ou régulatrices codant pour des protéines qui comprennent la voie phénylpropanoïde peuvent être identifiés en utilisant des conditions d'hybridation et de lavage de stringence appropriée. L'homme du métier appréciera que la stratégie susmentionnée, lorsqu'elle est appliquée à des séquences génomiques, permettra, en plus de permettre l'isolement de séquences codant pour des gènes codant pour des protéines qui comprennent la voie phénylpropanoïde, également d'isoler des promoteurs et d'autres séquences de régulation génique. associés à des gènes codant pour des protéines qui comprennent la voie phénylpropanoïde, même si les séquences régulatrices elles-mêmes peuvent ne pas partager une homologie suffisante pour permettre une hybridation appropriée.

A titre d'illustration typique, des hybridations peuvent être réalisées, selon la méthode de Sambrook et al., à l'aide d'une solution d'hybridation comprenant : 5 x SSC, 5 x réactif de Denhardt, 1,0% SDS, 100 µg/ml d'ADN de sperme de saumon dénaturé, fragmenté, 0,05 % de pyrophosphate de sodium et jusqu'à 50 % de formamide. L'hybridation est réalisée à 37-42°C pendant au moins six heures. Après hybridation, les filtres sont lavés comme suit : (1) 5 minutes à température ambiante en 2xSSC et 1% SDS (2) 15 minutes à température ambiante en 2xSSC et 0,1% SDS (3) 30 minutes-1 heure à 37°C en 2x SSC et 0,1% SDS (4) 2 heures à 45-55°C en 2x SSC et 0,1% SDS en changeant la solution toutes les 30 minutes.

Une formule courante pour calculer les conditions de stringence requises pour réaliser l'hybridation entre les molécules d'acide nucléique d'une homologie de séquence spécifiée (Sambrook et al., 1989) :


Tm=81,5° C. + 16,6 Log [Na+] + 0,41 (% G+C)−0.63(% formamide)−600/#pb en duplex

A titre d'illustration de la formule ci-dessus, en utilisant [Na+]=[0,368] et 50 % de formamide, avec une teneur en GC de 42 % et une taille moyenne de sonde de 200 bases, la Tm est de 57°C. La Tm d'un duplex d'ADN diminue de 1 à 1,5°C avec chaque diminution de 1 % de l'homologie. Ainsi, des cibles avec plus d'environ 75 % d'identité de séquence seraient observées en utilisant une température d'hybridation de 42°C. Dans un mode de réalisation, l'hybridation est à 37°C et le lavage final est à 42°C dans un autre mode de réalisation, l'hybridation est à 42°C et le lavage final est à 50°C et dans encore un autre mode de réalisation l'hybridation est à 42°C et le lavage final est à 65°C, avec les solutions d'hybridation et de lavage ci-dessus. Les conditions de stringence élevée comprennent l'hybridation à 42°C dans la solution d'hybridation ci-dessus et un lavage final à 65°C dans 0,1 x SSC et 0,1 % SDS pendant 10 minutes.

Les acides nucléiques de la présente invention peuvent être maintenus sous forme d'ADN dans n'importe quel vecteur de clonage approprié. Dans un mode de réalisation préféré, les clones sont maintenus dans un vecteur de clonage/expression plasmidique, tel que pGEM-T (Promega Biotech, Madison, Wis.), pBluescript (Stratagene, La Jolla, Californie), pCR4-TOPO (Invitrogen, Carlsbad, Californie) .) ou pET28a+ (Novagen, Madison, Wis.), qui peuvent tous être propagés dans un E. coli cellule hôte.

Les molécules d'acide nucléique de l'invention comprennent l'ADNc, l'ADN génomique, l'ARN et des fragments de ceux-ci qui peuvent être simple, double ou même triple brin. Ainsi, cette invention propose des oligonucléotides (brins sens ou antisens d'ADN ou d'ARN) ayant des séquences capables de s'hybrider avec au moins une séquence d'une molécule d'acide nucléique de la présente invention. De tels oligonucléotides sont utiles comme sondes pour détecter des gènes codant pour des protéines qui comprennent la voie phénylpropanoïde ou un ARNm dans des échantillons de test de tissu végétal, par exemple par amplification PCR, ou pour la régulation positive ou négative des gènes d'expression codant pour des protéines qui comprennent la voie phénylpropanoïde à ou avant la traduction de l'ARNm en protéines. Les méthodes dans lesquelles des oligonucléotides ou des polynucléotides peuvent être utilisés comme sondes pour de tels dosages comprennent, sans s'y limiter : (1) l'hybridation in situ (2) l'hybridation Southern (3) l'hybridation Northern et (4) les réactions d'amplification assorties telles que les réactions en chaîne par polymérase (PCR, y compris RT-PCR) et réaction en chaîne de la ligase (LCR).

Les polypeptides codés par les acides nucléiques de l'invention peuvent être préparés de diverses manières, selon des procédés connus. S'ils sont produits in situ, les polypeptides peuvent être purifiés à partir de sources appropriées, par exemple des graines, des péricarpes ou d'autres parties de plantes.

En variante, la disponibilité de molécules d'acide nucléique codant pour les polypeptides permet la production des protéines en utilisant des procédés d'expression in vitro connus dans l'art. Par exemple, un ADNc ou un gène peut être cloné dans un vecteur de transcription in vitro approprié, tel que pSP64 ou pSP65 pour la transcription in vitro, suivi d'une traduction acellulaire dans un système de traduction acellulaire approprié, tel que le germe de blé ou les réticulocytes de lapin. . Des systèmes de transcription et de traduction in vitro sont disponibles dans le commerce, par exemple auprès de Promega Biotech, Madison, Wisconsin, BRL, Rockville, Maryland ou Invitrogen, Carlsbad, Californie.

Selon un mode de réalisation préféré, des quantités plus importantes de polypeptides qui comprennent la voie phénylpropanoïde peuvent être produites par expression dans un système procaryote ou eucaryote approprié. Par exemple, une partie ou la totalité d'une molécule d'ADN, telle que les ADNc ayant les SEQ ID NO : 1-8, peut être insérée dans un vecteur plasmidique adapté pour l'expression dans une cellule bactérienne (telle que E. coli) ou une cellule de levure (telle que Saccharomyces cerevisiae), ou dans un vecteur baculovirus pour l'expression dans une cellule d'insecte. De tels vecteurs comprennent les éléments régulateurs nécessaires à l'expression de l'ADN dans la cellule hôte, positionnés de manière à permettre l'expression de l'ADN dans la cellule hôte. De tels éléments régulateurs requis pour l'expression comprennent des séquences promotrices, des séquences d'initiation de la transcription et, facultativement, des séquences amplificatrices.

Les polypeptides qui comprennent la voie des phénylpropanoïdes produits par expression génique dans un système procaryote ou eucaryote recombinant peuvent être purifiés selon des procédés connus dans l'art. Dans un mode de réalisation préféré, un système d'expression/sécrétion disponible dans le commerce peut être utilisé, moyennant quoi la protéine recombinante est exprimée et ensuite sécrétée par la cellule hôte, pour être facilement purifiée du milieu environnant. Si des vecteurs d'expression/sécrétion ne sont pas utilisés, une approche alternative consiste à purifier la protéine recombinante par séparation par affinité, comme par interaction immunologique avec des anticorps qui se lient spécifiquement à la protéine recombinante. De telles méthodes sont couramment utilisées par les praticiens qualifiés.

Les polypeptides de l'invention peuvent également être synthétisés et exprimés sous forme de protéines de fusion avec un ou plusieurs domaines supplémentaires liés à ceux-ci pour, par exemple, produire un peptide plus immunogène, pour isoler plus facilement un peptide synthétisé par recombinaison, pour identifier et isoler des anticorps et des anticorps exprimant B. cellules, etc. Les domaines facilitant la détection et la purification comprennent, par exemple, les peptides chélateurs de métaux tels que les voies polyhistidine et les modules histidine-tryptophane qui permettent la purification sur les métaux immobilisés, les domaines de protéine A qui permettent la purification sur l'immunoglobuline immobilisée et le domaine utilisé dans le système de purification d'extension/affinité FLAGS (Immunex Corp, Seattle Wash.). L'inclusion d'une séquence de liaison clivable telle que le facteur Xa ou l'entérokinase (Invitrogen, San Diego Californie) entre un domaine de purification et le peptide ou polypeptide comprenant le motif pour faciliter la purification. Par exemple, un vecteur d'expression peut inclure une séquence d'acide nucléique codant pour l'épitope liée à six résidus histidine suivie d'un site de clivage de thiorédoxine et d'entérokinase (voir par exemple Williams, Biochimie 1995, 34 : 1787-1797 Dobeli, Expr. Protéine Purif 1998, 12 : 404-14). Les résidus histidine facilitent la détection et la purification tandis que le site de clivage de l'entérokinase fournit un moyen pour purifier l'épitope du reste de la protéine de fusion. La technologie relative aux vecteurs codant pour les protéines de fusion et l'application des protéines de fusion sont bien décrites dans la littérature scientifique et des brevets (voir, par exemple, Kroll, Cellule d'ADN. Biol. 1993, 12: 441-53).

Les polypeptides qui comprennent la voie des phénylpropanoïdes, préparés par les procédés susmentionnés, peuvent être analysés selon des procédures standard.

Les polypeptides qui comprennent la voie des phénylpropanoïdes purifiés à partir du café, ou produits de manière recombinante, peuvent être utilisés pour générer des anticorps polyclonaux ou monoclonaux, des fragments ou des dérivés d'anticorps tels que définis ici, selon des procédés connus. Des anticorps qui reconnaissent et se lient à des fragments des polypeptides qui comprennent la voie des phénylpropanoïdes de l'invention sont également envisagés, à condition que les anticorps soient spécifiques des polypeptides qui comprennent la voie des phénylpropanoïdes. Par exemple, si les analyses des protéines ou les analyses de Southern et de clonage (voir ci-dessous) indiquent que les gènes clonés appartiennent à une famille multigénique, alors des anticorps spécifiques de membres fabriqués contre des peptides synthétiques correspondant à des régions non conservées de la protéine peuvent être générés.

Des kits comprenant un anticorps de l'invention pour l'un quelconque des objectifs décrits ici sont également inclus dans la portée de l'invention. En général, un tel kit comprend un antigène témoin pour lequel l'anticorps est immunospécifique.

Les acides chlorogéniques sont susceptibles de jouer un rôle dans divers aspects de la santé et du bien-être humains. Il a été démontré que les acides chlorogéniques sont de puissants antioxydants in vitro (Rice-Evands, CA et al. 1996), présentent des effets protecteurs contre les dommages à l'ADN in vitro (Shibata, H et al. 1999), présentent des propriétés anticancérigènes et antimutagènes, et peuvent finalement réduire le risque de certains cancers (Olthof, MR et al. 2001 et Hollman, PC 2001), et peut être protecteur contre les maladies cardiovasculaires (Olthof, MR et al. 2001 et Hollman, PC 2001). Cette liste d'avantages pour la santé attribuables aux acides chlorogéniques est destinée à être illustrative et non exhaustive, et il est présumé qu'il existe de nombreux autres effets bénéfiques sur la santé attribuables aux acides chlorogéniques actuellement inconnus. En conséquence, les polypeptides du café qui comprennent la voie biosynthétique des acides chlorogéniques décrits et illustrés ici devraient trouver une utilité dans une variété d'applications alimentaires, de santé et de bien-être. Par exemple, les polypeptides du café qui constituent la voie biosynthétique des acides chlorogéniques, ou leurs produits d'acide chlorogénique respectifs, peuvent être utilisés comme compléments alimentaires ou dans divers produits alimentaires et boissons.

Une ou plusieurs des applications susmentionnées pour les polypeptides qui comprennent la voie phénylpropanoïde peuvent être poursuivies en exploitant la disponibilité des polynucléotides codant pour des polypeptides qui comprennent la voie phénylpropanoïde décrite ici pour générer des quantités importantes de protéine pure en utilisant des organismes recombinants (par exemple, dans la levure Picia pastoris ou en compatible alimentaire Lactobacilles, ou dans des cellules végétales), puis tester les protéines dans des dosages nouveaux ou établis pour le potentiel antioxydant, le potentiel chimioprotecteur ou chimiothérapeutique, le potentiel de promotion de la santé cardiovasculaire, etc. Des tests similaires peuvent être effectués en utilisant les acides chlorogéniques produits par ces protéines selon des moyens appropriés établis ou développés dans l'art. Si des protéines purifiées spécifiques ou des produits d'acide chlorogénique produits par de telles protéines s'avèrent particulièrement utiles, des versions naturelles de ces protéines et de leurs produits d'acide chlorogénique peuvent également être isolées à partir de grains de café déterminés comme étant riches en ces polypeptides particuliers qui comprennent la voie phénylpropanoïde. .


Matériaux et méthodes

Analyse de pseudogènes basée sur des hypothèses

Une liste de gènes liés à la vision obtenue à partir de la base de données d'ontologie génétique (GO:0007601 : perception visuelle) et du système visuel de la bibliothèque de voies QIAGEN (http://www.qiagen.com/Products/Genes%20and%20Pathways/) défini présence, nombre de copies et nature des gènes correspondants dans le M. davidii et P. alecto génomes. Les protéines des gènes humains liés à la vision et de leurs gènes voisins ont été téléchargées à partir de la version 64 d'Ensembl. Le transcrit le plus long a été choisi pour représenter chaque gène dans les cas où l'existence de variantes d'épissage alternatif a été démontrée. Nous avons ensuite soumis toutes les protéines à une analyse tBlastn contre les génomes des chauves-souris avec le seuil de similarité de valeur e = 1e −5. Avec la protéine humaine définie comme référence, nous avons trouvé le meilleur résultat pour chaque protéine humaine dans les deux génomes de chauve-souris en utilisant le critère selon lequel plus de 30 % de la séquence alignée présentait une identité supérieure à 30 %. Nous avons utilisé l'algorithme GeneWise (Birney et al. 2004) (avec les paramètres -genesf -for -quiet) pour définir la structure détaillée exon-intron de chaque gène de chauve-souris et pour identifier les pseudogènes potentiels parmi les gènes visuels de chauve-souris.

Initialement, nous avons ciblé l'examen des orthologues de chauve-souris pour les pseudogènes liés à la vision identifiés chez le rat-taupe nu Heterocephalus glaber (Kim et al. 2011), une espèce malvoyante adaptée à la vie dans l'obscurité. Les gènes contenant des décalages de trame ou des codons d'arrêt prématurés ont été considérés comme des candidats. Nous avons filtré comme suit : (1) Pour éviter les décalages de trame signalés ou les codons d'arrêt prématurés qui étaient dus à une faille dans l'algorithme GeneWise, nous avons aligné toutes les protéines humaines sur leurs loci correspondants dans le génome humain, et les gènes avec des décalages de trame ou un arrêt prématuré les codons dans les alignements d'humain à humain ont été filtrés (2) En utilisant les résultats de l'alignement d'humain à humain de GeneWise, les pseudogènes candidats avec des erreurs d'épissage évidentes près de leurs décalages de trame ou des codons d'arrêt prématurés ont été filtrés (3) Les pseudogènes candidats avec un un faible nombre de lectures couvrant leur décalage de trame ou des sites de codon d'arrêt prématurés étaient considérés comme des erreurs d'assemblage. Les gènes avec un nombre considérable de lectures en raison de la variation du génotype sur ces sites ont été traités comme hétérozygotes et filtrés.

Analyse CUB à l'échelle du génome sans hypothèse

Un certain nombre de statistiques CUB ont été proposées, et il y a peu de consensus sur l'approche optimale. Une revue très récente décrivant les avantages et les inconvénients de certaines approches de quantification CUB couramment appliquées peut être trouvée ici dans Behura et Severson (2013). Notre statistique CUB utilise le concept d'entropie, qui estime les régularités des données sur la base d'une combinaison d'ordre et de proportion. Sa force réside dans sa large applicabilité et sa sensibilité. Parce qu'il n'est pas systématiquement influencé par la longueur des gènes et qu'il tient compte de la composition en acides aminés, il peut être appliqué de manière équitable au sein et entre les génomes. Il ne tient pas compte, cependant, de la teneur de fond en GC, ni ne détermine si le biais est en faveur des codons préférés ou non préférés. Pour cette raison, le contenu de fond en GC et une analyse plus détaillée de l'utilisation des codons doivent être évalués rétrospectivement au cas par cas (c'est à dire., dans les gènes dont les propriétés entropiques ont été déterminées comme extrêmes et donc dignes d'une enquête plus approfondie).

Pour résumer, nous avons déterminé l'étendue de CUB pour chaque séquence codante en utilisant une statistique basée sur la théorie de l'information comme décrit précédemment (Hudson et al. 2011). Pour chaque séquence codante observée, nous avons calculé l'entropie de l'acide nucléique et l'avons comparée à l'entropie moyenne de 20 séquences aléatoires. Les séquences aléatoires ont été générées de manière à coder la même séquence d'acides aminés, mais où les codons ont été sélectionnés au hasard. Parce que l'entropie fournit une mesure de la régularité des données, l'entropie différentielle entre la séquence observée et l'aléatoire correspond à l'étendue de la régularité attribuable à CUB.

Nous avons d'abord classé toutes les séquences codantes sur l'étendue de CUB sur une base intra-génomique. Pour déterminer l'étendue de l'analyse d'enrichissement fonctionnel, les listes classées pour Myotis et Pteropus ont été soumis au webtool GOrilla (Eden et al. 2009). GOrilla utilise des statistiques hypergéométriques pour déterminer si des processus biologiques particuliers sont enrichis dans un ensemble de gènes d'entrée classés. Nous avons utilisé l'option de liste classée unique basée sur une annotation fonctionnelle humaine et importé des identifiants SWISSPROT, qui est l'un des identifiants d'entrée préférés désignés pour l'analyse GOrilla. Nous avons également comparé le biais relatif des codons dans les orthologues communs entre les deux espèces (dont nous avons identifié 6748). Cette analyse secondaire permet d'identifier des gènes qui peuvent ne pas être extrêmes au sein du génome, mais qui possèdent néanmoins des propriétés nettement différentes entre les deux espèces.

Étant donné que l'enrichissement GOrilla repose sur une annotation incomplète des processus fonctionnels et peut ignorer les connexions fonctionnelles même dans les gènes bien annotés, nous avons utilisé l'enrichissement supérieur comme objectif pour une curation manuelle ultérieure, basée sur l'exploration de la base de données de la littérature PubMed. Un sous-ensemble de gènes CUB aberrants a été évalué rétrospectivement pour le contenu régional en GC. Ceci a été calculé à partir du gène lui-même, plus 10 kb en amont du codon de départ et 10 kb en aval du codon d'arrêt.

Validation indépendante des CUB divergentes :

La statistique d'entropie différentielle est l'une des nombreuses façons de mesurer le CUB. Dans un effort pour fournir une preuve indépendante de la CUB différentielle chez les deux espèces de chauves-souris et de l'enrichissement fonctionnel différentiel ultérieur, nous avons également publié les nombres effectifs de codons (ENC) précédemment publiés (Wright 1990) sur le site Web de CodonW : http:// codonw.sourceforge.net/. Selon Behura et Severson (2013), l'ENC est utilisée pour mesurer dans quelle mesure l'utilisation des codons d'un gène s'écarte de l'utilisation égale des codons synonymes. Les valeurs EC vont de 20 (biais de codon extrême lorsqu'un codon est utilisé exclusivement pour chaque acide aminé) à 61 (en cas d'absence de biais de codon où les codons synonymes sont également susceptibles de coder l'acide aminé).

Vérification de la qualité des gènes aberrants CUB :

Comme il est possible que des lacunes dans les données d'assemblage du génome entraînent des artefacts avec les séquences cds, les données de séquence cds pour tous M. davidii Les gènes aberrants CUB ont été confirmés par comparaison avec les séquences cds d'autres espèces. Nous avons utilisé la traduction BLAST pour identifier les problèmes d'assemblage potentiels, y compris les lacunes dans nos séquences de CD. Les chauves-souris M. brandtii et M. lucifugus ainsi que d'autres espèces de mammifères disponibles dans Genbank ont ​​été utilisées pour l'alignement des séquences. En cas d'exons manquants potentiels, nous avons recoupé le M. davidii assemblage génomique pour confirmer la qualité des données de séquences génomiques.

Analyse CUB chez deux espèces de chauves-souris supplémentaires : M. lucifugus et P. vampyrus :

Pour détecter des preuves comparatives de CUB dans l'appareil sensoriel des chauves-souris écholocatrices, nous avons calculé CUB dans un écholocateur supplémentaire (M. lucifugus) et non cholocator (P. vampyrus). Les assemblages de génomes actuels de la base de données Ensemble pour P. vampyrus (pteVam1) et M. lucifugus (Myoluc2.0) ont été utilisés pour cette analyse. Pour ces deux espèces de comparaison, nous avons obtenu des données de séquences codantes de Biomart, donnant 14 141 cds annotés pour M. lucifugus et 8 845 pour P. vampyrus. Le CUB a été estimé en utilisant la statistique d'entropie comme décrit précédemment.


L'utilisation d'un seul codon stop avec un seul CDS chez les procaryotes pose-t-elle un problème ? - La biologie

Le numéro de brevet américain 10 724 033 [numéro de demande 15/671 447] a été accordé par l'office des brevets le 28/07/2020 pour présentation à la surface cellulaire d'isoformes polypeptidiques par lecture de codon stop. Cette concession de brevet est actuellement cédée à Novartis AG. Le cessionnaire répertorié pour ce brevet est NOVARTIS AG. L'invention est attribuée à Thomas Jostock, Hans-Peter Knopf, Audrey Nommay, Burkhard Wilms.

Brevet des États-Unis 10,724,033
Jostock, et al. 28 juillet 2020
Affichage à la surface cellulaire des isoformes polypeptidiques par lecture du codon stop

L'invention concerne un procédé de sélection de cellules hôtes de mammifères qui expriment un polypeptide d'intérêt avec un rendement élevé. Les cellules hôtes comprennent une cassette d'expression comprenant au moins un premier polynucléotide codant pour le polypeptide d'intérêt, au moins un codon stop fuyant en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop fuyant codant pour une ancre transmembranaire d'immunoglobuline. Les cellules hôtes sont cultivées pour permettre l'expression du polypeptide d'intérêt de telle sorte qu'au moins une partie du polypeptide d'intérêt soit exprimée sous la forme d'un polypeptide de fusion qui est présenté sur la surface cellulaire. Les cellules sont sélectionnées sur la base de la présence ou de la quantité du polypeptide de fusion présenté. L'invention concerne également des procédés de production d'un polypeptide qui utilisent une sélection respective pour identifier des cellules hôtes à haute expression.

1. Procédé de sélection d'au moins une cellule hôte eucaryote exprimant un niveau souhaité d'un polypeptide d'intérêt, comprenant : a) la fourniture d'une pluralité de cellules hôtes eucaryotes comprenant un acide nucléique hétérologue comprenant au moins une cassette (Cas-POI) comprenant au au moins un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, au moins un codon stop fuyant en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop fuyant codant pour une ancre transmembranaire d'immunoglobuline b) cultiver les cellules hôtes eucaryotes pour permettre l'expression du polypeptide d'intérêt de telle sorte qu'au moins une partie du polypeptide d'intérêt soit exprimée sous la forme d'un polypeptide de fusion comprenant l'ancre transmembranaire d'immunoglobuline, ledit polypeptide de fusion étant présenté à la surface de ladite cellule hôte c) sélectionner au moins un cellule hôte eucaryote sur la base de la présence ou de la quantité du polypeptide de fusion présenté sur la surface cellulaire.

2. Procédé de production d'un polypeptide d'intérêt avec un rendement élevé, le procédé comprenant : a) la fourniture d'une pluralité de cellules hôtes eucaryotes comprenant un acide nucléique hétérologue comprenant au moins une cassette (Cas-POI) comprenant un premier polynucléotide (Pn-POI ) codant pour le polypeptide d'intérêt, au moins un codon d'arrêt de fuite en aval du premier polynucléotide, et un second polynucléotide en aval du codon d'arrêt de fuite codant pour une ancre transmembranaire d'immunoglobuline b) cultiver les cellules hôtes eucaryotes pour permettre l'expression du polypeptide d'intérêt tel qu'au moins une partie du polypeptide d'intérêt est exprimée sous la forme d'un polypeptide de fusion comprenant l'ancre transmembranaire d'immunoglobuline, dans lequel ledit polypeptide de fusion est présenté à la surface de ladite cellule hôte c) sélection d'au moins une cellule hôte eucaryote sur la base de la présence ou quantité du polypeptide de fusion affiché sur la surface cellulaire d) cultiver la cellule hôte eucaryote sélectionnée dans milieu de culture dans des conditions qui permettent l'expression du polypeptide d'intérêt.

3. Procédé selon la revendication 1 dans lequel l'expression de la cassette (Cas-POI) conduit à un transcrit comprenant au moins un premier polynucléotide, dans lequel la traduction dudit premier polynucléotide conduit au polypeptide d'intérêt au moins un codon stop fuite en aval dudit premier polynucléotide un second polynucléotide en aval dudit codon d'arrêt, dans lequel la traduction dudit second polynucléotide aboutit à l'ancre transmembranaire d'immunoglobuline, dans lequel au moins une partie du transcrit est traduite en un polypeptide de fusion comprenant l'ancre transmembranaire d'immunoglobuline par lecture traductionnelle du au moins un codon stop.

4. Procédé selon la revendication 1, dans lequel l'ancre transmembranaire d'immunoglobuline est choisie dans le groupe constitué par a) une ancre transmembranaire IgA, IgE, IgM, IgG et/ou IgD, b) une ancre transmembranaire d'immunoglobuline comprenant un domaine cytoplasmique, et c) une ancre transmembranaire d'immunoglobuline comprenant une séquence telle que représentée dans SEQ ID NO : 2, SEQ ID NO : 3, SEQ ID NO : 4, SEQ ID NO : 5, SEQ ID NO : 6 et/ou SEQ ID NO : 7.

5. Procédé selon la revendication 1, dans lequel l'étape c) comprend la mise en contact de la pluralité de cellules hôtes eucaryotes avec un composé de détection liant le polypeptide de fusion et la sélection d'au moins une cellule hôte eucaryote sur la base de la présence ou de la quantité du composé de détection lié.

6. Procédé selon la revendication 3, dans lequel la lecture en translation du codon stop conduit à environ jusqu'à 50 %, jusqu'à 25 %, jusqu'à 15 %, jusqu'à 10 %, jusqu'à 5 %, jusqu'à 2,5 %, jusqu'à 1,5 %, jusqu'à 1 % ou jusqu'à 0,5 % de polypeptide de fusion.

7. Procédé selon la revendication 1, dans lequel deux cycles de sélection ou plus sont effectués, dans lequel dans chaque cycle de sélection au moins une cellule hôte eucaryote est sélectionnée sur la base de la présence ou de la quantité du polypeptide de fusion présenté sur la surface cellulaire.

8. Procédé selon la revendication 5, dans lequel la liaison du composé de détection à la surface de la cellule hôte eucaryote est détectée par cytométrie de flux.

9. Procédé selon la revendication 2, dans lequel l'expression de la cassette (Cas POI) conduit à un transcrit comprenant au moins un premier polynucléotide, dans lequel la traduction dudit premier polynucléotide conduit au polypeptide d'intérêt au moins un codon stop fuite en aval dudit premier polynucléotide un deuxième polynucléotide en aval dudit codon d'arrêt, où la traduction dudit deuxième polynucléotide aboutit à l'ancre transmembranaire d'immunoglobuline, où au moins une partie du transcrit est traduite en un polypeptide de fusion comprenant l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci par lecture d'au moins un codon d'arrêt.

10. Procédé selon la revendication 2, dans lequel l'ancre transmembranaire immunoglobuline est choisie dans le groupe constitué par a) une ancre transmembranaire IgA, IgE, IgM, IgG et/ou IgD, b) une ancre transmembranaire immunoglobuline comprenant un domaine cytoplasmique, et c) une ancre transmembranaire d'immunoglobuline comprenant une séquence telle que représentée dans SEQ ID NO : 2, SEQ ID NO : 3, SEQ ID NO : 4, SEQ ID NO : 5, SEQ ID NO : 6 et/ou SEQ ID NO : 7.

11. Procédé selon la revendication 2, dans lequel l'étape c) comprend la mise en contact de la pluralité de cellules hôtes eucaryotes avec un composé de détection liant le polypeptide de fusion et la sélection d'au moins une cellule hôte eucaryote sur la base de la présence ou de la quantité du composé de détection lié.

12. Procédé selon la revendication 9, dans lequel la lecture en translation du codon d'arrêt conduit à environ jusqu'à 50 %, jusqu'à 25 %, jusqu'à 15 %, jusqu'à 10 %, jusqu'à 5 %, jusqu'à 2,5 % , jusqu'à 1,5 %, jusqu'à 1 % ou jusqu'à 0,5 % de polypeptide de fusion.

13. Procédé selon la revendication 2, dans lequel deux cycles de sélection ou plus sont effectués, dans lequel dans chaque cycle de sélection au moins une cellule hôte eucaryote est sélectionnée sur la base de la présence ou de la quantité du polypeptide de fusion présenté sur la surface cellulaire.

14. Procédé selon la revendication 11, dans lequel la liaison du composé de détection à la surface de la cellule hôte eucaryote est détectée par cytométrie de flux.

15. Acide nucléique vecteur apte à exprimer au moins un polypeptide d'intérêt dans une cellule hôte eucaryote, comprenant a) au moins une cassette (Cas-POI) comprenant un site d'insertion pour un premier polynucléotide (Pn-POI) codant pour le polypeptide de intérêt et/ou un premier polynucléotide codant pour un polypeptide d'intérêt, b) au moins un codon stop fuyant en aval dudit site d'insertion et/ou en aval du premier polynucléotide, et c) un deuxième polynucléotide en aval du codon stop codant pour une transmembrane d'immunoglobuline ancre.

16. Acide nucléique vecteur selon la revendication 15, comprenant au moins l'une des caractéristiques suivantes : un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt dans la cassette (Cas-POI) une cassette d'expression (MSM) comprenant un gène marqueur sélectionnable et/ou une cassette d'expression (MASM) comprenant un gène marqueur sélectionnable amplifiable de mammifère.

17.Acide nucléique vecteur selon la revendication 15 pour exprimer au moins une molécule d'immunoglobuline ou un variant fonctionnel de celle-ci, comprenant une cassette d'expression (Exp-POI) comprenant un premier polynucléotide codant pour la chaîne lourde d'une molécule d'immunoglobuline ou un fragment fonctionnel de celle-ci, au moins un codon d'arrêt de fuite en aval du premier polynucléotide, et un second polynucléotide en aval du codon d'arrêt codant pour une ancre transmembranaire d'immunoglobuline et une cassette d'expression supplémentaire (Exp-POI') comprenant un polynucléotide codant pour la chaîne légère correspondante d'une molécule d'immunoglobuline ou d'un fragment de celui-ci.

18. Procédé de production d'un acide nucléique vecteur selon la revendication 15, caractérisé en ce que le procédé comprend l'assemblage d'au moins une cassette (Cas-POI) dans un vecteur tel que ladite cassette (Cas-POI) comprend un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, au moins un codon stop fuyant en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop codant pour une ancre transmembranaire d'immunoglobuline.

19. Cellule hôte eucaryote isolée comprenant une cassette (Cas-POI) comprenant au moins un polynucléotide hétérologue codant pour un polypeptide d'intérêt, au moins un codon stop fuite en aval dudit polynucléotide hétérologue et un polynucléotide en aval du codon stop codant pour une transmembrane d'immunoglobuline ancre dans laquelle ladite cellule hôte eucaryote est éventuellement obtenue par le procédé selon la revendication 1.

20. Cellule hôte eucaryote isolée comprenant une cassette (Cas-POI) comprenant au moins un polynucléotide hétérologue codant pour un polypeptide d'intérêt, au moins un codon stop fuite en aval dudit polynucléotide hétérologue et un polynucléotide en aval du codon stop codant pour une transmembrane d'immunoglobuline ancre dans laquelle ladite cellule hôte eucaryote comprend un acide nucléique vecteur selon la revendication 15.

21. Méthode de production d'un polypeptide d'intérêt, ladite méthode comprenant la culture d'une cellule hôte eucaryote selon la revendication 19.

22. Procédé de production d'un polypeptide d'intérêt, dans lequel une cellule hôte eucaryote selon la revendication 20 est cultivée pour exprimer le polypeptide d'intérêt.

23. Procédé de production d'un polypeptide d'intérêt selon la revendication 2, comprenant en outre au moins une étape choisie parmi les étapes : obtention du polypeptide à partir de la culture cellulaire obtention du polypeptide à partir du milieu de culture dans lequel le polypeptide est sécrété dans le milieu de culture perturbant les cellules hôtes eucaryotes pour obtenir le polypeptide exprimé en isolant le polypeptide exprimé en purifiant le polypeptide exprimé et en traitant ou en modifiant davantage le polypeptide exprimé.

24. Procédé de production d'un polypeptide d'intérêt selon la revendication 21, comprenant en outre au moins une étape choisie parmi les étapes : obtention du polypeptide à partir de la culture cellulaire obtention du polypeptide à partir du milieu de culture dans lequel le polypeptide est sécrété dans le milieu de culture perturbant les cellules hôtes eucaryotes pour obtenir le polypeptide exprimé en isolant le polypeptide exprimé en purifiant le polypeptide exprimé et en traitant ou en modifiant davantage le polypeptide exprimé. La description

La présente invention concerne un procédé de sélection de cellules hôtes de mammifères hautement productrices ainsi que des vecteurs et des cellules hôtes appropriés pour une utilisation dans un procédé respectif. En outre, la présente invention concerne un procédé pour produire efficacement des polypeptides avec un rendement élevé.

La sélection de lignées cellulaires hautement productives est une première étape importante dans le développement de tout bioprocédé et constitue l'un des plus grands défis de la biotechnologie. Un problème est que ces clones hautement producteurs sont rares, peuvent consacrer une grande partie de leur énergie à la production de polypeptides et ont donc des taux de croissance réduits. Cela conduit à une prolifération et à des cellules non ou peu productrices. Cependant, dans la production de polypeptides, il est souhaitable d'obtenir des lignées cellulaires produisant le polypeptide d'intérêt avec un rendement élevé. Traditionnellement, les lignées cellulaires hautement productrices étaient sélectionnées par des cycles de clonage en dilution limite suivis d'une analyse du produit. Cependant, cette voie traditionnelle présente plusieurs inconvénients car elle est à la fois coûteuse en main-d'œuvre et coûteuse. Au-delà de cela, l'ensemble du processus prend du temps et peut prendre plusieurs mois et même dans ce cas, il n'y a aucune garantie que la lignée cellulaire clonée sera stable et donc utile pour le biotraitement industriel. En outre, la sélection des producteurs les plus élevés peut être compromise par des limitations pratiques sur le nombre de cellules qui peuvent être criblées, réduisant ainsi potentiellement l'efficacité de la sélection de cellules à faible abondance et à haute productivité.

Par conséquent, de nombreux efforts ont été déployés pour fournir des méthodes alternatives pour sélectionner des clones à haut rendement. Par exemple, la cytométrie en flux a facilité le suivi de la productivité et l'isolement des cellules présentant des caractéristiques spécifiques. Les avantages importants de la cytométrie en flux incluent la capacité de cribler rapidement un grand nombre de cellules, avec la capacité de distinguer les sous-populations cellulaires et la capacité de sélectionner efficacement des cellules de faible abondance démontrant les caractéristiques souhaitées. La plupart des approches traditionnelles de sélection de cellules à haute productivité utilisant la cytométrie en flux ont été établies pour la sélection de cellules d'hybridome.

Une approche est basée sur la teneur en anticorps de surface cellulaire de cellules d'hybridome présentant une quantité accrue d'anticorps de surface cellulaire qui peuvent être identifiés et récupérés grâce à l'utilisation d'anticorps marqués par fluorescence. Cependant, une corrélation quantitative n'a pas été largement documentée.

D'autres approches ont été développées pour sélectionner des cellules sur la base d'anticorps sécrétés comme stratégie alternative pour contourner certaines des limitations de la sélection d'anticorps de surface cellulaire. Une approche applique une matrice d'affinité, l'autre utilise une technologie de microgouttelettes de gel. La première méthode est basée sur la création d'une matrice d'affinité artificielle, spécifique du produit d'intérêt sécrété. Les molécules sécrétées se lient à la matrice d'affinité à la surface de la cellule sécrétrice et sont ensuite marquées avec des réactifs fluorescents spécifiques pour l'analyse par cytométrie en flux et le tri cellulaire.

L'encapsulation de microgouttelettes implique l'encapsulation complète de cellules individuelles dans des billes d'agarose. Ces billes contiennent des anticorps de capture spécifiques et capturent ainsi simultanément le produit sécrété et empêchent l'alimentation croisée du produit entre les cellules.

D'autres méthodes reposent sur la co-expression de gènes marqueurs, qui sont détectables par cytométrie en flux. Les inconvénients sont une faible liaison de l'expression du gène marqueur (par exemple la protéine de fluorescence verte) à l'expression du gène d'intérêt. De plus, l'expression du gène marqueur coûte aux cellules de l'énergie supplémentaire et pourrait induire un stress.

Une méthode alternative repose sur une co-expression inductible de protéines de capture liées à la membrane. Les protéines de capture liées à la membrane sont ancrées à la surface cellulaire et capturent le polypeptide sécrété dès qu'elles sont libérées des cellules. Ces molécules capturées peuvent ensuite être détectées à la surface de la cellule. Cependant, des cellules hôtes génétiquement modifiées sont nécessaires et une alimentation croisée de cellules non productrices peut également se produire.

Des produits sécrétés associés de manière transitoire à la membrane cellulaire ont également été utilisés afin de sélectionner des cellules productrices. Cependant, une alimentation croisée de cellules non productrices se produit et cette méthode a une activité de fond assez élevée. De plus, il a été constaté qu'il n'est pas possible d'effectuer plusieurs cycles d'enrichissement et de sélection.

Par conséquent, il existe un besoin de développer une technologie pour sélectionner des cellules hôtes hautement productrices. C'est donc l'objet de la présente invention de fournir un procédé pour détecter des cellules hôtes recombinantes hautement productrices dans une grande population de cellules non, faiblement et/ou moyennement productrices et de fournir un procédé pour produire des polypeptides avec un rendement élevé. .

La présente invention résout ce problème en proposant un procédé pour enrichir ou sélectionner au moins une cellule hôte eucaryote exprimant un niveau souhaité d'un polypeptide d'intérêt, comprenant : a) la fourniture d'une pluralité de cellules hôtes eucaryotes comprenant un acide nucléique hétérologue comprenant au moins un cassette (Cas-POI) comprenant au moins un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, au moins un codon stop en aval du premier polynucléotide, et un deuxième polynucléotide en aval du codon stop codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci b) cultiver les cellules hôtes eucaryotes pour permettre l'expression du polypeptide d'intérêt de telle sorte qu'au moins une partie du polypeptide d'intérêt soit exprimée sous la forme d'un polypeptide de fusion comprenant l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci, dans lequel ledit polypeptide de fusion est affiché à la surface de ladite cellule hôte c) sélection d'au moins un cellule hôte eucaryote sur la base de la présence ou de la quantité du polypeptide de fusion présenté sur la surface cellulaire.

Un "acide nucléique hétérologue" fait référence à une séquence polynucléotidique qui a été introduite dans une cellule hôte, par ex. par l'utilisation de techniques recombinantes telles que la transfection. La cellule hôte peut comprendre ou non un polynucléotide endogène correspondant, respectivement étant identique au polynucléotide hétérologue. Cependant, en particulier, le terme « acide nucléique hétérologue » fait référence à un polynucléotide étranger introduit dans la cellule hôte. L'introduction peut être réalisée par ex. en transfectant un vecteur approprié pouvant s'intégrer dans le génome de la cellule hôte (transfection stable). Dans le cas où l'acide nucléique hétérologue n'est pas inséré dans le génome, l'acide nucléique hétérologue peut être perdu à un stade ultérieur, par ex. lorsque les cellules subissent une mitose (transfection transitoire). Les deux variantes conviennent, cependant, une transfection stable est préférée. Des vecteurs appropriés pourraient également être maintenus dans la cellule hôte sans s'intégrer dans le génome, par ex. par réplication épisomique. Cependant, d'autres techniques sont également connues dans l'art antérieur pour introduire un acide nucléique hétérologue dans une cellule hôte qui sont également décrites plus en détail ci-dessous.

Un "polynucléotide" est un polymère de nucléotides qui sont généralement liés d'un désoxyribose ou ribose à un autre et se réfère à l'ADN ainsi qu'à l'ARN, selon le contexte. Le terme "polynucléotide" ne comprend aucune restriction de taille.

Une "cassette" décrit un groupe d'éléments polynucléotidiques, fonctionnellement liés les uns aux autres, comprenant par ex. un polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, un polynucléotide codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci, un polynucléotide codant pour un marqueur, des éléments régulateurs et/ou d'autres polynucléotides décrits ici. Une "cassette" telle qu'utilisée ici comprend au moins deux éléments polynucléotidiques. Une cassette peut comprendre ou non des éléments régulateurs tels que des polynucléotides tels que par ex. un promoteur, un amplificateur et/ou un site polyA. Selon un mode de réalisation, la cassette est une « cassette d'expression » adaptée à l'expression d'un polypeptide. Une cassette d'expression comprend au moins un élément d'initiation de la transcription, par ex. un promoteur, en tant qu'élément régulateur lié de manière opérationnelle à une région codante, par ex. un polynucléotide (Pn-POI) codant pour un polypeptide d'intérêt, qui est alors en conséquence sous le contrôle transcriptionnel dudit élément d'initiation de la transcription. Une cassette d'expression peut également comprendre des éléments régulateurs appropriés pour la terminaison de la transcription, tels que par ex. un site polyA.

La « cassette (Cas-POI) » comprend au moins un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, au moins un codon stop en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop codant pour une immunoglobuline transmembranaire ancre ou une variante fonctionnelle de celle-ci. De préférence, la cassette (Cas-POI) est une cassette d'expression (Exp-POI).

La « cassette d'expression (Exp-POI) » définit une cassette d'expression appropriée pour exprimer un polypeptide d'intérêt (POI). En tant que cassette d'expression, elle comprend au moins un élément d'initiation de la transcription. Ladite cassette d'expression (Exp-POI) comprend soit le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt en tant que partie de la région codante, soit comprend un site approprié pour insérer un polynucléotide respectif (Pn-POI) codant pour le polypeptide d'intérêt-- selon le mode de réalisation utilisé de la présente invention qui sont décrits plus en détail ci-dessous.

Le concept général de la présente invention est de placer un codon stop entre le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et le polynucléotide codant pour l'ancrage transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci qui permet l'ancrage du polypeptide à la surface cellulaire. Les termes « ancre transmembranaire d'immunoglobuline » et « domaine transmembranaire d'immunoglobuline » sont utilisés ici comme synonymes. Le codon stop constitue ou fait partie d'un signal de terminaison de traduction et peut être le codon stop naturel du polynucléotide codant pour le polynucléotide d'intérêt et donc le codon stop qui est naturellement utilisé pour terminer la traduction. La conception de la cassette (Cas-POI) résulte lors de l'expression de la génération de deux polypeptides différents lorsque les premier et second polynucléotides sont transcrits en un transcrit, qui est éventuellement traité, puis traduit. Selon une variante de traduction, la traduction du transcrit est avortée au (au moins un) codon stop situé entre le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et le polynucléotide codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci. La terminaison de la traduction au niveau dudit codon d'arrêt conduit à un produit polypeptidique - ne comprenant pas l'ancre transmembranaire. Selon la deuxième variante de traduction, la traduction lit à travers ledit au moins un codon d'arrêt, rendant ainsi un produit de traduction comprenant le polypeptide d'intérêt et fusionné à celui-ci l'ancre transmembranaire d'immunoglobuline ou une variante fonctionnelle de celle-ci qui est capable d'ancrer le polypeptide de fusion à la cellule membrane. Un tel polypeptide de fusion est transféré et fixé à la surface cellulaire via l'ancre transmembranaire d'immunoglobuline incluse ou un fragment fonctionnel de celle-ci. C'est une caractéristique importante de la présente invention que lors de l'expression de la cassette (Cas-POI), la fin de la traduction au niveau dudit codon d'arrêt dans le cadre est dans une certaine mesure "fuite", car la lecture de la traduction se produit, rendant ainsi le polypeptide de fusion décrit. Comme cette lecture de la traduction se produit à une proportion définie - qui peut également être influencée par le choix et le nombre du ou des codons d'arrêt et des régions adjacentes au codon d'arrêt, en particulier le nucléotide suivant le codon d'arrêt ainsi que par les conditions de culture - le niveau de polypeptide de fusion lié à la surface est en corrélation directe avec le niveau d'expression du polypeptide d'intérêt. La quantité de polypeptide de fusion présente à la surface cellulaire est donc dans une certaine mesure proportionnelle au niveau d'expression global du polypeptide d'intérêt par la cellule respective, car il existe un lien étroit entre l'expression de surface du polypeptide de fusion et la productivité de la cellule hôte à exprimer le polypeptide d'intérêt. Le niveau de polypeptide de fusion lié à la surface est donc représentatif de la productivité globale de la cellule individuelle et permet la sélection d'au moins une cellule hôte eucaryote sur la base de la présence ou de la quantité du polypeptide de fusion présenté sur la surface cellulaire. Un cycle de sélection comprenant les étapes a), b) et c) permet l'identification et l'isolement efficaces et reproductibles de cellules hôtes eucaryotes hautement productrices.

Des méthodes de détection/sélection appropriées telles que l'immunocoloration, la cytométrie en flux, la microscopie à fluorescence, MACS, les méthodes basées sur l'affinité telles que les billes magnétiques et des techniques similaires permettent l'identification, la sélection et/ou l'enrichissement de cellules hautement productrices en fonction de la présence et du niveau de fusion liée à la surface polypeptide. Par conséquent, la présente invention conduit à une réduction drastique des efforts de criblage en permettant la sélection et également l'enrichissement d'au moins une cellule hautement productrice ou d'une population de cellules hautement productrices à partir d'une population de cellules non, faiblement et/ou moyennement productrices. cellules. Il est également possible d'effectuer plusieurs tours de sélection et/ou d'enrichissement, de préférence deux ou trois. Par exemple. une cellule hôte ou une population de cellules hôtes eucaryotes à expression suffisante ou même élevée peut être sélectionnée en utilisant un composé de détection tel que par ex. un anticorps ou un fragment de celui-ci reconnaissant le polypeptide de fusion ancré à la membrane. Ledit composé de détection peut porter un marqueur et peut ainsi être détecté par des méthodes de détection courantes.

Selon les enseignements de la présente invention, au moins un fragment d'un ancrage/domaine transmembranaire d'immunoglobuline est utilisé afin d'ancrer le polypeptide d'intérêt à la surface cellulaire. Dans le cas où un fragment au lieu d'un ancrage transmembranaire d'immunoglobuline de pleine longueur est utilisé, le fragment respectif doit permettre l'ancrage du polypeptide de fusion à la surface cellulaire. L'ancrage/domaine transmembranaire d'immunoglobuline ou le fragment fonctionnel de celui-ci est intégré et ainsi fermement ancré à la membrane cellulaire. Cet ancrage serré distingue les ancrages de la présente invention de p. une ancre GPI. L'ancrage transmembranaire d'immunoglobuline utilisé selon la présente invention fournit un ancrage très robuste et donc durable du polypeptide de fusion à la surface cellulaire qui n'est également pas ou au moins moins sensible à l'excrétion protéolytique. Ceci est confirmé par l'analyse du produit effectuée après purification. Aucune ancre transmembranaire d'immunoglobuline (ou fragment d'ancre transmembranaire d'immunoglobuline) contenant des espèces de chaîne lourde n'est trouvée dans l'analyse de spectrométrie de masse effectuée. Ceci est un avantage important par rapport à l'art antérieur car également le risque de contaminations du polypeptide soluble d'intérêt sécrété par des polypeptides de fusion éliminés est réduit. En outre, selon les caractéristiques analysées des polypeptides d'intérêt exprimés, aucune différence significative par rapport au matériel des clones/systèmes d'expression conventionnels n'est également trouvée.

Les cellules obtenues par le procédé de la présente invention ont un niveau d'expression moyen plus élevé que les cellules clonées par dilution limitée ou des procédés similaires. Elles ont également un niveau d'expression moyen plus élevé que les cellules clonées par exemple par cytométrie de flux après transfection d'un vecteur standard ne comprenant pas le domaine/ancre transmembranaire spécifique selon la présente invention.

Les cellules qui sont identifiées à la suite de la procédure de criblage/sélection de la présente invention seront généralement isolées et peuvent être enrichies à partir de cellules non sélectionnées de la population cellulaire d'origine. Ils peuvent être isolés et cultivés en tant que cellules individuelles. Ils peuvent également être utilisés dans un ou plusieurs tours de sélection supplémentaires, éventuellement pour une analyse qualitative ou quantitative supplémentaire, ou peuvent être utilisés e. g. dans le développement d'une lignée cellulaire pour la production de protéines. Selon un mode de réalisation, une population enrichie de cellules hautement productrices sélectionnées comme décrit ci-dessus est directement utilisée comme population pour la production du polypeptide d'intérêt avec un rendement élevé.

Avantageusement, le comportement de croissance et la productivité observés des clones co-exprimant le variant transmembranaire du polypeptide d'intérêt, en particulier des anticorps et des clones issus d'un montage de vecteur classique ne co-exprimant pas le variant transmembranaire du polypeptide d'intérêt semblent être les mêmes. . De plus, la stabilité de la production clonale semble également être bonne.

L'invention concerne également un procédé de production d'un polypeptide d'intérêt avec un rendement élevé, le procédé comprenant : a) la fourniture d'une pluralité de cellules hôtes eucaryotes comprenant un acide nucléique hétérologue comprenant au moins une cassette (Cas-POI) comprenant un premier polynucléotide (Pn- POI) codant pour le polypeptide d'intérêt, au moins un codon stop en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci b) cultiver les cellules hôtes eucaryotes pour permettre l'expression de la polypeptide d'intérêt de telle sorte qu'au moins une partie du polypeptide d'intérêt soit exprimée sous la forme d'un polypeptide de fusion comprenant l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci, dans lequel ledit polypeptide de fusion est présenté à la surface de ladite cellule hôte c) sélection d'au moins une cellule hôte eucaryote en fonction de la présence ou de la quantité du polypeptide de fusion présenté sur la surface cellulaire d) cultiver la cellule hôte eucaryote sélectionnée dans un milieu de culture dans des conditions qui permettent l'expression du polypeptide d'intérêt.

Le polypeptide d'intérêt exprimé peut être obtenu par rupture des cellules hôtes. Les polypeptides peuvent également être exprimés, par ex. sécrété dans le milieu de culture et peut être obtenu à partir de celui-ci. Des combinaisons de la méthode respective sont également possibles. Ainsi, des polypeptides peuvent être produits et obtenus/isolés efficacement avec un rendement élevé. Les polypeptides obtenus peuvent également être soumis à d'autres étapes de traitement telles que par ex. des étapes de purification et/ou de modification afin de produire le polypeptide d'intérêt dans la qualité souhaitée. Selon un mode de réalisation, lesdites cellules hôtes sont cultivées dans des conditions sans sérum. Comme indiqué ci-dessus, en insérant au moins un codon d'arrêt entre le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et le second polynucléotide codant pour une ancre transmembranaire d'immunoglobuline ou un fragment fonctionnel de celle-ci, la sélection de cellules hôtes à haute expression est possible, ainsi permettant la production du polypeptide d'intérêt avec un rendement élevé. L'étape de sélection/enrichissement de la présente invention fait donc partie intégrante et importante du processus de production global.

L'utilisation d'une ancre transmembranaire d'immunoglobuline ou d'un fragment fonctionnel de celle-ci selon les enseignements de la présente invention est particulièrement avantageuse lors de la production de molécules d'immunoglobuline, car ladite ancre transmembranaire d'immunoglobuline est naturellement appropriée pour fixer des molécules d'immunoglobuline à la surface cellulaire. De manière surprenante, il s'avère que l'ancre transmembranaire d'immunoglobuline peut être utilisée lors de l'expression de molécules d'immunoglobuline dans des cellules hôtes de mammifères telles que des cellules CHO. Ceci est surprenant, car l'art antérieur supposait que la co-expression des chaînes réceptrices Ig alpha et Ig bêta est nécessaire dans lesdites cellules afin d'obtenir une expression en surface - et par conséquent ancrée dans la membrane cellulaire - des anticorps lors de l'utilisation de l'Ig transmembranaire. domaine comme point d'ancrage. Ces corécepteurs sont par ex. naturellement exprimé dans les cellules B et les dérivés de cellules B tels que les cellules d'hybridome ou de myélome (par exemple, les cellules SP2/0), mais ne devrait pas être exprimé dans les cellules non B telles que les cellules CHO. Cependant, il s'avère que malgré l'expression manquante des co-récepteurs, la présentation en surface des polypeptides d'intérêt et en particulier des molécules d'immunoglobuline fonctionnait bien sur les dérivés non cellulaires B tels que les cellules CHO lors de l'utilisation de l'ancre/domaine transmembranaire Ig. Par conséquent, selon un mode de réalisation, une cellule hôte eucaryote est utilisée qui n'est pas une cellule B ou un dérivé de cellule B. Par conséquent, on utilise une cellule hôte eucaryote, de préférence un mammifère, qui n'exprime pas naturellement les chaînes réceptrices Ig alpha et Ig bêta. Ainsi, de préférence, la cellule hôte est une cellule CHO. Par ailleurs, selon un mode de réalisation, aucune co-expression artificielle de la chaîne réceptrice Ig alpha et Ig bêta ne se produit dans ladite cellule hôte eucaryote.

Tout ancrage transmembranaire d'immunoglobuline ou fragment fonctionnel de celui-ci peut être utilisé selon les enseignements de la présente invention. En particulier, l'ancre transmembranaire d'immunoglobuline est choisie dans le groupe constitué des ancres transmembranaires d'immunoglobuline dérivées d'IgM, IgA, IgE, IgG et/ou IgD ou de leurs variantes fonctionnelles. De préférence, l'ancre transmembranaire d'immunoglobuline est dérivée d'IgG1, IgG2, IgG3 et/ou IgG4. Une ancre transmembranaire d'immunoglobuline IgGl ou un variant fonctionnel de celle-ci est particulièrement appropriée. Des exemples préférés d'ancre transmembranaire dérivée d'IgG sont présentés dans SEQ ID NO : 2 et SEQ ID NO : 7.

Selon un mode de réalisation, l'ancre transmembranaire d'immunoglobuline comprend un domaine cytoplasmique. L'utilisation d'une ancre transmembranaire d'immunoglobuline comprenant un domaine cytoplasmique est préférée car elle fournit un ancrage très serré du polypeptide de fusion à la surface cellulaire. L'utilisation d'un domaine cytoplasmique d'immunoglobuline est particulièrement appropriée. Selon un mode de réalisation, le domaine cytoplasmique d'immunoglobuline est dérivé d'IgG, d'IgA et d'IgE ou de variants fonctionnels de ceux-ci. Ces domaines cytoplasmiques d'immunoglobulines sont plus grands que ceux dérivés d'IgD et d'IgM. SEQ ID NO : 4 et SEQ ID NO : 6 montrent des séquences d'acides aminés appropriées de domaines cytoplasmiques dérivés d'IgG qui peuvent être utilisées comme domaine cytoplasmique. Un exemple préféré d'une ancre transmembranaire dérivée d'IgG qui comprend un domaine cytoplasmique dérivé d'IgG est montré dans SEQ ID NO : 3.

Ainsi, l'ancre transmembranaire d'immunoglobuline peut comprendre une séquence polypeptidique telle que montrée dans SEQ ID NO : 2 et/ou SEQ ID NO : 3 ou des variants fonctionnels, notamment des fragments fonctionnels de celle-ci, qui permettent l'ancrage du polypeptide de fusion à la surface de la cellule hôte.

La séquence nucléotidique d'une section d'une cassette appropriée (Cas-POI) est représentée par SEQ ID NO : 1. domaine utilisable selon les enseignements de la présente invention. Le codon stop est situé dans le cadre en aval du polynucléotide codant pour le polypeptide d'intérêt et donc la séquence polynucléotidique qui est transcrite et transformée en une séquence d'acides aminés. La séquence codante fait référence à la séquence qui est traduite en acides aminés. Ainsi, le codon stop n'appartient pas à la séquence codante et par conséquent au polynucléotide codant pour le polypeptide d'intérêt. Le codon stop peut être le codon stop naturel du polynucléotide codant pour le polypeptide d'intérêt. Dans ce cas, aucun codon d'arrêt supplémentaire n'a besoin d'être mais peut être présent (voir ci-dessus).

Le deuxième polynucléotide de la cassette (Cas-POI) peut coder pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci, qui comprend une séquence polypeptidique représentée par SEQ ID NO : 2. SEQ ID NO : 3 montre une autre variante d'une transmembrane d'immunoglobuline appropriée domaine, comprenant également un domaine cytoplasmique (le domaine cytoplasmique seul est également représenté par SEQ ID NO : 4), les acides aminés putatifs correspondant au codon d'arrêt de fuite et au codon supplémentaire (WL) et une région de connexion (la région de connexion seule est également montré comme SEQ ID NO : 5). D'autres acides aminés peuvent également être présents à la position correspondant au au moins un codon d'arrêt et au codon adjacent, en fonction du codon d'arrêt choisi et/ou du nombre de codons d'arrêt et du ou des codon(s) adjacent(s) utilisé(s). Comme ces acides aminés ne sont présents que dans le polypeptide de fusion, ils n'altèrent pas la séquence d'acides aminés du polypeptide d'intérêt. En conséquence, un domaine transmembranaire d'immunoglobuline comprenant une séquence polypeptidique telle que représentée par SEQ ID NO : 2 ou 3 ou un variant fonctionnel, en particulier un fragment fonctionnel de celui-ci peut être utilisé comme ancre transmembranaire selon les enseignements de la présente invention et donc dans le méthodes décrites, ainsi que dans les vecteurs et les cellules hôtes décrits.

"Une variante fonctionnelle" d'une ancre transmembranaire d'immunoglobuline selon la présente invention comprend des ancres transmembranaires d'immunoglobuline ayant un ou plusieurs échanges de séquences d'acides aminés (par exemple des délétions, des substitutions ou des additions) par rapport à la séquence d'acides aminés du domaine transmembranaire d'immunoglobuline naturel respectif et des fragments fonctionnels de ce qui précède, qui permettent l'ancrage transmembranaire du polypeptide de fusion à la surface cellulaire.

Comme signal de terminaison de la traduction et donc codon d'arrêt, l'un des trois codons d'arrêt qui signalent la fin de la synthèse des protéines (TAA (UAA), TAG (UAG) et TGA (UGA) - également dans divers contextes de tétranucléotides, voir ci-dessous) peut être utilisé entre le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et le polynucléotide codant pour l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci, en fonction du niveau de suppression souhaité (lecture continue). Comme indiqué ci-dessus, le codon d'arrêt peut également être le codon d'arrêt naturel du polynucléotide codant pour le polypeptide d'intérêt. De préférence, ledit signal de terminaison de traduction a une efficacité de terminaison incomplète afin de favoriser la lecture de traduction. La « fuite » du codon d'arrêt est également influencée par le ou les codons adjacents et donc en aval du au moins un codon d'arrêt, en particulier le premier nucléotide peut influencer la lecture transcriptionnelle (voir ci-dessous).

La cassette (Cas-POI) doit être transcrite afin de permettre l'expression du polypeptide d'intérêt. Selon un mode de réalisation, la cassette (Cas-POI) est donc une cassette d'expression. Selon un autre mode de réalisation, la cassette (Cas-POI) est intégrée dans le génome de la cellule hôte de telle sorte que la cassette (Cas-POI) est sous le contrôle transcriptionnel d'un élément d'initiation de la transcription de la cellule hôte, tel qu'un promoteur .

La transcription de l'acide nucléique compris dans la cassette (Cas-POI) aboutit à un transcrit comprenant au moins un premier polynucléotide, la traduction dudit premier polynucléotide aboutissant au polypeptide d'intérêt au moins un codon stop en aval dudit premier polynucléotide un second polynucléotide en aval dudit codon d'arrêt, dans lequel la traduction dudit second polynucléotide aboutit à l'ancre transmembranaire d'immunoglobuline ou à un variant fonctionnel de celle-ci.

Au moins une partie du transcrit est traduite en un polypeptide de fusion comprenant le polypeptide d'intérêt et l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci par lecture traductionnelle du au moins un codon d'arrêt. La lecture de la traduction peut se produire naturellement en raison du choix du codon d'arrêt/de la conception du signal de terminaison de la traduction ou peut être induite en adaptant les conditions de culture, par ex. en utilisant un agent de suppression de terminaison (voir ci-dessous).

La cassette (Cas-POI) utilisée dans le procédé de l'invention peut ne comprendre qu'un seul codon stop en amont de la séquence codante pour l'ancre transmembranaire d'immunoglobuline ou un fragment de celle-ci. Cependant, il est également possible d'utiliser une série de deux ou plusieurs codons d'arrêt, par ex. g. deux ou trois, ou quatre codons stop, qui peuvent être identiques ou différents. Aussi le contexte du codon stop, i. e. le codon stop trinucléotidique lui-même ainsi que le ou les nucléotides respectivement codon immédiatement en aval du codon stop, a une influence sur les niveaux de lecture. Cependant, il faut s'assurer qu'un certain niveau de translecture traductionnelle se produit encore afin de permettre la production du polypeptide de fusion qui peut être obtenue selon un mode de réalisation en ajustant les conditions de culture.

Le transcrit primaire peut être un pré-ARNm comprenant des introns. Un pré-ARNm respectif serait traité (épissé) en ARNm. Alternativement, la transcription peut conduire directement à l'ARNm. Pendant la traduction du transcrit d'ARNm, il existe généralement un niveau naturel de lecture de fond du ou des codons d'arrêt ou un niveau de lecture respectif peut être induit en adaptant les conditions de culture. Ce niveau de lecture se traduit par une certaine proportion de polypeptides de fusion qui dépend également du nombre et de la nature du ou des codon(s) stop utilisé(s), du codon stop aval et en particulier du contexte tétranucléotidique du ou des codon(s) stop et de la culture. conditions. En conséquence, une certaine proportion de polypeptide de fusion est produite selon les enseignements de la présente invention malgré la présence du codon stop. Ces polypeptides de fusion comprennent l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci, ancrant étroitement les polypeptides de fusion à la surface cellulaire. En conséquence, les polypeptides de fusion sont présentés à la surface des cellules hôtes, et les cellules présentant des niveaux élevés de polypeptides de fusion recombinants ancrés à la membrane (indiquant un niveau élevé de polypeptide sécrété) peuvent être sélectionnées, par ex. par cytométrie de flux, en particulier par tri cellulaire activé par fluorescence (FACS) lors de la mise en contact avec un composé de détection convenablement marqué.

Des signaux de terminaison de traduction appropriés et donc des codons d'arrêt et des paramètres de codon d'arrêt avec une efficacité de terminaison de traduction incomplète peuvent être conçus comme décrit dans l'art antérieur (voir par exemple Li et al. 1993, Journal of Virology 67 (8), 5062-5067 McCughan et al. 1995 Proc. Natl. Acad. Sei. 92, 5431-5435 Brown et al 1990, Nucleic Acids Research 18 (21) 6339-6345, incorporé ici à titre de référence).

Selon un mode de réalisation, le paramètre de codon d'arrêt suivant est utilisé le codon d'arrêt est représenté en gras et souligné : TGACTA séquence nucléotidique du paramètre d'arrêt codant sur le brin codant et donc au niveau de l'ADN le codon d'arrêt est représenté en gras et souligné UGACUA séquence de nucléotides du codon d'arrêt mise au niveau de l'ARN acides aminés putatifs WL correspondant au codon d'arrêt et au codon adjacent si la lecture de la traduction se produit, est donc le produit de lecture le plus probable du polynucléotide montré

Les acides aminés supplémentaires qui sont incorporés dans le polypeptide de fusion en raison de la lecture du codon d'arrêt peuvent être de n'importe quel type tant que la protéine de fusion est affichée sur la surface cellulaire. Comme lesdits acides aminés supplémentaires ne sont incorporés que dans le polypeptide de fusion, l'acide aminé du polypeptide d'intérêt reste inchangé.

En plus de l'utilisation possible de plusieurs codons d'arrêt suivant le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, il sera normalement avantageux d'utiliser plusieurs codons d'arrêt en aval de la séquence codant pour l'ancre transmembranaire d'immunoglobuline ou un fragment fonctionnel de celle-ci. L'utilisation de plusieurs codons d'arrêt dans cette position, par ex. g. jusqu'à environ dix codons d'arrêt, tels qu'environ six ou huit codons d'arrêt, tels qu'environ deux, trois, quatre ou cinq codons d'arrêt, assureront une terminaison efficace de la traduction.

La quantité de polypeptide de fusion présente et ainsi détectable sur la surface cellulaire augmente habituellement pendant la synthèse du polypeptide car le polypeptide de fusion reste ancré à la membrane cellulaire et s'accumule ainsi sur la surface cellulaire au fur et à mesure que l'expression se poursuit. Selon un mode de réalisation, la cassette (Cas-POI) est construite de telle sorte que la lecture du codon d'arrêt donne environ .ltoreq.50 %, .ltoreq.25%, .ltoreq.15%, .ltoreq.10%, .ltoreq 0,5 %, .ltoreq.2,5 %, .ltoreq.1,5 %, .ltoreq.1% ou moins de .ltoreq.0,5 % de polypeptide de fusion. La portion restante est produite sous la forme polypeptidique ne comprenant pas l'ancre transmembranaire d'immunoglobuline ou le fragment fonctionnel de celle-ci. Comme décrit, le niveau de codon stop lu peut être influencé par le choix et le nombre du ou des codon stop et des régions adjacentes au codon stop, en particulier le nucléotide suivant le codon stop, ainsi que par les conditions de culture utilisé lors de l'étape b). En fonction de facteurs tels que le niveau naturel de lecture de fond pour un codon d'arrêt donné dans une construction donnée, il peut dans certains cas être souhaitable d'utiliser plus d'un codon d'arrêt entre le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et le polynucléotide codant pour l'ancre transmembranaire d'immunoglobuline afin de réduire davantage les niveaux de lecture de fond (voir ci-dessus). L'avantage général d'un niveau de lecture plutôt faible est une stringence plus élevée dans la procédure de sélection/enrichissement et de tri ultérieure, qui est de préférence effectuée par FACS, conduisant à une meilleure résolution des clones hautement producteurs par rapport aux clones ultra-productifs. Si les niveaux de lecture sont trop élevés, une saturation de la capacité de surface cellulaire pour les polypeptides liés à la membrane peut se produire, ce qui peut empêcher la discrimination des niveaux d'expression, en particulier des niveaux d'expression élevés. Par conséquent, un niveau de lecture plutôt faible est avantageux afin de sélectionner des clones à expression ultra élevée. En conséquence, de préférence seulement 5 %, .2 % ou même .1,5 % du transcrit est traduit en un polypeptide de fusion.

Cependant, il est également possible d'augmenter le niveau de lecture si nécessaire/souhaité, par ex. en utilisant un agent de suppression de terminaison pendant la culture. L'utilisation d'un agent de suppression de terminaison dans les milieux de culture au cours de l'étape b) est une façon d'influencer le niveau de codon stop lu par les conditions de culture. Un agent de suppression de terminaison est un agent chimique capable de supprimer une terminaison de traduction résultant de la présence d'un codon d'arrêt. En particulier, l'agent de suppression de terminaison est un antibiotique appartenant au groupe des aminosides. Les antibiotiques aminoglycosides sont connus pour leur capacité à permettre l'insertion d'acides aminés alternatifs sur le site d'un codon d'arrêt, entraînant ainsi une "lecture continue" d'un codon d'arrêt ou d'un réglage de codon d'arrêt qui, autrement, entraînerait normalement la fin de la traduction. Les antibiotiques aminosides comprennent le G-418, la gentamycine, la paromomycine, l'hygromycine, l'amikacine, la kanamycine, la néomycine, la nétilmicine, la streptomycine et la tobramycine. Cependant, comme un faible niveau de lecture est avantageux, la sélection est de préférence effectuée en l'absence d'un agent de suppression de terminaison.

La présente invention est applicable à tout type de cellule hôte dans laquelle la lecture du codon d'arrêt de la traduction se produit au moins à un faible pourcentage ou peut être induite par l'ajout d'un agent de suppression de terminaison. Des exemples de cellules hôtes eucaryotes appropriées sont des cellules hôtes de mammifères qui comprennent par ex. Lignées cellulaires d'ovaire de hamster chinois (CHO), lignées cellulaires de singe vert (COS), cellules de souris (par exemple NS/0), lignées cellulaires de rein de bébé hamster (BHK) et cellules et lignées cellulaires humaines. De préférence, la cellule hôte est une lignée cellulaire CHO.

Alors qu'un cycle de sélection est suffisant pour identifier de bonnes cellules hôtes productrices, selon un mode de réalisation, deux cycles de sélection ou plus sont effectués, dans lesquels dans chaque cycle de sélection au moins une cellule hôte eucaryote est sélectionnée sur la base de la présence ou de la quantité du polypeptide de fusion affiché. à la surface des cellules. Les résultats expérimentaux démontrent qu'un deuxième cycle de sélection conduit généralement à de meilleurs résultats.

Selon un mode de réalisation, l'étape de sélection c) comprend la mise en contact de la pluralité de cellules hôtes avec un composé de détection liant le polypeptide de fusion et la sélection d'au moins une cellule hôte sur la base de la présence ou de la quantité du composé de détection lié à la surface cellulaire.

Le composé de détection utilisé pour la liaison au polypeptide de fusion peut avoir au moins l'une des caractéristiques suivantes : ledit composé est marqué ledit composé est marqué par fluorescence ledit composé est un antigène ledit composé est une molécule d'immunoglobuline ou un fragment de liaison de celle-ci ledit composé est une protéine A, -G et/ou -L.

Le composé de détection utilisé pour lier le polypeptide de fusion à la surface cellulaire peut par exemple être une molécule d'immunoglobuline ou un fragment de celle-ci tel qu'un anticorps ou fragment d'anticorps, reconnaissant le polypeptide de fusion. Fondamentalement, toutes les portions accessibles du polypeptide de fusion peuvent être détectées, en dessous également la portion correspondant au polypeptide d'intérêt qui est sécrété parallèlement au polypeptide de fusion sous forme soluble.

Selon un mode de réalisation, le composé de détection est un antigène. Ce mode de réalisation est approprié, si le polypeptide d'intérêt exprimé est par exemple une molécule d'immunoglobuline ou un fragment de celle-ci tel qu'un anticorps, liant l'antigène respectif.

Afin de permettre la détection et la sélection, ledit composé de détection utilisé pour la liaison du polypeptide de fusion peut être marqué. Le composé de détection marqué qui lie le polypeptide de fusion présenté sur la surface cellulaire marque ainsi respectivement la surface cellulaire. Plus la quantité de polypeptide de fusion qui est exprimée par la cellule hôte est élevée, plus le composé de détection marqué est lié. Ceci présente l'avantage que la sélection des cellules hôtes peut être facilement effectuée car non seulement la présence mais également la quantité du composé de détection lié peuvent être déterminées grâce au marqueur. Pour sélectionner des cellules hôtes hautement productrices, ces cellules hôtes sont sélectionnées dans la population de cellules hôtes qui sont respectivement le plus efficacement et intensément marquées par le composé de détection. Un marqueur fluorescent est préféré car cela permet une détection facile par des méthodes de détection de fluorescence telles que par exemple la cytométrie en flux. Des marqueurs fluorescents appropriés sont connus de l'homme du métier.

Selon un mode de réalisation, un ou plusieurs cycles de sélection, de préférence deux ou trois, peuvent être effectués pour sélectionner au moins une cellule hôte eucaryote en fonction du degré de liaison du composé de détection à la surface cellulaire. Selon ce mode de réalisation, au moins une cellule hôte eucaryotis est sélectionnée dans chaque cycle de sélection sur la base de la quantité de composé de détection lié. Ainsi, les cellules hôtes qui ont été marquées le plus efficacement/intensément sont sélectionnées sur la base du degré respectivement de la quantité de coloration de la surface cellulaire. Par exemple. les 5 % supérieurs ou les 2 % supérieurs des cellules hôtes peuvent être sélectionnés.

Dans le cas où plusieurs cellules hôtes eucaryotes sont supposées être sélectionnées ensemble en tant que pool (ce que l'on appelle l'enrichissement du pool), plusieurs cellules, par ex. au moins 10, au moins 50, au moins 500, au moins 1 000 ou au moins 50 000 sont sélectionnés et inclus dans un pool de cellules. Ce mode de réalisation est particulièrement avantageux pour obtenir rapidement de plus grandes quantités du polypeptide d'intérêt car le pool cellulaire comprenant plusieurs cellules hôtes hautement productrices sélectionnées selon les enseignements de la présente invention peut être développé plus rapidement que par ex. un clone cellulaire.

Ainsi, outre l'application pour le clonage cellulaire sélectif, la présente invention peut également être utilisée pour l'enrichissement en pool de cellules hautement productrices, ce qui permet d'obtenir des titres comparables aux lignées cellulaires clonales.

Des cellules hôtes hautement productrices peuvent être isolées et/ou une population de cellules hautement productrices peut être enrichie sur la base du degré de liaison du composé de détection à la surface cellulaire, en particulier le polypeptide de fusion. La liaison du composé de détection au polypeptide de fusion à la surface de la cellule hôte peut être détectée par cytométrie en flux, de préférence par tri cellulaire activé par fluorescence (FACS).

Dans un mode de réalisation préféré, les cellules hôtes comprenant une quantité élevée de polypeptides de fusion qui représentent en conséquence un signal élevé sont triées en utilisant le tri cellulaire activé par fluorescence (FACS). Dans le contexte de la présente invention, le tri FACS est particulièrement avantageux, car il permet un criblage rapide d'un grand nombre de cellules hôtes pour identifier et enrichir les cellules qui expriment le polypeptide d'intérêt avec un rendement élevé. Comme selon le mode de réalisation préféré, environ seulement 5 % ou moins du polypeptide sont produits en tant que polypeptide de fusion, une fluorescence plus élevée détectée sur la surface cellulaire correspondrait également à une expression plus élevée du polypeptide d'intérêt, qui peut être par ex. sécrétée dans le milieu de culture. Les cellules présentant le taux de fluorescence le plus élevé peuvent être identifiées et isolées par FACS. Une corrélation positive et statistiquement significative entre la fluorescence, telle que déterminée par FACS et la quantité de polypeptide produit est trouvée et confirmée par les exemples. Par conséquent, le tri FACS peut être utilisé non seulement pour une analyse qualitative pour identifier les cellules exprimant un polypeptide d'intérêt en général, mais peut en fait être utilisé quantitativement pour identifier les cellules hôtes qui expriment des niveaux élevés du polypeptide d'intérêt. Par conséquent, des cellules hôtes hautement productrices peuvent être sélectionnées/enrichies sur la base du degré de liaison du composé de détection marqué au polypeptide de fusion, qui est ancré à la surface cellulaire. Ainsi, les meilleures cellules productrices peuvent être sélectionnées/enrichies. Les résultats expérimentaux montrent que l'utilisation de la procédure de sélection selon la présente invention en combinaison avec l'analyse FACS a conduit à une réduction significative des clones non producteurs dans les populations cellulaires sélectionnées. De plus, la productivité moyenne fortement augmentée des clones permet la réduction drastique des efforts de criblage de clones, par ex. dans le processus de développement de lignées cellulaires pour la production biopharmaceutique. Ainsi, des lignées cellulaires pour un nombre beaucoup plus élevé de candidats ou de projets peuvent être développées avec moins de ressources par rapport aux approches de criblage classiques. En outre, ce processus permet l'évaluation du potentiel de productivité et de la distribution clonale des pools transfectés et sélectionnés par coloration de surface et analyse FACS au lieu de tests de productivité chronophages. La coloration de surface peut également être utilisée pour analyser la stabilité de la production clonale en ce qui concerne l'homogénéité de la population cellulaire. Les sous-populations non productives ou faiblement productives qui pourraient apparaître seraient facilement détectables.

Selon un mode de réalisation, la cassette (Cas-POI) et/ou (Cas-POI') comprend en outre un polynucléotide (Pn-TAG) codant pour un marqueur d'affinité situé en aval du au moins un codon stop qui est situé en aval du premier polynucléotide et dans lequel ledit polynucléotide (Pn-TAG) est situé en amont du second polynucléotide codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci et/ou un polynucléotide (Pn-MARKER) codant pour un marqueur sélectionnable.

Fournir le polynucléotide (Pn-TAG) tel que défini ci-dessus entre le codon stop et le polynucléotide codant pour l'ancre transmembranaire d'immunoglobuline présente l'avantage qu'un marqueur d'affinité est incorporé dans la protéine de fusion. Comme le marqueur d'affinité est situé en aval du au moins un codon d'arrêt, il n'est inclus que dans le variant de fusion du polypeptide d'intérêt. Une "étiquette d'affinité" fait référence à une courte séquence d'acides aminés qui peut être détectée/liée par des composés/agents de liaison tels que des anticorps. Fondamentalement, le marqueur d'affinité sert de cible pour les agents de capture et/ou les composés de détection. Comme il est situé entre le polypeptide d'intérêt et l'ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci, il est également affiché sur la surface cellulaire et est par conséquent accessible, par ex. pour les composés de détection. Le marqueur d'affinité peut ainsi également fonctionner comme cible pour le composé de détection afin de permettre la sélection de cellules hôtes eucaryotes appropriées. A utiliser par ex. un marqueur d'affinité bien caractérisé comme cible pour la détection/sélection est avantageux car des composés de détection existants et bien caractérisés peuvent être utilisés pour la détection. De plus, le même composé de détection peut être utilisé pour différents types de polypeptides d'intérêt à exprimer. La génération de composés de détection spécifiques des différents polypeptides d'intérêt serait obsolète selon ce mode de réalisation car le même composé de détection spécifique du marqueur d'affinité pourrait être utilisé. Comme le marqueur d'affinité fait partie intégrante du polypeptide de fusion, il est également fermement ancré à la surface de la cellule hôte eucaryote en raison de la présence de l'ancre transmembranaire. Les polypeptides de fusion étroitement ancrés ne doivent pas être susceptibles de se détacher (voir ci-dessus).

L'excrétion des protéines de fusion liées à la membrane peut constituer - en fonction de l'utilisation prévue du polypeptide sécrété - un problème de contamination même si l'excrétion est un événement rare lors de l'utilisation d'une ancre transmembranaire d'immunoglobuline. Par exemple. lors de l'expression de polypeptides/protéines thérapeutiques, il est souhaitable d'obtenir le produit sécrété aussi pur que possible. Lors de l'utilisation d'une balise d'affinité telle que par ex. un marqueur His, ledit marqueur d'affinité serait au moins partiellement compris dans la protéine libérée. En raison de la présence de l'étiquette d'affinité, il est possible d'éliminer les polypeptides de fusion libérés (le cas échéant) de l'échantillon de polypeptides sécrétés en utilisant des procédures de purification d'affinité conventionnelles (par exemple Ni-NTA dans le cas d'une étiquette His). Le marqueur d'affinité est donc utile pour éliminer facilement les contaminations potentielles de l'échantillon.

En outre, le marqueur d'affinité peut être utilisé afin de contrôler la pureté du polypeptide exprimé/obtenu. Pour les applications où des protéines/polypeptides hautement purs sont nécessaires, il peut également être avantageux/obligatoire de fournir des dosages appropriés pour démontrer que le produit obtenu est pur et par conséquent ne comprend pas de contaminations dues à des polypeptides de fusion éliminés. Un tel dosage pourrait être basé sur la détection du marqueur d'affinité. Comme l'étiquette d'affinité n'est présente que dans le polypeptide de fusion, elle peut servir de marqueur spécifique pour la présence de polypeptides de fusion (ou de leurs versions dégradées/excrétées) dans l'échantillon. Si l'étiquette d'affinité peut toujours être détectée dans le produit obtenu lors de l'utilisation d'un composé de détection spécifique pour l'étiquette d'affinité, il reste des traces de polypeptide de fusion éliminé dans l'échantillon et l'échantillon peut nécessiter, selon la quantité, une purification supplémentaire. Si aucune étiquette d'affinité ne peut être détectée dans l'échantillon, aucune quantité ou respectivement de très faibles quantités de polypeptide de fusion éliminé doivent être présentes dans l'échantillon analysé, garantissant ainsi que l'échantillon est suffisamment pur pour l'application prévue.

Par conséquent, lors de la production du polypeptide d'intérêt, le polypeptide d'intérêt obtenu peut être traité davantage en éliminant les contaminations du polypeptide de fusion libéré par purification par affinité ciblant le marqueur d'affinité et/ou en détectant la présence ou l'absence de protéine de fusion perdue en ciblant le marqueur d'affinité.

Des exemples appropriés pour les étiquettes d'affinité sont par ex. V5, un His Tag, FLAG, Strep, HA, c-Myc ou similaire. Des balises d'affinité appropriées peuvent également être créées artificiellement.

Selon un autre mode de réalisation, la cassette (Cas-POI) et/ou (Cas-POI') comprend un autre polynucléotide (Pn-MARKER) codant pour un marqueur sélectionnable. De préférence, ledit marqueur sélectionnable est situé en aval du polynucléotide codant pour l'ancre transmembranaire d'immunoglobuline et est donc lors de l'expression de la construction localisée sur le site cytoplasmique de la membrane cellulaire lorsque le polypeptide de fusion est présenté. Selon un mode de réalisation, aucun codon stop n'est localisé entre le polynucléotide codant pour l'ancre/domaine transmembranaire d'immunoglobuline ou un variant fonctionnel de celui-ci et le polynucléotide (Pn-MARKER), car ils sont supposés être exprimés sous forme de fusion. Des codons d'arrêt et des signaux de terminaison de transcription appropriés doivent être fournis en aval de la séquence codante du polynucléotide (Pn-MARKER) pour assurer une terminaison efficace de la transcription et de la traduction après l'expression du polynucléotide (Pn-MARKER). Ledit polynucléotide (Pn-MARKER) peut par ex. être un gène de résistance aux médicaments ou un gène rapporteur. Des exemples appropriés sont décrits ici. Selon un mode de réalisation, la protéine de fluorescence verte (GFP) ou la luciférase est utilisée comme rapporteur. Ceci permet la sélection des cellules hôtes eucaryotes sur la base de deux caractéristiques de protéine de fusion.

Selon un mode de réalisation, la cassette (Cas-POI) et/ou (Cas-POI') est une cassette d'expression. L'homme du métier sera capable de sélectionner des vecteurs, des séquences de contrôle d'expression et des hôtes appropriés pour mettre en œuvre les procédés de l'invention. Par exemple, lors de la sélection d'un vecteur, l'hôte doit être pris en compte car le vecteur peut avoir besoin de pouvoir s'y répliquer et/ou de pouvoir s'intégrer dans le chromosome. Des vecteurs appropriés qui peuvent être utilisés dans les procédés de sélection et de production selon la présente invention sont également décrits ci-dessous et dans les revendications.

Il est également proposé un acide nucléique vecteur approprié pour exprimer au moins un polypeptide d'intérêt chez un eucaryote, de préférence une cellule hôte de mammifère, comprenant au moins une cassette (Cas-POI) comprenant un site d'insertion pour un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et/ou un premier polynucléotide (Pn-POI) codant pour un polypeptide d'intérêt, au moins un codon stop en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel celui-ci.

Un « acide nucléique vecteur » selon la présente invention est un polynucléotide capable de porter au moins un fragment d'acide nucléique étranger. Un acide nucléique vecteur fonctionne comme un "support moléculaire", délivrant des fragments d'acides nucléiques dans une cellule hôte. Il peut comprendre au moins une cassette d'expression comprenant des séquences régulatrices. De préférence, l'acide nucléique vecteur comprend au moins une cassette d'expression. Des polynucléotides étrangers peuvent être insérés dans la ou les cassettes d'expression de l'acide nucléique vecteur afin d'être exprimés à partir de celle-ci. L'acide nucléique vecteur selon la présente invention peut être présent sous forme circulaire ou linéarisée. Le terme « acide nucléique vecteur » comprend également des chromosomes artificiels ou des polynucléotides respectifs similaires permettant le transfert de fragments d'acide nucléique étrangers.

Un vecteur respectif peut être utilisé comme vecteur d'expression afin de réaliser les procédés de criblage et de production décrits ci-dessus. Les avantages d'un acide nucléique vecteur respectif sont également décrits ci-dessus conjointement avec le procédé de criblage.

Ledit acide nucléique vecteur peut comprendre en outre au moins un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt une cassette d'expression (Exp-MSM) comprenant un gène marqueur sélectionnable de mammifère et/ou une cassette d'expression (Exp-MASM) comprenant un gène marqueur amplifiable et sélectionnable.

La cassette d'expression (Exp-MSM) définit la cassette d'expression comprenant un gène marqueur sélectionnable de mammifère.

La cassette d'expression (Exp-MASM) définit la cassette d'expression comprenant un gène marqueur sélectionnable amplifiable de mammifère.

Les termes "5'" et "3'" sont une convention utilisée pour décrire les caractéristiques d'une séquence d'acide nucléique liées soit à la position des éléments génétiques et/ou à la direction des événements (5' à 3'), comme par ex. transcription par l'ARN polymérase ou traduction par le ribosome qui se déroule dans le sens 5' vers 3'. Les synonymes sont en amont (5') et en aval (3'). Classiquement, les séquences d'ADN, les cartes génétiques, les cartes vectorielles et les séquences d'ARN sont dessinées avec 5' à 3' de gauche à droite ou la direction 5' à 3' est indiquée par des flèches, la pointe de flèche pointant dans la direction 3'. En conséquence, 5' (en amont) indique des éléments génétiques positionnés vers le côté gauche, et 3' (en aval) indique des éléments génétiques positionnés vers le côté droit, en suivant cette convention.

L'agencement et l'orientation des cassettes d'expression est également un aspect important. Selon un mode de réalisation, la cassette d'expression (Exp-MASM) est située en 5' et la cassette d'expression (Exp-MSM) est située en 3' de la cassette d'expression (Exp-POI). D'autres cassettes d'expression peuvent être insérées entre les cassettes d'expression (Exp-POI) et (Exp-MSM), telles que par ex. une cassette d'expression supplémentaire (Exp-POI') pour exprimer un polypeptide supplémentaire d'intérêt (décrit plus en détail ci-dessous). Les cassettes d'expression (Exp-MASM), (Exp-POI) et (Exp-MSM) sont toutes disposées de préférence dans la même orientation 5' à 3'. Les inventeurs ont découvert que cette configuration particulière d'acide nucléique vecteur permet la génération rapide de lignées cellulaires à haut rendement.

Selon une alternative, la cassette d'expression (Exp-POI) ne comprend pas le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt. Ainsi, un vecteur d'expression "vide" avec une cassette d'expression (Exp-POI) est fourni qui ne comprend pas encore le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt. Cependant, ledit polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt peut être incorporé dans la cassette d'expression (Exp-POI) en utilisant des méthodes de clonage appropriées, par exemple en utilisant des enzymes de restriction pour insérer le polynucléotide (Pn-POI) codant le polypeptide d'intérêt dans la cassette d'expression (Exp-POI). A cette fin, la cassette d'expression (Exp-POI) peut comprendre par ex. un site de clonage multiple (MCS) qui peut, par ex. être utilisé dans tous les cadres de lecture. Un acide nucléique vecteur "vide" respectif peut, par ex. être fournis aux clients, qui insèrent ensuite leur polynucléotide spécifique d'intérêt dans la cassette d'expression (Exp-POI). Le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt est inséré de telle sorte qu'un codon stop soit présent entre le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et le polynucléotide codant pour l'ancre transmembranaire ou un variant fonctionnel de celui-ci. La cassette d'expression (Exp-POI) peut également comprendre un polynucléotide de remplacement ou une séquence d'acide nucléique de remplissage, qui peut être excisée et remplacée par le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt. La présente invention propose également un acide nucléique vecteur tel que décrit ci-dessus, comprenant une cassette d'expression (Exp-POI) comprenant un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, au moins un codon stop en aval du premier polynucléotide, et un second polynucléotide en aval du codon d'arrêt codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci. Ce mode de réalisation concerne essentiellement l'acide nucléique du vecteur d'expression final. Fondamentalement, la même chose s'applique dans le cas où une cassette (Cas-POI) est utilisée à la place d'une cassette d'expression (Exp-POI).

Selon un mode de réalisation, l'acide nucléique vecteur est circulaire et la cassette d'expression (Exp-MSM) est disposée en 3' de la cassette d'expression (Exp-POI) et la cassette d'expression (Exp-MASM) est disposée en 3' de la cassette d'expression (Exp-MSM).

Le vecteur d'expression selon la présente invention peut comprendre une cassette d'expression supplémentaire (Exp-POI') pour exprimer un polypeptide d'intérêt.Dans l'acide nucléique vecteur final, ladite cassette d'expression supplémentaire (Exp-POI') comprend le polynucléotide supplémentaire pour exprimer le polypeptide supplémentaire d'intérêt. Selon les polypeptides à exprimer, ladite cassette d'expression supplémentaire (Exp-POI') peut comprendre ou non un polynucléotide codant pour une ancre membranaire (ou un peptide signal pour attacher une ancre respective, telle qu'une ancre GPI), qui est séparé du polynucléotide codant pour le polypeptide supplémentaire d'intérêt par un codon stop. Par conséquent, il est également possible que plusieurs cassettes d'expression pour exprimer différents polypeptides soient disposées dans le vecteur d'expression selon la présente invention. Cependant, seule la cassette d'expression (Exp-POI) a besoin d'avoir l'assemblage de codon d'arrêt qui fuit et donc un codon d'arrêt en aval du premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt et un deuxième polynucléotide en aval du codon d'arrêt codant pour un ancre transmembranaire d'immunoglobuline ou une variante fonctionnelle de celle-ci, les cassettes d'expression supplémentaires (Exp-POI') peuvent ou non avoir un assemblage de codon stop respectif.

Un mode de réalisation respectif utilisant au moins deux cassettes d'expression (Exp-POI) et (Exp-POI') pour exprimer les polypeptides d'intérêt est particulièrement avantageux, dans le cas où une molécule d'immunoglobuline ou un fragment fonctionnel de celle-ci est exprimé. En conséquence, un acide nucléique vecteur pour exprimer au moins une molécule d'immunoglobuline ou un fragment fonctionnel de celle-ci est fourni, comprenant une cassette d'expression (Exp-POI) comprenant un premier polynucléotide codant pour la chaîne lourde et/ou légère de la molécule d'immunoglobuline ou un fragment de celui-ci, au moins un codon d'arrêt en aval du premier polynucléotide, et un deuxième polynucléotide en aval du codon d'arrêt codant pour au moins une ancre transmembranaire d'immunoglobuline ou un fragment fonctionnel de celle-ci et/ou une cassette d'expression supplémentaire (Exp-POI') comprenant un polynucléotide codant pour la chaîne légère et/ou lourde correspondante d'une molécule d'immunoglobuline ou d'un fragment fonctionnel de celle-ci. La cassette d'expression (Exp-POI') code pour la chaîne d'immunoglobuline qui correspond à la chaîne d'immunoglobuline de la cassette d'expression (Exp-POI) (ie si la cassette d'expression (Exp-POI) code pour la chaîne lourde, la cassette d'expression (Exp-POI) POI') encode la chaîne légère et vice versa). Ainsi, une molécule d'immunoglobuline fonctionnelle (ou un fragment de celle-ci) peut être exprimée à partir du vecteur.

Il est préféré que la chaîne lourde ou un fragment fonctionnel de celle-ci soit exprimé à partir de la cassette d'expression (Exp-POI) et soit ainsi, dans une certaine mesure, exprimé en tant que polypeptide de fusion. La chaîne légère correspondante ou un fragment fonctionnel de celle-ci est selon un mode de réalisation exprimé à partir d'une cassette d'expression (Exp-POI'). Ladite cassette d'expression (Exp-POI') peut être localisée sur le même acide nucléique vecteur. Cependant, il peut également être situé sur un acide nucléique vecteur séparé. Cependant, il est préférable que les cassettes d'expression (Exp-POI) et (Exp-POI') soient situées sur un seul acide nucléique vecteur. Il est également possible d'exprimer les deux chaînes (la chaîne lourde et la chaîne légère correspondante) à partir d'une cassette d'expression. Par exemple. ils peuvent être exprimés sous la forme d'un polypeptide de fusion comprenant un signal d'auto-épissage ou un site sensible à la protéase afin d'obtenir deux chaînes séparées. Une configuration bi- ou multicistronique est également possible, dans laquelle deux polypeptides ou plus (POI et POI') sont obtenus à partir d'un ARNm qui peut comprendre par ex. un ou plusieurs sites d'entrée ribosomiques internes.

Selon un mode de réalisation, il est proposé un acide nucléique vecteur pour exprimer au moins une molécule d'immunoglobuline ou un fragment fonctionnel de celle-ci, comprenant une cassette d'expression (Exp-POI) comprenant un premier polynucléotide codant pour la chaîne lourde d'une molécule d'immunoglobuline ou un fragment fonctionnel de celle-ci. , au moins un codon d'arrêt en aval du premier polynucléotide, et un deuxième polynucléotide en aval du codon d'arrêt codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci et une cassette d'expression supplémentaire (Exp-POI') comprenant un polynucléotide codant pour la chaîne légère correspondante d'une molécule d'immunoglobuline ou d'un fragment fonctionnel de celle-ci.

De préférence, la cassette d'expression (Exp-POI) comprend la chaîne lourde et les deux cassettes d'expression (Exp-POI) et (Exp-POI') sont disposées dans la même orientation. De préférence, la cassette d'expression (Exp-POI') est disposée en 5' de la cassette d'expression (Exp-POI). Disposer la cassette d'expression de la chaîne légère en 5' sur la cassette d'expression de la chaîne lourde s'est avéré bénéfique en ce qui concerne le taux d'expression des molécules d'immunoglobuline. Selon un mode de réalisation, il est également destiné à concevoir le vecteur d'expression de telle sorte que la ou les cassettes d'expression comprennent déjà l'ancre transmembranaire d'immunoglobuline et le au moins un codon stop fuite (par exemple compris dans une séquence de bourrage) et, éventuellement, à au moins une partie des régions constantes d'une molécule d'immunoglobuline. Les fragments codant pour les parties variables des molécules d'immunoglobulines peuvent ensuite être insérés par l'utilisateur/client dans les cassettes d'expression en utilisant des stratégies de clonage appropriées afin d'obtenir le vecteur d'expression final.

Des exemples non limitatifs de gènes marqueurs sélectionnables de mammifères qui peuvent être compris dans la cassette d'expression (Exp-MSM) comprennent des gènes de résistance aux antibiotiques, par ex. conférant une résistance au G418 hygromycine (hyg ou hph, disponible dans le commerce auprès de Life Technologies, Inc. Gaithesboro, Md.) néomycine (neo, disponible dans le commerce auprès de Life Technologies, Inc. Gaithesboro, Md.) zéocine (Sh Ble, disponible dans le commerce auprès de Pharmingen, San Diego Calif.) puromycine (pac, puromycine-N-acétyl-transférase, disponible auprès de Clontech, Palo Alto Calif.), ouabaïne (oua, disponible auprès de Pharmingen) et blasticidine (disponible auprès d'Invitrogen). Lesdits gènes marqueurs sélectionnables de mammifères permettent la sélection de cellules hôtes de mammifères comprenant lesdits gènes et donc de cellules hôtes comprenant le vecteur. Le terme « gène » tel qu'utilisé ici se réfère non seulement à la séquence codante du gène de type sauvage mais se réfère également à une séquence d'acide nucléique codant pour un variant fonctionnel du marqueur sélectionnable fournissant la résistance souhaitée. Par conséquent, des versions tronquées ou mutées d'un gène de type sauvage sont également englobées tant qu'elles fournissent la résistance souhaitée. Le gène marqueur sélectionnable de mammifère comprend de préférence des éléments régulateurs étrangers tels que par ex. un promoteur constitutif fort. Selon un mode de réalisation préféré, ladite cassette d'expression (Exp-MSM) comprend un gène codant pour une néomycine phosphotransférase à fonction enzymatique (I ou II) qui comprend de préférence des éléments régulateurs étrangers tels que par ex. un promoteur constitutif fort tel que le promoteur SV40. Ce mode de réalisation fonctionne bien en combinaison avec l'utilisation d'un gène codant pour une DHFR fonctionnelle enzymatique en tant que gène marqueur sélectionnable amplifiable de mammifère.

Les gènes marqueurs sélectionnables amplifiables de mammifères incorporés dans la cassette d'expression (Exp-MASM) permettent la sélection de cellules hôtes contenant le vecteur ainsi que l'amplification génique. Un exemple non limitatif d'un gène marqueur sélectionnable amplifiable de mammifère est le gène de la dihydrofolate réductase (DHFR) codant pour l'enzyme DHFR. Le gène marqueur sélectionnable amplifiable de mammifère comprend de préférence des éléments régulateurs étrangers tels que par ex. un promoteur constitutif fort. D'autres systèmes actuellement utilisés sont entre autres le système glutamine synthetase (gs) (Bebbington et al., 1992) et le système de sélection dirigé par l'histidinol (Hartmann et Mulligan, 1988). Ces marqueurs amplifiables sont également des marqueurs sélectionnables et peuvent donc être utilisés pour sélectionner les cellules qui ont obtenu le vecteur. La DHFR et la glutamine synthétase donnent de bons résultats. Dans les deux cas, la sélection se produit en l'absence du métabolite approprié (hypoxanthine et thymidine dans le cas de la DHFR, glutamine dans le cas de la GS), empêchant la croissance des cellules non transformées. Avec des systèmes amplifiables tels que le système DHFR, l'expression d'une protéine recombinante peut être augmentée en exposant les cellules à certains agents favorisant l'amplification génique tels que par ex. méthotrexate (MTX) dans le cas du système DHFR. Par exemple. la séquence codante du gène DHFR de type sauvage ou d'un mutant DHFR permettant par ex. une sélection de lignées cellulaires dhfr+ peut être utilisée. Un inhibiteur approprié pour l'amplification du gène favorisant la GS est la méthionine sulfoximine (MSX). L'exposition au MSX entraîne également une amplification génique.

Selon un mode de réalisation, ladite cassette d'expression (Exp-MASM) comprend un gène codant pour une dihydrofolate réductase (DHFR) à fonction enzymatique qui est de préférence utilisée en association avec le promoteur SV40.

En conséquence, des acides nucléiques vecteurs sont proposés dans lesquels les cassettes d'expression comprennent au moins un promoteur et/ou un élément promoteur/amplificateur. Bien que les frontières physiques entre ces deux éléments de contrôle ne soient pas toujours claires, le terme « promoteur » fait généralement référence à un site sur la molécule d'acide nucléique auquel une ARN polymérase et/ou tout facteur associé se lie et auquel la transcription est initiée. Les amplificateurs potentialisent l'activité du promoteur, aussi bien dans le temps que dans l'espace. De nombreux promoteurs sont transcriptionnellement actifs dans un large éventail de types cellulaires. Les promoteurs peuvent être divisés en deux classes, ceux qui fonctionnent de manière constitutive et ceux qui sont régulés par induction ou dérépression. Les promoteurs utilisés pour la production à haut niveau de protéines dans les cellules de mammifères doivent être puissants et de préférence actifs dans une large gamme de types cellulaires. Les promoteurs constitutifs forts qui entraînent l'expression dans de nombreux types de cellules comprennent, sans s'y limiter, le promoteur tardif majeur de l'adénovirus, le promoteur précoce immédiat du cytomégalovirus humain, le promoteur du virus SV40 et du sarcome de Rous, et le promoteur murin 3-phosphoglycérate kinase, EF1a. De bons résultats sont obtenus avec le vecteur d'expression de la présente invention lorsque le promoteur et/ou l'amplificateur sont soit obtenus à partir du CMV et/ou du SV40.

Selon un mode de réalisation, la ou les cassettes d'expression pour exprimer le ou les polypeptides d'intérêt comprennent un ou des promoteurs et/ou amplificateurs plus forts que les cassettes d'expression pour exprimer les marqueurs sélectionnables. Cet arrangement a pour effet de générer plus de transcrit pour le polypeptide d'intérêt que pour les marqueurs de sélection. Il est avantageux que la production du polypeptide d'intérêt sécrété soit dominante sur la production des marqueurs de sélection, car la capacité cellulaire individuelle à produire des protéines hétérologues n'est pas illimitée et doit donc être focalisée sur le polypeptide d'intérêt.

Selon un mode de réalisation, les cassettes d'expression (Exp-POI) et (Exp-POI') (si présentes) qui est/sont utilisées pour exprimer le polypeptide d'intérêt comprennent un promoteur/amplificateur CMV comme éléments régulateurs. Les cassettes d'expression (Exp-MSM) et (Exp-MASM), qui expriment de préférence les gènes marqueurs DHFR et néomycine, comprennent un promoteur SV40 ou un promoteur/amplificateur SV40. Le promoteur CMV est connu pour être l'un des promoteurs les plus puissants disponibles pour l'expression chez les mammifères et conduit à un très bon taux d'expression. On considère qu'il donne significativement plus de transcrit que le promoteur SV40.

La plupart des ARNm naissants eucaryotes possèdent une queue poly A à leur extrémité 3' qui est ajoutée au cours d'un processus complexe qui implique le clivage du transcrit primaire et une réaction de polyadénylation couplée. La queue polyA est avantageuse pour la stabilité et la transférabilité de l'ARNm. Ainsi, les cassettes d'expression du vecteur selon la présente invention comprennent généralement un site de polyadénylation. Il existe plusieurs signaux polyA efficaces qui peuvent être utilisés dans des vecteurs d'expression mammifères, y compris ceux dérivés de l'hormone de croissance bovine (bgh), de la bêta-globine de souris, de l'unité de transcription précoce SV40 et du gène de la thymidine kinase du virus Herpes simplex. Cependant, des sites de polyadénylation synthétiques sont également connus (voir par exemple le vecteur d'expression pCl-neo de Promega qui est basé sur Levitt et al, 1989, Genes Dev. 3, (7) : 1019-1025). Le site de polyadénylation peut être choisi dans le groupe constitué par le site SV40polyA, tel que le site poly-A tardif et précoce de SV40 (voir par exemple le plasmide pSV2-DHFR tel que décrit dans Subramani et al, 1981, Mol. Cell. Biol. 854-864 ), un site polyA synthétique (voir par exemple le vecteur d'expression pCl-neo de Promega qui est basé sur Levitt el al, 1989, Genes Dev. 3, (7) : 1019-1025) et un site bgh polyA (hormone de croissance bovine) .

De plus, les cassettes d'expression peuvent comprendre un site de terminaison de transcription approprié. Ceci, comme la poursuite de la transcription à partir d'un promoteur en amont à travers une seconde unité de transcription, peut inhiber la fonction du promoteur en aval, un phénomène connu sous le nom d'occlusion de promoteur ou d'interférence transcriptionnelle. Cet événement a été décrit chez les procaryotes et les eucaryotes. Le placement correct des signaux de terminaison transcriptionnelle entre deux unités de transcription peut empêcher l'occlusion du promoteur. Les sites de terminaison de transcription sont bien caractérisés et leur incorporation dans des vecteurs d'expression s'est avérée avoir de multiples effets bénéfiques sur l'expression des gènes.

Les cassettes d'expression peuvent comprendre un activateur (voir ci-dessus) et/ou un intron. Selon un mode de réalisation, la ou les cassettes d'expression pour exprimer le polypeptide d'intérêt comprennent un intron. La plupart des gènes des eucaryotes supérieurs contiennent des introns qui sont éliminés lors du traitement de l'ARN. Les constructions génomiques sont exprimées plus efficacement dans les systèmes transgéniques que les constructions identiques dépourvues d'introns. Habituellement, les introns sont placés à l'extrémité 5' du cadre de lecture ouvert. En conséquence, un intron peut être compris dans la ou les cassettes d'expression pour exprimer le ou les polypeptides d'intérêt afin d'augmenter le taux d'expression. Ledit intron peut être situé entre le promoteur et/ou le ou les éléments promoteurs/amplificateurs et l'extrémité 5' du cadre de lecture ouvert du polypeptide à exprimer. Par conséquent, un acide nucléique vecteur est fourni, dans lequel au moins la cassette d'expression (Exp-POI) comprend un intron qui est disposé entre le promoteur et le codon d'initiation du polynucléotide pour exprimer le polypeptide d'intérêt. Plusieurs introns appropriés sont connus dans l'état de la technique et peuvent être utilisés conjointement avec la présente invention.

Selon un mode de réalisation, l'intron utilisé dans les cassettes d'expression pour exprimer les polypeptides d'intérêt, est un intron synthétique tel que l'intron SIS ou RK. L'intron RK est un intron synthétique fort qui est de préférence placé avant le codon d'initiation ATG du gène d'intérêt. L'intron RK se compose du site d'épissage donneur d'intron du promoteur CMV et du site d'épissage accepteur de la région variable de la chaîne lourde IgG de souris (voir par exemple Eaton et al., 1986, Biochemistry 25, 8343-8347, Neuberger et al., 1983 , EMBO J. 2(8), 1373-1378, il peut être obtenu à partir du vecteur pRK-5 (BD PharMingen)).

De manière surprenante, le placement d'un intron à l'extrémité 3' du cadre de lecture ouvert du gène DHFR a des effets avantageux sur le taux d'expression/amplification de la construction. L'intron utilisé dans la cassette d'expression DHFR conduit à un plus petit variant non fonctionnel du gène DHFR (Grillari et al., 2001, J. Biotechnol. 87, 59-65). Ainsi, le niveau d'expression du gène DHFR est abaissé. Cela conduit à une sensibilité accrue pour le MTX et à des conditions de sélection plus strictes. En conséquence, un acide nucléique vecteur est fourni, dans lequel la cassette d'expression (MASM) comprend un intron qui est situé en 3' du gène marqueur sélectionnable amplifiable. Un intron approprié peut être obtenu à partir du vecteur pSV2-DHFR (voir par exemple ci-dessus).

Ledit vecteur peut comprendre au moins une cassette d'expression supplémentaire (Exp-PSM) comprenant un gène marqueur sélectionnable procaryote. Ladite cassette d'expression (Exp-PSM) peut être située entre les cassettes d'expression (Exp-MSM) et (Exp-MASM). Ledit marqueur sélectionnable peut fournir une résistance aux antibiotiques tels que par ex. ampicilline, kanamycine, tétracycline et/ou chloramphénicol. Ladite cassette d'expression (Exp-PSM) est de préférence disposée dans la même orientation 5' à 3' que les autres cassettes d'expression (Exp-POI), (Exp-MSM) et (Exp-MASM).

Selon un mode de réalisation, la cassette d'expression (Exp-POI) et/ou (Exp-POI') comprise dans le vecteur comprend en outre un polynucléotide (Pn-TAG) codant pour un marqueur d'affinité situé en aval de l'au moins un arrêt codon qui est situé en aval du premier polynucléotide et dans lequel ledit polynucléotide (Pn-TAG) est situé en amont du second polynucléotide codant pour une ancre transmembranaire d'immunoglobuline et/ou un polynucléotide (Pn-MARKER) codant pour un marqueur sélectionnable.

Les avantages sont décrits ci-dessus.

L'acide nucléique vecteur peut être transfecté dans la cellule hôte sous sa forme circulaire. Les molécules de vecteur superenroulées seront généralement converties en molécules linéaires dans le noyau en raison de l'activité des endo- et exonucléases. Cependant, la linéarisation de l'acide nucléique vecteur avant la transfection améliore souvent l'efficacité d'une transfection stable. Ceci également en tant que point de linéarisation peut être contrôlé si le vecteur est linéarisé avant la transfection.

Par conséquent, selon un mode de réalisation de la présente invention, le vecteur d'expression comprend un site de restriction prédéfini, qui peut être utilisé pour la linéarisation de l'acide nucléique du vecteur avant la transfection. Le placement intelligent dudit site de restriction de linéarisation est important, car ledit site de restriction détermine où l'acide nucléique vecteur est ouvert/linéarisé et détermine ainsi l'ordre/l'agencement des cassettes d'expression lorsque la construction est intégrée dans le génome de l'eucaryote, en particulier des mammifères. cellule.

En conséquence, l'acide nucléique vecteur peut comprendre un site de restriction de linéarisation pour linéariser le vecteur, ledit site de restriction de linéarisation étant situé entre les cassettes d'expression (Exp-MSM) et (Exp-MASM). De préférence, ledit site de restriction de linéarisation est unique et n'est présent qu'une seule fois dans l'acide nucléique du vecteur d'expression. Par exemple. un site de restriction de linéarisation peut être utilisé qui est reconnu par une enzyme de restriction ayant une faible fréquence de coupure afin de souligner que le vecteur n'est clivé qu'au niveau du site de restriction de linéarisation mais pas (ou seulement rarement), par ex. dans la ou les cassettes d'expression ou le squelette du vecteur. Cela peut par ex. être encouragés en fournissant un site de restriction pour une enzyme de restriction ayant une séquence de reconnaissance de plus de six paires de bases ou qui reconnaît des séquences sous-représentées dans l'ADN chromosomique. Un exemple approprié est l'enzyme Swal et le vecteur peut donc incorporer un site de reconnaissance Swal comme site de restriction de linéarisation unique. Dans le cas où ledit site de restriction de linéarisation est présent plus d'une fois dans la séquence d'acide nucléique du vecteur (y compris les polynucléotides codant pour le polypeptide d'intérêt), ou dans le cas où une enzyme de restriction est utilisée qui coupe plusieurs fois la séquence d'acide nucléique du vecteur, il est également dans le cadre de la présente invention, par exemple altérer/muter les sites de restriction en plus du site de restriction de linéarisation qui est situé entre les cassettes d'expression (Exp-MSM) et (Exp-MASM), afin d'éliminer ces sites de restriction supplémentaires et d'obtenir un site de restriction de linéarisation unique ou au moins rare .

Dans le cas où le vecteur est utilisé comme vecteur d'expression standard, par ex.en tant qu'outil pour l'expression de plusieurs polypeptides différents, il est avantageux de fournir un site de restriction de linéarisation comprenant de multiples sites de reconnaissance pour des enzymes ayant une faible fréquence de coupure. Les enzymes de restriction choisies pour la linéarisation ne doivent de préférence pas couper dans les cassettes d'expression pour les marqueurs sélectionnables ou d'autres séquences de squelette de vecteur afin de garantir que l'enzyme ne coupe qu'une seule fois pour une linéarisation correcte du vecteur. En fournissant un site de restriction de linéarisation comprenant plusieurs sites de reconnaissance pour les enzymes de restriction ayant une faible fréquence de coupure, l'utilisateur peut choisir une enzyme de restriction appropriée pour la linéarisation parmi les options fournies afin d'éviter en toute sécurité la restriction dans le polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt. Cependant, comme indiqué ci-dessus, des sites de restriction supplémentaires peuvent être mutés ou une digestion de restriction partielle peut être effectuée.

Le fait de placer le site de restriction de linéarisation entre la cassette d'expression (Exp-MSM) et la cassette d'expression (Exp-MASM) a pour effet que la cassette d'expression (Exp-POI) (et d'autres cassettes d'expression pour exprimer les polypeptides d'intérêt - le cas échéant ) est encadré en 5' par la cassette d'expression (Exp-MASM). La cassette d'expression (Exp-MSM) est située en 3' de la cassette d'expression (Exp-POI) lors de la linéarisation. Ainsi, les cassettes d'expression (MSM) et (MASM) sont séparées lors de la linéarisation de l'acide nucléique vecteur circulaire. Si une cassette d'expression (Exp-PSM) d'un marqueur de sélection bactérienne est présente (voir ci-dessous), le site de restriction de linéarisation est de préférence placé entre les cassettes d'expression (Exp-PSM) et (Exp-MASM). Ceci a pour effet que le gène marqueur de sélection bactérienne est en 3' et donc "à l'extérieur" des parties "mammifères" de l'acide nucléique vecteur linéarisé. Cet arrangement est favorable car les gènes bactériens ne sont vraisemblablement pas avantageux pour l'expression des mammifères, car les séquences bactériennes peuvent conduire à une méthylation accrue ou à d'autres effets de silençage dans les cellules de mammifères.

Le polypeptide d'intérêt n'est pas limité à une protéine ou un groupe de protéines particulier, mais peut au contraire être toute protéine, de toute taille, fonction ou origine, que l'on souhaite sélectionner et/ou exprimer par les méthodes décrites ici. En conséquence, plusieurs polypeptides d'intérêt différents peuvent être exprimés/produits. Le terme polypeptide fait référence à une molécule comprenant un polymère d'acides aminés liés entre eux par une ou des liaisons peptidiques. Les polypeptides comprennent des polypeptides de n'importe quelle longueur, y compris des protéines (par exemple ayant plus de 50 acides aminés) et des peptides (par exemple 2 à 49 acides aminés). Les polypeptides comprennent des protéines et/ou des peptides de toute activité ou bioactivité, y compris par ex. des polypeptides bioactifs tels que des protéines ou des peptides enzymatiques (par exemple, des protéases, des kinases, des phosphatases), des protéines ou des peptides récepteurs, des protéines ou des peptides transporteurs, des protéines de liaison bactéricides et/ou des endotoxines, des protéines ou peptides de structure, des polypeptides immunitaires, des toxines, des antibiotiques, des hormones, facteurs de croissance, vaccins ou similaires. Ledit polypeptide peut être choisi dans le groupe constitué par les hormones peptidiques, les interleukines, les activateurs tissulaires du plasminogène, les cytokines, les immunoglobulines, notamment les anticorps ou fragments d'anticorps ou leurs variants.

Telle qu'utilisée ici, une "molécule d'immunoglobuline" comme exemple de polypeptide d'intérêt se réfère à une protéine comprenant un ou plusieurs polypeptides substantiellement ou partiellement codés par des gènes d'immunoglobuline ou des fragments de gènes d'immunoglobuline, par ex. g., un fragment contenant une ou plusieurs régions déterminant la complémentarité (CDR). Les gènes d'immunoglobuline reconnus comprennent les gènes de région constante kappa, lambda, alpha, gamma, delta, epsilon et mu, ainsi qu'une myriade de gènes de région variable d'immunoglobuline. Les chaînes légères sont généralement classées e. g. comme kappa ou lambda.

Les chaînes lourdes sont généralement classées e. g. comme gamma, mu, alpha, delta ou epsilon, qui définissent à leur tour les classes d'immunoglobulines, IgG, IgM, IgA, IgD et IgE, respectivement. Ladite immunoglobuline peut être de tout isotype. Très souvent, des molécules d'IgG (par exemple IgG1) sont produites/nécessaires en tant que protéines thérapeutiques. Une unité structurelle typique d'immunoglobuline (anticorps) comprend un tétramère. Dans la nature, chaque tétramère est composé de deux paires identiques de chaînes polypeptidiques, chaque paire ayant une chaîne "légère" (environ 25 kD) et une chaîne "lourde" (environ 50-70 kD). L'extrémité N-terminale de chaque chaîne définit une région variable d'environ 100 à 110 acides aminés ou plus principalement responsables de la reconnaissance de l'antigène. Les termes chaîne légère variable (VL) et chaîne lourde variable (VH) désignent respectivement ces chaînes légères et lourdes.

Les anticorps existent sous forme d'immunoglobulines intactes ou sous forme d'un certain nombre de fragments bien caractérisés qui peuvent, par ex. être produit par digestion avec diverses peptidases. Un fragment d'anticorps est tout fragment d'un anticorps comprenant au moins 20 acides aminés dudit anticorps entier, de préférence au moins 100 acides aminés qui ont au moins encore une capacité de liaison à l'antigène. Le fragment d'anticorps peut comprendre la région de liaison de l'anticorps telle qu'un fragment Fab, un fragment F(ab)2, des multicorps comprenant de multiples domaines de liaison tels que des diacorps, des tricorps ou des tétracorps, des anticorps à domaine unique ou des affibodies. Un variant d'anticorps est un dérivé d'un anticorps ou d'un fragment d'anticorps ayant la même fonction de liaison mais par ex. une séquence d'acides aminés modifiée. Ledit anticorps et/ou fragment d'anticorps peut comprendre une chaîne légère murine, une chaîne légère humaine, une chaîne légère humanisée, une chaîne lourde humaine et/ou une chaîne lourde murine ainsi que des fragments actifs ou dérivés de ceux-ci. Par conséquent, il peut être par ex. murin, humain, chimérique ou humanisé. Bien que divers fragments d'anticorps soient définis en termes de digestion d'un anticorps intact, l'homme du métier appréciera que de tels fragments Fab' ou F(ab)2 peuvent être synthétisés de novo soit chimiquement, soit en utilisant la méthodologie de l'ADN recombinant, la présentation peptidique ou le semblable. Ainsi, le terme anticorps, tel qu'utilisé ici, comprend également des fragments d'anticorps soit produits par la modification d'anticorps entiers, soit synthétisés de novo en utilisant des méthodologies d'ADN recombinant. Les anticorps comprennent également des anticorps monoclonaux composites à une seule branche, des anticorps à une seule chaîne, y compris des anticorps à une seule chaîne Fv(scFv) dans lesquels une chaîne lourde variable et une chaîne légère variable sont réunies (directement ou par l'intermédiaire d'un lieur peptidique) pour former un polypeptide continu, comme ainsi que les diabodies, les tribodies et les tetrabodies (voir par exemple Pack et al. J Mol Biol. 1995 Feb. 10 246(1):28-34 Pack et al. Biotechnology (NY). 1993 November 11(11):1271-7 Pack & Plueckthun Biochemistry, 18 février 1992 31(6):1579-84). Les anticorps sont e. ex., fragments Fab polyclonaux, monoclonaux, chimériques, humanisés, à chaîne unique, Fab à chaîne unique (Hust et al., BMC Biotechnol (2007) 7:14), fragments produits par une bibliothèque d'expression Fab, ou similaires.

Les polypeptides produits conformément à l'invention peuvent être récupérés par des procédés connus dans l'art. Par exemple, le polypeptide peut être récupéré du milieu nutritif par des procédures conventionnelles comprenant, mais sans s'y limiter, la centrifugation, la filtration, l'ultrafiltration, l'extraction ou la précipitation. La purification peut être effectuée par une variété de procédures connues dans l'art, y compris, mais sans s'y limiter, la chromatographie (par exemple, échange d'ions, affinité, hydrophobe, chromatofocalisation et exclusion de taille), les procédures électrophorétiques (par exemple, focalisation isoélectrique préparative), la solubilité différentielle ( par exemple, précipitation au sulfate d'ammonium) ou extraction. De plus, le polypeptide peut être obtenu à partir des cellules hôtes par rupture cellulaire.

L'invention concerne également un procédé de production d'un acide nucléique vecteur tel que décrit ci-dessus comprenant l'étape d'assemblage d'au moins une cassette (Cas-POI), de préférence une cassette d'expression (Exp-POI), dans un vecteur tel que ladite cassette comprend un premier polynucléotide (Pn-POI) codant pour le polypeptide d'intérêt, au moins un codon stop en aval du premier polynucléotide, et un second polynucléotide en aval du codon stop codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel. Ledit procédé peut comprendre en outre l'assemblage d'une cassette d'expression (Exp-MSM) comprenant un gène marqueur sélectionnable de mammifère, une cassette d'expression (Exp-MASM) comprenant un gène marqueur sélectionnable amplifiable de mammifère, de préférence de telle sorte que la cassette d'expression (Exp-MASM) soit situé en 5' et la cassette d'expression (Exp-MSM) est située en 3' de la cassette d'expression (Exp-POI) et dans lequel les cassettes d'expression (Exp-MASM), (Exp-POI) et (Exp-MSM) sont disposées en la même orientation de 5' à 3'.

Est également fournie une cellule eucaryote, de préférence une cellule hôte de mammifère qui est obtenue par le procédé de criblage décrit ci-dessus. L'invention concerne également un eucaryote, de préférence une cellule hôte de mammifère qui comprend une cassette (Cas-POI) comprenant un polynucléotide hétérologue et donc étranger codant pour un polypeptide d'intérêt, au moins un codon stop en aval dudit polynucléotide hétérologue et un polynucléotide en aval du un codon codant pour une ancre transmembranaire d'immunoglobuline ou un variant fonctionnel de celle-ci. La cassette (Cas-POI) peut être introduite par ex. par l'acide nucléique vecteur selon la présente invention. De préférence, la cassette (Cas-POI) et/ou la cassette (Cas-POI') est une cassette d'expression.

D'autres caractéristiques de la cassette (Cas-POI) et des détails des vecteurs appropriés sont décrits ci-dessus et s'appliquent également à la cellule hôte de la présente invention. Des cellules hôtes eucaryotes appropriées sont décrites ci-dessus. De préférence, la cellule hôte eucaryote est une cellule hôte de mammifère. Selon un mode de réalisation, la cellule hôte eucaryote n'est pas une cellule B ou un dérivé de cellule B. En conséquence, la cellule hôte eucaryote, de préférence mammifère, est une cellule hôte qui n'exprime pas naturellement les chaînes réceptrices Ig alpha et Ig bêta. Par ailleurs, selon un mode de réalisation, aucune co-expression artificielle de la chaîne réceptrice Ig alpha et Ig bêta ne se produit dans ladite cellule hôte. Les cellules CHO sont des cellules hôtes préférées.

L'invention concerne également un procédé de production d'une cellule hôte eucaryote tel que décrit ci-dessus, dans lequel la cellule hôte eucaryote est transfectée avec l'acide nucléique vecteur selon la présente invention et/ou un acide nucléique hétérologue comprenant une cassette (Cas-POI) selon la présente invention. Il existe plusieurs procédés appropriés connus dans l'art antérieur pour introduire un vecteur d'expression dans une cellule hôte de mammifère. Les procédés respectifs comprennent, mais sans s'y limiter, la transfection au phosphate de calcium, l'électroporation, la lipofection, le transfert de gènes à médiation biologique et polymère. Outre les méthodes traditionnelles basées sur l'intégration aléatoire, des approches à médiation par recombinaison peuvent également être utilisées pour transférer la cassette (Cas-POI) dans le génome de la cellule hôte. De telles méthodes de recombinaison peuvent inclure l'utilisation de recombinases spécifiques de site telles que Cre, Flp ou .PHI.C31 (voir par exemple Oumard et al, Cytotechnology (2006) 50 : 93-108) qui peuvent médier l'insertion dirigée de transgènes. Alternativement, le mécanisme de recombinaison homologue pourrait être utilisé pour insérer la cassette (Cas-POI) (examiné dans Sorrell et al, Biotechnology Advances 23 (2005) 431-469). L'insertion de gènes basée sur la recombinaison permet de minimiser le nombre d'éléments à inclure dans l'acide nucléique hétérologue qui est transféré/introduit dans la cellule hôte. Par exemple, un locus d'insertion peut être utilisé qui fournit déjà un promoteur et un site poly-A (exogène ou endogène) de telle sorte que seuls les éléments restants (par exemple, le polynucléotide d'intérêt, le codon d'arrêt et le polynucléotide codant pour une ancre transmembranaire d'immunoglobuline d'un fragment fonctionnel de celui-ci) doit être transféré/transfecté dans la cellule hôte. Même le transfert de parties de la cassette (Cas-POI) serait suffisant si les parties manquantes étaient présentes au site d'insertion. Des modes de réalisation d'un vecteur d'expression approprié selon la présente invention ainsi que des cellules hôtes appropriées et des polypeptides d'intérêt sont décrits en détail ci-dessus, nous nous référons à la description ci-dessus.

Est également fourni un polypeptide obtenu par un procédé selon la présente invention tel que défini ci-dessus et dans les revendications. Ledit polypeptide est de préférence une molécule d'immunoglobuline ou un fragment de celle-ci. Les polypeptides produits selon les procédés de la présente invention présentent de bonnes propriétés de stabilité. Les résultats montrent également que les polypeptides sont exprimés sous une forme fonctionnelle et donc dans la bonne conformation. En conséquence, l'invention propose également des polypeptides obtenus par le procédé de production selon la présente invention en utilisant le vecteur d'expression décrit en détail ci-dessus. Comme indiqué ci-dessus, les polypeptides sont obtenus avec un bon rendement grâce à l'étape de sélection/criblage incorporée. Le polypeptide est de préférence une molécule d'immunoglobuline telle qu'un anticorps ou un fragment de celui-ci.

L'invention est en outre illustrée par les exemples non limitatifs suivants, qui décrivent cependant des modes de réalisation préférés de l'invention.

Exemple 1 : Construction vectorielle de la version transmembranaire d'Ig

Un fragment d'ADN synthétique de 1113 pb codant pour une partie de la région de chaîne lourde constante d'IgG1, plus le bourreur de codon d'arrêt qui fuit et le domaine transmembranaire et cytoplasmique d'Ig est inséré dans pBW201 (un vecteur standard contenant une chaîne lourde d'IgG1 et une chaîne légère kappa) via Age1 et Asc1 générant pNT11 (voir tableau 1). La séquence nucléotidique du domaine transmembranaire Ig utilisé est montrée dans SEQ ID No : 1, le bourrage de codon stop qui fuit est indiqué. Bien entendu, des variantes du domaine transmembranaire d'Ig codé peuvent également être utilisées selon les principes de la présente invention qui assurent la même fonction d'ancrage membranaire. Lesdits variants sont homologues du domaine transmembranaire Ig codé et peuvent par ex. être obtenu par substitution conservatrice d'acides aminés. Ils partagent de préférence au moins 80 %, 85 %, 90 % d'homologie. Polynucléotides codant pour des variants respectifs, par ex. s'hybrider à la séquence montrée dans des conditions stringentes.

Le gène marqueur de sélection wt DHFR de pNT11 et pBW201 peut être remplacé par un fragment synthétique de 1252 pb codant un mutant ponctuel L23P de DHFR via SwaI et BglII, générant ainsi pNT29 et pBW478. Le mutant DHFR permet la sélection de lignées cellulaires dhfr+.

Les vecteurs FACS (pNT11, pNT29) sont basés sur les vecteurs standards pour l'expression d'anticorps (pBW201, pBW478). pNT11 et pBW201 diffèrent de pNT29 et pBW478 dans la cassette de marqueur de sélection DHFR qu'ils portent. En dehors de cela, les épines dorsales sont identiques. Le vecteur a une configuration "en tandem" mono-cistronique et contient des cassettes d'expression de chaînes légères et lourdes d'anticorps, toutes deux pilotées par le promoteur/amplificateur CMV. La seule modification pour générer les vecteurs FACS était l'insertion d'un domaine transmembranaire et cytoplasmique IgGl 3' de l'ADNc de la chaîne lourde (HC) de l'anticorps. Un bourrage court avec un signal de terminaison de traduction qui fuit est placé entre HC et le domaine transmembranaire. L'environnement de séquence sélectionné pour le codon d'arrêt devrait conduire à une lecture jusqu'à 5 %. Les quatre vecteurs codent pour le même anticorps IgG humain.

Comme cela a été exposé ci-dessus, les acides nucléiques vecteurs utilisés pour l'expression et en particulier l'orientation et l'arrangement des éléments vecteurs choisis permettent l'expression très efficace des molécules d'immunoglobulines. Les vecteurs appropriés qui peuvent être utilisés en conjonction avec la présente invention et qui sont décrits ci-dessus sont illustrés dans le tableau suivant (les flèches indiquent l'orientation 5' à 3' des éléments génétiques) :

TABLE-US-00001 TABLEAU 1 Carte vectorielle pNT11 - "Vecteur FACS" CMVprom/enhan .fwdarw. RK-intron .fwdarw. mAB-LC .fwdarw. SV40polyA .fwdarw. CMV prom/enhan .fwdarw. RK-intron .fwdarw. mAB-HC .fwdarw. Stuffer + codon stop fuite domaine transmembranaire Ig et domaine cytoplasmique .fwdarw. SV40polyA .fwdarw. Région du phage f1 .fwdarw. SV40prom/enhan .fwdarw. Néo .fwdarw. Synthé polyA Amp .fwdarw. SV40prom/enhan .fwdarw. DHFR .fwdarw. SV40pA .fwdarw.

Les abréviations du tableau 1 ont la signification habituelle telle qu'elle apparaît à l'homme du métier et telle que décrite ci-dessus, et ont en particulier les significations suivantes : CMVprom/enh=human cytomegalovirus Immediate Early Promoter/Enhancer site d'épissage donneur du promoteur CMV et site d'épissage accepteur de la région variable de la chaîne lourde IgG de souris (voir par exemple Eaton et al., 1986, Biochemistry 25, 8343-8347, Neuberger et al., 1983, EMBO J. 2(8 ), 1373-1378 il peut être obtenu à partir du vecteur pRK-5 (BD PharMingen)) mAB-LC=chaîne légère d'anticorps monoclonal mAB-HC=chaîne lourde d'anticorps monoclonal SV40polyA=SV40 polyA site SV40prom/enhan=SV40 promoteur/enhancer Neo =néomycine phosphotransférase Synth polyA = site de polyadénylation synthétique Amp = gène de résistance aux antibiotiques bêta-lactamase DHFR = gène de la dihydrofolate réductase.

Exemple 2 : Transfection et sélection de cellules CHO

La culture cellulaire, la transfection et le criblage sont effectués dans des flacons agités en utilisant des cellules CHO en suspension dans un milieu de culture exclusif chimiquement défini. Les cellules sont soit transfectées par lipofection, soit par électroporation (nucléofection) en suivant les instructions du fabricant. L'efficacité de la transfection est vérifiée en transfectant un plasmide rapporteur GFP (protéine de fluorescence verte) et une analyse par cytométrie en flux des cellules transfectées. Selon la viabilité cellulaire, la sélection est lancée 24 à 48 h après la transfection en ajoutant du milieu sélectif contenant du G418 aux cellules. Dès que les cellules retrouvent une viabilité supérieure à 80 %, une deuxième étape de sélection est appliquée en faisant passer les cellules dans un milieu contenant du MTX (méthotrexate) exempt de G418. Après récupération des cellules de la sélection MTX, la culture est poursuivie dans un milieu contenant du MTX tout au long des cycles d'enrichissement FACS, de clonage FACS ou de clonage en dilution limitée et de criblage.

La viabilité et la croissance cellulaires sont surveillées à l'aide d'un système automatisé (ViCell, Beckmann Coulter).

Exemple 3 : Analyse FACS, enrichissement et clonage de cellules

Marquage des cellules : 2x10E7 cellules par pool transfecté sont centrifugées et lavées avec 5 mL de PBS réfrigéré (phosphate buffered saline) et remises en suspension dans 1 mL de PBS froid. Une quantité appropriée d'anticorps anti-IgG marqué au FITC (isothiocyanate de fluorescéine) est ajoutée aux cellules et incubée sur de la glace pendant 30 minutes à l'obscurité. Par la suite, les cellules sont lavées deux fois à température ambiante avec 5 ml de PBS, remises en suspension dans 1 ml de PBS, filtrées et distribuées dans un tube FACS pour analyse, tri et clonage.

Analyse, tri et clonage des cellules : Le tri cellulaire est réalisé avec un FACSAria (Becton Dickinson) équipé d'une Automatic Cell Deposition Unit (ACDU) à l'aide du logiciel FACSDiva. Un laser à semi-conducteur et refroidi à l'air de faible puissance (Coherent® Sapphire® solid state) réglé à 488 nm est utilisé pour exciter les colorants fluorescéine liés à l'anticorps secondaire. L'intensité relative de fluorescence FITC est mesurée sur le détecteur E à travers un filtre 530/30 BP. Cinq pour cent des cellules fluorescentes FITC les plus élevées sont bloquées et triées soit en bloc, soit en cellules individuelles dans des plaques à 96 puits.

Exemple 4 : Détermination de la productivité et de la stabilité clonales

La productivité des clones est analysée dans des expériences batch et fed batch utilisant différents formats. Le criblage initial des clones est effectué dans des dosages par lots de plaques de 24 puits en ensemençant des cellules dans des plaques de 24 puits secouées.Les concentrations d'anticorps dans le surnageant de culture cellulaire sont déterminées par HPLC protéine-A 10d après le démarrage de la culture. Les clones les plus producteurs sont également analysés dans des modèles de flacons agités en mode batch et fed batch. Les cultures en lots sont ensemencées dans un flacon à agitation 500 avec un volume de travail de 100 ml et sont cultivées dans une armoire à agitateur (non humidifiée) à 150 tr/min et 10 % de CO2. La viabilité des cellules doit être supérieure à 90 % au démarrage du test. La densité cellulaire d'ensemencement est de 2 x 105 c/mL. La concentration du produit/le nombre de cellules/la détermination de la viabilité ont eu lieu aux jours 3-7, 10 et 13. Les expériences de Fed batch sont effectuées dans les mêmes conditions mais avec une densité cellulaire de départ de 4 x 105 c/mL et avec ajout régulier d'aliments. La stabilité clonale est évaluée en cultivant les cellules sur une période de 14 semaines avec des mesures de productivité en utilisant le modèle de lot de flacons agités toutes les deux semaines.

Exemple 5 : Analyse de cellules transfectées de manière transitoire

Pour tester si des produits de traduction liés à la membrane sont présents à la surface cellulaire après transfection avec le nouveau vecteur FACS (ici pNT11 ou pNT29), les cellules transfectées de manière transitoire sont analysées par immunocoloration et cytométrie en flux. 48h après transfection, les cellules sont colorées avec un anticorps marqué FITC dirigé contre les IgG humaines. Les cellules transfectées avec un vecteur d'expression GFP sont utilisées comme contrôle de transfection, l'efficacité de transfection est calculée pour être d'environ 60 %. Les cellules non transfectées et les cellules transfectées avec le vecteur standard (ne comprenant pas de domaine transmembranaire) ne présentent pas de niveaux significatifs d'anticorps associés à la surface, tandis que 16 % des cellules transfectées avec le vecteur FACS sont colorées au-dessus du niveau de fond. Ceci montre que le peptide de fusion, ici une molécule d'anticorps, ancré à la membrane cellulaire peut être détecté à la surface cellulaire.

Exemple 6 : Analyse et enrichissement de cellules transfectées stables

Après avoir montré la présence d'anticorps liés à la membrane sur des cellules transfectées de manière transitoire, le niveau d'expression de surface et la distribution dans des pools sélectionnés de cellules transfectées sont analysés.

Ainsi, il peut être montré que les cellules productrices peuvent être enrichies sélectivement par tri FACS. Par conséquent, les cellules après transfection sont sélectionnées avec G418 et ensuite avec MTX. Les pools résultants de cellules résistantes sont colorés avec des anticorps anti-IgG marqués FITC et analysés par cytométrie en flux. A titre de contrôle, les cellules non transfectées sont colorées et analysées. Des sous-populations de cellules positives sont détectées dans les pools sélectionnés transfectés avec le vecteur FACS. La distribution des cellules positives différait ainsi entre les deux pools analysés. Pour évaluer si les cellules hautement productrices peuvent être enrichies en fonction de leur signal de fluorescence (et donc permettre une sélection quantitative), les cellules ayant l'intensité de fluorescence la plus élevée sont triées (top 5%) de chacun des deux pools et repiquées pour comparer la productivité avec le pool avant enrichissement.

Exemple 7 : Analyse de la productivité des cellules enrichies et non enrichies

Les analyses de productivité des pools sélectionnés avant et après l'enrichissement par cytométrie en flux sont effectuées dans des cultures par lots en flacons agités pour comparer la concentration du produit final au jour 13. Au jour 13, le surnageant est récolté et analysé pour la teneur en IgG par Protéine-A-HPLC. Les deux pools montrent une augmentation significative du niveau de production déjà après avoir effectué un cycle d'enrichissement FACS selon les enseignements de la présente invention. Alors que la concentration de produit pour le pool 1 augmente d'un facteur d'environ 2, le pool 2 augmente d'un facteur de près de 10, ce qui montre que les cellules hautement productrices sont détectées sélectivement pendant la coloration et le tri. Déjà dans le premier cycle d'enrichissement, des concentrations d'anticorps de près de 250 mg/l peuvent être obtenues.

Exemple 8 : Clonage sélectif basé sur la cytométrie en flux de cellules hautement productives

La cytométrie en flux peut être utilisée pour trier et ensemencer des cellules colorées individuelles en fonction de leur profil de coloration. Pour analyser si un tel clonage sélectif entraîne un nombre plus élevé de clones hautement producteurs que le clonage par dilution limite, des clones sont générés à l'aide des deux méthodes et la productivité est analysée dans des cultures par lots de plaques de 24 puits. Des cultures par lots dans des plaques à 24 puits sont effectuées et au jour 10, les surnageants sont récoltés et mesurés pour la teneur en IgG par Protéine-A-HPLC. Les résultats sont les suivants:

TABLE-US-00002 TABLEAU 2 Tri FACS versus dilution limitée (DL) 0-25 26-50 51-75 76-100 101-125 126-150 Méthode mg/l mg/l mg/l mg/l mg/l mg /l LD - 12 0 1 0 1 0 clones obtenus FACS - 2 2 2 2 0 1 clones obtenus

Les clones dérivés de la cytométrie en flux ont une productivité moyenne plus élevée par rapport aux clones dérivés de la dilution au chaulage, ce qui se reflète également dans la distribution clonale de la plage de productivité.

Exemple 9 : Comparaison du FACS et du vecteur standard

Pour confirmer l'effet bénéfique de l'enrichissement par cytométrie en flux des cellules transfectées et pour comparer l'utilisation du vecteur FACS (pNT29) avec un vecteur standard, les cellules sont transfectées et sélectionnées avec G418 et MTX. Trois pools cellulaires transfectés avec le vecteur FACS (échantillons 1, 2 et 3) et trois pools cellulaires transfectés avec le vecteur standard (échantillons 7, 9 et 9) sont analysés par cytométrie en flux et les 5% ayant le signal de coloration le plus élevé sont triés. Des cultures discontinues en flacons agités sont effectuées pour comparer l'augmentation de la concentration du produit après enrichissement. Les pools transfectés et sélectionnés sont colorés et triés par cytométrie en flux pour enrichir les 5 % supérieurs en fonction de l'intensité de fluorescence. Avant et après enrichissement, des cultures discontinues en flacons agités sont effectuées et après 13 jours, les surnageants sont analysés par Protéine-A-HPLC. Les résultats sont les suivants (environ) :

TABLE-US-00003 TABLEAU 3 Résultats obtenus avec le vecteur FACS Échantillon Concentration du produit Échantillon Concentration du produit Échantillon Concentration du produit Échantillon 1 10 mg/l Échantillon 2 40 mg/ml Échantillon 3 15 mg/ml Vecteur FACS, vecteur FACS, vecteur FACS, avant enrichissement avant avant enrichissement enrichissement Échantillon 1 55 mg/ml Échantillon 2 65 mg/ml Échantillon 3 95 mg/ml Vecteur FACS, vecteur FACS, vecteur FACS, 1er enrichissement 1er enrichissement 1er enrichissement Échantillon 1 100 mg/ml Échantillon 2 90 mg/ml Échantillon 3 155 mg/ml FACS 2ème vecteur FACS, vecteur FACS, enrichissement 2ème enrichissement 2ème enrichissement Échantillon 1 365 mg/ml Échantillon 2 340 mg/ml Échantillon 3 85 mg/ml Vecteur FACS, vecteur FACS, vecteur FACS, 3ème enrichissement 3ème enrichissement 3ème enrichissement

TABLE-US-00004 TABLEAU 4 Résultats obtenus avec le vecteur standard Echantillon Concentration du produit Echantillon Concentration du produit Echantillon Concentration du produit Echantillon 7 40 mg/l Echantillon 8 5 mg/ml Echantillon 9 5 mg/ml Standard Standard Vecteur standard, vecteur, avant vecteur, avant avant enrichissement enrichissement enrichissement Echantillon 7 55 mg/ml Echantillon 8 10 mg/ml Echantillon 9 2 mg/ml Standard Standard Standard vecteur, vecteur, 1er vecteur, 1er 1er enrichissement enrichissement enrichissement Echantillon 7 50 mg/ml Echantillon 8 12 mg/ml Échantillon 9 10 mg/ml Standard Standard Standard vecteur, 2ème vecteur d'enrichissement, 2ème 2ème enrichissement enrichissement Échantillon 7 25 mg/ml Échantillon 8 15 mg/ml Échantillon 9 10 mg/ml Standard Standard Vecteur standard, vecteur, 3ème vecteur, 3ème 3ème enrichissement enrichissement enrichissement

Comme le montrent les résultats, le niveau de production de cellules transfectées avec le vecteur FACS augmente significativement pour les trois pools testés, alors que dans le cas du vecteur standard, un seul pool a montré une augmentation significative de la concentration en produit. La moyenne des concentrations de produit après enrichissement avec le vecteur FACS est significativement plus élevée qu'avec le vecteur standard. Deux autres cycles d'enrichissement FACS séquentiels sont effectués pour enrichir les cellules hautement productrices, montrant que ce n'est que dans le cas du vecteur FACS que la productivité des populations cellulaires est augmentée. Enfin, les concentrations de produits peuvent être augmentées de 4 à 30 fois.

Pour comparer l'adéquation des deux vecteurs pour le clonage sélectif, les clones de pools non enrichis avec une productivité comparable sont sélectivement triés par cytométrie en flux. Par la suite, la productivité des clones est analysée dans des cultures batch de 24 puits. Les clones dérivés des pools transfectés par le vecteur FACS se sont avérés avoir un niveau d'expression moyen plus élevé que les clones provenant des pools transfectés par le vecteur standard. La distribution clonale de la productivité montre que dans le cas du vecteur FACS un nombre plus élevé de bons clones producteurs est obtenu (voir tableau 5) :

TABLE-US-00005 TABLEAU 5 Vecteur standard versus vecteur FACS (pNT29) 0-50 51-100 101-150 151-200 201-250 251-300 301-350 Méthode mg/l mg/l mg/l mg/l mg /l mg/l mg/ml Standard 31 7 0 2 0 1 0 vecteur FACS 21 20 4 4 4 2 1 vecteur

Exemple 10 : Autres comparaisons entre le vecteur FACS et les vecteurs d'expression standard

Les vecteurs pBW201, pNT11, pBW478 et pNT29 sont obtenus comme décrit dans l'exemple 1.

b) Transfection, sélection et clonage de cellules CHO

Cela se fait comme décrit dans l'exemple 2.

c) Analyse FACS, enrichissement et clonage de cellules

Cela se fait comme décrit dans l'exemple 3.

d) Détermination de la production d'anticorps et de la stabilité clonale

La productivité des clones et des pools est analysée dans des expériences batch et fed batch utilisant différents formats. Les pools avant et après l'enrichissement FACS sont analysés dans des dosages par lots de flacons agités en ensemençant 1 x 105 cellules par ml (c/ml) dans un volume de travail de 50 ml en utilisant des flacons agités d'une capacité de 250 ml. La teneur en IgG est analysée par HPLC Protéine-A à partir d'échantillons prélevés au jour 13 de la culture batch. Le criblage initial des clones est effectué dans des dosages par lots de plaques de 24 puits en ensemençant des cellules dans des plaques de 24 puits secouées. Les concentrations d'anticorps dans le surnageant de culture cellulaire sont déterminées par Protéine A-HPLC quantitative 10 jours après le début de la culture. Les clones les plus producteurs sont analysés dans des modèles de flacons agités en mode batch et fed batch. Les cultures discontinues sont ensemencées dans des flacons agités (capacité de 500 ml) avec un volume de travail de 100 ml et sont cultivées dans une armoire à agitateur (non humidifiée) à 150 tr/min, 36,5°C. C. et 10 % de CO2. La viabilité des cellules est supérieure à 90 % au démarrage du test. La densité cellulaire d'ensemencement est de 2 x 105 c/mL. Les concentrations d'anticorps, le nombre de cellules et la viabilité sont déterminés aux jours 3-7, 10 et 13. Les expériences de Fed batch sont effectuées en utilisant les mêmes conditions mais avec un temps d'exécution de 17 jours et avec une densité cellulaire de départ de 4x10'. 5 c/mL et avec un ajout régulier d'aliments à partir de densités de cellules viables supérieures à 7.10 6 c/mL. La stabilité clonale est évaluée en cultivant les cellules sur une période de 12 semaines avec des mesures de productivité en utilisant le modèle de lot de flacons agités toutes les deux semaines.

e) Analyse et enrichissement de cellules transfectées stables

L'expression de surface dans des populations cellulaires transfectées de manière stable est analysée pour tester si les cellules productrices peuvent être enrichies sélectivement par tri FACS. Par conséquent, les cellules après transfection sont sélectionnées avec G418 et ensuite avec MTX. Les pools résultants (10 par vecteur) de cellules résistantes sont colorés comme décrit ci-dessus et analysés par cytométrie en flux. Avec le protocole de coloration utilisé, des sous-populations de cellules positives ont pu être détectées à la fois dans les pools de cellules transfectées pBW478 et pNT29. Comme prévu, une proportion plus élevée de cellules FACS positives est trouvée avec le vecteur FACS.

Pour montrer que les cellules hautement productives peuvent être enrichies en fonction de leur signal de fluorescence, les cellules ayant l'intensité de fluorescence la plus élevée sont triées (top 5%) à partir des pools de cellules individuelles et sous-cultivées pour comparer la productivité avec le pool avant enrichissement. Un deuxième cycle d'enrichissement est effectué après expansion et mise en commun des populations cellulaires triées une fois. Le pourcentage de coloration des cellules positives a augmenté de manière surprenante le plus avec le vecteur standard dans le premier cycle d'enrichissement. Les pools transfectés avec le vecteur FACS ont montré des facteurs d'enrichissement similaires avec le protocole de coloration utilisé et généralement, une variation significative de pool à pool a été observée. Après le deuxième cycle d'enrichissement, des populations de cellules FACS positives presque homogènes sont obtenues (voir Tableau 6a et 6b).

Tableau 6a et 6b : Résultats de coloration moyens et productivités avant et après tri

TABLE-US-00006 TABLEAU 6a Analyse FACS des cellules colorées avant et après les cycles d'enrichissement FACS % de cellules au-dessus du fond pBW478 (vecteur de référence) pNT29 (vecteur FACS) Coloration FITC Pas de FACS 1x FACS 2x FACS Pas de FACS 1x FACS 2x FACS AVG 5.9 83,2 90,4 14,2 46,6 90,5 STDD 3,396403 15,80158 1,126795 8,974284 13,51148 1,422439 Tableau 6a : Les pools de cellules transfectées et sélectionnées ont été colorés pour les IgG de surface. Le pourcentage moyen de cellules colorées au-dessus du niveau de cellules non transfectées est indiqué. Avant enrichissement, un pourcentage plus élevé de cellules positives est trouvé avec le vecteur FACS. Après le premier cycle d'enrichissement des 5 % supérieurs, la proportion de cellules positives à la coloration était la plus élevée avec le vecteur standard. Après le deuxième cycle d'enrichissement, plus de 90 % de toutes les cellules étaient positives avec les deux approches. Abréviations : AVG : Moyenne et STDD : Écart type.

TABLE-US-00007 TABLEAU 6b Productivités du modèle de lot en flacon agité avant et après les cycles d'enrichissement FACS pBW478 (vecteur de référence) pNT29 (vecteur FACS) mAb (mg/L) Pas de FACS 1x FACS 2x FACS Pas de FACS 1x FACS 2x FACS AVG 38,5 123,4 68,3 46,5 171,8 363 STDD 17,66509 101,8563 6,592926 15,30614 114,1936 70,19259 Tableau 6b : La productivité des pools de cellules est analysée à partir de cultures par lots de flacons agités par HPLC Protéine-A au jour 13 de la culture. Le premier cycle d'enrichissement a conduit à une augmentation significative de la productivité dans les deux cas. Après le deuxième enrichissement, seuls les pools de cellules transfectées avec le vecteur FACS ont montré une augmentation supplémentaire de la productivité.

f) Analyse de la productivité des cellules enrichies et non enrichies

L'analyse de la productivité des pools sélectionnés avant et après enrichissement par cytométrie en flux est effectuée dans des cultures discontinues en flacons agités pour comparer les titres finaux au jour 13. La productivité des pools avant enrichissement est dans une plage très comparable pour les deux vecteurs utilisés. Avec le premier cycle d'enrichissement sur les pools individuels, une amélioration significative de la productivité moyenne est obtenue avec toutes les approches et encore une fois, il existe une variation substantielle entre les pools individuels (voir Tableau 6b). Étonnamment, la productivité des pools de vecteurs transfectés standard n'est pas plus élevée que celle des pools de vecteurs FACS transfectés bien qu'un niveau beaucoup plus élevé de cellules positives de coloration FACS ait été observé auparavant. En triant une deuxième fois à partir des populations cellulaires triées regroupées, aucune amélioration supplémentaire de la productivité n'est obtenue avec le vecteur standard. En revanche, une productivité plus faible est obtenue bien que le résultat de la coloration FACS suggère que presque 100 % des cellules devraient produire des anticorps (voir tableau 6a). La productivité des pools transfectés avec le vecteur FACS pourrait être considérablement améliorée en triant une deuxième fois. La procédure FACS utilisée conduit à un enrichissement plus sélectif des cellules hautement productives avec une augmentation de la productivité d'au moins 8 fois par rapport à la population non triée et d'au moins 2 fois par rapport aux pools après un tri.

g) Clonage sélectif basé sur la cytométrie en flux de cellules hautement productives

La cytométrie en flux peut être utilisée pour trier et ensemencer des cellules colorées individuelles en fonction de leur profil de coloration. Pour analyser si un tel clonage sélectif entraîne un nombre plus élevé de clones hautement producteurs lors de l'utilisation du vecteur FACS par rapport au vecteur standard, les clones sont générés à l'aide des deux méthodes et la productivité est analysée dans des cultures par lots de plaques de 24 puits.

Dans un premier tour, les cellules sont directement clonées par FACS à partir des pools de cellules sélectionnés par MTX sans aucune étape de pré-enrichissement. Trois pools par vecteur sont choisis en fonction de leur profil de coloration.

Des clones sont générés à partir des 5 % supérieurs des pools de cellules colorées et au total, environ 500 clones sont analysés. Alors que la productivité moyenne des clones avec le vecteur de référence était de 39 mg/L, les clones du vecteur FACS ont produit une moyenne de 87 mg/L. Comme le montre le tableau 7a, ceci est également reflété par la distribution clonale qui confirme qu'une proportion beaucoup plus élevée de clones hautement producteurs est obtenue avec le vecteur FACS. Fait intéressant, l'un des plus de 270 clones analysés à partir de la transfection de vecteur standard avait une productivité presque 2 fois supérieure à celle des autres. Ce clone exceptionnel est désigné LP. L'identification d'un tel clone cellulaire à haute production avec la configuration de vecteur standard en combinaison avec une procédure de criblage FACS est donc généralement possible. Cependant, c'est un événement très rare et donc chanceux. C'est également la différence décisive par rapport au processus de sélection selon les enseignements de la présente invention. Alors que la mise en place standard ne permet la sélection de (très) hauts producteurs que dans des cas exceptionnels et donc rares, le procédé selon la présente invention permet la sélection de (très) hauts producteurs de manière reproductible et donc fiable.

Une deuxième expérience de clonage FACS est réalisée à partir des 10 populations regroupées par vecteur après le premier cycle d'enrichissement. Cette fois, environ 240 clones sont criblés dans des cultures discontinues de 24 puits. Encore une fois, les clones obtenus avec le vecteur FACS ont une productivité moyenne beaucoup plus élevée que le vecteur standard de référence. Aucune amélioration par rapport au clonage sans pré-enrichissement n'est obtenue avec le vecteur de référence à une productivité moyenne des clones de 40 mg/L. Le clone LP n'a pas été identifié à nouveau. Dans le cas des clones transfectés avec le vecteur FACS, une productivité moyenne de 275 mg/L a été obtenue avec la méthode FACS utilisée. La distribution clonale démontre clairement la supériorité de la configuration du vecteur FACS en ce qui concerne le clonage sélectif des producteurs élevés (voir tableau 7b).

Tableau 7a et 7b : Comparaison de la productivité des clones

TABLE-US-00008 TABLEAU 7a Lot de 24 puits - Distribution clonale pBW478 pNT29 0-50 mg/L 196 163 51-100 mg/L 70 22 101-150 mg/L 8 11 151-200 mg/L 2 5 201 -250 mg/L 0 13 251-300 mg/L 2 9 301-350 mg/L 1 10 351-400 mg/L 0 6 401-450 mg/L 0 5 451-500 mg/L 0 2 501-550 mg/L 0 1 551-600 mg/L 1 0 Tableau 7a : Les clones sont générés par cytométrie en flux à partir des 5 % supérieurs des trois pools de cellules colorées avec le pourcentage le plus élevé de cellules positives de coloration après sélection. Pour l'évaluation de la productivité, des cultures en lots dans des plaques à 24 puits ont été effectuées et au jour 10, les surnageants ont été récoltés et mesurés pour la teneur en IgG par Protéine-A-HPLC. La distribution clonale de la plage de productivité est illustrée ici. Une proportion significativement plus élevée de clones hautement producteurs est obtenue en utilisant le vecteur FACS (pNT29).

TABLEAU-US-00009 TABLEAU 7b Lot de 24 puits : Clonage FACS Pools groupés pBW478 pNT29 0-50 mg/L 102 22 51-100 mg/L 17 2 101-150 mg/L 13 5 151-200 mg/L 5 3 201-250 mg/L 2 7 251-300 mg/L 0 11 301-350 mg/L 0 11 351-400 mg/L 0 15 401-450 mg/L 0 9 451-500 mg/L 0 7 501 -550 mg/L 0 7 551-600 mg/L 0 1 601-650 mg/L 0 3 Tableau 7b : Les clones obtenus par clonage FACS à partir des 5 % supérieurs des pools combinés colorés après un cycle d'enrichissement ont été analysés. Aucun bénéfice du pré-enrichissement n'a été trouvé pour les cellules transfectées avec le vecteur de référence (pBW478), alors que dans le cas des cellules transfectées avec le vecteur FACS (pNT29), le pré-enrichissement a conduit à une réduction significative des non-producteurs et à une augmentation de la productivité moyenne. de clones.

h) Caractérisation des clones

Le clone LP dérivé du vecteur standard ainsi que 10 clones de vecteur FACS hautement productifs sont étendus pour agiter des flacons et testés dans des modèles génériques de flacons agités et de lots alimentés pour évaluer leur potentiel de fabrication.

La productivité dans les cultures discontinues est à peu près la même dans la gamme de 1 g/L pour tous les clones testés. Les productivités Fed-batch sont également très comparables pour tous les clones et se situent entre 3,5 et 4 g/L (voir le tableau 8).Aucune différence significative dans les paramètres de croissance n'est observée lorsque l'on compare les clones transfectés avec le vecteur FACS avec les clones transfectés avec le vecteur de référence (LP et clones des expériences précédentes). De plus, la stabilité de la production s'avère élevée pour les clones dérivés du vecteur FACS, seul un clone analysé sur 10 a montré une baisse de productivité supérieure à 25 % après 12 semaines de culture, ce qui est un rapport inférieur de clones instables comme cela a été observé. avec le vecteur standard de référence dans les expériences précédentes (données non présentées).

TABLE-US-00010 TABLEAU 8 Productivités des pools : Fed batch modèle de flacon agité (SF) mAb (g/L) SF batch SF fed batch 1 = LP 1,1 4,3 2 0,9 3,7 3 1,0 3,9 4 1,0 3,8 5 1,0 3,8 6 1,0 3,9 7 1,2 3,3 8 1,0 3,8 9 0,9 3,6 10 1,0 3,7 11 0,9 3,3 Tableau 8 : Le clone le plus productif obtenu avec le vecteur standard (pBW478) et 10 clones dérivés du vecteur FACS (pNT29) sont analysés dans des cultures en flacons agités batch et fed batch . La teneur en IgG est analysée par HPLC Protéine-A au jour 13 (cultures discontinues) ou au jour 17 (cultures discontinues nourries). Tous les cônes analysés produisent dans une gamme comparable.

Exemple 11 : Production à grande échelle de polypeptides avec des cellules CHO transfectées

La production de polypeptides à grande échelle peut se faire par exemple dans des bioréacteurs à vagues, en verre ou en acier inoxydable. A cette fin, les cellules sont développées, généralement à partir d'un seul flacon congelé, par exemple un flacon d'une Master Cell Bank. Les cellules sont décongelées et développées en plusieurs étapes. Des bioréacteurs de différentes échelles sont inoculés avec des quantités appropriées de cellules. La densité cellulaire peut être augmentée en ajoutant des solutions d'alimentation et des additifs au bioréacteur. Les cellules sont maintenues à une viabilité élevée pendant une période prolongée. Des concentrations de produit dans le réacteur allant de quelques centaines de milligrammes par litre jusqu'à plusieurs grammes par litre sont atteintes à grande échelle. La purification peut être effectuée par une méthodologie de chromatographie standard, qui peut inclure des étapes de chromatographie d'affinité, d'échange d'ions, d'interaction hydrophobe ou d'exclusion stérique. La taille du bioréacteur peut atteindre plusieurs milliers de litres de volume à l'échelle finale (voir également par exemple F. Wurm, Nature Biotechnology Vol. 22, 11, 2004, 1393-1398).

71219DNASéquence artificielle séquence polynucléotidique d'un domaine transmembranaire IgG1 humain comprenant stuffermisc_feature(1)..(7)Stuffer incluant stop codonmisc_feature(1)..(3)Stop codonmisc_feature(4)..(6)Codon supplémentaire pour médier la fuite de l'arrêt en amont codon 1tgactagagc tgcaactgga ggagagctgt gcggaggcgc aggacgggga gctggacggg 60ctgtggacga ccatcaccat cttcatcaca ctcttcctgt taagcgtgtg ctacagtgcc 120accgtcacct tcttcaaggt gaagtggatc ttctcctcgg tggtggacct gaagcagacc 180atcatccccg actacaggaa catgatcgga cagggggcc séquence 219225PRTArtificial Sequencepolypeptide d'une région transmembranaire putative dérivé d'un domaine transmembranaire d'IgG1 humaine 2Leu Trp Thr Thr Ile Thr Ile Phe Ile Thr Leu Phe Leu Leu Ser Val1 5 10 15Cys Tyr Ser Ala Thr Val Thr Phe Phe 20 25373PRTSéquence artificielle séquence polypeptidique d'une région transmembranaire Ig dérivée du domaine transmembranaire IgG1 humain comprenant les acides aminés dérivés du codon stop et du codon adjacent, une région de liaison et un putatif e région transmembranaireMISC_FEATURE(1)..(2)acides aminés qui sont très probablement utilisés au niveau du codon d'arrêt TGA et du codon en aval en cas de lecture MISC_FEATURE(3)..(20)Région de connexion putative dérivée du domaine transmembranaire IgG1 humainMISC_FEATURE (21)..(45)Région transmembranaire putative dérivée du domaine transmembranaire IgG1 humain - ladite région peut également être considérée comme comprenant les deux acides aminés suivantsMISC_FEATURE(46)..(73)Région cytoplasmique putative dérivée de l'IgG1 humaine - le premier deux acides aminés peuvent également être considérés comme appartenant au domaine transmembranaire 3Trp Leu Glu Leu Gln Leu Glu Glu Ser Cys Ala Glu Ala Gln Asp Gly1 5 10 15Glu Leu Asp Gly Leu Trp Thr Thr Ile Thr Ile Phe Ile Thr Leu Phe 20 25 30Leu Leu Ser Val Cys Tyr Ser Ala Thr Val Thr Phe Phe Lys Val Lys 35 40 45Trp Ile Phe Ser Ser Val Val Asp Leu Lys Gln Thr Ile Ile Pro Asp 50 55 60Tyr Arg Asn Met Ile Gly Gln Gly Ala65 70428PRTSéquence artificielle dérivée d'une transmembranaire IgG1 humaine faire main 4Lys Val Lys Trp Ile Phe Ser Ser Val Val Asp Leu Lys Gln Thr Ile1 5 10 15Ile Pro Asp Tyr Arg Asn Met Ile Gly Gln Gly Ala 20 25518PRTSéquence artificielleRégion de connexion dérivée du domaine transmembranaire IgG1 humain 5Glu Leu Gln Cys Leu Glu Ala Glu Ala Gln Asp Gly Glu Leu1 5 10 15Asp Gly626PRTSéquence artificielleRégion cytoplasmique dérivée d'un domaine transmembranaire IgG1 humain 6Lys Trp Ile Phe Ser Ser Val Val Asp Leu Lys Gln Thr Ile Ile Pro1 5 10 15Asp Tyr Gly Asn Met Ile Ile 20 25727PRT Séquence polypeptidique d'une région transmembranaire putative dérivée d'un domaine transmembranaire IgG1 humain 7Leu Trp Thr Thr Ile Thr Ile Phe Ile Thr Leu Phe Leu Leu Ser Val1 5 10 15Cys Tyr Ser Ala Thr Val Thr Phe Phe Lys Val 20 25


Voir la vidéo: vaccin Moderna: Découvrez pourquoi LIslande aurait suspendu lutilisation du jusquà nouvel ordre (Décembre 2021).