Merci d'avoir visité Nature.com.Vous utilisez une version de navigateur avec une prise en charge CSS limitée.Pour une expérience optimale, nous vous recommandons d'utiliser un navigateur mis à jour (ou de désactiver le mode de compatibilité dans Internet Explorer).De plus, pour garantir un support continu, nous affichons le site sans styles ni JavaScript.
Curseurs affichant trois articles par diapositive.Utilisez les boutons Précédent et Suivant pour vous déplacer dans les diapositives, ou les boutons du contrôleur de diapositives à la fin pour vous déplacer dans chaque diapositive.
Description détaillée du produit
Tube/tube enroulé soudé en acier inoxydable 304
1. Spécifications : tube/tube de bobine en acier inoxydable
2. Type : soudé ou sans soudure
3. Norme : ASTM A269, ASTM A249
4. Tube de bobine en acier inoxydable OD : 6 mm à 25,4 mm.
5. Longueur : 600-3500MM ou selon l'exigence du client.
6. Épaisseur de paroi : 0,2 mm à 2,0 mm.
7. Tolérance : OD : +/-0,01 mm ;Épaisseur : +/-0,01 %.
8. Taille du trou intérieur de la bobine : 500 MM-1 500 MM (peut être ajusté selon les exigences du client)
9. Hauteur de la bobine : 200 MM-400 MM (peut être ajustée selon les exigences du client)
10. Surface : Brillant ou recuit
11. Matériel : 304, 304L, 316L, 321, 301, 201, 202, 409, 430, 410, alliage 625, 825, 2205, 2507, etc.
12. Emballage : sacs tissés dans une caisse en bois, une palette en bois, un arbre en bois ou selon les exigences du client
13. Test : composant chimique, limite d'élasticité, résistance à la traction, mesure de dureté
14. Garantie : inspection par un tiers (par exemple : SGS TV), etc.
15. Application : Décoration, meubles, transport de pétrole, échangeur de chaleur, fabrication de garde-corps, fabrication de papier, automobile, transformation des aliments, médical, etc.
Toute la composition chimique et les propriétés physiques de l’acier inoxydable comme ci-dessous :
Matériel | ASTM A269 Composition chimique % maximum | ||||||||||
C | Mn | P | S | Si | Cr | Ni | Mo | N.-B. | Nb | Ti | |
TP304 | 0,08 | 2h00 | 0,045 | 0,030 | 1h00 | 18,0-20,0 | 8,0-11,0 | ^ | ^ | ^ . | ^ |
TP304L | 0,035 | 2h00 | 0,045 | 0,030 | 1h00 | 18,0-20,0 | 8,0-12,0 | ^ | ^ | ^ | ^ |
TP316 | 0,08 | 2h00 | 0,045 | 0,030 | 1h00 | 16,0-18,0 | 10,0-14,0 | 2h00-3h00 | ^ | ^ | ^ |
TP316L | 0,035 D | 2h00 | 0,045 | 0,030 | 1h00 | 16,0-18,0 | 10,0-15,0 | 2h00-3h00 | ^ | ^ | ^ |
TP321 | 0,08 | 2h00 | 0,045 | 0,030 | 1h00 | 17,0-19,0 | 9,0-12,0 | ^ | ^ | ^ | 5C -0,70 |
TP347 | 0,08 | 2h00 | 0,045 | 0,030 | 1h00 | 17,0-19,0 | 9,0-12,0 | 10C-1.10 | ^ |
Matériel | Traitement thermique | Température F (C) Min. | Dureté | |
Brinell | Rockwell | |||
TP304 | Solution | 1900 (1040) | 192HBW/200HV | 90HRB |
TP304L | Solution | 1900 (1040) | 192HBW/200HV | 90HRB |
TP316 | Solution | 1900(1040) | 192HBW/200HV | 90HRB |
TP316L | Solution | 1900(1040) | 192HBW/200HV | 90HRB |
TP321 | Solution | 1900(1040)F | 192HBW/200HV | 90HRB |
TP347 | Solution | 1900(1040) | 192HBW/200HV | 90HRB |
OD, pouces | Tolérance OD pouces (mm) | % de tolérance WT | Tolérance de longueur pouces (mm) | |
+ | - | |||
≤ 1 / 2 | ± 0,005 ( 0,13 ) | ± 15 | 1 / 8 ( 3,2 ) | 0 |
> 1/2 ~1 1/2 | ±0,005(0,13) | ± 10 | 1 / 8 (3,2) | 0 |
> 1 1 / 2 ~< 3 1 / 2 | ±0,010(0,25) | ± 10 | 3 / 16 (4,8) | 0 |
> 3 1 / 2 ~< 5 1 / 2 | ±0,015(0,38) | ± 10 | 3 / 16 (4,8) | 0 |
> 5 1 / 2 ~< 8 | ±0,030(0,76) | ± 10 | 3 / 16 (4,8) | 0 |
8~< 12 | ±0,040(1,01) | ± 10 | 3 / 16 (4,8) | 0 |
12~< 14 | ±0,050(1,26) | ± 10 | 3 / 16 (4,8) | 0 |
Les communautés microbiennes naturelles sont diversifiées sur le plan phylogénétique et métabolique.Outre les groupes d’organismes peu étudiés1, cette diversité recèle également un riche potentiel pour la découverte d’enzymes et de composés biochimiques d’importance écologique et biotechnologique2,3.Cependant, étudier cette diversité pour déterminer les voies génomiques qui synthétisent ces composés et les lient à leurs hôtes respectifs reste un défi.Le potentiel biosynthétique des micro-organismes en haute mer reste largement inconnu en raison des limites de l’analyse des données de résolution du génome entier à l’échelle mondiale.Ici, nous explorons la diversité et la diversité des groupes de gènes biosynthétiques dans l’océan en intégrant environ 10 000 génomes microbiens provenant de cellules en culture et de cellules uniques avec plus de 25 000 projets de génomes nouvellement reconstruits à partir de plus de 1 000 échantillons d’eau de mer.Ces efforts ont permis d'identifier environ 40 000 groupes de gènes biosynthétiques putatifs, pour la plupart nouveaux, dont certains ont été découverts dans des groupes phylogénétiques jusqu'alors insoupçonnés.Dans ces populations, nous avons identifié une lignée enrichie en groupes de gènes biosynthétiques (« Candidatus Eudormicrobiaceae ») appartenant à un phylum bactérien non cultivé et comprenant certains des micro-organismes les plus biosynthétiques de cet environnement.Parmi ceux-ci, nous avons caractérisé les voies phosphatase-peptide et pythonamide, identifiant respectivement des cas de structure de composé bioactif et d'enzymologie inhabituelles.En conclusion, cette étude démontre comment les stratégies basées sur le microbiome peuvent permettre l’exploration d’enzymes et d’aliments naturels jusqu’alors non décrits dans un microbiote et un environnement mal compris.
Les microbes dirigent les cycles biogéochimiques mondiaux, maintiennent les réseaux alimentaires et maintiennent les plantes et les animaux en bonne santé5.Leur énorme diversité phylogénétique, métabolique et fonctionnelle représente un riche potentiel pour la découverte de nouveaux taxons, enzymes et composés biochimiques, y compris de produits naturels6.Dans les communautés écologiques, ces molécules confèrent aux micro-organismes diverses fonctions physiologiques et écologiques, allant de la communication à la compétition 2, 7.Outre leurs fonctions originales, ces produits naturels et leurs voies de production génétiquement codées fournissent des exemples d'applications biotechnologiques et thérapeutiques2,3.L’identification de ces voies et connexions a été grandement facilitée par l’étude des microbes cultivés.Or, les études taxonomiques des milieux naturels ont montré que la grande majorité des micro-organismes n’ont pas été cultivés8.Ce préjugé culturel limite notre capacité à exploiter la diversité fonctionnelle codée par de nombreux microbes4,9.
Pour surmonter ces limites, les progrès technologiques de la dernière décennie ont permis aux chercheurs de séquencer directement (c'est-à-dire sans culture préalable) des fragments d'ADN microbien provenant de communautés entières (métagénomique) ou de cellules individuelles.La capacité d'assembler ces fragments en fragments de génome plus grands et de reconstruire respectivement plusieurs génomes assemblés métagénomiquement (MAG) ou génomes amplifiés uniques (SAG), ouvre une opportunité importante pour les études taxocentriques du microbiome (c'est-à-dire les communautés microbiennes et le microbiome).ouvrir de nouvelles voies.propre matériel génétique dans un environnement donné) 10,11,12.En effet, des études récentes ont considérablement élargi la représentation phylogénétique de la diversité microbienne sur Terre1, 13 et ont révélé une grande partie de la diversité fonctionnelle dans les communautés microbiennes individuelles qui n'était pas couverte auparavant par les séquences génomiques de référence (REF) de micro-organismes cultivés14.La capacité de placer une diversité fonctionnelle non découverte dans le contexte du génome hôte (c'est-à-dire la résolution du génome) est essentielle pour prédire les lignées microbiennes encore non caractérisées qui codent vraisemblablement pour de nouveaux produits naturels15,16 ou pour retracer ces composés jusqu'à leur producteur d'origine17.Par exemple, une approche combinée d’analyse métagénomique et génomique unicellulaire a conduit à l’identification de Candidatus Entotheonella, un groupe de bactéries métaboliquement riches associées aux éponges, en tant que producteurs de divers potentiels médicamenteux18.Cependant, malgré les récentes tentatives d'exploration génomique de diverses communautés microbiennes,16,19 plus des deux tiers des données métagénomiques mondiales sur le plus grand océan d'écosystèmes de la Terre16,20 sont toujours manquantes.Ainsi, en général, le potentiel biosynthétique du microbiome marin et son potentiel en tant que réservoir de nouveaux produits enzymatiques et naturels restent largement sous-étudiés.
Pour explorer le potentiel biosynthétique des microbiomes marins à l’échelle mondiale, nous avons d’abord regroupé les génomes microbiens marins obtenus à l’aide de méthodes dépendantes de la culture et hors culture afin de créer une base de données étendue sur la phylogénétique et la fonction des gènes.L'examen de cette base de données a révélé une grande variété de groupes de gènes biosynthétiques (BGC), dont la plupart appartiennent à des familles de groupes de gènes (GCF) encore non caractérisées.De plus, nous avons identifié une famille bactérienne inconnue qui présente à ce jour la plus grande diversité connue de BGC en haute mer.Nous avons sélectionné deux voies de synthèse ribosomale et de peptides modifiés post-traductionnellement (RiPP) pour une validation expérimentale en fonction de leurs différences génétiques par rapport aux voies actuellement connues.La caractérisation fonctionnelle de ces voies a révélé des exemples inattendus d’enzymologie ainsi que des composés structurellement inhabituels dotés d’une activité inhibitrice de la protéase.
Dans un premier temps, notre objectif était de créer une ressource mondiale de données pour l’analyse du génome, en nous concentrant sur ses composants bactériens et archéens.À cette fin, nous avons regroupé les données métagénomiques et 1 038 échantillons d’eau de mer provenant de 215 sites d’échantillonnage répartis dans le monde (plage de latitude = 141,6°) et de plusieurs couches profondes (de 1 à 5 600 m de profondeur, couvrant les zones pélagiques, mésopélagiques et abyssales).Contexte21,22,23 (Fig. 1a, données étendues, Fig. 1a et tableau supplémentaire 1).En plus de fournir une large couverture géographique, ces échantillons filtrés sélectivement nous ont permis de comparer divers composants du microbiome marin, notamment riche en virus (<0,2 µm), riche en procaryotes (0,2 à 3 µm), riche en particules (0,8 µm). ).–20 µm) et colonies dépourvues de virus (>0,2 µm).
a, Un total de 1 038 génomes accessibles au public (métagénomique) de communautés microbiennes marines collectés dans 215 emplacements répartis dans le monde (62°S à 79°N et 179°W à 179°E).Tuiles de carte © Esri.Sources : GEBCO, NOAA, CHS, OSU, UNH, CSUMB, National Geographic, DeLorme, NAVTEQ et Esri.b, ces métagénomes ont été utilisés pour reconstruire des MAG (méthodes et informations supplémentaires), qui diffèrent en quantité et en qualité (méthodes) dans les ensembles de données (marqués en couleur).Les MAG reconstruits ont été complétés par des génomes (externes) accessibles au public, notamment MAG26, SAG27 et REF fabriqués à la main.27 Compilez OMD.c, par rapport aux rapports précédents basés uniquement sur SAG (GORG)20 ou MAG (GEM)16, OMD améliore de deux à trois fois la caractérisation génomique des communautés microbiennes marines (taux de cartographie de lecture métagénomique ; méthode) avec une représentation plus cohérente en profondeur et latitude..<0,2, n=151, 0,2-0,8, n=67, 0,2-3, n=180, 0,8-20, n=30, >0,2, n=610, <30°, n = 132, 30-60° , n = 73, >60°, n = 42, EPI, n = 174, MES, n = 45, BAT, n = 28. d, le regroupement OMD en groupes d'espèces (identité moyenne des nucléotides) identifie un total de environ 8 300 espèces, dont plus de la moitié n'ont pas encore été caractérisées selon des annotations taxonomiques utilisant la GTDB (version 89). e, la classification des espèces par type de génome a montré que MAG, SAG et REF se complètent bien en reflétant la diversité phylogénétique de le microbiome marin.En particulier, 55 %, 26 % et 11 % des espèces étaient respectivement spécifiques de MAG, SAG et REF.BATS, série chronologique des Bermudes Atlantique ;GEM, génomes du microbiome terrestre ;GORG, génome mondial de référence des océans ;Série chronologique CHAUDE sur l'océan hawaïen.
À l'aide de cet ensemble de données, nous avons reconstruit un total de 26 293 MAG, principalement bactériennes et archéennes (Fig. 1b et données étendues, Fig. 1b).Nous avons créé ces MAG à partir d'assemblages d'échantillons métagénomiques séparés plutôt que regroupés pour éviter l'effondrement de la variation de séquence naturelle entre des échantillons provenant de différents emplacements ou moments (méthodes).De plus, nous avons regroupé les fragments génomiques en fonction de leurs corrélations de prévalence sur un grand nombre d'échantillons (de 58 à 610 échantillons, selon l'enquête et la méthode).Nous avons constaté qu'il s'agit d'une étape longue mais importante24 qui a été ignorée dans plusieurs travaux de reconstruction à grande échelle MAG16, 19, 25 et qui améliore considérablement la quantité (2,7 fois en moyenne) et la qualité (+20 % en moyenne) des travaux. génome.reconstruit à partir du métagénome marin étudié ici (données étendues, Fig. 2a et informations supplémentaires).Dans l’ensemble, ces efforts ont abouti à une multiplication par 4,5 des MAG microbiennes marines (6 fois si seules les MAG de haute qualité sont prises en compte) par rapport à la ressource MAG la plus complète disponible aujourd’hui16 (Méthodes).Cet ensemble MAG nouvellement créé a ensuite été combiné avec 830 MAG26, 5969 SAG27 et 1707 REF triés sur le volet.Vingt-sept espèces de bactéries marines et d'archées constituaient une collection combinatoire de 34 799 génomes (Fig. 1b).
Nous avons ensuite évalué la ressource nouvellement créée pour améliorer sa capacité à représenter les communautés microbiennes marines et évaluer l’impact de l’intégration de différents types de génomes.En moyenne, nous avons constaté qu'il couvre environ 40 à 60 % des données métagénomiques marines (Figure 1c), soit deux à trois fois la couverture des précédents rapports MAG uniquement en profondeur et en latitude. More série 16 ou SAG20.De plus, pour mesurer systématiquement la diversité taxonomique dans les collections établies, nous avons annoté tous les génomes à l'aide de la boîte à outils (méthodes) de la Genome Taxonomy Database (GTDB) et utilisé une identité moyenne de nucléotides à l'échelle du génome de 95 %.28 pour identifier 8 304 groupes d'espèces (espèces).Les deux tiers de ces espèces (y compris les nouveaux clades) n'étaient pas apparues auparavant dans la GTDB, dont 2 790 ont été découvertes à l'aide du MAG reconstruit dans cette étude (Fig. 1d).De plus, nous avons constaté que différents types de génomes sont très complémentaires : 55 %, 26 % et 11 % des espèces sont entièrement composées de MAG, SAG et REF, respectivement (Fig. 1e).De plus, MAG couvrait les 49 types trouvés dans la colonne d’eau, tandis que SAG et REF n’en représentaient que 18 et 11 respectivement.Cependant, SAG représente mieux la diversité des clades les plus courants (données étendues, Fig. 3a), tels que les bactéries pélagiques (SAR11), le SAG couvrant près de 1 300 espèces et le MAG seulement 390 espèces.Notamment, les REF se chevauchaient rarement avec les MAG ou les SAG au niveau de l'espèce et représentaient plus de 95 % des environ 1 000 génomes introuvables dans les ensembles métagénomiques en haute mer étudiés ici, principalement en raison d'interactions avec d'autres types de spécimens marins représentatifs isolés (par exemple, les sédiments). .ou hôte-associé).Pour la rendre largement accessible à la communauté scientifique, cette ressource du génome marin, qui comprend également des fragments non classifiés (par exemple, provenant de phages prédits, d'îlots génomiques et de fragments de génome pour lesquels les données sont insuffisantes pour la reconstruction MAG), peut être comparée aux données taxonomiques. .Accédez aux annotations ainsi qu’à la fonction des gènes et aux paramètres contextuels dans la base de données de microbiologie océanique (OMD ; https://microbiomics.io/ocean/).
Nous avons ensuite entrepris d’explorer la richesse et la nouveauté du potentiel biosynthétique des microbiomes des océans.À cette fin, nous avons d'abord utilisé antiSMASH pour tous les MAG, SAG et REF trouvés dans 1 038 métagénomes marins (méthodes) afin de prédire un total de 39 055 BGC.Nous les avons ensuite regroupés en 6907 GCF non redondants et 151 populations de groupes de gènes (GCC; tableau supplémentaire 2 et méthodes) pour tenir compte de la redondance inhérente (c'est-à-dire que le même BGC peut être codé dans plusieurs génomes) et des données métagénomiques. Fragmentation des BGC concentrés.Les BGC incomplets n'ont pas augmenté de manière significative, le cas échéant (informations supplémentaires), le nombre de GCF et de GCC, respectivement, contenant au moins un membre BGC intact dans 44 % et 86 % des cas.
Au niveau du CCG, nous avons trouvé une grande variété de RiPP et d'autres produits naturels prédits (Fig. 2a).Parmi eux, par exemple, les arylpolyènes, les caroténoïdes, les ectoïnes et les sidérophores appartiennent à des GCC avec une large distribution phylogénétique et une forte abondance dans les métagénomes océaniques, ce qui peut indiquer une large adaptation des micro-organismes au milieu marin, y compris une résistance aux espèces réactives de l'oxygène, stress oxydatif et osmotique..ou l'absorption du fer (plus d'informations).Cette diversité fonctionnelle contraste avec une analyse récente d'environ 1,2 million de BGC parmi environ 190 000 génomes stockés dans la base de données NCBI RefSeq (BiG-FAM/RefSeq, ci-après dénommé RefSeq)29, qui a montré que les peptides nonribosomal synthétase (NRPS) et la polykétide synthase (PKS) BGC (informations supplémentaires).Nous avons également trouvé 44 (29 %) GCC uniquement liés de loin à tout RefSeq BGC (\(\bar{d}\)RefSeq > 0,4 ; Fig. 2a et méthodes) et 53 (35 %) GCC uniquement dans MAG, soulignant le potentiel pour détecter des produits chimiques jusqu'alors non décrits dans l'OMD.Étant donné que chacun de ces GCC représente probablement des fonctions biosynthétiques très diverses, nous avons analysé plus en détail les données au niveau du GCF dans le but de fournir un regroupement plus détaillé de BGC censés coder pour des produits naturels similaires .Un total de 3 861 (56 %) GCF identifiés ne chevauchaient pas RefSeq et > 97 % des GCF n'étaient pas présents dans MIBiG, l'une des plus grandes bases de données de BGC validés expérimentalement (Figure 2b).Bien qu'il ne soit pas surprenant de découvrir de nombreuses nouvelles voies potentielles dans des contextes qui ne sont pas bien représentés par le génome de référence, notre méthode de déréplication des BGC en GCF avant l'analyse comparative diffère des rapports précédents 16 et nous permet de fournir une évaluation impartiale de la nouveauté.La majeure partie de la nouvelle diversité (3 012 GCF ou 78 %) correspond à des terpènes, RiPP ou autres produits naturels prédits, et la majeure partie (1 815 GCF ou 47 %) est codée dans des types inconnus en raison de leur potentiel biosynthétique.Contrairement aux clusters PKS et NRPS, ces BGC compacts sont moins susceptibles d'être fragmentés lors de l'assemblage métagénomique 31 et permettent une caractérisation fonctionnelle de leurs produits plus gourmande en temps et en ressources.
Au total, 39 055 BGC ont été regroupés en 6 907 GCF et 151 GCC.a, représentation des données (interne externe).Regroupement hiérarchique des distances BGC basé sur GCC, dont 53 sont fixées par MAG uniquement.Le GCC contient des BGC de différents taxons (fréquence de porte transformée par In) et de différentes classes de BGC (la taille du cercle correspond à sa fréquence).Pour chaque GCC, la couche externe représente le nombre de BGC, la prévalence (pourcentage d’échantillons) et la distance (distance cosinusoïdale minimale du BGC (min (dMIBiG))) de BiG-FAM à BGC.Les GCC avec des BGC étroitement liés aux BGC vérifiés expérimentalement (MIBiG) sont mis en évidence par des flèches.b En comparant le GCF avec les BGC prédits (BiG-FAM) et validés expérimentalement (MIBiG), 3 861 nouveaux GCF (d–>0,2) ont été trouvés.La plupart (78 %) d’entre eux codent pour le RiPP, les terpènes et d’autres produits naturels putatifs.c, tous les génomes de l'OMD trouvés dans 1 038 métagénomes marins ont été placés dans l'arbre de base de la GTDB pour montrer la couverture phylogénétique de l'OMD.Les clades sans génome dans l'OMD sont représentés en gris.Le nombre de BGC correspond au plus grand nombre de BGC prédits par génome dans un clade donné.Pour plus de clarté, les 15 % restants des nœuds sont réduits.Les flèches indiquent les clades riches en BGC (> 15 BGC), à l'exception de Mycobacterium, Gordonia (après Rhodococcus) et Crocosphaera (après Synechococcus).d, Inconnu c.Eremiobacterota a montré la diversité biosynthétique la plus élevée (indice de Shannon basé sur le type de produit naturel).Chaque bande représente le génome contenant le plus de BGC dans l’espèce.T1PKS, PKS type I, T2/3PKS, PKS type II et type III.
En plus de la richesse et de la nouveauté, nous explorons la structure biogéographique du potentiel biosynthétique du microbiome marin.Le regroupement des échantillons par distribution métagénomique moyenne du nombre de copies du GCF (méthodes) a montré que les communautés de basse latitude, de surface, riches en procaryotes et pauvres en virus, provenant principalement d'eaux de surface ou d'eaux plus profondes éclairées par le soleil, étaient riches en terpènes RiPP et BGC.En revanche, les communautés polaires, des grands fonds, riches en virus et en particules étaient associées à des abondances plus élevées de NRPS et de PKS BGC (données étendues, Fig. 4 et informations supplémentaires).Enfin, nous avons constaté que les communautés tropicales et pélagiques bien étudiées sont les sources les plus prometteuses de nouveaux terpènes (Figure de données augmentée).Potentiel le plus élevé pour le PKS, le RiPP et d’autres produits naturels (Figure 5a avec données élargies).
Pour compléter notre étude du potentiel biosynthétique des microbiomes marins, nous avons cherché à cartographier leur distribution phylogénétique et à identifier de nouveaux clades enrichis en BGC.À cette fin, nous avons placé les génomes des microbes marins dans un arbre phylogénétique bactérien et archéen GTDB13 normalisé et avons superposé les voies de biosynthèse putatives qu'ils codent (Fig. 2c).Nous avons facilement détecté plusieurs clades enrichis en BGC (représentés par plus de 15 BGC) dans des échantillons d'eau de mer (méthodes) connus pour leur potentiel biosynthétique, comme les cyanobactéries (Synechococcus) et les bactéries Proteus, comme Tistrella32,33, ou avons récemment attiré l'attention pour leur produits naturels .comme Myxococcota (Sandaracinaceae), Rhodococcus et Planctomycetota34,35,36.Fait intéressant, nous avons trouvé plusieurs lignées jusqu’alors inexplorées dans ces clades.Par exemple, les espèces présentant le potentiel biosynthétique le plus riche dans les phyla Planctomycetota et Myxococcota appartenaient respectivement à des ordres et à des genres candidats non caractérisés (Tableau supplémentaire 3).Pris ensemble, cela suggère que l’OMD donne accès à des informations phylogénétiques jusqu’alors inconnues, notamment sur des micro-organismes, qui pourraient représenter de nouvelles cibles pour la découverte d’enzymes et de produits naturels.
Ensuite, nous avons caractérisé le clade enrichi en BGC en comptant non seulement le nombre maximum de BGC codés par ses membres, mais également en évaluant la diversité de ces BGC, ce qui explique la fréquence des différents types de produits candidats naturels (Fig. 2c et méthodes). )..Nous avons constaté que les espèces les plus diverses sur le plan biosynthétique étaient représentées par des MAG bactériens spécialement conçus dans cette étude.Ces bactéries appartiennent au phylum inculte Candidatus Eremiobacterota, qui reste largement inexploré en dehors de quelques études génomiques37,38.Il est à noter que « ca.Le genre Eremiobacterota n’a été analysé que dans un environnement terrestre39 et ne comprend aucun membre enrichi en BGC.Nous avons ici reconstitué huit MAGs de la même espèce (identité nucléotidique > 99 %)23. Nous proposons donc le nom d’espèce « Candidatus Eudoremicrobium malaspinii », du nom de la néréide (nymphe des mers), un beau cadeau dans la mythologie grecque et les expéditions.'Ka.Selon l'annotation phylogénétique 13, E. malaspinii n'a aucun parent connu en dessous du niveau de séquence et appartient donc à une nouvelle famille bactérienne que nous proposons « Ca.E. malaspinii » comme espèce type et « Ca.Eudormicrobiaceae » comme nom officiel (informations supplémentaires).Brève reconstruction métagénomique de 'Ca.Le projet sur le génome d'E. malaspinii a été validé par un séquençage métagénomique à très faible entrée et à lecture longue et par l'assemblage ciblé d'un seul échantillon (méthodes) sous la forme d'un seul chromosome linéaire de 9,63 Mo avec une duplication de 75 Ko.comme la seule ambiguïté qui subsiste.
Pour établir le contexte phylogénétique de cette espèce, nous avons recherché 40 espèces étroitement apparentées dans des échantillons métagénomiques supplémentaires enrichis en eucaryotes provenant de l'expédition Tara Ocean grâce à une reconstruction ciblée du génome.En bref, nous avons lié les lectures métagénomiques à des fragments génomiques associés à « Ca.E. malaspinii » et a émis l’hypothèse qu’un taux de recrutement accru dans cet échantillon indique la présence d’autres parents (méthodes).En conséquence, nous avons trouvé 10 MAG, une combinaison de 19 MAG représentant cinq espèces appartenant à trois genres au sein d'une famille nouvellement définie (c'est-à-dire « Ca. Eudormicrobiaceae »).Après une inspection manuelle et un contrôle qualité (données étendues, Fig. 6 et informations supplémentaires), nous avons constaté que « Ca.Les espèces d'Eudormicrobiaceae présentent des génomes plus grands (8 Mo) et un potentiel biosynthétique plus riche (14 à 22 BGC par espèce) que les autres membres « Ca ».Clade Eremiobacterota (jusqu'à 7 BGC) (Fig. 3a – c).
a, positions phylogénétiques des cinq 'Ca.Les espèces d'Eudormicrobiaceae ont montré une richesse en BGC spécifique aux lignées marines identifiées dans cette étude.L'arbre phylogénétique comprend tous les 'Ca.MAG Eremiobacterota et les membres d'autres phylums (numéros du génome entre parenthèses) fournis dans GTDB (version 89) ont été utilisés pour le contexte évolutif (méthodes).Les couches les plus externes représentent des classifications au niveau de la famille (« Ca. Eudormicrobiaceae » et « Ca. Xenobiaceae ») et au niveau de la classe (« Ca. Eremiobacteria »).Les cinq espèces décrites dans cette étude sont représentées par des codes alphanumériques et des noms binomiaux proposés (informations supplémentaires).b, d'accord.Les espèces d'Eudormicrobiaceae partagent sept noyaux BGC communs.L'absence de BGC dans le clade A2 était due au caractère incomplet du MAG représentatif (Tableau supplémentaire 3).Les BGC sont spécifiques à « Ca.Amphithomicrobium » et « Ca.Amphithomicrobium » (clades A et B) ne sont pas représentés.c, tous les BGC codés comme « Ca.Eudoremicrobium taraoceanii s'est avéré exprimé dans 623 métatranscriptomes prélevés dans les océans de Tara.Les cercles pleins indiquent une transcription active.Les cercles orange indiquent les changements de pli transformés en log2 en dessous et au-dessus du taux d’expression du gène de ménage (méthodes).d, courbes d'abondance relative (méthodes) montrant 'Ca.Les espèces d'Eudormicrobiaceae sont répandues dans la plupart des bassins océaniques et dans toute la colonne d'eau (de la surface jusqu'à une profondeur d'au moins 4 000 m).Sur la base de ces estimations, nous avons constaté que « Ca.E. malaspinii' représente jusqu'à 6 % des cellules procaryotes dans les communautés associées aux grains pélagiques des grands fonds.Nous avons considéré qu'une espèce était présente sur un site si elle était trouvée dans une fraction de la taille d'une couche de profondeur donnée.IO – Océan Indien, NAO – Atlantique Nord, NPO – Pacifique Nord, RS – Mer Rouge, SAO – Atlantique Sud, SO – Océan Austral, SPO – Pacifique Sud.
Étudier l'abondance et la distribution de Ca.Eudormicrobiaceae, qui, comme nous l'avons constaté, prédomine dans la plupart des bassins océaniques, ainsi que dans l'ensemble de la colonne d'eau (Fig. 3d).Localement, ils représentent 6 % de la communauté microbienne marine, ce qui en fait une partie importante du microbiome marin mondial.De plus, nous avons trouvé la teneur relative en Ca.Les espèces d'Eudormicrobiaceae et leurs niveaux d'expression de BGC étaient les plus élevés dans la fraction enrichie en eucaryotes (Fig. 3c et données étendues, Fig. 7), indiquant une interaction possible avec les particules, y compris le plancton.Cette observation ressemble quelque peu à 'Ca.Les BGC d'Eudoremicrobium qui produisent des produits naturels cytotoxiques par des voies connues peuvent présenter un comportement prédateur (informations supplémentaires et données étendues, Figure 8), similaire à d'autres prédateurs qui produisent spécifiquement des métabolites tels que Myxococcus41.Découverte de Ca.Les Eudormicrobiaceae dans des échantillons moins disponibles (océan profond) ou eucaryotes plutôt que procaryotes peuvent expliquer pourquoi ces bactéries et leur diversité inattendue de BGC restent floues dans le contexte de la recherche sur les aliments naturels.
En fin de compte, nous avons cherché à valider expérimentalement la promesse de nos travaux basés sur le microbiome dans la découverte de nouvelles voies, enzymes et produits naturels.Parmi les différentes classes de BGC, la voie RiPP est connue pour coder une riche diversité chimique et fonctionnelle en raison de diverses modifications post-traductionnelles du peptide central par des enzymes matures42.Nous avons donc choisi deux 'Ca.Les BGC RiPP d'Eudoremicrobium (Figures 3b et 4a-e) sont basés sur les mêmes que n'importe quel BGC connu (\(\bar{d}\)MIBiG et \(\bar{d}\)RefSeq supérieur à 0,2) .
a – c, expression hétérologue in vitro et tests enzymatiques in vitro d'un nouveau groupe (\(\bar{d}\)RefSeq = 0,29) de biosynthèse RiPP spécifique des espèces de Ca des eaux profondes.E. malaspinii' a conduit à la production de produits diphosphorylés.c, modifications identifiées par MS/MS haute résolution (HR) (fragmentation indiquée par les ions b et y dans la structure chimique) et RMN (données étendues, Fig. 9).d, ce peptide phosphorylé présente une faible inhibition micromolaire de l'élastase des neutrophiles de mammifères, qui n'est pas trouvée dans le peptide témoin ni dans le peptide déshydratant (déshydratation induite par l'élimination chimique).L'expérience fut répétée trois fois avec des résultats similaires.Par exemple, l’expression hétérologue d’un deuxième nouveau groupe de biosynthèse protéique \(\bar{d}\)RefSeq = 0,33) élucide la fonction de quatre enzymes matures qui modifient le peptide central de 46 acides aminés.Les résidus sont colorés en fonction du site de modification prédit par HR-MS/MS, marquage isotopique et analyse RMN (informations supplémentaires).La coloration en pointillés indique que la modification se produit au niveau de l'un ou l'autre des deux résidus.La figure est une compilation de nombreuses constructions hétérologues pour montrer l'activité de toutes les enzymes matures sur le même noyau.h, Illustration des données RMN pour la N-méthylation de l'amide du squelette.Les résultats complets sont présentés sur la fig.10 avec données étendues.i, la position phylogénétique de l'enzyme du cluster de protéines FkbM mature parmi tous les domaines FkbM trouvés dans la base de données MIBiG 2.0 révèle une enzyme de cette famille avec une activité N-méthyltransférase (informations supplémentaires).Des diagrammes schématiques des BGC (a, e), des structures peptidiques précurseurs (b, f) et des structures chimiques putatives de produits naturels (c, g) sont présentés.
La première voie RiPP (\(\bar{d}\)MIBiG = 0,41, \(\bar{d}\)RefSeq = 0,29) a été trouvée uniquement chez les espèces des grands fonds « Ca.E. malaspinii »et codes pour le précurseur peptidique (Fig. 4a, b).Dans cette enzyme mature, nous avons identifié un domaine fonctionnel unique homologue au domaine de déshydratation de la lantipeptide synthase qui catalyse normalement la phosphorylation et l'élimination ultérieure de 43 (informations supplémentaires).Par conséquent, nous prévoyons que la modification du peptide précurseur implique une telle déshydratation en deux étapes.Cependant, en utilisant la spectrométrie de masse en tandem (MS/MS) et la spectroscopie de résonance magnétique nucléaire (RMN), nous avons identifié un peptide linéaire polyphosphorylé (Fig. 4c).Bien qu’inattendus, nous avons trouvé plusieurs éléments de preuve confirmant qu’il s’agissait du produit final : deux hôtes hétérologues différents et aucune déshydratation dans les tests in vitro, identification de résidus clés mutés dans le site de déshydratation catalytique de l’enzyme mature.le tout reconstruit par « Ca ».Le génome d'E. malaspinii (données développées, Fig. 9 et informations supplémentaires) et, enfin, l'activité biologique du produit phosphorylé, mais pas la forme déshydratée synthétisée chimiquement (Fig. 4d).En fait, nous avons constaté qu'il présente une faible activité inhibitrice de la protéase micromolaire contre l'élastase des neutrophiles, comparable à d'autres produits naturels apparentés dans la plage de concentrations (IC50 = 14,3 μM) 44 , malgré le fait que le rôle écologique reste à élucider.Sur la base de ces résultats, nous proposons de nommer la voie « phospheptine ».
Le deuxième cas est une voie RiPP complexe spécifique à 'Ca.Il était prévu que le genre Eudoremicrobium (\(\bar{d}\)MIBiG = 0,46, \(\bar{d}\)RefSeq = 0,33) code pour des produits protéiques naturels (Fig. 4e).Ces voies présentent un intérêt biotechnologique particulier en raison de la densité attendue et de la variété des modifications chimiques inhabituelles établies par les enzymes codées par les BGC relativement courts .Nous avons constaté que cette protéine diffère des protéines précédemment caractérisées en ce qu'elle est dépourvue à la fois du motif principal NX5N des polycéramides et de la boucle lantionine des landornamides 46 .Pour surmonter les limites des modèles d’expression hétérologues courants, nous les avons utilisés avec un système personnalisé Microvirgula aerodenitrificans pour caractériser quatre enzymes de voie matures (méthodes).En utilisant une combinaison de MS / MS, de marquage isotopique et de RMN, nous avons détecté ces enzymes matures dans le noyau de 46 acides aminés du peptide (Fig. 4f, g, données étendues, Fig. 10 à 12 et informations supplémentaires).Parmi les enzymes matures, nous avons caractérisé la première apparition d'un membre 47 de la famille FkbM O-méthyltransférase dans la voie RiPP et avons découvert de manière inattendue que cette enzyme mature introduisait la N-méthylation du squelette (Fig. 4h, i et informations supplémentaires).Bien que cette modification soit connue dans les produits naturels NRP48, la N-méthylation enzymatique des liaisons amide est une réaction complexe mais biotechnologiquement significative49 qui a jusqu'à présent intéressé la famille des borosines RiPP.Spécificité 50,51.L'identification de cette activité dans d'autres familles d'enzymes et de RiPP pourrait ouvrir de nouvelles applications et élargir la diversité fonctionnelle des protéines 52 et leur diversité chimique.Sur la base des modifications identifiées et de la longueur inhabituelle de la structure du produit proposée, nous proposons un nom de voie « pythonamide ».
La découverte d'une enzymologie inattendue dans une famille d'enzymes fonctionnellement caractérisées illustre la promesse de la génomique environnementale pour de nouvelles découvertes, et illustre également la capacité limitée d'inférence fonctionnelle basée uniquement sur l'homologie de séquence.Ainsi, ainsi que les rapports sur les RiPP polyphosphorylés bioactifs non canoniques, nos résultats démontrent une valeur cruciale mais gourmande en ressources pour les efforts de biologie synthétique visant à découvrir pleinement la richesse fonctionnelle, la diversité et les structures inhabituelles des composés biochimiques.
Nous démontrons ici la gamme de potentiel biosynthétique codé par les microbes et leur contexte génomique dans le microbiome marin mondial, facilitant ainsi les recherches futures en mettant la ressource résultante à la disposition de la communauté scientifique (https://microbiomics.io/ocean/).Nous avons constaté qu'une grande partie de sa nouveauté phylogénétique et fonctionnelle ne peut être obtenue qu'en reconstruisant les MAG et les SAG, en particulier dans les communautés microbiennes sous-utilisées qui pourraient guider les futurs efforts de bioprospection.Bien que nous nous concentrions ici sur 'Ca.Eudormicrobiaceae » en tant que lignée particulièrement « talentueuse » sur le plan biosynthétique, de nombreux BGC prédits dans le microbiote non découvert codent probablement pour des enzymologies jusqu’alors non décrites qui produisent des composés ayant des actions significatives sur le plan environnemental et/ou biotechnologique.
Des ensembles de données métagénomiques provenant d'études océanographiques et de séries chronologiques majeures avec une profondeur de séquençage suffisante ont été inclus pour maximiser la couverture des communautés microbiennes marines mondiales dans les bassins océaniques, les couches profondes et au fil du temps.Ces ensembles de données (Tableau supplémentaire 1 et Figure 1) comprennent la métagénomique d'échantillons collectés dans les océans de Tara (enrichis en virus, n = 190 ; enrichis en procaryotes, n = 180)12,22 et l'expédition BioGEOTRACES (n = 480).Série temporelle océanique hawaïenne (HOT, n = 68), série temporelle Bermudes-Atlantique (BATS, n = 62)21 et expédition Malaspina (n = 58)23.Les lectures de séquençage de tous les fragments métagénomiques ont été filtrées pour en déterminer la qualité à l'aide de BBMap (v.38.71) en supprimant les adaptateurs de séquençage des lectures, en supprimant les lectures mappées sur des séquences de contrôle de qualité (génomes PhiX) et en utilisant trimq=14, maq=20 élimine la mauvaise qualité de lecture, maxns = 0 et minlength = 45. Les analyses ultérieures ont été exécutées ou fusionnées avec des lectures QC si spécifié (bbmerge.sh minoverlap=16).Les lectures QC ont été normalisées (cible bbnorm.sh = 40, profondeur mentale = 0) avant la construction à l'aide de métaSPAdes (v.3.11.1 ou v.3.12 si nécessaire)53.Les contigs d'échafaudage résultants (ci-après dénommés échafaudages) ont finalement été filtrés par longueur (≥ 1 kb).
Les 1 038 échantillons métagénomiques ont été divisés en groupes et, pour chaque groupe d'échantillons, les lectures de contrôle de qualité métagénomique de tous les échantillons ont été appariées aux tranches de chaque échantillon séparément, ce qui a donné le nombre suivant de lectures de groupes par paires entre parenthèses : Virus marins Tara – enrichis (190×190), Prokaryotes Enriched (180×180), BioGEOTRACES, HOT et BATS (610×610) et Malaspina (58×58).La cartographie a été réalisée à l'aide de Burrows-Wheeler-Aligner (BWA) (v.0.7.17-r1188)54, qui permet de faire correspondre les lectures avec des sites secondaires (en utilisant l'indicateur -a).Les alignements ont été filtrés pour avoir une longueur d'au moins 45 bases, avoir une identité ≥ 97 % et couvrir ≥ 80 % des lectures.Les fichiers BAM résultants ont été traités à l'aide du script jgi_summarize_bam_contig_degrees pour MetaBAT2 (v.2.12.1)55 afin de fournir une couverture intra et inter-échantillons pour chaque groupe.Enfin, les supports ont été regroupés pour augmenter la sensibilité en exécutant MetaBAT2 individuellement sur tous les échantillons avec –minContig 2000 et –maxEdges 500. Nous utilisons MetaBAT2 au lieu d'un boxeur d'ensemble car il a été démontré dans des tests indépendants qu'il est le boxeur unique le plus efficace.et 10 à 50 fois plus rapide que les autres boxeurs couramment utilisés57.Pour tester l'effet des corrélations d'abondance, un sous-échantillon de métagénomique sélectionné au hasard (10 pour chacun des deux ensembles de données Tara Ocean, 10 pour BioGEOTRACES, 5 pour chaque série chronologique et 5 pour Malaspina) a en outre utilisé uniquement des échantillons.Les échantillons internes sont regroupés pour obtenir des informations sur la couverture.(Informations Complémentaires).
Des génomes supplémentaires (externes) ont été inclus dans l'analyse ultérieure, à savoir 830 MAG sélectionnés manuellement à partir d'un sous-ensemble de l'ensemble de données Tara Oceans26, 5 287 SAG de l'ensemble de données GORG20 et des données de la base de données MAR (MarDB v. 4) de 1 707 REF isolés et 682 SAG) 27. Pour l'ensemble de données MarDB, les génomes sont sélectionnés en fonction des métadonnées disponibles si le type d'échantillon correspond à l'expression régulière suivante : '[S|s]ingle.?[C|c]ell|[C|c]ulture| [Je|je] isolé'.
La qualité de chaque conteneur métagénomique et des génomes externes a été évaluée à l'aide de CheckM (v.1.0.13) et du Lineage Workflow d'Anvi'o (v.5.5.0)58,59.Si CheckM ou Anvi'o rapporte ≥50 % d'exhaustivité/exhaustivité et ≤10 % de contamination/redondance, enregistrez les cellules métagénomiques et les génomes externes pour une analyse ultérieure.Ces scores ont ensuite été combinés en exhaustivité moyenne (mcpl) et contamination moyenne (mctn) pour classer la qualité du génome selon les critères communautaires60 comme suit : haute qualité : mcpl ≥ 90 % et mctn ≤ 5 % ;bonne qualité : mcpl ≥ 70 %, mctn ≤ 10 %, qualité moyenne : mcpl ≥ 50 % et mctn ≤ 10 %, qualité passable : mcpl ≤ 90 % ou mctn ≥ 10 %.Les génomes filtrés ont ensuite été corrélés aux scores de qualité (Q et Q') comme suit : Q = mcpl – 5 x mctn Q' = mcpl – 5 x mctn + mctn x (variabilité de la souche)/100 + 0,5 x log[N50] .(implémenté dans dRep61).
Pour permettre une analyse comparative entre différentes sources de données et types de génomes (MAG, SAG et REF), 34 799 génomes ont été déréférencés sur la base de l'identité nucléotidique moyenne (ANI) à l'échelle du génome à l'aide de dRep (v.2.5.4).Répétitions)61 avec des seuils ANI de 95 %28,62 (-comp 0 -con 1000 -sa 0,95 -nc 0,2) et des gènes marqueurs à copie unique utilisant SpecI63 fournissant un regroupement du génome au niveau de l'espèce.Un génome représentatif a été sélectionné pour chaque cluster dRep en fonction du score de qualité maximal (Q') défini ci-dessus, considéré comme représentatif de l'espèce.
Pour évaluer la vitesse de cartographie, BWA (v.0.7.17-r1188, -a) a été utilisé pour cartographier les 1 038 ensembles de lectures métagénomiques avec 34 799 génomes contenus dans l'OMD.Les lectures de qualité contrôlée ont été cartographiées en mode asymétrique et les alignements résultants ont été filtrés pour conserver uniquement les alignements d'une longueur ≥ 45 pb.et identité ≥95 %.Le taux d'affichage pour chaque échantillon est le pourcentage de lectures restantes après filtration divisé par le nombre total de lectures de contrôle qualité.En utilisant la même approche, chacun des 1 038 métagénomes a été réduit à 5 millions d'inserts (données étendues, Fig. 1c) et apparié à GORG SAG dans OMD et dans tous les GEM16.La quantité de MAG récupérées dans l'eau de mer dans le catalogue GEM16 a été déterminée par des requêtes par mots clés de sources métagénomiques, en sélectionnant des échantillons d'eau de mer (par exemple, par opposition aux sédiments marins).Plus précisément, nous sélectionnons « aquatique » comme « catégorie_écosystème », « marin » comme « type_écosystème » et filtrons « habitat » comme « océan profond », « marin », « océanique maritime », « marin pélagique », « eau marine ». «Océan», «Eau de mer», «Eau de mer de surface», «Eau de mer de surface».Cela a abouti à 5903 MAG (734 de haute qualité) répartis sur 1823 OTU (vues ici).
Les génomes procaryotes ont été annotés taxonomiquement à l'aide de GTDB-Tk (v.1.0.2)64 avec des paramètres par défaut ciblant GTDB r89 version 13. Anvi'o a été utilisé pour identifier les génomes eucaryotes sur la base d'une prédiction et d'un rappel de domaine ≥ 50 % et d'une redondance ≤ 10 %.L'annotation taxonomique d'une espèce est définie comme l'un de ses génomes représentatifs.À l'exception des eucaryotes (148 MAG), chaque génome a d'abord été annoté fonctionnellement à l'aide de prokka (v.1.14.5)65, nommant des gènes complets, définissant les paramètres « archées » ou « bactéries » selon les besoins, ce qui est également signalé pour les non- gènes codants.et les régions CRISPR, entre autres caractéristiques génomiques.Annotez les gènes prédits en identifiant les gènes marqueurs universels à copie unique (uscMG) à l’aide de fetchMG (v.1.2)66, attribuez des groupes d’orthologues et interrogez à l’aide d’emapper (v.2.0.1)67 sur la base de eggNOG (v.5.0)68.Base de données KEGG (publiée le 10 février 2020) 69. La dernière étape a été réalisée en faisant correspondre les protéines à la base de données KEGG à l'aide de DIAMOND (v.0.9.30)70 avec une couverture de requêtes et de sujets ≥ 70 %.Les résultats ont ensuite été filtrés selon le pipeline d'annotation du génome procaryote NCBI71 sur la base d'un débit binaire ≥ 50 % du débit binaire maximum attendu (lien lui-même).Les séquences génétiques ont également été utilisées comme entrée pour identifier les BGC dans le génome à l'aide d'antiSMASH (v.5.1.0)72 avec des paramètres par défaut et différentes explosions de clusters.Tous les génomes et annotations ont été compilés dans OMD avec des métadonnées contextuelles disponibles sur le Web (https://microbiomics.io/ocean/).
Semblable aux méthodes décrites précédemment12,22, nous avons utilisé CD-HIT (v.4.8.1) pour regrouper >56,6 millions de gènes codant pour des protéines provenant de génomes bactériens et archéens de l'OMD en gènes d'identité à 95 % et plus courts (couverture de 90 %)73 jusqu'à >17,7 millions de groupes de gènes.La séquence la plus longue a été choisie comme gène représentatif de chaque groupe de gènes.Les 1 038 métagénomes ont ensuite été appariés à plus de 17, 7 millions de membres du cluster BWA (-a) et les fichiers BAM résultants ont été filtrés pour conserver uniquement les alignements avec ≥ 95% d'identité et ≥ 45 alignements de base.L'abondance des gènes normalisés en longueur a été calculée en comptant d'abord les inserts du meilleur alignement unique, puis, pour les inserts à cartographie floue, en ajoutant des comptes fractionnaires aux gènes cibles correspondants proportionnellement à leur nombre d'inserts uniques.
Les génomes de l'OMD étendu (avec des MAG supplémentaires de «Ca. Eudormicrobiaceae», voir ci-dessous) ont été ajoutés à la base de données de l'outil d'analyse métagénomique mOTUs74 (v.2.5.1) pour créer une base de données de référence mOTU étendue.Seuls six génomes à copie unique (23 528 génomes) ont survécu sur dix uscMG.L'expansion de la base de données a abouti à 4 494 groupes supplémentaires au niveau des espèces.1038 métagénomes ont été analysés à l'aide des paramètres mOTU par défaut (v.2).Un total de 989 génomes contenus dans 644 clusters mOTU (95 % REF, 5 % SAG et 99,9 % appartenant à MarDB) n'ont pas été détectés par le profil mOTU.Cela reflète diverses sources supplémentaires d'isolement marin des génomes de MarDB (la plupart des génomes non détectés sont associés à des organismes isolés des sédiments, des hôtes marins, etc.).Pour continuer à nous concentrer sur l'environnement océanique dans cette étude, nous les avons exclus de l'analyse en aval à moins qu'ils n'aient été détectés ou inclus dans la base de données mOTU étendue créée dans cette étude.
Tous les BGC de MAG, SAG et REF dans OMD (voir ci-dessus) ont été combinés avec des BGC identifiés dans tous les échafaudages métagénomiques (antiSMASH v.5.0, paramètres par défaut) et caractérisés à l'aide de BiG-SLICE (v.1.1) (domaine PFAM)75.Sur la base de ces caractéristiques, nous avons calculé toutes les distances cosinusoïdales entre les BGC et les avons regroupées (liens moyens) en GCF et GCC en utilisant des seuils de distance de 0,2 et 0,8 respectivement.Ces seuils sont une adaptation des seuils précédemment utilisés utilisant la distance euclidienne75 ainsi que la distance cosinusoïdale, ce qui atténue certaines erreurs de la stratégie de clustering BiG-SLICE originale (informations supplémentaires).
Les BGC ont ensuite été filtrés pour ne conserver que ≥ 5 kb codés sur des échafaudages afin de réduire le risque de fragmentation comme décrit précédemment et d'exclure les REF et SAG MarDB introuvables dans 1038 métagénomes (voir ci-dessus).Cela a abouti à un total de 39 055 BGC codés par le génome OMD, avec 14 106 supplémentaires identifiés sur des fragments métagénomiques (c'est-à-dire non combinés dans des MAG).Ces BGC « métagénomiques » ont été utilisées pour estimer la proportion du potentiel de biosynthèse du microbiome marin non capturé dans la base de données (informations supplémentaires).Chaque BGC a été caractérisé fonctionnellement selon des types de produits prédictifs définis par des catégories de produits anti-SMASH ou plus grossières définies dans BiG-SCAPE76.Pour éviter les biais d'échantillonnage dans la quantification (composition taxonomique et fonctionnelle de GCC/GCF, distance de GCF et GCC par rapport aux bases de données de référence et abondance métagénomique de GCF), en ne conservant que le BGC le plus long par GCF pour chaque espèce, 39 055 BGC ont été dédupliqués davantage, ce qui donne un total de 17 689 BGC.
La nouveauté de GCC et GCF a été évaluée sur la base de la distance entre la base de données calculée (base de données RefSeq dans BiG-FAM) et le BGC vérifié expérimentalement (MIBIG 2.0) 30.Pour chacun des 17 689 BGC représentatifs, nous avons choisi la plus petite distance cosinusoïdale par rapport à la base de données respective.Ces distances minimales sont ensuite moyennées (moyennes) selon GCF ou GCC, selon le cas.Un GCF est considéré comme nouveau si la distance à la base de données est supérieure à 0,2, ce qui correspond à une séparation idéale entre le GCF (moyen) et la référence.Pour GCC, nous choisissons 0,4, soit le double du seuil défini par GCF, pour verrouiller une relation à long terme avec les liens.
L'abondance métagénomique de BGC a été estimée comme l'abondance moyenne de ses gènes biosynthétiques (telle que déterminée par anti-SMASH) disponibles à partir des profils au niveau génétique.L'abondance métagénomique de chaque GCF ou GCC a ensuite été calculée comme la somme des BGC représentatifs (sur 17 689).Ces cartes d'abondance ont ensuite été normalisées pour la composition cellulaire à l'aide du nombre de mOTU par échantillon, qui tenait également compte des efforts de séquençage (données étendues, Fig. 1d).La prévalence du GCF ou du GCC a été calculée comme le pourcentage d'échantillons avec une abondance > 0.
La distance euclidienne entre les échantillons a été calculée à partir du profil GCF normalisé.La taille de ces distances a été réduite à l'aide de UMAP77 et les intégrations résultantes ont été utilisées pour un clustering non supervisé basé sur la densité à l'aide de HDBSCAN78.Le nombre minimum optimal de points pour un cluster (et donc le nombre de clusters) utilisé par HDBSCAN est déterminé en maximisant la probabilité cumulée d'appartenance au cluster.Les grappes identifiées (et un sous-échantillon équilibré aléatoire de ces grappes pour tenir compte du biais dans l'analyse de variance multivariée par permutation (PERMANOVA)) ont été testées pour leur signification par rapport aux distances euclidiennes non réduites à l'aide de PERMANOVA.La taille moyenne du génome des échantillons a été calculée sur la base de l'abondance relative de mOTU et de la taille estimée du génome des membres des génomes.En particulier, la taille moyenne du génome de chaque mOTU a été estimée comme la moyenne des tailles du génome de ses membres corrigée pour être complète (après filtrage) (par exemple, un génome complet à 75 % d'une longueur de 3 Mo a une taille ajustée de 4 Mo).pour les génomes moyens avec une intégrité ≥70%.La taille moyenne du génome de chaque échantillon a ensuite été calculée comme la somme des tailles du génome mOTU pondérée par l'abondance relative.
Un ensemble filtré de BGC codés par le génome dans l'OMD est présenté dans les arbres GTDB bactériens et archéens (dans des cadres ≥ 5 Ko, à l'exclusion de REF et SAG MarDB introuvables dans 1038 métagénomes, voir ci-dessus) et leurs catégories de produits prévues en fonction de la phylogénétique. position du génome (voir ci-dessus).Nous avons d'abord réduit les données par espèce, en utilisant comme représentatif le génome contenant le plus de BGC chez cette espèce.Pour la visualisation, les représentants ont ensuite été divisés en groupes d'arbres et, encore une fois, pour chaque clade cellulaire, le génome contenant le plus grand nombre de BGC a été sélectionné comme représentant.Les espèces enrichies en BGC (au moins un génome avec> 15 BGC) ont été analysées plus en détail en calculant l'indice de diversité de Shannon pour les types de produits codés dans ces BGC.Si tous les types de produits prédits sont identiques, les hybrides chimiques et autres BGC complexes (tels que prédits par l'anti-SMAH) sont considérés comme appartenant au même type de produit, quel que soit leur ordre dans le cluster (par exemple, protéine-bactériocine et fusion bactériocine-protéine). corps).hybride).
ADN restant (estimé à 6 ng) de l'échantillon Malaspina MP1648, correspondant à l'échantillon biologique SAMN05421555 et apparié à l'ensemble de lecture métagénomique Illumina SRR3962772 pour une lecture courte, traité selon le protocole de séquençage PacBio avec une entrée ultra-faible pour utiliser le kit PacBio SMRTbell amplification d'échantillon d'ADN g kit (100-980-000) et kit de préparation de modèles SMRTbell Express 2.0 (100-938-900).En bref, l'ADN restant a été coupé, réparé et purifié (billes ProNex) à l'aide de Covaris (g-TUBE, 52104).L'ADN purifié est ensuite soumis à la préparation de la bibliothèque, à l'amplification, à la purification (billes ProNex) et à la sélection de taille (>6 kb, Blue Pippin) avant une étape finale de purification (billes ProNex) et de séquençage sur la plateforme Sequel II.
Reconstruction des deux premiers ca.Pour MAG Eremiobacterota, nous avons identifié six ANI supplémentaires > 99 % (ceux-ci sont inclus dans la figure 3), qui ont été initialement filtrés en fonction des scores de contamination (identifiés plus tard comme des duplications de gènes, voir ci-dessous).Nous avons également trouvé un plateau étiqueté « Ca ».Eremiobacterota » de diverses études23 et les a utilisés avec huit MAG de notre étude comme référence pour les lectures métagénomiques de 633 échantillons enrichis en eucaryotes (> 0,8 µm) en utilisant BWA (v.0.7.17) Réf -r1188, – un indicateur) pour les échantillons sous-échantillonnés. cartographie (5 millions de lectures).Sur la base de cartes spécifiques à l'enrichissement (filtrées par identité d'alignement de 95 % et couverture de lecture de 80 %), 10 métagénomes (couverture attendue ≥ 5 ×) ont été sélectionnés pour l'assemblage et 49 métagénomes supplémentaires (couverture attendue ≥ 1 ×) pour la corrélation de contenu.En utilisant les mêmes paramètres que ci-dessus, ces échantillons ont été regroupés et 10 « Ca » supplémentaires ont été ajoutés.MAG Eremiobacterota a été restauré.Ces 16 MAG (sans compter les deux déjà présents dans la base de données) portent le nombre total de génomes dans l’OMD élargi à 34 815.Les MAG se voient attribuer des rangs taxonomiques en fonction de leur similarité génomique et de leur position dans la GTDB.18 MAG ont été dérépliqués à l'aide de dRep en 5 espèces (ANI intraspécifique> 99%) et 3 genres (ANI intragénérique 85% à 94%) au sein de la même famille79.Les représentants des espèces ont été sélectionnés manuellement en fonction de leur intégrité, de leur contamination et de leur N50.La nomenclature suggérée est fournie dans les informations supplémentaires.
Évaluer l'intégrité et la contamination de 'Ca.MAG Eremiobacterota, nous avons évalué la présence d'uscMG, ainsi que d'ensembles de gènes marqueurs à copie unique spécifiques à la lignée et au domaine utilisés par CheckM et Anvi'o.L'identification de 2 doublons sur 40 uscMG a été confirmée par reconstruction phylogénétique (voir ci-dessous) pour écarter toute contamination potentielle (cela correspond à 5% sur la base de ces 40 gènes marqueurs).Une étude supplémentaire de cinq MAG représentatifs 'Ca.Le faible niveau de contaminants dans ces génomes reconstruits a été confirmé pour les espèces d'Eremiobacterota à l'aide de l'interface interactive Anvi'o basée sur des corrélations d'abondance et de composition de séquences (informations supplémentaires)59.
Pour l'analyse phylogénomique, nous avons sélectionné cinq MAG représentatifs «Ca».Eudormicrobiaceae », toutes les espèces « Ca.Le génome d'Eremiobacterota et des membres d'autres phylums (y compris UBP13, Armatimonadota, Patescibacteria, Dormibacterota, Chloroflexota, Cyanobacteria, Actinobacteria et Planctomycetota) est disponible auprès de GTDB (r89)13.Tous ces génomes ont été annotés comme décrit précédemment pour l'extraction de gènes marqueurs en une seule copie et l'annotation BGC.Les génomes GTDB ont été conservés selon les critères d'intégrité et de contamination ci-dessus.L'analyse phylogénétique a été réalisée à l'aide du flux de travail Anvi'o Phylogenetics59.L'arbre a été construit en utilisant IQTREE (v.2.0.3) (options par défaut et -bb 1000)80 sur un alignement de 39 protéines ribosomales en tandem identifiées par Anvi'o (MUSCLE, v.3.8.1551)81.Ses postes ont été réduits.pour couvrir au moins 50 % du génome82 et Planctomycecota a été utilisé comme groupe externe basé sur la topologie arborescente GTDB.Un arbre de 40 uscMG a été construit en utilisant les mêmes outils et paramètres.
Nous avons utilisé Traitar (v.1.1.2) avec des paramètres par défaut (phénotype, à partir de nucléotides)83 pour prédire les traits microbiens communs.Nous avons exploré un mode de vie prédateur potentiel sur la base d'un indice de prédation précédemment développé84 qui dépend du contenu d'un gène codant pour une protéine dans le génome.Plus précisément, nous utilisons DIAMOND pour comparer les protéines du génome avec la base de données OrthoMCL (v.4)85 en utilisant les options –plus sensible –id 25 –query-cover 70 –subject-cover 70 –top 20 ET compter les gènes correspondant à les gènes marqueurs des prédateurs et des non-prédateurs.L'indice est la différence entre le nombre de marques prédatrices et non prédatrices.À titre de contrôle supplémentaire, nous avons également analysé le génome « Ca ».Le facteur Entotheonella TSY118 est basé sur son association avec Ca.Eudoremicrobium (grande taille du génome et potentiel biosynthétique).Ensuite, nous avons testé les liens potentiels entre les gènes marqueurs prédateurs et non-prédateurs et le potentiel biosynthétique du Ca.Eudormicrobiaceae » et a découvert qu'au plus un gène (de tout type de gène marqueur, c'est-à-dire un gène prédateur/non-prédateur) chevauche le BGC, ce qui suggère que le BGC ne confond pas les signaux de prédation.Une annotation génomique supplémentaire des réplicons brouillés a été réalisée à l'aide de TXSSCAN (v.1.0.2) pour examiner spécifiquement le système de sécrétion, les pili et les flagelles .
Cinq 'Ca représentatifs ont été cartographiés en cartographiant 623 métatranscriptomes des fractions d'enrichissement procaryotes et eucaryotes des océans Tara (en utilisant BWA, v.0.7.17-r1188, -a flag).Génome des Eudormicrobiaceae.Les fichiers BAM ont été traités avec FeatureCounts (v.2.0.1)88 après une couverture de lecture de 80 % et un filtrage d'identité de 95 % (avec les options featureCounts –primary -O –fraction -t CDS,tRNA -F GTF -g ID -p ). nombre d'inserts par gène.Les cartes générées ont été normalisées pour la longueur du gène et l'abondance du gène marqueur mOTU (nombre d'insertions moyen normalisé en longueur pour les gènes avec un nombre d'insertions > 0) et transformées en log à 22,74 pour obtenir l'expression relative par cellule de chaque niveau de gène, ce qui explique également le variabilité d’un échantillon à l’autre pendant le séquençage.De tels ratios permettent une analyse comparative, atténuant ainsi les problèmes de composition lors de l'utilisation de données d'abondance relative.Seuls les échantillons contenant> 5 des 10 gènes marqueurs mOTU ont été pris en compte pour une analyse plus approfondie afin de permettre la détection d'une partie suffisamment grande du génome.
Le profil transcriptome normalisé de 'Ca.E. taraoceanii a été soumis à une réduction de dimensionnalité à l'aide de UMAP et la représentation résultante a été utilisée pour un regroupement non supervisé à l'aide de HDBSCAN (voir ci-dessus) afin de déterminer le statut d'expression.PERMANOVA teste l'importance des différences entre les clusters identifiés dans l'espace de distance d'origine (non réduit).L'expression différentielle entre ces conditions a été testée à travers le génome (voir ci-dessus) et 201 voies KEGG ont été identifiées dans 6 groupes fonctionnels, à savoir : BGC, système de sécrétion et gènes flagellaires de TXSSCAN, enzymes de dégradation (protéase et peptidases), et gènes prédateurs et non- gènes prédateurs.marqueurs d'indice prédateurs.Pour chaque échantillon, nous avons calculé l'expression médiane normalisée pour chaque classe (notez que l'expression de BGC elle-même est calculée comme l'expression médiane des gènes biosynthétiques pour ce BGC) et testé la signification entre les États (test de Kruskal-Wallis ajusté pour le FDR).
Les gènes synthétiques ont été achetés auprès de GenScript et les amorces PCR ont été achetées auprès de Microsynth.La Phusion polymérase de Thermo Fisher Scientific a été utilisée pour l'amplification de l'ADN.Les plasmides NucleoSpin, le gel NucleoSpin et le kit de purification PCR de Macherey-Nagel ont été utilisés pour la purification de l'ADN.Les enzymes de restriction et l'ADN ligase T4 ont été achetées auprès de New England Biolabs.Des produits chimiques autres que l'isopropyl-β-d-1-thiogalactopyranoside (IPTG) (Biosynth) et le 1,4-dithiothréitol (DTT, AppliChem) ont été achetés auprès de Sigma-Aldrich et utilisés sans autre purification.Les antibiotiques chloramphénicol (Cm), dichlorhydrate de spectinomycine (Sm), ampicilline (Amp), gentamicine (Gt) et carbénicilline (Cbn) ont été achetés auprès d'AppliChem.Les composants des milieux Bacto Tryptone et Bacto Yeast Extract ont été achetés auprès de BD Biosciences.La trypsine pour le séquençage a été achetée auprès de Promega.
Les séquences génétiques ont été extraites du BGC 75.1 prédit par l'anti-SMASH.E. malaspinii (Informations supplémentaires).
Les gènes embA (locus, MALA_SAMN05422137_METAG-framework_127-gene_5), embM (locus, MALA_SAMN05422137_METAG-framework_127-gene_4) et embAM (y compris les régions intergéniques) ont été séquencés sous forme de constructions synthétiques dans pUC57 (AmpR) avec et sans codons optimisés pour l'expression dans E. quand.Le gène embA a été sous-cloné dans le premier site de clonage multiple (MCS1) de pACYCDuet-1 (CmR) et pCDFDuet-1 (SmR) avec les sites de clivage BamHI et HindIII.Les gènes embM et embMopt (optimisés en codons) ont été sous-clonés dans MCS1 pCDFDuet-1 (SmR) avec BamHI et HindIII et placés dans le deuxième site de clonage multiple de pCDFDuet-1 (SmR) et pRSFDuet-1 (KanR) (MCS2) avec NdeI/ChoI.La cassette embAM a été sous-clonée dans pCDFDuet1 (SmR) avec les sites de clivage BamHI et HindIII.Le gène orf3/embI (locus, MALA_SAMN05422137_METAG-scaffold_127-gene_3) a été construit par PCR d'extension par chevauchement en utilisant les amorces EmbI_OE_F_NdeI et EmbI_OE_R_XhoI, digéré avec NdeI/XhoI et ligaturé dans pCDFDuet-1-EmbM (MCS1) en utilisant les mêmes enzymes de restriction (Supplémentaire tableau).6).La digestion et la ligature par des enzymes de restriction ont été réalisées conformément au protocole du fabricant (New England Biolabs).
Heure de publication : 14 mars 2023