Published December 16, 2022 | Version v1
Publication

Study of horizontal gene transfer in plant-parasitic plant-parasitic nematodes by mining of soil metagenomes

Description

Plant-parasitic nematodes (PPN) are among the most important crop pests and threaten the world's food production. Besides the need to understand their biology to develop new control strategies, they are fascinating organisms in terms of genomic evolution. Plant parasitism has evolved several times independently in nematodes with some convergent evolutionary processes. For instance, all studied PPN have acquired bacterial and fungal genes by horizontal gene transfers (HGT). Some of the acquired genes are involved in essential parasitic functions like plant cell wall degradation or processing nutrients from the plant. However, several major questions concerning their origin, evolutionary fate and distribution in the genomes and timing of acquisition events remain unsolved. Most PPN live in soil; thus, we hypothesised that these genes originated from soil-dwelling microorganisms. However, the underrepresentation of soil microorganisms in generalist sequence libraries has previously limited HGT analyses.To circumvent this problem, we built a protein library including more than 6,800 soil metagenomes from the Joint Genome Institute's IMG/M server. The first challenge was to make this massive dataset more accurate and suitable for HGT analysis in PPN genomes. An important issue in metagenomic data is the underrepresentation of eukaryotes and their annotation with prokaryotic tools. To better represent the pool of genes present in the natural environments of PPN, we identified eukaryotic contigs and re-predicted proteins using Augustus, a eukaryotic dedicated gene predictor. Moreover, we reduced the protein sequence redundancy and refined the taxonomic assignment. After all these steps, we obtained an improved and non-redundant database that was more representative of the soil's natural biodiversity. This soil protein library, two times larger than the classic library, contains mainly organisms genetically divergent than lab-cultured.Then, we performed an HGT detection on proteins from 18 plant-parasitic nematode genomes of the Tylenchina clade, constituting a highly diverse group of PPN phenotypes, against our library enriched with soil protein. After manual curation, the proportion of genes acquired by horizontal transfers with phylogenetic confirmation is between 0.5 to 1.9% to protein-coding genes originating from HGT in PPN genomes. Those genes mainly originate from bacteria, but we also observed HGT from eukaryotic kingdoms such as fungi, protists and plants. The most represented taxa in donors are soil-dwelling species of clades Burkholderiaceae, Proteobacteria, Actinobacteria, Rhizobiales and Dikarya. The usage of metagenomic data clarified the history of previously described HGTs but also identified hundreds of new HGTs. Functional analyses of the newly identified HGTs indicate a wide diversity of potential functions whose biological implications can be more precisely described in in-vitro experiments. Integrating environmental data in our reference library has allowed us to extend the detection of HGTs and to complete the catalog of potential donor offspring.

Abstract (French)

Les nématodes phytoparasites (NPP) sont parmi les plus importants ravageurs des cultures et menacent l'approvisionnement alimentaire mondial. Outre la nécessité de comprendre leur biologie pour développer de nouvelles stratégies de lutte, ces organismes sont fascinants en termes d'évolution génomique. Le parasitisme des plantes a évolué plusieurs fois indépendamment chez les nématodes selon des processus évolutifs convergents. Il semble que tous les NPP aient acquis des gènes bactériens et fongiques par transferts horizontaux de gènes (THG). Certains des gènes acquis horizontalement sont impliqués dans des fonctions parasitaires essentielles comme la dégradation des parois cellulaires des plantes ou l'assimilation des nutriments provenant des plantes. Cependant, plusieurs questions majeures restent encore en suspens concernant l'origine de ces gènes, leur distribution dans les génomes et la chronologie des événements d'acquisition. La plupart des NPP vivent dans le sol; nous pouvons donc supposer que ces gènes proviennent des micro-organismes du sol. Cependant, la sous-représentation de ces micro-organismes dans les librairies de séquences généralistes a probablement limité les précédentes analyses sur les THG. Pour pallier ce problème, nous avons constitué une bibliothèque de protéines provenant de plus de 6 800 métagénomes du sol disponibles publiquement. Un problème important dans les données métagénomiques concerne la qualité des données provenant des organismes eucaryotes due à l'utilisation d'outils dédiés aux génomes procaryotes. Afin de mieux représenter le pool de gènes présents dans les environnements naturels des NPP, nous avons identifié les contigs eucaryotes et re-prédit les gènes et protéines en utilisant un prédicteur de gènes eucaryotes.. Nous avons, ainsi, obtenu une librairie de protéines fiable et non redondante plus représentative de la biodiversité naturelle du sol.En utilisant cette librairie enrichie en protéines de sol, nous avons effectué une détection de THG sur 18 génomes de NPP du clade Tylenchina constituant un groupe très diversifié de modes de parasitisme. Après curation manuelle, la proportion de gènes acquis par transferts horizontaux avec confirmation phylogénétique est comprise entre 0.5 et 1,9% des gènes codant pour des protéines. Les THG dans les génomes de NPP proviennent principalement de bactéries. Nous avons également observé des THG provenant d'organismes eucaryotes tels que des champignons et pour la première fois des protistes et des plantes. Les taxa les plus représentés parmi les donneurs sont des espèces vivant dans le sol des clades bactériens Burkholderiaceae, Proteobacteria, Actinobacteria, Rhizobiales et fongiques (Dikary)a. L'utilisation de données métagénomiques a permis de préciser l'histoire des THG déjà décrits mais aussi d'identifier des centaines de nouveaux THG. Les prédictions fonctionnelles des THG nouvellement identifiées indiquent une large diversité de fonctions potentielles dont les implications biologiques pourront être plus précisément décrites dans le cadre d'expériences biochimiques. L'intégration de données environnementales dans notre librairie de référence a permis d'étendre la détection des THG et de compléter le catalogue des descendants des potentiels donneurs.

Additional details

Created:
November 25, 2023
Modified:
November 25, 2023