banner
Lar / Notícias / ViralCC recupera genomas virais e vírus completos
Notícias

ViralCC recupera genomas virais e vírus completos

Jun 04, 2024Jun 04, 2024

Nature Communications volume 14, número do artigo: 502 (2023) Citar este artigo

3725 acessos

20 Altmétrico

Detalhes das métricas

A introdução da captura de conformação cromossômica de alto rendimento (Hi-C) na metagenômica permite a reconstrução de genomas montados em metagenoma (MAGs) de alta qualidade a partir de comunidades microbianas. Apesar dos avanços recentes na recuperação de genomas eucarióticos, bacterianos e arqueais usando mapas de contato Hi-C, poucos métodos baseados em Hi-C são projetados para recuperar genomas virais. Aqui apresentamos o ViralCC, uma ferramenta disponível publicamente para recuperar genomas virais completos e detectar pares vírus-hospedeiro usando dados Hi-C. Comparado a outros métodos baseados em Hi-C, o ViralCC aproveita a estrutura de proximidade vírus-hospedeiro como uma fonte de informação complementar para as interações Hi-C. Usando conjuntos de dados metagenômicos Hi-C simulados e reais de vários ecossistemas microbianos diferentes, incluindo intestino humano, fezes de vaca e águas residuais, demonstramos que o ViralCC supera os métodos de armazenamento baseados em Hi-C existentes, bem como ferramentas de última geração especificamente dedicado ao binning viral metagenômico. ViralCC também pode revelar a estrutura taxonômica de vírus e pares vírus-hospedeiro em comunidades microbianas. Quando aplicado a um conjunto de dados Hi-C metagenômico real de águas residuais, o ViralCC constrói uma rede fago-hospedeiro, que é posteriormente validada usando análises de espaçadores CRISPR. ViralCC é um pipeline de código aberto disponível em https://github.com/dyxstat/ViralCC.

Os vírus constituem o organismo biológico mais divergente e ubíquo do planeta, com uma abundância global estimada em 1.031 1. Os vírus têm enormes impactos nos ecossistemas como predadores e/ou parasitas nas comunidades microbianas através do ciclo lisogénico ou lítico que infectam bactérias e arquéias2,3. Por exemplo, os vírus contribuem significativamente para o ciclo biogeoquímico do carbono e do azoto nos habitats aquáticos4,5 e estão implicados em certas doenças, como a doença inflamatória intestinal e a desnutrição aguda grave nos sistemas humanos6,7. Portanto, o interesse pela virômica aumentou dramaticamente nas últimas duas décadas.

Uma vez que o número de vírus que podem ser tradicionalmente cultivados em laboratório é demasiado limitado para avaliar a diversidade viral8, a metagenómica, como estratégia de amostragem independente da cultura, tem sido amplamente explorada para recuperar genomas virais e identificar os hospedeiros destes vírus recentemente descobertos, um dos aspectos mais difíceis do estudo de vírus em comunidades microbianas9,10,11. O sequenciamento shotgun do genoma inteiro metagenômico (WGS) extrai diretamente fragmentos genômicos de várias amostras ambientais, gerando um grande número de leituras curtas que são posteriormente montadas em contigs . Os contigs virais metagenômicos são então identificados a partir de grandes conjuntos com base na composição de sequências, similaridade de sequências e/ou detecção de proteínas virais . No entanto, a montagem do genoma viral a partir de leituras shotgun é um desafio e contigs virais curtos podem representar apenas segmentos de genomas virais inteiros . Fragmentos virais incompletos têm um impacto significativamente adverso nas análises a jusante, incluindo a caracterização da diversidade e abundância viral subjacente, previsão do hospedeiro e capacidade funcional . Portanto, o binning viral metagenômico, definido como um processo para agrupar contigs virais da mesma espécie em genomas montados no metagenoma viral (vMAGs), é valioso, especialmente para vírus gigantes .

A maioria das ferramentas tradicionais de binning baseadas em shotgun são desenvolvidas para recuperar genomas eucarióticos, bacterianos e arqueais23,24,25,26 e ignoram os desafios associados aos vírus, como a falta de genes universais de cópia única e o tamanho relativamente pequeno dos genomas virais . Além disso, essas ferramentas de binning que exploram a análise genética de marcadores microbianos não são aplicáveis ​​a vírus . CoCoNet29 e vRhyme30 são dois métodos existentes especificamente dedicados ao binning viral metagenômico. CoCoNet treina uma rede neural usando recursos de composição e co-ocorrência de contigs virais em amostras para prever a probabilidade de que dois contigs virais se originem do mesmo genoma. vRhyme utiliza comparações de tamanho de efeito de cobertura de amostra única ou múltipla para calcular diferenças de cobertura entre contigs virais. Para processar as informações de composição da sequência, o vRhyme primeiro pré-treina modelos de classificação supervisionados baseados em aprendizado de máquina usando fragmentos de genoma. Em seguida, o vetor de similaridade de características de nucleotídeos entre dois contigs virais é inserido nos modelos de classificação para prever o valor de probabilidade de que os contigs virais se originem do mesmo genoma. Finalmente, vRhyme constrói uma rede ponderada, onde cada nó é um contig viral e um peso de borda é calculado dividindo a diferença de cobertura pelo valor de probabilidade. As redes são ainda mais refinadas em vMAGs. No entanto, tanto o CoCoNet quanto o vRhyme podem ser criticamente prejudicados quando não há amostras suficientes para construir perfis de coabundância confiáveis ​​de contigs virais, ou seja, perfis que mostram quais contigs compartilham valores de abundância consistentes em múltiplas amostras e, portanto, provavelmente vêm do mesmo genoma. .