Selección de marcadores génicos de Bacillus para la resolución taxonómica a nivel de especie

Fecha

2021

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

El grupo de Bacillus cereus abarca una amplia gama de cepas patógenas siendo B. anthracis y B. cereus eméticas y diarreicas las epidemiológicamente más relevantes. Por otro lado, B. thuringiensis cumple un rol importante en el control de plagas de insectos. Asimismo, las cepas del grupo B. cereus se adaptan a diversos nichos ambientales como el suelo o las plantas e incluso se han utilizado, como el caso de cepas de la especie B. toyonensis, como probióticos en mamíferos. La asignación de especies dentro del grupo B. cereus es muy desafiante habiéndose reportado numerosos casos de asignaciones incorrectas o incoherencias entre la asignación taxonómica, las características genómicas y fenotípicas de los aislamientos. Sin embargo, la correcta asignación a nivel de especie de las cepas de uso industrial o agronómico tiene un gran impacto en la forma en que se seleccionan, cultivan, aprueban para su uso y finalmente comercializan, debido al hecho de que dichas asignaciones, implícitamente o no, se utilizan para predecir la seguridad y el rendimiento de las bacterias. En este trabajo de tesina nos planteamos generar clasificadores que permitan determinar la identidad a nivel de especie de cepas del grupo B. cereus. Para ello, inicialmente las secuencias genómicas disponible de este grupo se descargaron de GenBank. Se determinaron los parámetros de los ensamblados y se seleccionaron aquellas secuencias genómicas que superaron los criterios de calidad y completitud en base al contenido de genes housekeeping. De esta manera, se determinó que 412 secuencias genómicas del grupo B. cereus de las 2460 secuencias disponibles en GenBank no superaron los valores de calidad establecidos. De las restantes, 63 secuencias no se consideraron completas debido a que carecían de genes housekeeping. La identidad taxonómica a nivel de especie de las cepas en estudio se validó o reasignó por análisis de identidad nucleotídica promedio y análisis de secuencias multi-locus. Se determinó que de las 343 secuencias genómicas del grupo B. cereus disponibles desde el 4 de abril de 2018 hasta el 01 de julio de 2020 en GenBank, 166, 140 y 37 corresponden a cepas de los Clados 1, 2 y 3, respectivamente. El 40,71%, 54,10% y 48,57% de las secuencias genómicas de buena calidad de los Clados 1, 2 y 3 recientemente disponibles en GenBank debieron ser reclasificadas ya que su denominación era incorrecto o desactualizada. A su vez, 5 cepas (CH140a_4T, B-9, DE0191, XIN1 y SH5_2) a las que denominamos genomoespecie 38, 39, 40, 41 y 42 se clasificaron como nuevas genomoespecies. Posteriormente con la finalidad de entrenar y evaluar clasificadores apropiados para el grupo B. cereus, se definieron al azar dos grupos de secuencias. Un grupo de entrenamiento que se utilizó para el entrenamiento de modelos predictivos de clasificación de cepas y un grupo de evaluación que se utilizó para la determinación del error del modelo. Para evaluar la precisión de cada clasificador basado en los genes marcadores reportados en la bibliografía y el método de machine learning Random Forest se realizaron validaciones cruzadas. Se observó que los clasificadores basados en el gen ARNr 16S mostraron precisiones inferiores al 75% indicando que este marcador no es apropiado para diferenciar cepas de distintas especies e incluso clados del grupo B. cereus. Sin embargo, los bosques clasificadores mostraron que 11 genes marcadores reportados en la bibliografía permitieron asignar las especies de los Clados 1, 2 y 3 y los clados del grupo B. cereus con una precisión y valores kappa estimados superiores al 98%. En contra de nuestra hipótesis inicial, no se identificaron genes del core que permitan generar clasificadores con precisiones superiores a los 11 marcadores seleccionados para cada clado. Por último, los clasificadores basados en los genes gyrB, pyc o lon mostraron ser los más precisos para identificar las especies o clados del grupo B. cereus. Finalmente, para determinar el error de los clasificadores se construyó una matriz de confusión con las predicciones realizadas por los clasificadores seleccionados sobre el grupo de evaluación. Se determinó el error de los clasificadores para las especies del Clado 1 y 2, y el clasificador de clados, el cual fue inferior al 1% mientras que para el Clado 3 fue menor al 4%. A su vez, los tiempos de ejecución para la clasificación de las cepas del grupo de evaluación fueron entre 0,1 y 0,85 segundos. Estos clasificadores permitirán realizar asignaciones masivas en análisis metagenómicos, así como asignaciones de nuevos aislamientos del grupo B. cereus con mayor precisión.

Descripción

Palabras clave

Bacillus cereus, Marcadores taxonómicos, Machine learning, Random forest, Bioinformática, Taxonomía

Citación