[spa] Durante las últimas décadas, el número de secuencias que se encuentran albergadas en la base de datos GenBank ha incrementado de forma exponencial, en gran medida por los diferentes avances que han tenido lugar en cuanto a los métodos de secuenciación, ya sea en la metodología en sí como en los costes económicos de su utilización. GenBank da la opción a los investigadores de incorporar metadatos de todo tipo asociados a la nueva secuencia nucleotídica, entre ellas su ubicación geográfica de origen. Sin embargo, gran parte de las entradas alojadas no tienen ningún tipo de información geográfica o, en el caso de aquellas que sí contienen, no se proporcionan con la precisión o formato adecuado para poder reutilizarlas en estudios filogeográficos y de genética de poblaciones.
En el siguiente trabajo, de carácter bioinformático, se tratará el reaprovechamiento de las secuencias de esta base de datos como forma de dar solución a la problemática descrita. Para ello, se llevará a cabo un caso práctico utilizando entradas de GenBank pertenecientes al mitogenoma de Homo Sapiens mediante la utilización de scripts en lenguaje Python. A partir de los resultados obtenidos, se propone una herramienta web de dominio público como forma de dar apoyo a los investigadores pertenecientes a las áreas científicas descritas anteriormente para que puedan llevar a cabo la reutilización de secuencias durante la realización de sus estudios.
[eng] During the last decades, the number of sequences that are contained into the GenBank database have increased exponentially, because of advances related to new sequencing methods, either methodologic improvements and reduced costs. Moreover, GenBank allows researchers to incorporate different types of metadata in association with the new sequence, including its original geographical location. Furthermore, most of the sequence records in this database do not have any type of geographical information or, in the case of those that do contain, do not have enough geographical precision to carry out phylogeographic and population genetics studies.
In this work, we are going to address the reuse of this database sequences to solve this problem. We are carrying out an exercise using Homo Sapiens mitogenome sequence records with Python scripts. From the obtained results, we propose a web open source tool to help other phylogeography and population genetics scientists to do their studies reusing sequences from GenBank.