Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes

No hay miniatura disponible
Fecha
2021
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de San Agustín de Arequipa
Resumen
En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos.
Descripción
Palabras clave
Modelo de Aprendizaje Automatizado, Minería de Datos, Clasificador Bayesiano, Arboles de Decisión, Clasificador basado en Bosques Aleatorios, Datos desbalanceados, Técnicas de Remuestreo, Variables Ficticias, Validación Cruzada, Área bajo la curva ROC, Deserción Estudiantil
Citación
Colecciones