Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes

Tapia Sucapuca, Jhampier

Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes

Archivos

UPtasuj.pdf(9.18 MB)

Fecha

2021

Autores

Tapia Sucapuca, Jhampier

Editor

Universidad Nacional de San Agustín de Arequipa

Resumen

En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos.

Palabras clave

Modelo de Aprendizaje Automatizado, Minería de Datos, Clasificador Bayesiano, Arboles de Decisión, Clasificador basado en Bosques Aleatorios, Datos desbalanceados, Técnicas de Remuestreo, Variables Ficticias, Validación Cruzada, Área bajo la curva ROC, Deserción Estudiantil

URI

http://hdl.handle.net/20.500.12773/13409

Colecciones

Maestrías

Página completa del ítem