Proposal of a time series-based model for the characterization and prediction of dropout rates at the National Open and Distance University
Propuesta de un modelo basado en series temporales para la caracterización y predicción de las tasas de deserción en la Universidad Nacional Abierta y a Distancia
Share this
Date
2024-05-15Author
Chanchí G., Gabriel Elías
Monroy Gómez, Luis Fernando
Barrera Buitrago, Dayana Alejandra
Citación
Metadata
Show full item recordDocuments PDF
Abstract
Dropout rates are a key indicator of educational quality, making it imperative for educational institutions to design strategies to reduce them, thereby contributing to improved student retention and the achievement of academic objectives. While dropout research has primarily focused on machine learning methods applied to in-person education datasets, this article introduces a novel approach based on time series models for dropout rates analysis at the National Open and Distance University (UNAD). Methodologically, an adaptation of the CRISP-DM methodology was undertaken in four phases, namely: F1. Business and data understanding, F2. Data preparation, F3. Model building and evaluation, and F4. Model deployment. In terms of results, an open dataset on UNAD dropout, obtained from the SPADIES system between 1999 and 2021, was employed. Using Python libraries statsmodels and pandas, an ARIMA model was implemented, displaying optimal error metrics. This ARIMA model was utilized to forecast future dropout rates at UNAD, projecting a future dropout rate fluctuating around 23%. In conclusion, the ARIMA model developed for UNAD stands as an innovative and essential tool in the educational realm, capable of accurately anticipating dropout rates for upcoming semesters. This provides UNAD with a unique advantage in strategic decision-making. La tasa de deserción es un indicador clave de la calidad educativa, por lo que es imperativo que las instituciones educativas diseñen estrategias para reducirla y así aumentar la retención estudiantil y alcanzar los logros académicos. Mientras que la investigación sobre la deserción se ha concentrado principalmente en métodos de aprendizaje automático aplicados a conjuntos de datos sobre educación presencial, este artículo introduce un enfoque novedoso al utilizar modelos de series temporales para analizar la tasa de deserción de la Universidad Nacional Abierta y a Distancia (UNAD). En cuanto a la metodología, se adaptó el proceso CRISP-DM en cuatro fases, a saber: F1. Comprensión del negocio y de los datos, F2. Preparación de los datos. F3. Modelado y evaluación y F4. Despliegue del modelo. Respecto a los resultados, se empleó un conjunto de datos abiertos sobre la deserción en la UNAD que abarca desde 1999 hasta 2021, el cual se obtuvo del sistema SPADIES. Mediante el uso de las bibliotecas de Python statsmodels y pandas, se implementó un modelo ARIMA, el cual arrojó excelentes resultados en las medidas de error. Este modelo ARIMA se utilizó para predecir la tasa de deserción futura de la UNAD, la cual se proyecta que oscilará alrededor del 23 %. En conclusión, el modelo ARIMA desarrollado para la UNAD se destaca como una herramienta innovadora y fundamental en el ámbito educativo, capaz de predecir de forma precisa la tasa de deserción de semestres futuros, lo cual le otorga a la UNAD una ventaja única en la toma decisiones estratégicas.