Un modelo analítico para la predicción del rendimiento académico de estudiantes de ingeniería

June 9, 2017 | Autor: Richard Weber | Categoría: Educational Data Mining, Learning Analytics
Share Embed


Descripción

Revista Ingenier´ıa de Sistemas

Volumen XXIX, Septiembre 2015

´n Un modelo anal´ıtico para la prediccio ´mico de del rendimiento acade estudiantes de ingenier´ıa Sergio Celis Luis Moreno Patricio Poblete Javier Villanueva Richard Weber

* * * * *

Resumen En la u ´ltima d´ecada el avance de los sistemas de gesti´on docente y sistematizaci´ on de datos en educaci´ on superior han motivado el uso de herramientas de la miner´ıa de datos para entender procesos de aprendizaje y los contextos en los cuales estos ocurren. En el mundo anglosaj´on, comunidades en torno al learning analytics o el educational data mining han surgido para desarrollar ´ areas de investigaci´on e intervenci´on en educaci´ on superior. En estas comunidades, un ´area de particular inter´es es la generaci´ on de modelos predictivos de deserci´on y rendimiento acad´emico que permitan intervenciones de apoyo temprano a los estudiantes. En este art´ıculo hacemos uso de herramientas de learning analytics para construir un modelo que predice la ca´ıda en causal de eliminaci´on, por motivos acad´emicos, en estudiantes de primer a˜ no del Plan Com´ un de Ingenier´ıa y Ciencias de la Universidad de Chile. El modelo clasifica correctamente a m´ as del 86 % de los casos, con niveles bajos de error tipo II, y una precisi´ on de 38 %. Dado que se usa informaci´on hasta el inicio del segundo semestre, el modelo permite desarrollar intervenciones focalizadas en aquellos estudiantes en mayor riesgo. Palabras Clave: Modelo predictivo, Rendimiento acad´emico, Learning Analytics, Educational Data Mining. *

Facultad de Ciencias F´ısicas y Matem´ aticas, Universidad de Chile, Santiago, Chile.

5

S.Celis, L. Moreno, P. Poblete J. Villanueva , R. Weber

1.

´ n del Un modelo anal´ıtico para la prediccio ´mico de estudiantes de ingenier´ıa rendimiento acade

Introduci´ on

El enorme crecimiento en la disponibilidad de datos ha generado recientemente muchas oportunidades de aplicar m´etodos para el an´alisis de estos datos. El ´area de la educaci´ on no es una excepci´on. Analizando los datos que se genera entorno a la educaci´ on permite descubrir nuevas oportunidades para mejorar la gesti´ on docente. En este art´ıculo describimos la aplicaci´on de miner´ıa de datos aplicada a datos acad´emicos de los estudiantes de ingenier´ıa y ciencias de la Universidad de Chile y mostramos c´ omo la gesti´ on docente puede anticipar - y posiblemente evitar - efectos negativos, como por ejemplo la doble reprobaci´on de un curso que termina en la eliminaci´ on de la carrera y que es el fen´omeno estudiado en el presente trabajo. En la Secci´ on 2 del art´ıculo describimos el estado-del-arte del ´area de learning analytics. La Secci´ on 3 describe la situaci´on actual en una escuela de ingenier´ıa. En la Secci´ on 4 mostramos la construcci´on del modelo predictivo. Los resultados de la aplicaci´ on de nuestro modelo presentamos en la Secci´on 5. La Secci´on 6 concluye este trabajo y muestra posibles trabajos futuros.

2.

Estado-del-Arte de Learning Analytics

A comienzos de este siglo, dos comunidades de investigaci´on surgieron para usar herramientas matem´ aticas y computacionales para el an´alisis de datos educativos en educaci´ on superior: Educational Data Mining (EDM) y Learning Analytics. Ambas comunidades comparten el objetivo de usar la creciente recolecci´on de datos en educaci´ on superior para mejorar los sistemas de evaluaci´on, el entendimiento de los procesos educativos, y la priorizaci´on y dise˜ no de intervenciones educativas [32]. Las diferencias entre ambas comunidades de investigaci´on radica en los ´enfasis metodol´ogicos y focos de investigaci´on. En cuanto a metodolog´ıa, mientras EDM privilegia el descubrimiento automatizado de patrones con poca intervenci´ on de juicio experto, Learning Analytics fortalece el juicio experto y testea hip´ otesis educacionales con ayuda de modelos de descubrimiento autom´ atico [4], tales como la selecci´on de atributos [1]. Esto hace que el enfoque Learning Analytics sea m´as hol´ıstico y sist´emico (p.ej. [27] que el enfoque basado en componentes individuales y la interacci´on entre ellos, caracter´ısticos de la miner´ıa de datos [32]. En consecuencia, mode-

6

Revista Ingenier´ıa de Sistemas

Volumen XXIX, Septiembre 2015

los generados por investigadores EDM son usualmente usados para desarrollar sistemas de tutor´ıa inteligente, y los de Learning Analytics para apoyar la toma de decisiones de administrativos, profesores, y estudiantes. Sin embargo, ambas comunidades poseen l´ımites porosos y m´ ultiples convergencias entre ellas [32]. En lo que sigue, y s´ olo para efectos de este art´ıculo, usaremos el concepto de Learning Analytics y lo entenderemos indistintamente a EDM. Las tareas m´ as comunes en Learning Analytics son clasificaci´on, clustering, miner´ıa de textos, y visualizaci´ on [22]. En cuanto a t´ecnicas, las m´as usadas son ´arboles de decisi´ on, redes neuronales, y redes Bayesianas [30]. Est´as t´ecnicas en contextos educacionales son frecuentemente complementadas con regresiones, correlaciones y otros t´ecnicas estad´ısticas [30]. La principal fuente de datos para la investigaci´ on en Learning Analytics est´a en el uso de plataformas computacionales de aprendizaje, tales como sistemas de gesti´on de curso o CMS (course management systems en ingl´es) o sistemas de aprendizaje en l´ınea [30], tales como los Massive Open Online Courses (MOOCs) [35]. Seg´ un Romero y Ventura [30] algunos de los problemas de investigaci´on que concentran el inter´es de la comunidad de Learning Analytics son visualizaci´on de datos, retroalimentaci´ on a instructores, recomendaciones para estudiantes, predicciones de rendimiento de los estudiantes, modelos mentales de los estudiantes, y detecci´ on de comportamientos indeseados. En los u ´ltimos a˜ nos su aplicaci´on se ha extendido a otras ´ areas como el apoyo a metodolog´ıas activas basadas en problemas o proyectos [8], la toma de decisiones e intervenciones a nivel institucional (p.ej. [17], o el entendimiento de teor´ıas del aprendizaje, tales como aprendizaje auto-regulado [29]). Una contribuci´ on esencial del Learning Analytics a la l´ınea cl´asica de teor´ıas y modelos educacionales es que incorpora una nueva escala temporal a los procesos de aprendizaje. Si las teor´ıas educacionales usan modelos invariantes en el tiempo o en largas etapas de desarrollo (en educaci´on superior t´ıpicamente en semestres o a˜ nos), las t´ecnicas de miner´ıa de datos, son capaces de mostrar aprendizajes momento a momento [6]. Es decir, cambios en las capacidades de aprender, concentraci´on y hasta estados de ´animo mientras el estudiante completa una evaluaci´ on en l´ınea, trabaja en grupo, o interact´ ua con m´ ultiples sistemas en el campus (p.ej. bibliotecas, unidades de tutor´ıa acad´emica). M´ as a´ un, esta informaci´ on puede ser obtenida y procesada en tiempo real, permitiendo decisiones y acciones inmediatas o en el corto plazo [6]. De acuerdo a Berland et al. [8], Learning Analytics “permite una rigurosa, replicable, y precisa descripci´ on del comportamiento de los estudiantes, as´ı como tambi´en un an´ alisis de c´ omo estos comportamientos interact´ uan con otros constructos de inter´es. El comportamiento de los estudiantes puede ser monitoreado en cuanto crece y cambia en el tiempo” (p. 211, traducci´on propia) 7

S.Celis, L. Moreno, P. Poblete J. Villanueva , R. Weber

´ n del Un modelo anal´ıtico para la prediccio ´mico de estudiantes de ingenier´ıa rendimiento acade

Otra emergente ´ area de investigaci´ on en Learning Analytics es la combinaci´on de datos institucionales con informaci´ on proveniente del juicio humano. Esta combinaci´on se realiza, por ejemplo, con instructores usando aplicaciones que eval´ uan el trabajo de los estudiantes en sala o talleres [6].

3.

Retenci´ on y Rendimiento Acad´ emico en el Primer A˜ no de Educaci´ on Superior

En las u ´ltimas d´ecadas, la deserci´ on en educaci´on superior se ha transformado en un asunto prioritario de pol´ıtica educacional, tanto a nivel institucional como gubernamental. El impacto negativo de la deserci´on es relevante tanto porque los aranceles aumentan, como por el significado que socialmente ha adquirido la educaci´ on superior, entendida hoy como una instancia clave de desarrollo personal, social, econ´ omico y cultural. Se estima que en Chile la deserci´on al tercer a˜ no es cercana al 40 %, con una gran variabilidad seg´ un el tipo de instituci´ on (p.ej., universitaria, institutos profesionales, y centros de formaci´on t´ecnica) y ´ areas disciplinarias [31]. Por ejemplo, seg´ un Rolando et al. [28], en la cohorte del 2008 que ingres´o a carreras profesionales, un 38 % desert´o en el primer a˜ no en institutos profesionales, mientras que s´olo un 14 % en universidades. De acuerdo al estudio Retenci´on en Educaci´on Superior con Perspectiva de G´enero [24] se evidencia que desde la cohorte 2007 hasta el a˜ no 2010 existi´o un aumento de la tasa de retenci´on desde un 67 % a un 71 %, sin embargo, para el a˜ no 2013 ´esta disminuy´o a un 69 %. Seg´ un ´area disciplinar, la retenci´on en los programas acad´emicos en las ´areas de tecnolog´ıas est´a entre las m´as bajas del pa´ıs. En promedio, s´ olo un 65 % de los estudiantes permanece en sus programas luego del primer a˜ no [23]. La investigaci´ on de la persistencia y deserci´on tiene una larga historia en naciones con desarrollados sistemas de educaci´on superior. Un gran n´ umero de estudios ha identificado los factores cr´ıticos que explican la persistencia y deserci´on. Parte importante de la complejidad a la que se ven enfrentados estos estudios, es la definici´ on operacional de la deserci´on. Existen distintos tipos de deserci´on (p.ej., voluntaria o involuntaria; de transferencia o abandono), las cuales son registradas en diferentes tiempos (semanas, semestres, a˜ nos), y que pueden ser transitorias o permanentes. Una discusi´on conceptual sobre las definiciones de la deserci´ on en Chile puede ser consultada en [16]. Pascarella y Terenzini [26] revisaron m´as de tres d´ecadas de este tipo de investigaciones, principalmente aquellas realizadas en Estados Unidos. Entre los resultados de su investigaci´ on, proponen un listado extenso de factores y

8

Revista Ingenier´ıa de Sistemas

Volumen XXIX, Septiembre 2015

mecanismos que influyen en la persistencia y deserci´on, entre los que destacan caracter´ısticas individuales de pre-ingreso y caracter´ısticas institucionales. Las caracter´ısticas individuales de pre-ingreso a la instituci´on de educaci´on superior tienen un consistente y estad´ısticamente significativo efecto en la persistencia. Al respecto, estudios previos han identificado la habilidad acad´emica, status socioecon´ omico, grado de motivaci´on, y expectativas de logro. M´as a´ un, estas caracter´ısticas acad´emicas y sociales de los y las estudiantes tienen mayores efectos que las caracter´ısticas institucionales en la persistencia y deserci´on. Otro factor importante es el ingreso retrasado a la educaci´on superior, es decir, el tiempo que transcurre desde que el o la estudiante termina la educaci´on secundaria, hasta que se matricula en alguna instituci´on de educaci´on superior. Estudios anteriores tambi´en muestran que deserciones previas tienen un efecto negativo en las chances de persistencia. Las caracter´ısticas institucionales han recibido gran atenci´ on dado que pueden ser controladas por las instituciones y por pol´ıticas p´ ublicas. Aquellas caracter´ısticas que han mostrado mayor impacto son la selectividad de las instituciones, incluso controlando por factores obvios como la habilidad acad´emica de los y las estudiantes; su integraci´on al campus y sus participaciones en actividades extracurriculares; actividades del primer a˜ no que introducen a estudiantes a la vida acad´emica; becas para estudiantes de bajos ingresos; interacciones con profesores y profesoras fuera de la sala de clase; y la interacci´ on entre pares. El rendimiento acad´emico, las notas, es el mejor predictor de la persistencia, con un mayor efecto durante los dos primeros a˜ nos de estudio. En relaci´on a las diferencias disciplinarias, estudiantes en carreras de las ciencias, tecnolog´ıas, ingenier´ıa y matem´atica (STEM en ingl´es), tienen una mayor tasa de deserci´on que estudiantes en otras disciplinas. Es importante mencionar que la mayor´ıa de los factores ya discutidos interact´ uan con caracter´ısticas sociodemogr´aficas de los estudiantes, tales como etnicidad y sexo. Algunos autores han propuesto constructos no observables para explicar la persistencia y deserci´ on. Los modelos te´oricos m´as influyentes son los modelos de deserci´on de Bean y el proceso de deserci´on de Tinto. Bean [7], basado en estudios de rotaci´ on organizacional, construye y testea un modelo de an´alisis de trayectorias causales para la deserci´ on. En este modelo, la identificaci´on de un o una estudiante con la instituci´ on, la certeza en la decisi´on de carrera, valores instrumentales (por ejemplo, creencia en que la educaci´on es fundamental para conseguir un buen trabajo), y la intenci´on de abandonar son factores que median los efectos de variables individuales, organizacionales y ambientales. Desde otra perspectiva te´ orica, los modelos de Tinto se basan en los estudios sobre suicidio de Durkheim y en los estudios de ritos de transici´on en sociedades tribales de Van Gennep. Tinto [34] extiende previos modelos de deserci´on, 9

S.Celis, L. Moreno, P. Poblete J. Villanueva , R. Weber

´ n del Un modelo anal´ıtico para la prediccio ´mico de estudiantes de ingenier´ıa rendimiento acade

proponiendo tres estados en la trayectoria de los y las estudiantes en educaci´on superior: separaci´ on, transici´ on, e incorporaci´on, que son cr´ıticos en las decisiones de continuar o abandonar. Ambos, los modelos de Bean y Tinto, han sido consistentemente confirmados a trav´es de estudios cuantitativos [9]. En la u ´ltima d´ecada, investigadores han testeado estos modelos, analizando datos longitudinales y usando t´ecnicas estad´ısticas m´as avanzadas. El estudio pionero de DesJardins, Ahlburg y McCall [15] basado en datos longitudinales de la University of Minnesota, arroj´ o que las variables definidas por estudios previos, tales como los descritos anteriormente, afectan la deserci´on, pero en magnitudes diferentes, seg´ un los a˜ nos en la carrera. Por ejemplo, la locaci´on de la residencia de origen tuvo un efecto significativo en la deserci´on en los tres primeros a˜ nos de carrera, y la edad de ingreso s´olo en los dos primeros. Numerosos estudios han continuado usando ´estas y otras t´ecnicas estad´ısticas para entender con mayor profundidad los fen´omenos relacionados con la deserci´on (p.ej., [11, 12, 18, 20, 33]). En Chile, tambi´en se han comenzado a testear estos modelos y a utilizar sofisticados m´etodos cuantitativos para entender la deserci´on en el sistema nacional de educaci´ on superior. Acu˜ na [2] y Larroucau [19], basados en datos nacionales del sistema secundario y universitario chileno, confirman que el fen´omeno de la deserci´ on es multicausal y que las variables discutidas anteriormente tienen validez en el contexto local. Espec´ıficamente, Larroucau [19] encontr´o que en las caracter´ısticas individuales de pre-ingreso, tales como el establecimiento de origen y el promedio de notas y ranking en la ense˜ nanza media, eran mejores predictores de la deserci´on que el puntaje PSU. Mizala, Hern´andez, y Makovec [25] estiman la probabilidad de deserci´on en las carreras de pedagog´ıa. Sus resultados confirman a la habilidad acad´emica (medida por puntaje PSU) como uno de los factores m´as influyentes en la deserci´on, efecto que ser´ıa moderado por el quintil socioecon´omico del estudiante. D´ıaz [13] y Celis [10] calcularon modelos de duraci´on con datos de las carreras de ingenier´ıa de la Universidad Cat´ olica de la Sant´ısima Concepci´on y la Universidad de Chile, respectivamente. Ambos estudios muestran que el tipo de establecimiento de educaci´ on media impacta en la deserci´on. Celis [10] muestra que estudiantes provenientes de colegios particulares tienen menores tasas de deserci´on en los u ´ltimos a˜ nos de la carrera que aquellos provenientes de la educaci´on p´ ublica. D´ıaz [13] encontr´ o que a mayor puntaje en la PSU y a mayor ingreso familiar, menores son las chances de deserci´on. El estudio mostrado en [31] usa la t´ecnica de propensity score matching para estudiar el impacto de los cr´editos y becas en la persistencia. Los resultados sugieren una asociaci´on positiva de los cr´editos y becas de excelencia en la persistencia. El Centro de Microdatos de la Universidad de Chile [14], mediante una 10

Revista Ingenier´ıa de Sistemas

Volumen XXIX, Septiembre 2015

encuesta, determin´ o que las principales causas de deserci´on en el primer a˜ no universitario se deben a problemas vocacionales (p.ej., no quedar en la carrera de preferencia), situaci´ on econ´ omica familiar, y rendimiento acad´emico. Recientemente, herramientas estad´ısticas tradicionales de la miner´ıa de datos tambi´en han comenzado a usarse para analizar la deserci´on y otras variables educacionales [21] (ver [3] para un caso aplicado en una universidad chilena). En resumen sabemos que hay factores previos al ingreso, caracter´ısticas individuales, y condiciones de vida y acad´emicas que influeyen en la retenci´on de primer a˜ no. Adem´ as sabemos que las carreras de ingenier´ıa y ciencias tienen promedios altos de deserci´ on en el primer a˜ no universitario. Sin embargo, muchas de estas investigaciones se han realizado en naciones con sistemas de educaci´on superior desarrollados. M´ as investigaci´on es necesaria para entender el fen´omeno de la deserci´ on en Chile, en especial en carreras de ciencia e ingenier´ıa. Aqu´ı es donde Learning Analytics brinda oportunidades no solo para entender emp´ıricamente la deserci´ on, sino que tambi´en para generar modelos predictivos que permitan generar alertas tempranas e intervenciones que le brinden apoyo oportuno a estudiantes en riesgo de deserci´on o de insuficientes desempe˜ nos acad´emicos. A continuaci´on se presenta un modelo predictivo desarrollado para detectar bajos rendimientos acad´emicos en el primer a˜ no del Plan Com´ un de las carreras de ingenier´ıa y ciencias de la Facultad de Ciencias F´ısicas y Matem´ aticas de la Universidad de Chile.

4.

4.1.

Construcci´ on del modelo predictivo

Situaci´ on actual en la Facultad de Ciencias F´ısicas y Matem´ aticas (FCFM)

La FCFM es una unidad acad´emica altamente selectiva, con una alta producci´on cient´ıfica y sofisticados sistemas de gesti´on docente relativo al contexto regional y latinoamericano. La poblaci´ on estudiantil es cercana a los 4.900 estudiantes de pregrado, seleccionados del 3 % superior de la ense˜ nanza media de acuerdo al la Prueba Nacional de Selecci´on Universitaria (PSU). La FCFM la componen adem´ as cerca de 1.200 estudiantes de postgrado y 220 profesores de jornada completa, de los cuales un 97 % posee un grado de doctor. La FCFM ofrece 9 carreras de ingenier´ıa, geolog´ıa y tres licenciaturas cient´ıficas. Todos los estudiantes de pregrado ingresan a un Plan Com´ un de dos a˜ nos de duraci´on. Actualmente, el primer a˜ no est´ a estructurado en dos semestres. En el primer semestre los estudiantes son asignados en siete secciones con similares 11

´ n del Un modelo anal´ıtico para la prediccio

S.Celis, L. Moreno, P. Poblete J. Villanueva , R. Weber

´mico de estudiantes de ingenier´ıa rendimiento acade

capacidades acad´emicas seg´ un ranking de ingreso. Todos los estudiantes tienen los mismos ramos en el primer semestre: introducci´on al c´alculo, introducci´on al ´algebra, introducci´ on a la f´ısica newtoniana, introducci´on a la ingenier´ıa, qu´ımica, y herramientas computacionales para ingenier´ıa y ciencias. En total, la carga acad´emica suma 30 SCT (Sistema de Cr´editos Transferibles), lo que equivale a 50 horas de trabajo semanal durante 15 semanas. En general, los estudiantes aprueban el 85 % de los cursos inscritos en primer a˜ no. En las u ´ltimas dos d´ecadas, la FCFM ha venido realizando sostenidos esfuerzos para mejorar las tasas de retenci´ on y el rendimiento acad´emico de los estudiantes. Por ejemplo, el 2007 se realiz´ o un cambio curricular que implic´o un giro hacia estrategias de ense˜ nanza centradas en el estudiante, adem´as de importantes mejoras de infraestructura y el lanzamiento de nuevas unidades de apoyo docente y al estudiante. Actualmente las tasas de retenci´on de primer a˜ no son cercanas al 95 %. Pese a que este indicador es muy superior a las carreras de ingenier´ıa y tecnolog´ıa a nivel nacional (en torno al 65 %), la FCFM est´a empe˜ nada en seguir mejorando esta tasa, consciente de la gran calidad acad´emica de los estudiantes que recibe y de que el peque˜ no grupo que no persiste luego del primer a˜ no representa un desaf´ıo particular. El estudio aqu´ı descrito se circunscribe en estos esfuerzos. As´ı, el objetivo de esta investigaci´on es usar la informaci´on personal y acad´emica disponible de los estudiantes para detectar estudiantes en riesgos de abandonar el plan de estudios. Para tales efectos se us´o informaci´on hist´ orica para generar y calibrar un modelo predictivo que permitiese la instalaci´ on de un sistema de alertas tempranas que le de soporte a los estudiantes que m´ as lo necesiten. Para la construcci´on del modelo predictivo se usaron datos de las cohortes de ingreso 2010, 2011, 2012, 2013, y 2014. A continuaci´on se presenta el modelo predictivo en s´ı, discutiendo la variable dependiente, las variables independientes consideradas, y la construcci´on del modelo.

4.2.

Variable dependiente

En la primera fase del estudio se decidi´o acotar la variable dependiente a la doble reprobaci´ on de al menos un curso del primer semestre. Esta definici´on se justifica en dos ideas importantes. Primero, la doble reprobaci´on de un curso es causal de eliminaci´ on de los estudiantes, que a la vez afecta negativamente las tasas de retenci´ on de primer a˜ no. Aunque un alumno en causal de eliminaci´ on puede elevar una solicitud especial para rendir un curso por tercera vez y proseguir en la Escuela, estas solicitudes requieren un esfuerzo no menor en la gesti´ on docente y un porcentaje importante de estos alumnos igual termina eliminado de la Facultad. La segunda raz´on tiene un

12

Revista Ingenier´ıa de Sistemas

Volumen XXIX, Septiembre 2015

argumento metodol´ ogico. La deserci´ on en un lugar como la FCFM, as´ı como en otras escuelas de ingenier´ıa, es multidimensional y diversa. Tal como se indic´o en la revisi´ on de la literatura sobre deserci´on, las razones van desde lo econ´omico (p.ej., falta de financiamiento) pasando por crisis vocacionales, situaciones excepcionales, hasta rendimiento acad´emico. As´ı focalizarse en las causas acad´emicas (las cuales no est´ an necesariamente disociadas del resto), permite darle mayor precisi´ on al modelo, al menos conceptualmente. La Tabla 1 muestra la distribuci´ on de la reprobaci´on para las poblaciones estudiadas. Dado que reprobar al menos un ramo es condici´on necesaria para la reprobaci´on de un ramo por segunda vez, la poblaci´on de estudiantes considerada para esta investigaci´ on se reduce a entre 195 a 255 estudiantes por cohorte, que son los que reprobaron por lo menos un curso en su primer semestre. Tabla 1: Reprobaci´ on y Doble Reprobaci´on en Primer A˜ no Al menos 1 Doble A˜ no Cohorte curso reprobaci´on Ingreso Ingreso 1 reprobado 1er 2do semestre semestre2 2010 687 195 (28 %) 43 (24 %) 2011 720 220 (31 %) 26 (14 %) 2012 704 213 (30 %) 41 (21 %) 2013 700 255 (36 %) 26 (11 %) 2014 762 216 (28 %) 27 (14 %) Total 3.573 1.099 (31 %) 163 (17 %) (1) N´ umero de estudiantes que se mantuvieron activos durante el primer semestre. (2) El porcentaje corresponde a estudiantes que reprobaron por segunda vez alg´ un ramo de primer semestre sobre el total de estudiantes que reprobaron al menos un ramo de primer semestre y se mantuvieron activos durante el segundo.

4.3.

Variables independientes

Las variables independientes (o atributos) consideradas fueron seleccionadas basado en la revisi´ on de la literatura y la informaci´on disponible. As´ı las variables independientes se dividen en tres grupos: caracter´ısticas individuales, variables de pre-ingreso y variables de rendimiento acad´emico. En cuanto a caracter´ısticas individuales s´ olo incluimos g´enero, tiempo desde el egreso de la ense˜ nanza media y regi´ on de procedencia. En variables de pre-ingreso usamos tipo de establecimiento de ense˜ nanza media (i.e., particular, subvencionado, p´ ublico emblem´ atico y p´ ublico no emblem´atico), experiencias previas en educaci´on superior, puntajes en la PSU, v´ıa de ingreso (i.e., PSU o ingresos

13

S.Celis, L. Moreno, P. Poblete J. Villanueva , R. Weber

´ n del Un modelo anal´ıtico para la prediccio ´mico de estudiantes de ingenier´ıa rendimiento acade

especiales), ranking y promedio de notas en la ense˜ nanza media. Finalmente se construyeron otras once variables (continuas, ordinales y binarias) basadas en informaci´on detallada sobre las notas parciales de los estudiantes en los dos primeros semestres de la poblaci´ on objetivo. Dentro de aquellas variables podemos mencionar ratio de cr´editos aprobados versus reprobados, variaci´on de notas del primer al segundo semestre tanto en ramos aprobados como reprobados, y diferencias con la nota m´ınima de aprobaci´on, la cual en este caso es 4, d´onde 1 es la m´ınima y 7 la m´ axima. La decisi´on de cu´ anta informaci´ on acad´emica incluir en el modelo merece mayor discusi´on. En nuestro caso, la doble reprobaci´on ocurre al final del segundo semestre del primer a˜ no. Mientras antes en el a˜ no se detecten aquellos estudiantes en riesgo de doble reprobaci´ on, mejor, ya que existir´ıa mayor tiempo de intervenci´ on y reacci´ on por parte del estudiante. Por otro lado el tiempo le otorga mayor informaci´ on al modelo predictivo lo que aumenta su precisi´on. En un extremo, si usamos informaci´ on academica de todo el primer a˜ no se logra una predicci´ on perfecta, es decir sin errores de clasificaci´on. En un primer momento nos propusimos estimar el modelo s´olo con informaci´on del primer semestre. Los resultados no fueron satisfactorios ya que si bien nuestras predicciones fueron sustantivamente mejores que el azar, se obtuvo un alto n´ umero de errores del tipo I (falso negativos) y del tipo II (falso positivos) (estos resultados pueden ser solicitados a los autores). El mejor escenario siguiente se esquematiza en la Figura 1. Tradicionalmente, las asignaturas de primer a˜ no del Plan Com´ un realizan tres pruebas parciales (localmente conocidas como controles) y un examen final. Tal como muestra la figura, el modelo predictivo final fue construido con informaci´ on recolectada hasta la primera ronda de los controles 1 del segundo semestre. Esto deja varias semanas (un 75 % del semestre) para intervenir y dos controles y el examen final para recuperarse.

Figura 1: Tiempo de captura de informaci´on acad´emica para el modelo

14

Revista Ingenier´ıa de Sistemas

4.4.

Volumen XXIX, Septiembre 2015

Construcci´ on del Modelo

En cuanto al modelo predictivo, se utiliz´o un modelo de regresi´on log´ıstica en combinaci´ on con una metodolog´ıa de selecci´on de atributos, debido a la simplicidad de interpretaci´ on y utilizaci´on ampliamente aceptada. Selecci´on de atributos puede ser considerada parte de la fase de pre-procesamiento o de miner´ıa de datos, su objetivo es encontrar el subconjunto de atributos con mayor valor predictivo, evitando as´ı utilizar variables que agreguen ruido en la fase de entrenamiento, mejorando la predicci´on y acelerando as´ı el proceso de adaptaci´on de los modelos. Entre los enfoques m´as utilizados se encuentran: Forward Feature Selection (FS): Se comienza sin atributos en el modelo, se agregan una a una las variables y se eval´ ua bajo cierta m´etrica el desempe˜ no de agregar cada variable, eligi´endose, de ellas, la que mejore m´as el desempe˜ no (si es que hubiese mejora). El proceso se repite hasta que ninguna variable mejora el rendimiento al ser agregada. Backward Elimination (BE): En este enfoque se comienza con todos los atributos, luego se eval´ ua la eliminaci´on de cada variable, elimin´andose efectivamente la variable con mayor aumento de desempe˜ no al ser eliminada (si es que alguna lo mejora). El proceso se repite hasta que ninguna mejora sea posible. La metodolog´ıa propuesta de selecci´ on de atributos consiste en una mezcla entre FS y BE en conjunto a una selecci´on por frecuencia. En particular, se comienza realizando el proceso FS, tras agregar un atributo, se realiza el proceso BE. Esto con el fin de eliminar atributos ya agregados que posean mayor ruido, es decir, se pueden haber incluido nuevos atributos que, en conjunto con algunos de los atributos previamente agregados, mejoran la predicci´on y eliminan ruido de un atributo ya agregado. La metodolog´ıa h´ıbrida entre FS y BE se realiza mediante validaci´on cruzada (Cross−Validation) con cierta cantidad de conjuntos, los que van variando entre entrenamiento y validaci´ on [5]. Esto con el fin de obtener resultados representativos en cuanto al valor predictivo de cada atributo, evitando as´ı posibles sobreajustes. Debido a la reducida cantidad de datos que se posee en comparaci´on a la cantidad de atributos, se combina toda la metodolog´ıa previamente propuesta con una selecci´ on por frecuencia, es decir, se realiza un gran n´ umero de veces la selecci´on de atributos y se lleva conteo de los atributos seleccionados. Finalmente se consideran como atributos seleccionados aquellos que posean una cantidad de selecciones mayor a un umbral previamente determinado.

15

S.Celis, L. Moreno, P. Poblete

´ n del Un modelo anal´ıtico para la prediccio ´mico de estudiantes de ingenier´ıa rendimiento acade

J. Villanueva , R. Weber

Una vez ocurrida la selecci´ on de atributos, se utiliza un modelo de regresi´on log´ıstica el cual se ajusta a variables dependientes del tipo binaria (Long, 1997). La Ecuaci´ on 1 m´ as abajo describe la funci´on log´ıstica, donde Y representa la variable dependiente, en este caso la doble reprobaci´on, X1 , ..., Xn las variables independientes seleccionadas mediante el proceso de selecci´on de atributos, β0 el par´ ametro constante, y β1 , ..., βn los par´ametros del modelo. Al estimar aquellos par´ ametros es posible realizar predicciones acerca de la doble reprobaci´ on basado en las variables independientes.

ln(

Y ) 1−Y

= β0 + β1 X1 + β2 X2 + · · · + βn Xn

(1)

Para estimar los par´ ametros se utiliz´ o la informaci´on recopilada para las cohortes de ingreso de 2010 a 2013. Luego, se us´o el modelo obtenido para predecir el comportamiento del universo objetivo de la cohorte de ingreso 2014. En otras palabras, el modelo fue entrenado con las cohortes 2010-2013 y puesto a prueba con la informaci´ on obtenida para la cohorte de ingreso 2014. El poder predictivo del modelo fue evaluado mediante dos reconocidos indicadores recall y precision (ver las ecuaciones m´as abajo), donde TP=true positive, FP = false positive, y FN=false negative , las respectivas tasas.

Recall

=

TP TP + FN

(2)

TP (3) TP + FP Se puede interpretar el recall como la tasa de los verdaderos positivos, es decir la tasa de los positivos que el modelo detecta como positivo, mientras la precision es la tasa de los predichos como positivo que realmente son positivo. P recision

5.

=

Resultados

El proceso de selcci´ on de atributos arroj´o siete variables independientes: g´enero, tipo de establecimiento de ense˜ nanza media, ratio de cr´editos reprobados, promedio controles 1 del 2do semestre menor promedio final del 1er semestre en cursos reprobados (etiqueta: C1IRS2 < FIRS1, tipo: variable binaria), diferencia con nota 4.0 del peor promedio actual en cursos reprobados en 2do semestre (C1IRS2 - 4.0, variable continua), promedio controles 1 del 2do semestre menor promedio final del 1er semestre en cursos no reprobados (C1INRS2 < C1INRS1, variable binaria), y el peor promedio controles 1 del 16

Revista Ingenier´ıa de Sistemas

Volumen XXIX, Septiembre 2015

2do semestre menor que el peor promedio final del 1er semestre en cursos no reprobados (minC1INRS2 < C1INRS1, variable binaria). Para el caso del tipo de establecimiento de ense˜ nanza media, partimos distinguiendo entre establecimiento p´ ublico emblem´ atico y p´ ublico no emblem´aticos. Luego que esta diferenciaci´on no produjo cambios estad´ısticamente significativos, decidimos mantener esta variable en las tradicionales tres categor´ıas: privado, subvencionado, y p´ ublico. La Tabla 2 muestra los resultados de la regresi´on log´ıstica. El test de likelihood ratio indica que el modelo se ajusta de buena manera a los datos (LR Chi-cuadrado = 201,62, p < 0,001). Es decir, las variables independientes tienen poder explicativo sobre el evento de doble-reprobar una asignatura. La variable que tiene el mayor poder explicativo es sin duda el ratio de los cr´editos inscritos reprobados. Este resultado no debiese sorprendernos. A mayor n´ umero de cursos reprobados en el primer semestre, mayor son las probabilidades de reprobar un curso por segunda vez. El poder explicativo de esta variable es tal, que se podr´ıa aplicar la heur´ıstica: si un alumno que reprueba dos o m´as cursos en su primer semestre, tendr´ a altas probabilidades de volver a reprobar al menos uno de ellosen el segundo semester. Por ejemplo, un estudiante que reprueba ´algebra, c´ alculo, y f´ısica tiene aproximadamente cinco veces m´as probabilidades de doble reprobaci´ on que un estudiante que s´olo reprueba una de esas asignaturas. Dos otras variables mostraron una relaci´on estad´ısticamente significativa con la doble reprobaci´ on. Una de ellas es g´enero. Un estudiante hombre tiene 88 % m´ as probabilidades de doblereprobar que una mujer, ceteris paribus. La otra variable significativa es la diferencia entre el promedio de los primeros controles de los cursos ya reprobados y la nota de reprobaci´on 4.0. Esto indica que aquellos estudiantes que superen la nota de aprobaci´on en los primeros controles tienen menores probabilidades de volver a reprobar una asignatura que aquellos que no. Por ejemplo, un estudiante con promedio 3.0 en los controles 1 de las asignaturas reprobadas tiene 31 % m´as probabilidades de reprobar que aquel con nota 4.0, ceteris paribus. Si bien, el resto de las variables independientes seleccionadas no son estad´ısticamente significativas en el modelo, el signo de los coeficientes se comporta dentro de lo esperado y es consistente con la literatura nacional. Por ejemplo, estudiantes proveniente de establecimientos de ense˜ nanza media particular o subvencionada tienen menores probabilidades de doble reprobaci´on que aquellos provenientes de establecimientos municipales. Los coeficientes de las tres variables binarias de rendimiento acad´emico que no son estad´ısticamente significativas para el modelo tambi´en se comportan en el sentido esperado. Si el promedio de los primeros controles del segundo semestre en las asignaturas cursadas por segunda vez es menor que el promedio final de las 17

´ n del Un modelo anal´ıtico para la prediccio

S.Celis, L. Moreno, P. Poblete J. Villanueva , R. Weber

´mico de estudiantes de ingenier´ıa rendimiento acade

asignaturas reprobadas en primer semestre (C1IRS2 < FIRS1), existe una mayor inclinaci´on a doble reprobaci´ on. Lo mismo sucede si los estudiantes bajan sus calificaciones en los controles de los ramos no reprobados en el segundo semestre con respecto al primero (C1INRS2 < C1INRS1 y minC1INRS2 < C1INRS1). Esto u ´ltimo es interesante ya que el modelo considera tambi´en el desempe˜ no en aquellas asignaturas aprobadas y cursadas por primera vez. Etiqueta G´enero (hombre) colegio particular colegio subvencionado ratio creditos reprobados C1IRS2 < FIRS1 C1IRS2 - 4.0 C1INRS2 < C1INRS1 minC1INRS2 < C1INRS1 cons Log likelihood = -252,63 Df = 8 LR chi2(8) = 201,62 *** *p
Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.