VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Share Embed


Descripción

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD EDITH J. CISNEROS-COHERNOUR

Datos de catalogación bibliográfica

CISNEROS-COHERNOUR, EDITH J.

Validez y significados de la buena docencia en la universidad unas letras, méxico, 2015

ISBN: 978-607-9054-50-2 Área: Ciencias sociales Formato: 14 × 21.5 cm Páginas: 134

Derechos reservados © 2015 Edith J. Cisneros-Cohernour © 2015 Universidad Autónoma de Yucatán © 2015 Unas Letras Industria Editorial EVALUADORES Pedro J. Canto Herrera Francisco Barroso Tanoira Roger M. Patrón Cortés Primera edición en español: junio de 2015 ISBN 978-607-9054-50-2 Mérida, Yucatán, México, 2015 La publicación de este libro se financió con recursos de CONACYT, PRODEP y de la Universidad Autónoma de Yucatán. Queda prohibida la reproducción total o parcial de esta obra por cualquier medio o procedimiento ya sea mecánico, electrónico, fotocopia u otros métodos sin la autorización previa y por escrito de los editores y bajo las sanciones establecidas en las leyes. Impreso en México

CONTENIDO PRESENTACIÓN 7 CAPÍTULO 1 Evaluación de la docencia en la universidad Introducción Necesidad de reexaminar la investigación Propósito del estudio Cuestiones críticas Importancia del estudio

9

CAPÍTULO 2 17 La investigación sobre la evaluación de la docencia universitaria La evaluación de la docencia bajo una perspectiva positivista La efectividad de la docencia Fuentes de la evaluación Evaluación basada en las opiniones de los estudiantes Evaluación por pares Administradores como evaluadores Auto-evaluación Múltiples fuentes Confiabilidad de los estudios Validez y evaluaciones de la enseñanza universitaria Estudios multi-sección Estudios multi-rasgos Estudios de sesgo Estudios de laboratorio Estudios de dimensionalidad El nuevo marco de validez y las evaluaciones de la docencia universitaria

Aspectos de validez de constructo Validez de contenido Validez sustantiva Validez estructural Validez externa Validez de generalización Validez de consecuencias Limitaciones del paradigma positivista Sinopsis CAPÍTULO 3 Metodología Contexto Proceso de recolección de datos Instrumento Análisis de los datos Consideraciones éticas

69

CAPÍTULO 4 Resultados y conclusiones

75

REFERENCIAS 109

PRESENTACIÓN

Al igual que con la investigación sobre liderazgo, la investigación sobre la docencia evolucionó de conceptualizaciones simples a complejas a partir de las nuevas teorías o modelos que han enriquecido a las ciencias sociales. Los cambios, sin embargo, no siempre se reflejan en la práctica, concretamente cuando se evalúa la docencia en educación superior. De hecho, es creciente la preocupación sobre la obligación ética y práctica de las universidades de diseñar sistemas de evaluación que representen de forma justa la calidad de la docencia del profesorado. Este estudio es parte de una investigación que examinó la validez de contenido, substantiva y de consecuencias de la evaluación de la docencia en una universidad norteamericana. El propósito es comprender mejor las complejidades de la evaluación de la docencia en su contexto partiendo de múltiples métodos de investigación y perspectivas. En particular, esta investigación se centró en el significado del constructo buena docencia y los procesos que siguen los estudiantes de licenciatura de una facultad de humanidades y ciencias sociales al evaluar a sus profesores. Cada capítulo informa claramente acerca de los objetivos de este estudio, la investigación sobre la evaluación de la docencia y su validez, y también plantea la metodología que siguió esta investigación, sus resultados y conclusiones. La obra está dirigida a investigadores, docentes, administradores y estudiantes interesados en la evaluación de la docencia y su investigación. Mi agradecimiento especial a los colegas que participaron en su revisión y arbitraje. Edith J. Cisneros-Cohernour Mayo de 2015

Capítulo 1. EVALUACIÓN DE LA DOCENCIA EN LA UNIVERSIDAD Introducción La evaluación de la docencia en educación superior es un área de mucho interés para diferentes actores, y la temática va más allá del campo de la investigación dadas sus implicaciones sociales, políticas y legales. En años recientes, las presiones por rendición de cuentas, cambios en las tendencias de inscripciones y limitaciones financieras han forzado a que las universidades brinden mayor atención a los procedimientos formales para evaluar y mejorar la calidad de la docencia. Como Cuban (1999) afirma, cuando los costos de las colegiaturas se incrementan, y “las historias de que grandes clases dirigidas a estudiantes de pregrado son impartidas por estudiantes de doctorado, enfureciendo a los padres, las presiones para los rectores y el personal académico para mejorar la docencia ha producido urgencia por nuevas iniciativas” (p. 189). Las universidades no escapan de esta tendencia, aunque sea solamente porque la evaluación del personal académico es considerada como un elemento esencial de la calidad institucional. De hecho, la evaluación de la enseñanza ahora recibe más atención en las instituciones de investigación porque en el pasado la enseñanza fue subvaluada y minimizada, mientras que la investigación ha sido altamente valorada (Boyer, 1987; Nyquist y Staton-Spicer, 1987; Cross, 1987, 1983; Bailiff y Khan, 1987; Miller, 1979). Como Atkinson y Tuzin (1992) plantean, “solo mediante la reforma de su misión de enseñanza puede la universi-

9

dad recuperar el terreno moral perdido y restaurar la credibilidad de su misión de investigación” (p. 25). Las crecientes preocupaciones sobre la calidad de la enseñanza en las instituciones de investigación han dado lugar a la actual discusión sobre la importancia de revisar la definitividad del profesorado y lo que requieren de los profesores: “estar disponibles en sus oficinas por lo menos cuatro días a la semana” (Wilson, 2001). Al abordar las presiones para la rendición de cuentas, las universidades centradas en la investigación apoyan las iniciativas para la mejora de la enseñanza, y estos esfuerzos se han traducido en el uso de los resultados de la evaluación de la docencia para la toma de decisiones administrativas, como la definitividad, promoción o los incrementos salariales, así como los indicadores de rendición de cuentas de la unidad académica o departamento. Pero mientras que los esfuerzos para mejorar la enseñanza han ido en aumento, los métodos de evaluación de la calidad de la docencia en el campus siguen siendo los mismos. A pesar de que la cultura actual se ha diversificado, y la investigación sobre la enseñanza y el aprendizaje se ha expandido, la investigación sobre la evaluación de la docencia en la educación superior sigue concentrada, principalmente, en el estudio de las evaluaciones basadas en las opiniones de los estudiantes. Las principales publicaciones sobre los estudios de los últimos treinta años (Marsh, 1987; Centra, 1993; Costin, Greenough, y Menges, 1971; McKeachie y Lin, 1979; Cashin, 1988, 1995) apoyan la confiabilidad de los cuestionarios de opinión aplicados a los estudiantes para evaluar la instrucción, pero realmente se ha investigado poco el significado de las calificaciones, los procesos que siguen

10 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

los estudiantes al rellenar los formularios de evaluación, y las consecuencias que se derivan de las buenas o malas interpretaciones de los puntajes; entre las consecuencias, la cuestión de equidad tiene especial importancia, pues podría dar lugar a que la universidad creara un clima adverso para la diversidad o incluso podría dar lugar a violaciones de los derechos civiles (Bureau of National Affairs, 1964). Necesidad de reexaminar la investigación Como se indicó anteriormente, existe un gran corpus de investigación sobre la evaluación de la docencia en la universidad, y estas investigaciones se han realizado con base en un paradigma positivista que aplica los criterios de objetividad, confiabilidad, validez interna y externa para la instrumentación disciplinada. Con base en estos criterios, los investigadores se han centrado en determinar el significado del constructo “buena enseñanza” con énfasis en los comportamientos o características de los maestros, la dimensionalidad1 del constructo, y las fuentes de información utilizadas para la evaluación de la enseñanza universitaria, principalmente de los puntajes otorgados por los estudiantes en la evaluación docente.2 De hecho, la investigación es prácticamenMientras que algunos investigadores afirman que la docencia debería ser evaluada como un concepto global, otros prefieren pensar que el constructo tiene atributos multidimensionales (Abrami, 1989). 2 Las evaluaciones que los estudiantes hacen de sus profesores son la principal fuente de información utilizada en colegios y universidades en los Estados Unidos, Inglaterra, Australia y Canadá para evaluar la docencia (Bess, 1982; Filkenstein, 1984). Como Seldin (1993) menciona, casi todos los colegios y universidades en Norteamérica usan este tipo de evaluación. 1

11

te sinónimo de estudios sobre las evaluaciones que los estudiantes hacen de la docencia de sus profesores, ya que solamente unos cuantos estudios utilizan otras fuentes de información, y todavía es difícil que utilicen más de una fuente. Según Marsh y Bailey (1993), los resultados de la investigación muestran que las evaluaciones basadas en las opiniones de los estudiantes acerca de la efectividad de la enseñanza son “multidimensionales, fiables, estables y relativamente válidas contra una variedad de indicadores de la enseñanza eficaz”. Según Marsh (1987), los puntajes se ven “relativamente poco afectados por múltiples variables identificadas como sesgos potenciales en la evaluación, y son útiles para el profesorado como retroalimentación acerca de su enseñanza” (p. 255). Aunque la investigación de Marsh apoya cierta validez estadística de las evaluaciones basadas en las opiniones de los estudiantes, dice poco acerca de la validez de la evaluación para la representación del constructo objetivo. Si se tergiversa la enseñanza en el aula, la validez de los resultados para la toma de decisiones debe ser cuestionada. Además, si la evaluación no toca fondo en la enseñanza y sus resultados son mal utilizados, entonces podrían sobrevenir consecuencias que afectarían gravemente la carrera profesional de los profesores y, desde luego, la calidad de la enseñanza en el campus. El pensamiento positivista que sustenta la investigación hasta ahora ha ignorado las complejidades de la enseñanza. Dicha evaluación ha fallado en reconocer la diversidad de la docencia y de su situacionalidad. Además, los rasgos o categorías utilizados para definir la buena enseñanza care-

12 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

cen de sustento empírico y no son consistentes con los enfoques para la validez que enfatizan múltiples percepciones, situacionalidad y complejidad (Messick, 1989; Lincoln y Guba, 1989; Stake, 1995). Dado que la investigación ha hecho caso omiso de la cuestión de la diversidad de cursos que pueden requerir diferentes roles o papeles para los estudiantes y el instructor, se necesita más investigación para hacer frente a este importante vacío en la literatura. Los resultados del estudio pueden también, indirectamente, mejorar la utilidad de la evaluación de la docencia y su calidad (Kozub, 2008). Propósito del estudio Esta investigación es parte de un estudio que utilizó un enfoque holístico para examinar los significados, fortalezas y debilidades, así como las consecuencias sociales de la evaluación de la docencia en el contexto de una universidad pública norteamericana (Cisneros-Cohernour, 2001). En particular, la meta es obtener información acerca de los significados que los estudiantes dan al constructo “buena docencia”, el proceso que siguen cuando evalúan a sus profesores, y las consecuencias de usar la opinión de los estudiantes como única fuente de información para evaluar la docencia universitaria. Al enfocarse en estas cuestiones críticas, el estudio provee una reexaminación de la validez sustantiva de la evaluación docente. Un estudio de esta naturaleza ayuda a comprender mejor cómo los estudiantes toman decisiones acerca de la evaluación docente, y es un tema crítico porque tiene implicaciones para la mejora de la docencia.

13

Cuestiones críticas3 A continuación se describen las cuestiones críticas que guiaron el estudio. 1. ¿Cuáles son los significados de la buena docencia para los estudiantes? 2. ¿Alguno o algunos elementos de la “buena docencia” son más importantes que otros para los estudiantes? ¿El significado de “buena docencia” enfatiza el estilo sobre calidad? 3. ¿Qué procesos siguen los estudiantes para evaluar la docencia de sus profesores? 4. ¿Alguno o algunos aspectos son más importantes que otros para los estudiantes (género, sensibilidad cultural, etc.), e influyen al momento de hacer la evaluación? Importancia del estudio Este estudio es parte de una investigación sobre la validez de la evaluación (Cisneros-Cohernour, 2001), y como explica Messick, los significados y las consecuencias de la evaluación son esenciales para la validez. Asimismo, el presente estudio llena un vacío en la evaluación de la docencia en educación superior, como Ory y Ryan (2001) hicieron notar: “en las áreas de validez de contenido, substantiva y de consecuencias, muy poca evidencia se ha obtenido o siquiera estudiado” (p. 23).

Cuestiones críticas son “preguntas de investigación que enfatizan ventajas y desventajas y contexto” (Stake, 1995, p. 171).

3

14 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Los estudios de validez de la evaluación son importantes porque se corre el riesgo de tomar decisiones que pueden afectar seriamente la carrera profesional de algún profesor calificado de manera injusta, y por otra parte podemos apoyar la contratación o premiación de alguien que puede no ser buen docente pero que obtuvo un alto puntaje en la evaluación a pesar de su pobre desempeño profesional.

15

Capítulo 2. LA INVESTIGACIÓN SOBRE LA EVALUACIÓN DE LA DOCENCIA UNIVERSITARIA Antes de la década de 1970, la evaluación de la calidad de la enseñanza era más popular en educación primaria y secundaria. En los colegios y universidades, la evaluación del profesorado se hacía de manera informal. Como Whitman y Weiss (1982) afirman, los profesores eran evaluados con el fin de tomar decisiones sobre su promoción, retención y definitividad, incluyendo su capacidad de “llevarse bien y no hacer olas” (p. 1). Las evaluaciones preliminares de la enseñanza universitaria durante la década de 1970 se llevaron a cabo con fines formativos para proporcionar información valiosa a los miembros de la facultad con tal de que mejoraran su enseñanza, tal como se refleja en la creación de los protocolos de evaluación de la docencia y las oficinas de desarrollo profesional en la mayoría de colegios y universidades en los EE.UU. durante ese período de tiempo (Ory, 1998). En la década de 1980, el interés en la enseñanza y su evaluación se incrementaron como resultado de las presiones para rendir cuentas, los cambios en las tendencias de matriculación, la reducción de gastos financieros y las preocupaciones del gobierno por la educación superior (Licata, 1986; Whitman y Weiss, 1982). Diversos informes criticaron duramente la calidad de la enseñanza de pregrado y exigieron la mejora de la enseñanza universitaria (Boyer, 1987; Nyquist y Staton-Spicer, 1987; Cruz, 1987). Además, el interés en la evaluación de la docencia aumentó en la medida de que la evaluación del profesora-

17

do se convirtió en un indicador para evaluar el desempeño general de los colegios y universidades (Cueva et al., 1988). Las fuertes presiones para la rendición de cuentas y la mejora de la docencia universitaria durante este período cambiaron el enfoque de evaluación para la toma de decisiones administrativas (es decir, la definitividad, promoción, aumentos de sueldo), y los resultados de la evaluación comenzaron a utilizarse con fines tanto formativos como sumativos (Ory, 1998). La década de los noventa también se caracterizó por el aumento de las exigencias en la rendición de cuentas (Bok, 1992) y el incremento de las preocupaciones sobre el uso de las evaluaciones de los estudiantes para tomar decisiones administrativas, como la definitividad, promoción u otros estímulos del personal académico.4 Al disminuir las oportunidades de obtener la definitividad y promoción (Marsh y Overall, 1980; Ory y Ryan, 2001) aumentaron las preocupaciones por la validez de la evaluación, especialmente cuando se basa en las calificaciones de los estudiantes como fuente única de información para determinar la calidad de la enseñanza. El uso de los datos de evaluación con fines formativos y sumativos también planteó nuevas preocupaciones sobre el posible mal uso de los resultados de la evaluación y las consecuencias negativas que podría acarrear, como por ejemplo, la disminución de la calidad educativa y la violación de la libertad académica de los profesores (Haskell, 1997).

De acuerdo con Rueda, Luna, García y Loredo (2010), la evaluación formal de la docencia en México comienza en los años ochenta ante presiones de rendimiento de cuentas.

4

18 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Ory (1998) afirma que la mayoría de las preocupaciones acerca de la evaluación de la docencia en educación superior “están viniendo del personal académico... (que) está demandando que ésta sea más justa, más precisa –una mejor interpretación de la complejidad de su trabajo real–” (p. 1). Al mismo tiempo, los administradores se interesan más por “la evaluación de resultados y las evaluaciones basadas en el desempeño”, al grado de que el uso de los resultados de la evaluación para la toma de decisiones administrativas ha llevado a presentar amenazas de litigio con algunas impugnaciones en los tribunales (Ory, 1998; Haskell, 1997). A medida que ha pasado el tiempo, la evaluación de la docencia evolucionó de un proceso informal hacia un enfoque formal y sistemático. La evaluación ya no solo es una preocupación de los investigadores, sino que se ha vuelto cada vez más importante para otros públicos, como los políticos, los administradores, los desarrolladores profesionales del personal académico, y gente fuera de la academia, y conforme surgen nuevos propósitos, la evaluación hace evidentes nuevos dilemas y preocupaciones sobre el enfoque tradicional de la evaluación de la docencia en el nivel universitario. La evaluación de la docencia bajo una perspectiva positivista El enfoque positivista tradicional para la evaluación de la enseñanza en educación superior se caracteriza por un fuerte énfasis en la objetividad en la medición que excluye atención a los valores detrás de la práctica. El investigador o evaluador es un recolector “objetivo” de datos que se basa en gran medida en métodos cuantitativos. Según Erickson

19

(1986), el paradigma dominante para la investigación sobre la docencia tiene sus raíces en el modelo tradicional de las ciencias naturales: “La historia de la investigación positivista en la enseñanza de los últimos 20 años es un análisis absurdo e imposible con modelos teóricos muy parciales del proceso de enseñanza, sobre el supuesto de que lo que es general en las aulas surgirá a lo largo de los estudios, y que las variaciones sutiles son triviales, y podría desvanecerse fuera del análisis del error de varianza” (p. 131). Los investigadores que siguen este paradigma tienden a vincular la idea de enseñar a la idea de tratamiento, y la evaluación con la idea de la eficacia. La efectividad de la enseñanza, entonces, se “mide al mirar las puntuaciones de fin de año o las pruebas estandarizadas de los logros, y para particulares prácticas de enseñanza” (Erickson, 196, p. 131). Un claro ejemplo de este paradigma es la investigación del proceso-producto que apoya fuertemente la enseñanza “directa”, la presentación y la recitación de los conocimientos y comportamientos deseados. En esta investigación, la eficacia de la enseñanza es “atribuible a la combinación de actuaciones docentes discretas y observables en sí que operan relativamente independientes del tiempo y del espacio” (Shulman, 1986, p. 10). De acuerdo con Dunkin y Barnes (1986), la investigación del proceso-producto de los 60 y principios de los 70 es la razón subyacente para la enseñanza en la educación superior en la actualidad, pero a diferencia de la mayor parte de esta investigación (realizada en otros niveles), en la educación superior “la parte proceso ha supuesto sobre la base de definiciones prescriptivas, o

20 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

preparados por los observadores no entrenados, más que documentados a través de la observación cuidadosa” (Dunkin y Barnes, p. 774). Otros investigadores señalan que la concepción formal de la buena enseñanza en educación superior no es el resultado de la investigación del proceso-producto, sino de las listas de características o cualidades que se utilizan para describir la buena docencia. Algunas de estas listas son el resultado de las encuestas aplicadas a los profesores y estudiantes, y se elaboraron para describir lo que constituye una “buena enseñanza”, y un resumen de la investigación que identifica esta serie de características se presenta en la siguiente tabla: Tabla 1. Características de la buena docencia definida en diferentes estudios Autor

Características de la Buena Enseñanza (Good Teaching)

Bousfield (1940). University of Connecticut, en orden de importancia para 61 estudiantes de licenciatura.

Equidad, dominio del contenido, interesante presentación del material, material bien organizado, claridad de la exposición, interés en los estudiantes, amabilidad, capacidad de discusión directa, sinceridad, y agudeza del intelecto

Clinton (1930). Oregon State University, en orden de importancia para 177 estudiantes de licenciatura de segundo año.

El conocimiento de la materia, personalidad agradable, la pulcritud en la apariencia y el trabajo, la justicia, amable y simpático, agudo sentido del humor, interés por la profesión, interesantes presentaciones, alerta y de mente amplia, con conocimiento de metodología de enseñanza.

21

Continuación de la Tabla 1: Desphane, et al. (1970). En orden de importancia para 674 estudiantes de pregrado y 32 maestros de ingeniería.

Motivación, relación con los estudiantes, estructura, claridad, dominio del contenido, sin sobrecarga (exceso de trabajo), los procedimientos de evaluación, uso de medios de enseñanza, las habilidades de enseñanza, estilos de enseñanza.

Feldman (1988). Revisión de 31 estudios en los cuales los estudiantes y los profesores especificaron las características instruccionales que consideran particularmente importantes para la buena docencia y la instrucción efectiva.

Resultados percibidos por los estudiantes del impacto de la instrucción, capacidad del profesor para estimular el interés en el curso y el contenido, la disponibilidad del profesor y su amabilidad, preocupación del maestro respeto de los estudiantes, la amabilidad, su naturaleza, la calidad y la frecuencia de la retroalimentación que proporciona el maestro a los estudiantes, la sensibilidad del maestro y su preocupación por el nivel de la clase y su progreso, la preparación del docente, la organización del curso, el que el profesor estimule las preguntas y la discusión, su apertura a la opinión de otros, la claridad del curso, objetivos y requisitos.

French (1957). En orden de importancia para los estudiantes de licenciatura de la University of Washington.

Interpreta las ideas con claridad, desarrolla el interés del estudiante, desarrolla habilidades de pensamiento, amplía intereses, subraya materiales importantes, buenos métodos pedagógicos, motiva a hacer mejor el trabajo, el conocimiento del contenido, transmite nuevos puntos de vista, explicaciones claras.

Gadzella (1968). En orden de importancia para 443 estudiantes de licenciatura en el Washington State College.

Conocimiento del contenido, interés en la materia, flexibilidad, bien preparado, uso apropiado del vocabulario.

22 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Continuación de la Tabla 1: Hidebrandt (1971). En orden de importancia para 308 estudiantes de pregrado y de posgrado de la University of California-Davis.

Persona dinámica y enérgica, explica claramente, interesantes presentaciones, disfruta la docencia, se interesa por sus estudiantes, alienta la discusión en clase y discute otros puntos de vista.

Perry (1969). En orden de importancia para 1493 estudiantes, profesores y ex-alumnos en la University of Toledo.

Bien preparado para las clases, con sincero interés en el contenido, conocimiento del contenido, métodos de enseñanza efectiva, verifica la comprensión, justo al evaluar, efectivo comunicándose, anima el pensamiento independiente, organiza el curso de forma lógica, motiva a los estudiantes.

Pogue (1967). En orden de importancia para 307 estudiantes del Philander Smith College.

Conocimiento del contenido, justo al evaluar, explica con claridad.

Nota. Adaptado de Developing Programs for Faculty Evaluation (p. 32-33), por R. I. Miller, 1974 y de Assessing Faculty Work de Braskamp y Ory (1994).

Feldman (1988), Frey (1979) y Marsh (1991) apoyan el uso de estas características o comportamientos en el diseño de instrumentos para la evaluación de la calidad docente, y sustentan que incluir múltiples dimensiones puede producir información útil como retroalimentación para el profesorado acerca de su docencia, y cómo mejorarla. Otros investigadores plantean un punto de vista diferente, y afirman que la enseñanza debe ser evaluada “globalmente”, en lugar de prestar atención a las características o dimensiones instruccionales particulares. Cashin y Downey (1992), Cohen (1986) y Abrami et al. (1990, 1993) son algunos de los investigadores que apoyan el uso de elemen-

23

tos globales o un “promedio cuidadosamente ponderado de las puntuaciones de los factores” cuando las calificaciones se utilizan para la toma de decisiones administrativas (Abrami et al., 1990, p . 98). Abrami afirma que aunque la “buena enseñanza” es una construcción de múltiples componentes, es más apropiado evaluarla de forma “global” cuando se compara a los instructores durante los cursos, en sus departamentos y ambientes. Este autor expresa su preocupación por los problemas de validez del constructo que pueden resultar si la evaluación no incluye todas las dimensiones y características pertinentes de la buena docencia. La efectividad de la docencia La evaluación de la docencia bajo el paradigma tradicional positivista pone un fuerte énfasis en la generalización y en establecer relaciones causa-efecto. En la mayoría de los casos, la evaluación se hace utilizando escalas de calificación, entrevistas semi-estructuradas, pruebas de personalidad o cuestionarios (Feldman, 1986, 1989; Falk, 1971). Los cuestionarios, sin embargo, son los instrumentos que los investigadores positivistas más utilizan en la evaluación de la enseñanza universitaria. En la mayoría de los casos, los instrumentos incluyen elementos globales y/o conjuntos estandarizados pre-ordenados de ítems sobre las características y dimensiones de la docencia. La administración de las formas de evaluación es estandarizada. Los resultados de estas encuestas se analizan comúnmente, de tal manera que reduce los resultados a una sola calificación o puntuación. Entonces, los resultados obtenidos por un profesor se comparan con los obtenidos por

24 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

otros miembros del personal académico o en contra de un criterio o estándar predeterminado. Cuando se llevan a cabo observaciones en el aula, la tendencia es de nuevo hacia la cuantificación. Las revisiones de la investigación sobre la evaluación de la docencia en educación superior usando un paradigma positivista se han hecho con énfasis en las cuestiones de medición, buscando sobre todo a las fortalezas y limitaciones de las diferentes fuentes de evaluación y cuestiones de confiabilidad y validez interna o externa de los puntajes otorgados por los estudiantes a sus profesores en la evaluación. Fuentes de evaluación Como parte de las publicaciones que existen sobre la evaluación de la docencia universitaria destacan los estudios que identifican las ventajas y limitaciones de las diferentes fuentes relativas a la educación superior: estudiantes, colegas, administradores, los propios profesores, antiguos alumnos y observadores externos. Evaluación basada en las opiniones de los estudiantes La principal fuente utilizada en la evaluación de la docencia universitaria es la opinión de los alumnos actualmente inscritos en el curso (Seldin, 1993; Lumpkin y Multon, 2013), realmente muy pocos estudios han utilizado otras fuentes, y aún menos han utilizado más de una fuente de forma simultánea. Como Bukalski y Zirpola (1993) mencionan, la opinión de los estudiantes acerca de la docencia es una “parte de la vida académica en casi todos los colegios y universidades en los Estados Unidos” que prevalece hasta hoy en día (p. 23).

25

Los hallazgos reportados en las principales revisiones de la literatura de los años 70’s hasta finales de los 90’s avalan la confiabilidad de los resultados de la evaluación obtenidos a partir de las opiniones de los estudiantes acerca de la calidad de la docencia (Marsh, 1987; Centra, 1993; Costin, Greenough, y Menges, 1971; McKiechie, 1979; Cashin, 1988 y 1995). Según Marsh y Bailey (1993) estas evaluaciones son válidas en contra de una variedad de indicadores de la enseñanza eficaz. Marsh (1987) también establece que los puntajes no se ven “relativamente afectados por las múltiples variables identificadas como posible sesgos de la evaluación, y son útiles para el personal académico como retroalimentación acerca de su enseñanza” (p. 255). Otros investigadores, como Ryan y Johnson (1998), aunque comparten la creencia de que la investigación puede ser defendible desde el punto de vista lógico y psicométrico, expresan preocupación cuando la evaluación se utiliza para lograr más de un propósito. Esta preocupación es compartida por otros investigadores en el campo de la evaluación del personal académico, entre ellos Hawley (1977), quién afirma: “Si el propósito de la evaluación es mejorar la calidad de la instrucción, los miembros del personal académico se sentirán justamente saboteados cuando los datos se usen para la toma de decisiones acerca de los salarios y la definitividad. En el primer caso, la evaluación puede ser vista como útil, en el segundo caso toma un tono antagonista” (p. 10). Asimismo, aunque la mayor parte de los investigadores ven la evaluación como potencialmente útil para mejorar la calidad de la docencia, esta es un área donde no existe evidencia concluyente, porque como Dunkin y Barnes, afirman:

26 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

“Se requiere mucha más investigación para demostrar la forma en la cual… (la) evaluación puede tener un uso efectivo en la mejora de la docencia. En particular, es necesaria mayor investigación sobre los efectos de la retroalimentación basada en los puntajes otorgados por los estudiantes y su efecto sobre los cambios realizados en los procesos de enseñanza”. Evaluación por pares La frase “revisión por pares” en la evaluación del profesorado se refiere tradicionalmente a la evaluación que hace un profesor a otro miembro del personal académico o por un grupo de colegas. Algunos autores, como Wicks (1992 ), sostienen que la revisión por pares es un sistema flexible capaz de generar juicios confiables basados en amplios rangos de evidencia. La evaluación por pares es adaptable, capaz de reflejar y respetar las tradiciones de los que están siendo evaluados, y puede crecer y cambiar para satisfacer las nuevas necesidades. Además, Menges (1987) indica que los profesores reportan una mayor satisfacción, más interacciones con otros colegas, aumento en su motivación, y un sentido de renovación cuando la evaluación de pares se utiliza principalmente con fines formativos. Braskamp, Brandeburg y Ory (1984) también sostienen que los colegas pueden ser la fuente más importante de información en la evaluación del profesorado. Ellos afirman que una de las ventajas de contar con los colegas como fuente de información acerca de la calidad de la docencia, es que ellos son expertos en la disciplina en la cual el profesor es evaluado. Braskamp, Brandenburg y Ory creen que los colegas están en una excelente posición para juzgar: (a) el conocimiento

27

del instructor y cuán experto es en su principal campo de conocimiento, como se refleja en el programa del curso y la bibliografía del mismo; (b) qué tan realista es la selección de los objetivos del curso; (c) tareas del instructor, proyectos de grupo, y evaluaciones; (d) aprovechamiento de los estudiantes como se refleja en su desempeño en exámenes y proyectos, y (e) involucramiento del instructor en investigación instruccional. Sin embargo, algunos estudios identifican problemas cuando se cuenta con los pares como fuente de información en una evaluación. Uno de los problemas es que el personal académico no estudia las clases de sus pares de forma sistemática, por lo que es difícil que perciban la efectividad instruccional de sus colegas (Andrews, 1985 y Moffett, 1997). Asimismo, hay controversias sobre la confiabilidad de los colegas como evaluadores de la instrucción en educación superior. Algunos estudios han reportado que los colegas tienden a dar altos puntajes a sus pares (Andrews, 1985). De hecho, algunos investigadores como Centra (1979), han encontrado que los colegas tienden a dar puntajes más altos a sus pares que los estudiantes al mismo instructor. Por otra parte, otros estudios reportan lo opuesto ya que hay profesores que tienden a otorgar los puntajes más bajos a sus pares cuando evalúan su docencia en educación superior. Longman (1978) concluyó que los profesores tienden a percibir que sus colegas enseñan por debajo del promedio y que necesitan ayuda para mejorar su docencia. Una de las limitaciones de la evaluación por pares de acuerdo con los investigadores positivistas es la falta de confiabilidad estadística de los puntajes otorgados por los

28 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

pares. Centra (1979) reporta una correlación de solo r = 0.26 entre diferentes colegas que evaluaron al mismo instructor. Sin embargo, este autor considera que entrenar a los docentes en técnicas de observación podría mejorar la confiabilidad de los puntajes otorgados en la evaluación de pares. Se requiere más investigación debido a que la literatura provee solo algunos ejemplos de actividades basadas en la investigación donde el desempeño instruccional fue completa y sistemáticamente evaluado por colegas con propósitos formativos o sumativos (Menges, 1991; Ackerman, Gross y Vigneron, 2009). Administradores como evaluadores Centra (1993) y Genova et al. (1976) aseguran que es válido recurrir a los administradores, tales como el jefe de departamento, para evaluar la instrucción en la universidad, aunque concuerdan en que esta fuente de información es controversial. Una de las principales preocupaciones al considerar a los administradores es que muchos, al parecer, basan sus evaluaciones en todo menos la efectividad instruccional. Feldman (1989) reporta que los administradores tienden a basar sus evaluaciones en la reputación del personal académico, y en su participación en actividades universitarias, tales como los comités académicos. La mayor parte de los administradores no visitan las aulas de forma sistemática, de modo que no tienen oportunidad de apreciar la calidad instruccional del personal. Asimismo, cuando los administradores participan en el proceso de evaluación juegan un doble papel como decisores y proveedores de información evaluativa. Este doble papel puede interferir con la validez de sus evaluaciones sobre la docen-

29

cia de los profesores (Genova et al., 1976), por lo tanto, se requiere más investigación acerca del uso y la validez de esta fuente de información que prácticamente no ha sido estudiada. Auto-evaluación Son los puntajes que cada instructor da a su propia docencia, y han sido prominentes en muchas evaluaciones del personal académico y administrativo (Miller, 1974). Dressel (1970) asegura que la auto-evaluación es esencial para el mejoramiento del profesorado, y además, Washton (1988) y Dressel (1970) creen que esta clase de evaluación puede darles oportunidad de reflexionar sobre su propio trabajo y confrontarlos con sus debilidades profesionales. Asimismo, Braskamp y Ory (1994) piensan que la auto-evaluación es la fuente más importante en la evaluación de profesores porque solo ellos pueden proveer información acerca del “pensamiento detrás del trabajo, las metas profesionales, fortalezas y debilidades, planes para lograr las metas instruccionales, cambios en su trabajo con base en la evaluación, sus planes de evaluación y su implementación” (p. 103). Más aún, implementar portafolios del curso y de la enseñanza para la auto-evaluación y la reflexión puede ser particularmente útil para el mejoramiento individual e institucional (Braskamp y Ory, 1994). Una de las limitaciones de la auto-evaluación identificada por los investigadores con orientación positivista es la modesta relación que existe entre los puntajes otorgados por los estudiantes y la que otorgan los profesores (ver la revisión de literatura elaborada por Feldman en 1989). Ha sido menos la similitud encontrada entre los puntajes otorgados por el

30 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

profesor en la auto-evaluación y la de sus pares (Feldman, 1989). En general, el uso de la auto-evaluación merece más atención debido a que la investigación sobre esta fuente de información prácticamente no se ha examinado. Múltiples fuentes Feldman (1989) y Braskamp, Brandeburg y Ory (1984 ) sugieren el uso de registros,5 e involucrar a ex alumnos y observadores externos como fuentes adicionales para evaluar la eficacia de instrucción del profesorado universitario. Feldman (1989) sintetiza la investigación mediante la comparación de las calificaciones globales de eficacia de los profesores universitarios que fueron obtenidas de seis fuentes diferentes: (a) los estudiantes actualmente inscritos en el curso (b) los ex-alumnos (c) los pares (d) los administradores (e) los observadores externos (f ) los propios maestros Feldman revisó después las similitudes y diferencias entre las calificaciones otorgadas por seis fuentes de información acerca de un mismo docente, y encontró que las más altas similitudes relativas fueron entre:

De acuerdo con Braskamp y Ory (1994), los registros incluyen “piezas de información de hechos, resúmenes, y materiales del professor, tales como listas de cursos, tareas de comités, número de tutorados, actividades de consultoría, solicitudes de becas de investigación, premios, gráficas clínicas, reportes de progreso, y notas diarias” (p. 226).

5

31

(a) los estudiantes actualmente inscritos en el curso y los ex - alumnos (b) los estudiantes y los pares del profesor (c) los estudiantes actuales y los observadores externos. Feldman descubrió que las tres correlaciones medias más bajas fueron entre: (a) los resultados de la autoevaluación y la de los estu- diantes actuales (b) la auto-evaluación y la evaluación de pares (c) la auto-evaluación y los puntajes otorgados por los administradores. Feldman cree que se necesita más investigación debido a la posibilidad de que pudo haber una interacción entre los estudiantes y colegas que influyó en los puntajes. Los colegas pueden hacer sus evaluaciones basándose en los rumores de los estudiantes, la reputación del maestro, e incluso en “las propias discusiones del profesor con sus colegas acerca de la evaluación que obtuvieron de sus estudiantes” (p. 165). Además, el trabajo de Feldman presenta algunos problemas metodológicos que pueden haber afectado la validez de estos estudios ya que no analizó todas las fuentes al mismo tiempo, en un solo estudio, solamente revisó los datos estadísticos de los estudios que incluyó en su resumen de la investigación. Confiabilidad de los estudios Estos estudios examinan la medida en la cual los procedimientos de medición de la evaluación de la docencia consistentemente sirven para su propósito. Los estudios sobre

32 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

la confiabilidad de las evaluaciones basadas en las opiniones de los estudiantes se han enfocado principalmente en el análisis de ítems (consistencia interna) y acuerdo a lo largo del tiempo (estabilidad). La consistencia interna se refiere al grado en que hay un acuerdo entre los estudiantes dentro de una clase al calificar a su instructor y al curso. La estabilidad se refiere a la medida en que un solo instructor y curso son evaluados de forma similar por los mismos estudiantes en dos momentos diferentes (Braskamp y Ory, 1994). Ory (1994) resume los resultados de la investigación sobre la confiabilidad de los puntajes otorgados por los estudiantes de la siguiente manera: 1. El acuerdo entre los estudiantes sobre los puntajes globales de la instrucción son altos si la clase tiene más de quince estudiantes (Crooks y Kane, 1981; Feldman, 1977, 1978; Marsh y Overall, 1981; Marsh, Overall y Kesler, 1979). 2. Los estudiantes son consistentes en sus puntajes globales al mismo instructor en diferentes momen- tos del curso (Centra, 1977). 3. La efectividad global de la docencia de un instruc- tor puede generalizarse de forma confiable en los puntajes de cinco o más cursos enseñados por el docente cuando la clase tiene al menos quince estudiantes (Crooks y Kane, 1981). 4. Los instructores que enseñan diferentes secciones del mismo curso obtienen puntajes globales simila- res en cada sección (Overall y Marsh, 1979; Shingles, 1977).

33

Según Cashin y Perrin (1978) en los estudios de consistencia interna, la confiabilidad media de los ítems tiende a aumentar conforme aumenta el número de evaluadores. Sin embargo, Marsh (1984) advierte que si bien la consistencia interna de los ítems tiende a ser alta, tenemos que ser cuidadosos en nuestras interpretaciones porque la investigación sobre la consistencia interna provee “una estimación exagerada de la confiabilidad debido a que se ignora la parte sustantiva del error resultante de la falta de acuerdo entre los diferentes estudiantes” (p 716). Los estudios sobre la estabilidad de los puntajes otorgados por los estudiantes en la evaluación docente se han centrado en el acuerdo entre los puntajes a lo largo del tiempo. Overall y Marsh (1980) reportan en los resultados de estos estudios una alta correlación de 0.83 al comparar los puntajes otorgados por los mismos alumnos al final del curso y varios años más tarde. En general, Murray (1990) resume las conclusiones de la investigación sobre la confiabilidad de los puntajes otorgados por los estudiantes en las evaluaciones docentes: “Aunque los resultados son a veces contradictorios, el peso de la evidencia sugiere que las valoraciones de los estudiantes de un instructor determinado son estables a través de los ítems, los evaluadores y los diferentes períodos de tiempo” (p. 250). Validez y evaluaciones de la enseñanza universitaria La validez se refiere a las preguntas: ¿Estamos midiendo lo que pensamos que medimos? ¿Están nuestras inferencias y acciones sobre el evaluando6 apoyadas por la evidencia?

6

Objeto de la evaluación.

34 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Debido a que la validez está vinculada al significado, el valor y la pertinencia de la interpretación, la validez es la consideración más importante en la evaluación. Las evaluaciones no son válidos cuando tienen “una escasa representación de valor” (Stake, 1996, p. 1). Para que sean válidas, las evaluaciones deben representar la calidad del objeto de la evaluación (Stake, 1999) y “tener en cuenta todos los factores relevantes, dado el contexto de la evaluación...” (Scriven, 1991, p. 373). Dado que la evaluación es “una búsqueda de la bondad y maldad, del mérito y la deficiencia, de la calidad” (Stake, 1999, p. 1), una evaluación válida de la docencia tiene que representar su calidad dentro de su contexto y complejidad y “transmitir el sentido de calidad a los demás” (Stake, 1999, p. 1). La evaluación no será válida si termina con una evaluación de la enseñanza que carece de relevancia y utilidad, y sus implicaciones de valor y las consecuencias sociales no son tomadas en cuenta, porque como Messick (1989; 1995) argumenta, el significado y las consecuencias son esenciales para la validez. Los estudios sobre la validez de la evaluación de la docencia en la educación superior se han centrado en el estudio de la validez de los puntajes que los estudiantes otorgan a los docentes. Según Ory y Ryan (2001) se han utilizado cinco enfoques: (a) múltiples secciones (b) multi- rasgo (c) sesgo (d) los diseños de laboratorio (e) la dimensionalidad de los puntajes

35

Entre los cinco, multi-sección y multi-rasgo son los métodos más utilizados para determinar la validez de las valoraciones que los estudiantes hacen de la docencia de sus profesores. Estudios multi-sección En estos estudios se examinan múltiples secciones del mismo curso universitario impartido por diferentes instructores: una medición de los puntajes otorgados por los estudiantes se correlaciona con la automedición de su rendimiento; luego, los investigadores calculan una correlación entre “la sección media de las calificaciones de los estudiantes con la sección media de puntuaciones de rendimiento de los estudiantes en un examen común” (Ory y Ryan, 2001, p. 6). Cuanto mayor sea la correlación entre ambas medidas, mayor será la validez de los puntajes (El- Hassan, 1995) . Algunos investigadores, como Marsh (1984), que han estudiado la generalización de los puntajes de los estudiantes a través de las secciones, encontraron una correlación de r = 0,61 para el mismo instructor enseñando diferentes cursos. También se encontró mayor correlación (r = 0,72) cuando el mismo instructor enseña diferentes secciones del mismo curso. Marsh concluyó que fue el instructor y no el curso, el principal determinante de los puntajes otorgados por los estudiantes. Gillmore, Kane y Naccarato (1978) y Hogan (1973) apoyan las conclusiones de Marsh. Además, Cohen (1981, 1983) encontró una correlación más fuerte en los estudios de múltiples secciones (r = 0,38) y utilizó los resultados para apoyar su argumento a favor de la validez de los puntajes como medidas de la calidad de la ins-

36 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

trucción. Por otra parte, Dowell y Neal (1982) encontraron que mientras que los estudios de múltiples secciones apoyan la validez de los puntajes, “esta validez no es consistente a través de diversas situaciones” (p. 59). La evidencia en el estudio de Dowell sugirió que la validez de los puntajes “es modesta en el mejor de los casos (r máximo = 0,26 ) y bastante variable” cuando se comparan las calificaciones en las diferentes secciones de un curso (p. 59). Según Hassan (1995), parte de las diferencias entre estos estudios son atribuibles a las diferencias en los métodos y controles utilizados por los investigadores. Una revisión de varias docenas de estudios de múltiples secciones realizada por Abrami, D’Apollonia, y Cohen (1990) mostró que aunque es consistente la información que existe, hace falta investigar más para entender los límites de la generalización de la validez de los puntajes a lo largo de las dimensiones de calificación, los criterios de eficacia y las condiciones de la instrucción. Como es bien sabido, los resultados de la investigación correlacional deben interpretarse cuidadosamente porque la homogeneidad del grupo y otros factores varían. Además, muchos de estos estudios se realizaron en cursos de bajo nivel de aprendizaje, cursos introductorios dirigidos principalmente a estudiantes de primer y segundo año. Estudios multi-rasgos En estos estudios se evalúan múltiples características por variedad de métodos, tales como la opinión de los estudiantes, la evaluación de pares, observaciones, etc. Aunque los resultados de estos estudios “han mostrado evidencia

37

tanto de validez discriminante7 como de validez de convergencia”8 (Howards, Conway y Maxwell, 1985; Marsh, 1982) han sido principalmente meta-análisis, los cuales comparan resultados de diferentes estudios. Los meta-análisis ignoran las complejidades del contexto dentro del cual se evalúa la docencia, así como las diferencias entre tipos de instituciones, períodos de tiempo de recolecta de datos y tipos de instrumentos utilizados. Por otra parte, los datos de estos estudios no son equivalentes para la comparación o también pueden ser demasiado limitados en número. Como Feldman (1989) menciona, “en la comparación con... pares (utilizados en los meta-análisis), muchos no tenían ningún estudio con datos pertinentes a ellos o se contaba con solo uno o dos estudios” (p. 167). Abrami, D’Apollonia y Cohen (1990) luego de revisar varios estudios multi-rasgo concluyen que estos “diseños proporcionan una evidencia débil de la validez de las evaluaciones basadas en las opiniones de los estudiantes como medidas de eficacia docente” (p. 221). Estudios de sesgo Estos estudios se realizan con la intención de identificar las “influencias extrañas que afectan la validez de las evaluaciones basadas en las opiniones de los estudiantes” (Ory y Ryan, 2001). Las valoraciones de los estudiantes se correla-

La validez discriminante responde a: ¿están los puntajes influenciados por variables no relacionadas a la docencia? 8 La validez convergente responde a: ¿cuán bien los puntajes como mediciones se correlacionan con otros indicadores de la enseñanza efectiva? 7

38 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

cionan con otras variables que pueden influir en los puntajes, como las características del instructor (es decir, edad, sexo, experiencia docente, de personalidad), los estudiantes (la edad, el sexo, el nivel del estudiante) y el curso (tamaño de la clase, hora del día, etc.). En los últimos veinte años se ha hecho un número significativo de estudios sobre los factores de sesgo que afectan las evaluaciones de la docencia basadas en la opinión de los estudiantes, y según El-Hassan (1995), algunos de los factores que influyen en la evaluación son: 1. Rango del profesor, por ejemplo, novato versus ex perimentado (Braskamp, Brandeburg y Ory, 1984). 2. La motivación del estudiante (Feldman, 1978; Marsh, 1984). 3. La calificación esperada por los estudiantes (Feldman, 1976; Marsh, 1984; Greeenwald y Gillmore, 1976). 4. Tipo de curso (optativo versus requerido) (Aleamoni y Hexner, 1980: Braskamp y Ory , 1994). 5. Disciplina académica (Feldman, 1978; Marsh, 1984; Miller, 1987; Braskamp y Ory, 1994; Cashin, 1990), y 6. Carga de trabajo/dificultad del curso (Marsh, 1984; Greenwald y Guilmore, 1996). La revisión de la literatura realizada por Brskamp y Ory (1994) sobre los factores de sesgo que influyen en las evaluaciones que los estudiantes hacen de sus profesores reportó relaciones similares entre las calificaciones y algunos factores de sesgo semejantes a los que encontró El-Hassan.

39

Pero Braskamp y Ory dieron más atención a la naturaleza del curso optativo/requerido como un “factor de sesgo” más que otras variables, como las calificaciones o la disciplina académica. Como Ory y Ryan (2001) añaden: “Hasta este momento, la naturaleza de un curso (optativo versus requerido) es la única variable contextual que hemos encontrado que influye en el sistema de evaluación basado en opiniones de los estudiantes. Sin embargo, estamos considerando hacer algunos cambios basados en investigaciones antiguas y recientes revelando diferencias en los puntajes otorgados por los alumnos al evaluar los cursos de diferentes disciplinas”. Ory y Ryan (2001) también indican que hay menos certeza sobre la posible influencia de otras variables en los puntajes que otorgan los estudiantes cuando evalúan a sus profesores, como las expectativas que los alumnos tienen de las calificaciones y el género del instructor. Esto se debe, en parte, a los resultados contradictorios obtenidos en los estudios que examinaron la influencia de estas variables. La investigación sobre la influencia de las calificaciones esperadas en los puntajes que asignan los estudiantes a sus profesores ha encontrado pruebas sobre la posible relación entre estas variables. Mientras que algunos investigadores, como Feldman (1976) y Marsh (1984), afirman que la relación entre estas variables es generalmente pequeña (alrededor de 0,20); un estudio de Brodie (1998) encontró que los estudios previos sobre la relación entre la inflación de las calificaciones y los puntajes que otorgan los estudiantes cuando evalúan a sus maestros “han subestimado la influencia que puede ejercer la clemencia del maestro al otorgar

40 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

calificaciones” (p. 17). Tras el análisis de 1.939 evaluaciones de los estudiantes de 75 clases, Brodie encontró que “cuando las calificaciones variaron notablemente entre secciones del mismo curso, el profesor que otorga las calificaciones más altas y demanda menos estudio por parte de sus alumnos, tiende a recibir las evaluaciones más altas” (p . 17). La investigación sobre las diferencias de género y su influencia en la percepción de los alumnos de la enseñanza ha producido algunos resultados controversiales (Goodwin y Stevens, 1993). Los estudios han reportado evidencia mixta sobre la influencia del género en las evaluaciones que los estudiantes hacen de sus docentes. La mayoría de los estudios se han centrado en tres aspectos principales: (a) el género del maestro y su influencia en la eficacia de la instrucción, (b) la influencia del sexo del estudiante en las calificaciones, y (c) el género del maestro y las percepciones de la buena enseñanza. En relación con el primer aspecto, Feldman (1993) encontró que mientras que muchos estudios no reportan diferencias significativas entre las evaluaciones de los profesores (hombres) y las profesoras (mujeres), otros investigadores encontraron que las profesoras recibieron calificaciones más altas que los hombres en una variedad de aspectos específicos o globales. Los hallazgos de Feldman indican que los estudiantes tienden a dar puntuaciones más altas a sus maestras en los siguientes aspectos: 1. La naturaleza y el valor de los materiales didácticos complementarios. 2. Perseguir y/o cumplir los objetivos del curso. 3. La sensibilidad y preocupación por el nivel de la clase y su progreso.

41

4. 5. 6. 7.

Disponibilidad y amabilidad. Estímulo hacia las preguntas de los estudiantes. Apertura a las opiniones de otros. Uso del más variado y valioso material del curso.

Según Goodwin y Stevens (1993), las profesoras tienden a recibir calificaciones más altas por su docencia cuando son evaluadas por estudiantes en disciplinas tradicionalmente femeninas (enfermería y educación, por ejemplo), en contraste con las profesoras de disciplinas tradicionalmente masculinas (ingeniería y ciencias). Por otra parte, los profesores varones parecen recibir más altas evaluaciones en las dimensiones: 1. Claridad y comprensibilidad. 2. Conocimiento de los contenidos de la materia. 3. Personalidad (Feldman, 1993; Goodwin y Stevens, 1993). Otro grupo de estudios encontró que el género de los estudiantes sí podría influir en la forma en que califican a sus profesores. Goodwin y Sevens (1993) indican que si bien los profesores varones parecen ser evaluados de manera similar por estudiantes de sexo masculino y femenino, las estudiantes otorgan evaluaciones más altas a sus profesoras que a sus profesores masculinos. Además, Goodwin y Stevens encontraron que el sexo de los instructores podría influir en su percepción de la buena enseñanza y las actividades que se ponen en práctica en el aula. Estos autores destacan algunas diferencias de género entre los instructores cuando se les interrogó acerca del significado de la bue-

42 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

na enseñanza. Según sus conclusiones, tanto hombres como mujeres afirmaron que la buena docencia tiene que ver con el desarrollo de habilidades de pensamiento de orden superior. Pero las mujeres también estaban preocupadas por la autoestima de los estudiantes, las interacciones entre maestros y alumnos a través de actividades en grupos pequeños, y el desarrollo de una variedad de niveles de pensamiento mediante exámenes y discusiones. Además, las maestras parecían utilizar una combinación de medios audiovisuales y estaban más abiertas a consultar a sus colegas cómo mejorar su enseñanza. A diferencia de las mujeres, los hombres afirmaron dar más valor a las evaluaciones de los estudiantes. Según los autores, que las profesoras prefieran los métodos activos de enseñanza podría influir negativamente en sus evaluaciones. Algunos estudios reportan evidencia de que hay relación entre obtener bajas evaluaciones de la docencia en clases con mayores niveles de interacción entre los estudiantes. Una razón puede ser la presencia de los estereotipos de género y los prejuicios de evaluación del desempeño, y otra razón, que algunos investigadores han analizado los puntajes de la evaluación docente a nivel de ítem, mientras que otros han observado las diferencias a nivel global (Feldman, 1993). Según Feldman, es necesario investigar más (1993) el área de género y los estilos de comunicación entre profesores hombres y mujeres, y de acuerdo con Kogan, Schoenfeld y Hellyer (2010), también es necesario abordar las percepciones y reacciones de los profesores y profesoras acerca de los resultados de las evaluaciones que hacen sus estudiantes. En relación a los efectos del tamaño de las clases, también hay resultados mixtos. Por ejemplo, Feldman (1978;

43

1984) encontró que mientras algunos estudios no descubrieron relación alguna entre el tamaño de las clases y la evaluación de la docencia, otros estudios evidenciaron que los estudiantes tienden a dar calificaciones más bajas sobre su calidad docente a los maestros que imparten clases largas. Los hallazgos de Feldman (1984) indican que la correlación media entre las evaluaciones de los estudiantes hacia sus profesores y el tamaño de la clase es de r = -0.9 (52 estudios). Las recientes investigaciones de Greenwald y Guilmore (1996) aclaran la influencia del tamaño de las clases en las evaluaciones, pero se necesita ahondar más en esta área para comprender mejor la compleja relación entre el tamaño de las clases, la enseñanza y el aprendizaje. En general, los educadores se preocupan por la influencia del tamaño de las clases, sobre todo en los casos en que se utilizan los resultados de la evaluación para la toma de decisiones administrativas (McKeachie, 1997). Otros estudios hacen patente la interrelación entre las diferentes variables que influyen en los puntajes otorgados por los estudiantes. Por ejemplo, parece que hay correlación entre la disciplina en la que se basa el curso y la edad del instructor. Según estos estudios, cuando los estudiantes evalúan a sus profesores tienden a darles calificaciones más altas en algunas disciplinas académicas que en otras (Barnes y Barnes, 1993, Biglan, 1973; Newman y Newman, 1983, 1985; Cashin, 1990; Feldman, 1978 y Marsh, 1984), y son los profesores de humanidades quienes reciben evaluaciones más altas en comparación con los de ciencias sociales o ciencias físicas, matemáticas e ingeniería. Esta relación también se puede ver afectada por la edad del instructor, observándose que los profesores de mayor edad en las

44 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

ciencias sociales obtienen mejores puntajes. Algunos autores, a su vez, reportan un impacto significativo, pero pequeño, de la edad del instructor sobre los puntajes que otorgan los estudiantes y que pueden influir en la relación entre los resultados de la evaluación y la disciplina académica. Centra (1979) informa que los instructores con más de veinte años de experiencia tienden a recibir calificaciones más bajas que los instructores con menos años de experiencia (hasta un máximo de doce años). Kinney y Smith (1992) encontraron que los estudiantes tienden a dar mayores puntajes en la evaluación docente a los profesores de ciencias sociales y humanidades cuando se acercan a la edad de jubilación obligatoria. Al mismo tiempo, estos autores encontraron que los estudiantes daban calificaciones más inferiores a los profesores en las ciencias físicas y naturales conforme se acercaban a la edad de jubilarse (Kinney y Smith, 1992). Miller (1987) comentó que más que la edad, son el agotamiento, el aburrimiento y la energía física disminuida los factores que pueden afectar los puntos de vista acerca de la competencia docente. Más recientemente, Youmons y Lee encontraron que regalar chocolates a los estudiantes antes de la evaluación puede influir en que evalúen de forma más positiva a sus profesores (2007). Estudios de laboratorio Según Ory y Ryan (2001), estos estudios “examinan la relación entre los puntajes de la evaluación basada en las opiniones de los estudiantes y las variables controladas en experimentos en ambientes no naturalistas, por ejemplo: sesiones video-grabadas y conferencias en laboratorios” (p. 7).

45

Los hallazgos de la investigación usando diseños de laboratorio demuestran que estos estudios no son adecuados para evaluar cómo influye el instructor en el aprendizaje del estudiante en el aula real. Además, como Abrami, D’Apollonia y Cohen (1990) mencionan, este enfoque de investigación “carece de comprehensibilidad, ya que no representa muchas características del instructor que podrían afectar a la validez... y las diferencias reales entre los instructores en el campo”. (p. 222). Estudios de dimensionalidad Kulik y McKeachie (1975) y Feldman (1987) están entre los investigadores que han tratado de identificar el constructo subyacente medido por la evaluación. Como se mencionó antes, se centraron en la identificación de la “estructura conceptual de los puntajes de la evaluación docente” (Ory y Ryan, 2001, p. 8). Usando meta-análisis, los investigadores fracasaron al identificar un “conjunto común de factores subyacente al constructo que se mide en las evaluaciones docentes basadas en las opiniones de los estudiantes” (Ory y Ryan, 2001, p. 8). Aunque hay consistencia entre los diferentes estudios, los investigadores no han podido identificar un conjunto único de características y comportamientos esenciales para definir el constructo calidad docente: “Sin un dominio objetivo claramente definido de las características de la docencia efectiva” no queda claro cómo las instituciones seleccionan el contenido de sus formas de evaluación, y lo más importante, ¿qué es lo que estas instituciones infieren como el significado de los resultados?” (Ory y Ryan, 2001, p. 11).

46 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

El nuevo marco de validez y las evaluaciones de la docencia universitaria A finales de los años 80 y principios de los 90 tuvo lugar un cambio en la literatura de la evaluación que propició una nueva conceptualización de la validez gracias a Samuel Messick (1989), seguido de Shepard (1993) y otros autores, entre ellos: Lane, Park, y Stone, (1998); Moss (1992, 1998), Reckase (1998), Yen (1998) y Cronbach (1989). El nuevo marco se aleja de un concepto fragmentado hacia un concepto unificado, el cual determina que toda validez se refiere a la validez de constructo. Como afirma Messick, el nuevo marco “integra consideraciones de contenido, criterios y consecuencias en un marco del constructo para la comprobación empírica de las hipótesis racionales sobre el significado de los puntajes y de las relaciones teóricamente relevantes, incluyendo aquellas de naturaleza aplicada y científica” (Messick, 1995, p 751). Además, la validez no es propiedad de una prueba, sino “un juicio global de que la evidencia empírica y la teoría apoyan la idoneidad y adecuación de las interpretaciones basadas en la evaluación” (Messick, 1995, p. 741). Por otra parte, la validez se refiere no solo a los significados y la interpretación de resultados de la evaluación, sino también a las inferencias y consecuencias sociales que se derivan de ésta. De hecho, el significado y las consecuencias son esenciales para la validez (Messick, 1989, 1995). Aspectos de validez de constructo Messick (1989, 1995) identificó seis aspectos importantes de la validez que se pueden usar en todas las evaluaciones educativas con el fin de observar las fuentes de invalidez,

47

las cuestiones críticas y las fuentes de evidencia enfatizadas por cada uno de estos aspectos, y son las siguientes:9 1. Aspecto de contenido: incluye pruebas de relevancia del contenido, representatividad y calidad técnica (Lennon, 1956; Messick, 1989). 2. Aspecto sustantivo: se refiere a la fundamentación teórica por las consistencias observadas en las respuestas de la prueba, incluyendo los modelos de procesos de ejecución de la tarea (Ebreton, 1983) junto con la evidencia empírica de que los procesos teóricos realmente involucran a los sujetos que responden la prueba en las tareas de la evaluación. 3. Aspecto estructural: valora la fidelidad de la estructura de puntuación con la estructura de dominio del constructo evaluado (Loevinger, 1957). 4. Aspecto externo: incluye evidencia convergente y discriminante de pruebas de comparaciones con métodos de multi-rasgos (Campbell y Fiske, 1959), así como la evidencia de relevancia del criterio y utilidad aplicada (Crombach y Glesser, 1965). 5. Aspecto de generalización: examina la medida en la cual las propiedades de las puntuaciones e interpretaciones se generalizan entre los grupos de la población, y las tareas (Cook y Campbell, 1979; Shulman, 1970), incluyendo la validez de la generalización de las relaciones test-criterio (Hunter, Schmidt, y Jackson, 1982). 9

Messick, 1994, p. 11-12.

48 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

6. Aspecto de consecuencias: evalúa las implicaciones de valor de la interpretación de los puntajes como base para la acción, así como las posibles consecuencias reales de uso de pruebas, especialmente en lo que se refiere a las fuentes de invalidez relacionadas con cuestiones de sesgo, la equidad y la justicia distributiva (Messick, 1980, 1989 ; Boysen, Kelly, Raesly y Casner, 2014). En su análisis de cómo encajan las evaluaciones actuales de la docencia en la educación superior con el nuevo marco de validez, Ory y Ryan (2001) encontraron que sí existen investigaciones sobre algunos de los aspectos de validez, pero que otros aspectos importantes no han sido abordados. Validez de contenido Uno de los aspectos más importantes de la validez es la capacidad de la evaluación de reflejar el contenido del constructo que se pretende medir. Este aspecto de la validez responde a la pregunta: ¿Existe una relación entre el contenido de la evaluación y el constructo que se quiere medir? Dos fuentes principales de invalidez pueden estar asociadas con los aspectos de contenido: sub-representación del constructo y varianza irrelevante al constructo. La subrepresentación del constructo tiene lugar cuando la evaluación es demasiado estrecha para representar el constructo que mide. La varianza irrelevante al constructo tiene lugar cuando la evaluación incluye elementos irrelevantes a aquellos del constructo que mide. En la evaluación de la docencia en educación superior, la validez de contenido se refiere a la capacidad de la evalua-

49

ción para medir la calidad de la enseñanza. En consecuencia, hay sub-representación del constructo cuando la evaluación no es lo suficientemente amplia para medir todos los componentes de la buena docencia. Hay una varianza irrelevante del constructo cuando la evaluación incluye variables distintas al constructo calidad de la docencia. De acuerdo con Ory y Ryan (2001), debido a que la mayoría de las formas de evaluación “se han desarrollado sin demasiada preocupación por la teoría o los dominios que son parte del constructo” (p.11), cada vez hay más interés en la validez de las interpretaciones basadas en los puntajes de la evaluación; además, el uso de los procedimientos estandarizados para la evaluación de la docencia universitaria plantea cuestiones de sub-representación del constructo si la evaluación falla al representar el constructo que se mide, ya sea porque carece de elementos importantes o debido a que la medición incluye variables no relevantes al constructo (Stake, 1999). Además, los problemas de validez aumentan debido a que las evaluaciones actuales de la enseñanza siguen estando centradas en definiciones limitadas de la docencia que no son consistentes con las teorías actuales de la enseñanza y el aprendizaje. En efecto, mientras que la investigación sobre la docencia ha evolucionado hasta llegar a conceptualizaciones complejas, estos cambios no se reflejan en la evaluación. Y también hay que considerar que muchas formas de evaluación se basan en instrumentos construidos en otros contextos y culturas, por lo que el concepto de buena docencia puede no ser culturalmente válido (Chen y Yeager, 2011). Si no hay certeza sobre el significado de los puntajes, no se puede asegurar que los resultados de la evaluación sean

50 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

representaciones válidas de la calidad de la docencia. Como Ory y Ryan (2001) afirman, la sub-representación del constructo ocurrirá si los resultados se interpretan como buena docencia cuando en realidad no se han incluido todos los elementos importantes del constructo. Tener diferentes condiciones de aprendizaje en varias aulas e implementar el contenido del curso de forma diferente también puede resultar en una amenaza para la validez si, como resultado de esto, a un subgrupo de instructores se les da una ventaja injusta en la evaluación. También es importante saber si la evaluación está alentando un tipo particular de enseñanza y aprendizaje, y si el resultado de la evaluación se usa para castigar enfoques alternativos que hacen hincapié en puntos de vista no tradicionales de enseñanza y aprendizaje. Validez sustantiva En este aspecto de la validez del constructo es importante analizar los procesos de aquellos que responden la prueba y completan los formatos de evaluación para ver si encaja el proceso que se utiliza para responder y el proceso para el cual se desarrolló la evaluación. Habrá evidencia de la validez sustantiva cuando se dé un ajuste entre lo que se evalúa y el constructo medido. Como Ory y Ryan (2001) ilustran, “cuando un alumno utiliza el pensamiento crítico para responder ítems de una prueba de pensamiento crítico, hay evidencia de la validez sustantiva de los resultados de las pruebas” (p. 14). Los estudios sobre los aspectos sustantivos de la validez de constructo se enfocan en cuestiones tales como: ¿Qué explica las diferencias de puntuación? y ¿Qué sabemos

51

acerca de los procesos de respuesta en situaciones diferentes? Si los estudiantes responden de manera positiva en una situación determinada, ¿responden más o menos con la verdad? ¿La naturaleza del proceso de evaluación coincide con el constructo que se mide? No es suficiente saber que los puntajes cambian en diferentes situaciones, es necesario saber porqué tiene lugar el cambio. También tenemos que entender cómo utilizan las escalas de calificación los estudiantes, y si encajan el significado intencional de la escala y el significado para ellos. Además, es importante determinar si todos los estudiantes siguen procesos similares cuando responden las pruebas. ¿Algunos subgrupos de estudiantes responden de manera diferente a los demás? ¿Es apropiada la evaluación para los diferentes grupos de estudiantes de diversos orígenes étnicos y culturales? Según Ory y Ryan se han realizado varios estudios sobre las actitudes de los estudiantes acerca de la evaluación, específicamente hacia los resultados de los cuestionarios de evaluación docente (Marlin, 1987; Ballantyne, 1998; Dwinell y Higben, 1993), pero aún se sabe poco sobre “el verdadero proceso seguido por los estudiantes para responder a las formas de calificación” (Ory y Ryan, pág. 26). Los autores sostienen que “los estudios de investigación anteriores han indicado cómo los resultados de la evaluación basada en las opiniones de los estudiantes cambian en diferentes situaciones, pero aportan poco para ayudarnos a comprender por qué se produce el cambio” (p . 15). Además, se necesita más investigación para entender cómo los estudiantes utilizan las escalas de calificación para responder, y afirman: “Si los ítems son presentados con una

52 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

escala Likert de cinco puntos, ¿cómo interpretan los estudiantes y cómo usan la categoría intermedia? ¿Marcan los estudiantes un 3 para indicar su incapacidad para responder, escogen la respuesta intermedia, o es debido a una falta de interés? Si se marcan únicamente los extremos de la escala, ¿cómo interpretan los estudiantes y usan los otros puntos extremos de la escala? ¿Son algunos estudiantes más reacios que otros a utilizar los extremos de la escala? ¿Algunos estudiantes creen que una calificación perfecta de cinco es inalcanzable? Para hacer inferencias válidas a partir de los puntajes otorgados por los estudiantes en la evaluación docente necesitamos determinar si encaja adecuadamente lo que el significado de la escala fue para los estudiantes y el significado intencional de la misma” (p. 15). El problema con las evaluaciones estandarizadas de la enseñanza en el campus, según lo identificado por los investigadores críticos, es que los resultados no necesariamente reflejan las diferencias reales entre las personas, y que a menudo no eliminan adecuadamente los supuestos subyacentes culturalmente sesgados incluidos en la prueba en su conjunto. Hay necesidad de realizar investigación sobre la validez sustantiva de la evaluación de la docencia en la educación superior. El examen de los aspectos sustantivos de la validez de constructo es importante porque “las consistencias de respuesta o regularidades de desempeño son un reflejo de los procesos de dominio” (Messick, 1994, p. 13). La interpretación y uso de los resultados de la evaluación se pueden mejorar si se entiende el patrón de respuesta de los estudiantes y las diferencias en los patrones de respuesta entre los diferentes alumnos.

53

Validez estructural Enfatiza que “la teoría del dominio debe guiar no solo la selección o construcción de las tareas de evaluación pertinentes, sino también el desarrollo racional de los criterios y rúbricas de puntuación basados en el constructo” (Messick, 1994 , p. 15). Este aspecto de la validez se refiere a la pregunta: ¿En qué medida la relación entre los diferentes componentes del procedimiento de evaluación corresponden con el constructo que se evalúa? De esta manera, la evaluación debe proporcionar evidencia de que la relación entre los diferentes componentes del instrumento de evaluación corresponde con la estructura del dominio del constructo. También es importante saber qué tan consistente es la estructura de puntuación con el dominio del constructo. Como se mencionó antes, se han realizado estudios con el fin de determinar las características o comportamientos que constituyen una buena enseñanza (Tabla 1). Muchos instrumentos de evaluación de la docencia se basan en esas características. Algunos investigadores han encontrado correlaciones entre estos y otros conjuntos de características y comportamientos y los puntajes que otorgan los estudiantes a sus maestros en la evaluación docente. Por ejemplo, Centra (1993) y Feldman (1976 ) encontraron dimensiones comunes después de analizar varias formas de evaluación. Como Ory y Ryan afirmaron: “Los ítems son incluidos en muchas formas de evaluación porque los estudiantes parecen responder de manera similar a algunos en particular, no porque vienen de un dominio conocido de las características específicas. Es algo así como el análisis de las respuestas de los

54 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

estudiantes a los centenares de ítems de matemáticas, agrupando los ítems en clústeres basados en las respuestas, y luego identificar los grupos como habilidades esenciales, necesarias para resolver problemas matemáticos” (p 18). No existe evidencia empírica de que los ítems seleccionados son en realidad elementos de la buena docencia. Validez externa Este aspecto analiza la relación de la evaluación con otras variables externas a la evaluación para proveer una fuente de evidencia de validez. De esta forma, “el significado de las puntuaciones se fundamenta externamente al evaluar el grado en que las relaciones empíricas con otras medidas, o la falta de ella, es coherente con el significado” (Messick, 1994, p. 16). Además, “es de especial importancia entre las relaciones externas las que existen entre los puntajes de la evaluación y las medidas de criterio pertinentes a la selección, ubicación, licencia, evaluación de programas o para otros fines de rendición de cuentas en los ambientes de su aplicación” (Messick, 1994, p. 17). Como se mencionó anteriormente, la investigación previa sobre la validez de las evaluaciones docentes basadas en las opiniones de los estudiantes se ha llevado a cabo para hacer frente a este importante aspecto de la validez. Algunos de estos estudios se realizaron para determinar si existe una relación entre los puntajes de la evaluación y el rendimiento estudiantil.10 Los estudios multi-section menciona-

10

Definido como calificaciones.

55

dos al principio son un ejemplo de este tipo de investigación para determinar la validez de la evaluación mediante el análisis de la correlación de los resultados de la evaluación de un solo curso impartido por diferentes instructores con “la sección media del aprovechamiento del estudiante” (Ory y Ryan, 2001). Además de los estudios de correlación de Cohen (1981) sobre la relación entre los puntajes otorgados por los estudiantes y el logro del estudiante, otros investigadores como Murray (1983) utilizaron observadores entrenados para determinar las diferencias entre los docentes instructores que obtuvieron puntajes altos y bajos. Otros estudios comparan los resultados obtenidos a partir de las valoraciones de los estudiantes con otras fuentes de datos, como pares, ex-alumnos, autoevaluaciones, etc. Los investigadores han estudiado diferentes fuentes de evaluación para determinar la coherencia entre las distintas fuentes de datos en la evaluación de la docencia y han encontrado altas correlaciones positivas entre los puntajes de los estudiantes y los de los ex alumnos. Además, otro grupo de estudios se han enfocado en la correlación entre las formas de recolección de datos, tales como “puntajes globales otorgados por los estudiantes sobre las competencias del instructor medidos por medio de ítems, comentarios escritos en ítems de respuesta abierta, y entrevistas grupales (Ory, Braskamp y Pieper, 1980; Ory y Ryan, 2001) . Validez de generalización Este aspecto examina si hay una correlación “de las tareas evaluadas con otras tareas que representan el contructo o diversos aspectos del constructo” (Messick, 1994, p. 15).

56 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

La generalización se refiere a las “fronteras del significado de los puntajes” (Messick, 194, 15). La generalización es un aspecto de la validez de contructo que responde a algunas preguntas importantes, tales como: ¿Podemos hacer inferencias comparables acerca del significado de los puntajes a lo largo de sujetos, contextos y tiempo? ¿Podemos hacer la misma inferencia sobre los puntajes colectados en diferentes contextos? ¿Podemos hacer comparaciones válidas entre los puntajes usados para un propósito versus otro propósito? ¿Son los puntajes de evaluación colectados en diferentes ambientes comparables? Los estudios de generalización se enfocan en determinar diferencias, entendiendo porqué ocurrieron, y en aprender cómo dar cuenta de ellos al reportar los resultados de la evaluación para incrementar la validez del proceso de evaluación. Aunque algunos investigadores apoyan la generalización de los puntajes de la evaluación basada en opiniones de los estudiantes a lo largo de diferentes secciones, Abrami, d’Apollonia, y Cohen (1990) cuestionan la generalización de las evaluaciones de la docencia debido a que “muchos de estos estudios se llevaron a cabo en cursos introductorios, de bajo nivel de aprendizaje, enseñados principalmente a estudiantes en sus primeros dos años de licenciatura” (Ory y Ryan, 2001, p. 20). Se requiere más investigación sobre este importante aspecto de la validez de constructo. Validez de consecuencias Son las consecuencias a corto y largo plazo de los usos de la evaluación y los efectos asociados con la interpretación de los puntajes de la evaluación (Wilson, 1999), y son impor-

57

tantes tanto las consecuencias intencionales como las no intencionales. Este concepto también abarca la necesidad de apreciar las implicaciones de valor de la teoría subyacente en los puntajes de la evaluación, así como la ideología en la cual está inmersa la teoría. Cuando se colecta evidencia acerca del aspecto de validez de consecuencias debe darse especial énfasis a las consecuencias “asociadas con el sesgo en los puntajes y la interpretación o con la injusticia en el uso de los test” (Messick, 1994, 17). De acuerdo con Ory y Ryan (2001), la validez de consecuencias de la evaluación de la docencia en educación superior ha recibido poca atención por parte de los investigadores. Se requiere ahondar más en las implicaciones de valor de los resultados de evaluación, las consecuencias intencionales o no de usar ciertos criterios para definir y evaluar la buena docencia, “la ideología dentro de la cual la teoría está inmersa, (y) los problemas potenciales o reales que puedan resultar para la institución” (p. 26). Limitaciones del paradigma positivista Una orientación positivista de la evaluación de la docencia tiene el beneficio de su organización y simplicidad, pero muchos perciben que las limitaciones y problemas que presenta sobrepasan sus beneficios. De la misma forma que con la evaluación estandarizada de los estudiantes, esta orientación podría acarrear serias consecuencias negativas. Primero, el uso exclusive de características o atributos conductuales “es limitante a cierta clase de conocimiento acerca de la enseñanza y el aprendizaje” (Dunkin y Barnes, 1986, p. 774). La evaluación usualmente se concentra en el tipo de docencia centrada en el maestro; en otras pala-

58 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

bras, una clase de enseñanza en la cual la tarea del docente es “cubrir un conjunto bien definido de temas en un curso de forma sistemática y precisa, mientras que la tarea del estudiante es dominar el contenido del curso a través de tareas tradicionales y métodos de estudio” (Centra y Boneshell, 1990). Los profesores que utilizan un estilo o enfoque docente distinto podrían estar en desventaja. La evaluación puede no encajar con cualquier docencia consistente con una teoría de aprendizaje constructivista, así como con teorías de desarrollo cognitivo y humano (Mabry, 1999). El uso de listas de características y conductas de la investigación proceso-producto, aunque correlacionado con el desempeño de los estudiantes en exámenes o pruebas, hace que surjan cuestiones de validez. Su validez no se ha determinado de forma empírica. Estas conductas y características son el resultado de síntesis de datos agregados, pero hay “poca evidencia de que cualquier docente observado puede jamás desempeñarse en el aula de forma congruente con el patrón colectivo del compuesto” (Shulman, p. 12). El uso de características, estilos, rasgos y conductas identificados en encuestas al personal y estudiantes también presenta un problema: hay poca evidencia de que ninguno constituya parte de la buena docencia o que tengan relación con el aprendizaje de los estudiantes (Miller, 1974; Genova et al., 1986). Hay problemas cuando no todas las características y conductas relevantes son usadas como criterio o incluidas en la evaluación, básicamente problemas de validez de contenido. Como se comentó anteriormente, usando definiciones generales o estrechas de la docencia es problemático porque pueden ser inapropiadas para las situaciones de en-

59

señanza (Stake y Cisneros-Cohernour, 2000). Doyle (1982) afirma: “…parece muy poco probable que cualquier conjunto de características se aplica con igual fuerza a la enseñanza de todo tipo de materiales para todo tipo de estudiantes bajo todo tipo de circunstancias... Preparar una lista de este tipo implica un riesgo sustancial” (p. 27). Cuando se adopta una serie de características como indicador de la calidad de la docencia, prescribir su uso puede limitar la creatividad de la instrucción, y puede convertirse en una barrera para el desarrollo profesional. El uso de rasgos y/o estilos de enseñanza como criterios para la evaluación de la enseñanza limita la diversidad en los profesores al penalizar a los que no “caen dentro de la norma” (Stake y Cisneros-Cohernour, 2000) . La tendencia a resumir la calidad de la docencia a un índice numérico puede traer consecuencias no intencionales, tales como tener a las personas enfocándose más en mejorar los puntajes que en influir en la docencia, y el proceso de aprendizaje puede llevar a injusticias (Stake y Cisneros-Cohernour, 2000). Es importante revisar las pretensiones de objetividad de los encargados de investigar la evaluación de la docencia. En Estados Unidos, la mayoría de quienes investigan la validez de las evaluaciones de la enseñanza en educación superior tienen una doble función, como académicos y como los que desarrollan e implementan la evaluación. Su trabajo académico directa o indirectamente a menudo apoya la validez de su trabajo como administradores de la institución. Las publicaciones sobre la enseñanza en los EE.UU. contienen pocos estudios que contradicen las principales conclusiones de esta comunidad de investigación. Una ex-

60 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

cepción es el trabajo del canadiense Brodie, quien en 1988 encontró que los estudios previos sobre la relación entre la inflación de las calificaciones y los puntajes otorgados por los estudiantes al evaluar a sus maestros “han subestimado el efecto distorsionante de la indulgencia del profesor al calificar” (p. 17). Brodie encontró evidencia de que “cuando las calificaciones variaron notablemente entre las secciones de un mismo curso, los profesores que asignaron las calificaciones más altas y requirieron menos estudio en sus cursos recibieron las evaluaciones más altas por su docencia” (p. 17). Asimismo, la revisión de Brodie (1999) de la investigación sobre la correlación entre las evaluaciones de los estudiantes acerca de sus aprendizajes dio lugar a nuevas cuestiones críticas. Brodie encontró discrepancia entre los resultados de los informes de investigación y los artículos publicados de los mismos estudios, y también encontró evidencia de que las correlaciones entre ciertas características de la buena docencia y los puntajes otorgados por los estudiantes a sus profesores, como se reporta en varias revistas científicas, han sido inflados y que “algunos investigadores no solo han borrado correlaciones bajas y/o negativas, sino que también han creado correlaciones positivas mediante la inversión de la escala de calificación” (p. 1), y aunque no se han confirmado sus hallazgos, o acerca de la influencia de la doble función del investigador como investigador y como administrador del sistema de evaluación, estas cuestiones merecen más atención. Otros críticos del paradigma positivista perciben que el énfasis en la medición es tan fuerte que ha reemplazado “el concepto con la fórmula, y la causalidad con regla y probabilidad” (Horkheimer y Adorno, 1948, p.11). En su discu-

61

sión de la pertinencia y validez de la evaluación para evaluar la calidad de la docencia los profesores con antecedentes cultural y étnicamente diversos, Magunsson (2000) agrega: El problema con un análisis que iguala “minoría” con una pequeña variable sistemática u otros conceptos de medición es que construye la cuestión crítica una vez más dentro del discurso técnico de la psicometría, y otro problema es que si el racismo es sistemático en la organización entera no puede ser reflejado solamente como varianza sistémica relacionada con la medición. Menges (1998) también afirma que se necesita más investigación porque aún se conoce poco acerca de cómo se interpreta y utiliza la información de la evaluación, y sobre cómo los profesores “utilizan la evaluación en la planificación, implementación y valoración de su propia enseñanza” (p. 3). Agrega que el defecto principal de la investigación es “la falta de reconocimiento del contexto de la enseñanza... (ignorando) las perspectivas de los diferentes participantes y sus contextos personales, organizacionales y políticos” (p . 4). Resulta prometedor que entre los investigadores que apoyan el paradigma positivista exista un creciente interés por poner a prueba los supuestos que sostiene la investigación y por examinar la validez del contructo evaluado: Menges (1998), Theall y Franklin (1990), Ryan y Johnson (1998), y Ory y Ryan (2001). Sinopsis La evaluación de la docencia en educación superior ha evolucionado de informal a enfoques sistemáticos a medida que las presiones por rendición de cuentas se han incre-

62 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

mentado en este nivel educativo. Asimismo, a medida que los administradores comenzaron a interesarse más en la medición de resultados, aumentaron las preocupaciones entre los profesores acerca de la justicia y el uso de los resultados de la evaluación para la toma de decisiones administrativas, como la definitividad, la promoción y los aumentos salariales. En tanto que la investigación sobre la enseñanza y el aprendizaje han evolucionado hacia una más compleja comprensión de sus procesos, han surgido nuevas preguntas acerca de la validez del enfoque positivista tradicional para evaluar la docencia en la educación superior. Bajo el enfoque positivista, el tratamiento de la enseñanza se vincula con la idea de eficacia tanto en su tratamiento como en su evaluación. La buena docencia se define como un conjunto de características ideales o comportamientos esperados por parte del instructor. Asimismo, algunos investigadores definen la enseñanza como un constructo global. Siendo así, los estudios en el marco del enfoque positivista se han centrado en la confiabilidad y estabilidad de las evaluaciones docentes basadas en las opiniones de los estudiantes, así como en el estudio de diversas variables que podrían influir negativamente en la evaluación. Ya se han hecho otros estudios sobre las fortalezas y limitaciones de las diferentes fuentes de evaluación (es decir, las opiniones de los estudiantes, pares, observadores externos, administradores, autoevaluación, etc.), y sobre la relación entre los resultados de las evaluaciones basadas en opiniones de los estudiantes y algunas variables, tales como el rendimiento estudiantil. Los estudios de confiabilidad se han realizado sobre la consistencia interna de las formas de

63

evaluación (análisis de ítems) y la estabilidad de los puntajes a lo largo del tiempo. Los partidarios del enfoque positivista para evaluar la docencia argumentan que los resultados de la evaluación basada en las opiniones de los estudiantes son una fuente confiable. Los investigadores han encontrado correlación entre los puntajes otorgados por los estudiantes en las evaluaciones docentes y su respectivo aprovechamiento escolar, así como estabilidad en los puntajes al comparar los puntajes del mismo instructor en diferentes secciones. Algunos estudios de múltiples rasgos también han encontrado evidencias de validez discriminante y convergente en las evaluaciones basadas en las opiniones de los estudiantes. Asimismo, las investigaciones sobre las posibles variables que podrían influir negativamente en los puntajes reportan evidencia de cierta influencia de sesgo, sobre todo en relación con el tipo de curso (requerido versus optativo), y el contenido disciplinario del curso como factores de sesgo que influyen en los resultados de la evaluación. Los críticos del enfoque positivista establecen que apoyarse en la generalización y el establecimiento de los vínculos de causa-efecto ha sido un recurso demasiado usado en la investigación. Los estudios sobre la dimensionalidad de las evaluaciones basadas en las opiniones de los estudiantes han fallado en la identificación de los elementos esenciales del constructo “buena docencia”. La excesiva dependencia de meta-análisis para analizar los resultados de las evaluaciones también ha sido cuestionada, sobre todo cuando se utilizan datos de la evaluación para tomar decisiones administrativas que pueden afectar la carreras del personal académico. Asimismo, estudios previos sobre la validez de las

64 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

evaluaciones de la docencia en educación superior se han realizado desde un enfoque tradicional de validez. Sin embargo, la principal limitación de la investigación sobre la validez de la evaluación es representar el constructo evaluado. Aunque algunas investigaciones sobre la validez de las evaluaciones basadas en las opiniones de los estudiantes se han llevado a cabo sobre la generalización de los resultados y su validez externa, no se han hecho investigaciones sobre la validez conceptual, sustantiva y de consecuencias. Asimismo, es necesario entender si la evaluación justamente representa la calidad de la docencia dentro de su contexto y cómo los decisores y los profesores usan los resultados de la evaluación para el desarrollo profesional y para la toma de decisiones administrativas.

65

Capítulo 3. METODOLOGÍA Esta investigación es parte de un estudio cualitativo que utilizó múltiples fuentes de información y múltiples metodologías de investigación. En particular, esta parte del estudio se centró en comprender el significado que los estudiantes dan al constructo “buena docencia” y los procesos que siguen los estudiantes cuando evalúan la docencia. Contexto La investigación se realizó en una universidad pública ubicada en el medio oeste norteamericano con reputación internacional por la calidad de sus programas. La universidad tiene 27,000 estudiantes de licenciatura y más de 8,800 estudiantes de posgrado en más de 100 disciplinas según el reporte de acreditación (1999). La universidad es muy reconocida por la calidad de su investigación básica y aplicada. Una vez que un profesor acepta un puesto en la institución, asume la responsabilidad de una fuerte carga de investigación. El desempeño en la investigación tiene un papel importante en la toma de decisiones administrativas, tales como la definitividad, la promoción y la premiación del personal académico. Aunque la principal meta de la universidad es proveer “programas de la más alta calidad en docencia, investigación y servicio al público para los habitantes del estado”,11

99% de los estudiantes residían fuera del estado (Asistente del Vicerrector Académico). 11

67

(Accreditation Report, p.13), la universidad ha estado tratando de incrementar el número de estudiantes fuera del estado y de estudiantes de diversa herencia cultural y étnica. Al momento de realizarse el estudio, la universidad tenía entre sus estudiantes de primer año de licenciatura a jóvenes de 51 estados de la Unión Americana y de 33 países extranjeros. El 53% de los estudiantes eran hombres, y el 47%, mujeres. La distribución de estudiantes por raza y etnicidad de acuerdo con la oficina de planeación universitaria incluía una mayoría de estudiantes de raza blanca no hispanos y un pequeño porcentaje de estudiantes hispanos, asiáticos, afro-americano y estudiantes internacionales. Los miembros del personal académico en la universidad eran principalmente hombres de raza blanca no hispanos. De los 2,313 profesores que trabajaban en la universidad, el 72.6% eran hombres, y 27.4%, mujeres. La distribución del personal académico por raza y etnicidad, de acuerdo con la oficina de planeación era: 80% blancos no hispanos, 2.8%, hispanos, 8% asiáticos, 2.5% afro­ americanos, 0.4% nativos norteamericanos, y 5.2% internacionales. Un año antes del estudio, la universidad comenzó a investigar el estatus de las profesoras en el campus, y según los resultados, las mujeres estaban subrepresentadas en los rangos del personal académico, y aunque había habido avances en los últimos años, el incremento era pequeño. El comité a cargo del estudio encontró que la universidad tenía el penúltimo lugar en número de mujeres catedráticas, tercero del último lugar en profesores aso-

68 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

ciados mujeres, y noveno del último en profesores asistentes. Otros resultados indicaron que la brecha salarial entre hombres y mujeres para los profesores asistentes fue de 5%, y la brecha de profesores titulares era alta y no había cambiado en los últimos ocho años (Presidente de la Comisión de la Condición de las Mujeres entre el Personal Académico, 1999). La Comisión hizo recomendaciones para mejorar las condiciones de las mujeres en el campus, incluyendo reclutar más mujeres, monitorear el clima del campus para ellas, incrementar su representación y la de los grupos minoritarios en todos los niveles, y asegurar la equidad de salarios para las mujeres. Siguiendo esas recomendaciones, la universidad comenzó a implementar acciones para mejorar las condiciones de las mujeres y profesores con herencia cultural y étnica distinta que la anglosajona. Su reporte de acreditación indicó que la universidad esperaba ofrecer mejores salarios que las otras universidades de la región e incrementar el número de puestos administrativos para estos profesores (reporte de acreditación, p. 27). Proceso de recolección de datos Los datos se colectaron de una muestra aleatoria de 1,523 estudiantes inscritos en la Facultad de Ciencias Sociales y Humanidades. Todos los estudiantes respondieron a una encuesta electrónica. La muestra de estudiantes seleccionados en el estudio fue estratificada por clase, raza, edad y género, como se describe en la Tabla 2.

69

Tabla 2. Muestra de estudiantes de la Facultad de Ciencias Sociales y Humanidades Total

1,523

Clase12 A

B

C

D

E

330

397

372

423

1

216

181

226

1

181

191

197

0

Total Género Hombre

807

183

Mujer

716

147

Raza A. A

300

84

86

64

66

0

Asiática

300

62

82

65

91

0

Caucásica

300

46

78

91

85

0

Hispánica

300

78

74

78

70

0

Nativa Americana

23

6

6

6

5

0

Otro

300

54

71

68

106

1

Edad Media

20.8

19.2

20.1

21.2

22.5

S. D.

1.9

0.7

1.0

2.0

1.3

De los 1,523 estudiantes de la muestra aleatoria original, no todos respondieron a la encuesta en línea. El estu-

Nota: Clase A = primer año; Clase B = segundo año, Clase C = tercer año, Clase D = último año; Clase E = estudiantes que no estaban obteniendo un grado. S. D. = Desviación estándar.

12

70 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

diante no graduado incluido en la muestra no respondió. Algunos de los que completaron la encuesta omitieron parte de la información demográfica. Las tasas de respuesta se describen en la Tabla 3. Tabla 3. Porcentaje de informantes por clase, género y etnicidad Clase

Frecuencia

Porcentaje

Primer año

43

22

Segundo año

45

23

Tercer año

61

31

Cuarto año

48

24

Género Mujeres Hombres

125

63

72

37

Etnicidad Asiática

50

23

Africana

28

14

Caucásica

68

35

Hispánica

26

13

Nativa Americana

3

2

Otra

21

Americana

Nota: Dos estudiantes no completaron la sección demográfica de la encuesta.

La recolección de datos resultó en múltiples enunciados, testimonios, documentos y reportes de observación, así como resúmenes de datos.

71

Instrumento Para el desarrollo de la encuesta se utilizó un cuestionario en línea. Esta encuesta se basó en las respuestas y los problemas identificados por los estudiantes en un estudio de caso que se realizó durante la primera parte del estudio macro por medio de una entrevista de grupo focal. El cuestionario tiene una sección demográfica que indica nivel de clase, raza o etnia y género. También incluye diecisiete ítems, de los cuales once son de respuesta abierta y cinco, de opción múltiple. Los diecisiete ítems se centran en los significados de la buena docencia y los procesos seguidos por los estudiantes al completar la evaluación docente. La decisión de desarrollar y administrar la encuesta se tomó después de que los estudiantes y profesores que participaron en la primera parte del estudio macro se plantearon dudas sobre la imparcialidad de la evaluación. Tomó cinco meses obtener el permiso para enviar un mensaje de correo electrónico a los estudiantes incluidos en la muestra. La encuesta estuvo disponible en línea una semana antes de los exámenes finales del semestre de primavera debido a la necesidad de cumplir con requerimientos administrativos por parte de la universidad. Tal vez por este motivo, solo se obtuvo respuesta de un pequeño número de los encuestados (13%). Debido a este porcentaje de respuesta, los resultados solo pueden aplicarse a los estudiantes de la Facultad en la que se llevó a cabo el estudio pero no al colectivo del personal académico, estudiantes, administradores, colegios y departamentos de toda la universidad.

72 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Análisis de los datos El análisis de los datos cuantitativos tuvo lugar después de colectar la información de la encuesta electrónica. La estadística descriptiva se utilizó para analizar las respuestas a cada uno de los ítems de la encuestas, incluyendo frecuencias y porcentajes de respuestas. La Chi2 se calculó para determinar las diferencias estadísticas significativas entre los diferentes grupos que respondieron la encuesta en relación a su clase (primer año, segundo año, tercer año, cuarto año), género, raza o etnicidad. Consideraciones éticas Durante el estudio se desarrollaron diferentes actividades para proteger a los participantes. Primero, se les informó acerca de los objetivos con la finalidad de que los comprendieran y discutieran sus preocupaciones entre ellos y con los investigadores. Luego se solicitó y obtuvo autorización de la Junta de Investigación de la Universidad para realizar el estudio. Asimismo, todos los registros colectados, incluyendo la información personal y privada, y el consentimiento de las partes se obtuvieron antes de tener acceso a los datos. Como se indicó, se informó a los sujetos de los resultados del estudio y se les pidió verificar la comprensión del investigador acerca de los datos proporcionados.

73

Capítulo 4. RESULTADOS Y CONCLUSIONES Para estudiar las cuestiones críticas relacionadas con los significados dados por los estudiantes al constructo buena docencia, y los procesos seguidos por ellos cuando evalúan a sus profesores, se diseñó una encuesta en línea para una muestra de estudiantes de la Facultad de Ciencias Sociales y Humanidades. La encuesta incluía preguntas acerca de las percepciones de los estudiantes acerca de la importancia de que sus profesores fueran de la misma raza y género y sobre sus creencias acerca de la responsabilidad del instructor para adaptar su docencia a diferentes tipos de estudiantes. La carta de invitación para participar en la encuesta se envió a una muestra aleatoria de 1,523 estudiantes de licenciatura. Un total de 200 respondieron la encuesta, por lo que el porcentaje de respuesta fue del 13%. Debido a que los procedimientos administrativos para participar en el estudio tomaron aproximadamente tres meses, la invitación para responder la encuesta se envió dos semanas antes de los exámenes finales del semestre de primavera. El tiempo en que las autoridades enviaron las invitaciones para responder a la encuesta pudo haber influido en el porcentaje de respuesta. Los resultados de la encuesta indican que hubo una participación proporcional de estudiantes de licenciatura que la respondieron. De los 200 estudiantes, el 22% eran de primer año; 23%, de segundo; 31%, de tercero, y el 24%, del cuarto y último año de licenciatura. La mayoría de los estudiantes que respondieron la encuesta fueron

75

mujeres (63%), los hombres constituyeron el 37%. Aunque hubo algunos estudiantes que solo respondieron a las preguntas de opción múltiple, la mayor parte escribieron largas respuestas ilustrando sus percepciones y comentaron sus respuestas a los ítems. Los estudiantes pertenecientes a grupos minoritarios (raza y etnia) estuvieron también representados en la encuesta. La Tabla 4 ilustra el porcentaje de respuesta por etnicidad y raza en relación con el número de estudiantes de cada clasificación de la Facultad. Tabla 4. Respuesta de los estudiantes por etnicidad Raza /Etnicidad

Número y porcentaje de informantes por etnia

Porcentaje de respuesta en relación con la población de estudiantes de la Facultad

Asiático

N = 50 (25.5 %)

2.9 %

Afroamericano

N = 28 (14%)

2.3 %

Caucásico

N = 68 (35%)

0.8 %

Hispánico

N = 26 (13.27%)

3%

Nativo americano

N = 3 (1.53%)

13 %

Otro

N = 21 (11 %)

6.6%

* Tres estudiantes no indicaron su raza ni etnicidad.

La encuesta incluía ítems de opción múltiple y de respuesta abierta. Las respuestas a cada una de las preguntas se describen a continuación.13 La Chi2 fue la prueba seleccionada para examinar la significancia estadística de las diferencias entre los estudiantes que respondieron a los ítems de opción múltiple de la encuesta. Aunque hubo diferencias entre los estudiantes como 13

76 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Las formas de evaluación docente incluyen dos ítems principales. Estos dos ítems son generales y requieren que los estudiantes califiquen al profesor y al curso por su efectividad global. ¿Cuándo usted califica a su instructor en estos dos ítems, cómo decide que es buen docente? El 61% de los estudiantes respondió que presta atención a la habilidad del docente para impartir el contenido de su materia, y por el uso de diferentes métodos y medios instruccionales. Unos cuantos estudiantes dijeron que el ritmo del instructor cuando hace una exposición es importante para decidir qué puntaje otorgar al maestro. El 48% indicó que asignó los puntajes dependiendo de cuánto han aprendido del curso. Otro 24% dijo que decide cuán buena fue la docencia dependiendo de ciertas características de la personalidad del instructor, tales como ser de mente abierta, afectuoso, confiado, entusiasta, responsable, paciente, que anime la participación, creativo y con un buen sentido del humor. Además, el 24% de los estudiantes afirmó que otorga una calificación basándose en lo bien que fue la relación del profesor con los estudiantes, cuán sensibles fueron a sus necesidades, y la forma en que respondieron a ellas. Estos estudiantes esperan que sus profesores sean sensibles no solo a sus necesidades académicas, sino también a su interés en un ambiente de clase abierto, en el cual expresen sus opiniones y se sientan apoyados. Algunos un todo, también se encontraron diferencias entre subgrupos. Una excepción fue el pequeño grupo de estudiantes Nativo Americanos que no respondieron a las preguntas abiertas de la encuesta. No se encontraron diferencias significativas entre los estudiantes relacionadas con su género, clase (año de estudios), raza y etnicidad.

77

estudiantes de este grupo esperan que sus maestros creen un ambiente donde no exista sexismo o racismo, y donde el aprendizaje sea divertido. El 17% indicó que decide cómo calificar a sus profesores según su motivación hacia la docencia. El 12% indicó que decide el puntaje dependiendo de la calificación que el maestro les otorga. Para este grupo de estudiantes es muy importante qué tan bien salieron en los exámenes y el curso, y si su calificación refleja la cantidad de trabajo que invirtieron. Ellos también esperan que los procedimientos de evaluación reflejen el contenido cubierto en el curso, y desean que sus instructores tengan criterios claros para otorgar la calificación más alta. Algunos estudiantes describieron lo que ellos consideran que sería justo o injusto por parte del maestro al calificarlos. Por ejemplo: los instructores podrían ser justos cuando sus exámenes son consistentes con el nivel en el que impartieron el curso y de acurdo con la cantidad de contenido cubierto. Un estudiante agregó que sería injusto que un profesor incluyera en el examen lo que expuso y no se encuentra en el libro de texto, pues podría tomarse como un castigo para los estudiantes que faltan a clases. Otro grupo de estudiantes dijo que deciden cómo asignar un puntaje basándose en lo bien que el instructor cubre el contenido del curso, cuán aplicable es el aprendizaje en la vida real, y cuánto el instructor los retó a aprender. Otros estudiantes toman en cuenta la calidad de las notas de clase provistas por el profesor, su estilo docente, la claridad con que expresa sus expectativas y la cantidad de tarea que marca. El 4% dijo que califica de acuerdo con su experiencia global en el curso.

78 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

¿Cuándo asigna un puntaje para calificar la docencia de sus profesores usando una escala del 1-5?, ¿cuándo otorga el puntaje más bajo (1) como puntaje global? Al responder a esta pregunta, los estudiantes difirieron en sus percepciones. Hubo muchos grupos que seleccionaron diferentes aspectos de lo que consideran importante al momento de tomar la decisión de otorgar el puntaje más bajo a un docente en los formatos de evaluación. Algunos otorgan este puntaje a quienes tienen una actitud negativa hacia ellos, cuando el profesor no prepara bien sus clases o cuando hizo un trabajo pobre al impartir el curso. Otros estudiantes dieron más importancia a las habilidades de buena comunicación y a la motivación del instructor hacia la docencia, y algunos dijeron que para otorgar el puntaje más bajo es un factor muy importante el hecho de que un profesor habla inglés como segunda lengua. Otro grupo de estudiantes indicó que ellos califican con el puntaje más bajo al docente que ha sido injusto, si ha sido demasiado duro al calificar y si no hay relación entre sus exámenes y el contenido impartido. En tanto que otros estudiantes dijeron que otorgan el puntaje más bajo cuando el profesor no está disponible, no parece muy conocedor del contenido o cuando no aprendieron demasiado en el curso. Otros estudiantes afirmaron que otorgarían el puntaje más bajo si perciben que el contenido cubierto en el curso no vale la pena ser estudiado, o cuando el profesor tiene un sesgo hacia determinados estudiantes. También hubo quien indicó que otorga el más bajo puntaje a quienes no están

79

disponibles, no son entusiastas, son impuntuales, desorganizados o insensibles hacia sus necesidades. Carecer de un buen sentido de humor, no usar diferentes métodos de enseñanza, tener poca preparación o ser desorganizado fueron identificados por otros estudiantes como aspectos que pueden influir en que ellos para otorgar la puntuación más baja al evaluar a sus profesores. Asimismo, se encontró que hay estudiantes que indicaron que nunca otorgarían el puntaje más bajo porque se sentirían incómodos. Cuando evalúan a sus profesores, ¿cuándo asignan un puntaje de 3 (en una escala del 1-5)? Entre las respuestas de los estudiantes se distinguen tres grupos. El primer grupo indicó que otorga el puntaje de 3 puntos cuando el instructor ha sido un buen maestro pero carece de algunas características que ellos valoran; por ejemplo, si el maestro resultó aburrido o no fue suficientemente entusiasta. Otros otorgarían dicho puntaje al profesor que fue un buen maestro pero no fue “increíble”. El resto dijo que califica de esta manera al maestro que aunque bueno, no estableció relaciones personales con sus estudiantes. Además, otros afirmaron que dan el puntaje intermedio si no les gusta el estilo docente o si no están impresionados por la docencia del profesor. También hubo quienes indicaron que si no aprenden mucho o tienen que aprender por sí mismos, otorgan un puntaje intermedio. Este grupo de estudiantes agregó que consideran que la responsabilidad del maestro es enseñarlos y ayudarlos a aprender.

80 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

El segundo grupo de estudiantes indicó que otorga el puntaje intermedio (3 puntos) cuando el maestro tiene tanto fortalezas como debilidades. Dentro de este grupo, algunos indicaron que otorgan este puntaje cuando el maestro tiene un desempeño promedio, ni bueno ni malo. El tercer grupo de estudiantes califica al profesor con un puntaje intermedio (3 puntos) si considera que fue malo. Por ejemplo, cuando no domina el contenido que imparte o porque carece de habilidades para exponer en clase. Otros estudiantes indicaron que ellos otorgan este puntaje cuando el maestro es subjetivo al calificar, no se acomoda a las necesidades de los estudiantes, no está disponible, es desorganizado, injusto, o no ayuda. Profesores que marcan mucha tarea o que van más allá del contenido del curso pueden recibir un puntaje intermedio porque para los estudiantes esto es un ejemplo de mala docencia. Sin embargo, también hay estudiantes que otorgan el puntaje intermedio si el profesor no va más allá del contenido del curso. Los estudiantes también otorgan al maestro un puntaje intermedio cuando: • Se salta contenidos del curso. • No se le entiende. • No trabaja de forma coordinada con los asistentes de enseñanza. • Adormece a los alumnos en clase. Ciertos estudiantes indicaron que no les gustan los puntajes intermedios. Por lo mismo, solo otorgan puntajes extremos (muy buenos o muy malos).

81

Al evaluar a sus profesores, ¿en qué casos otorgarían el máximo puntaje (5 puntos)? Aunque la mayor parte de los estudiantes indicó que otorga el más alto puntaje a los profesores que consideran conocedores, entusiastas, interesantes, y que hacen que ellos quieran aprender, hubo también grupos de estudiantes que prestan atención a otros aspectos. Por ejemplo, algunos solo otorgarían el más alto puntaje a los profesores que son afectuosos y que no ven el trabajo docente como una tarea más. Otros estudiantes indicaron que solo otorgarían el más alto puntaje si el profesor está bien preparado, muestra disponibilidad para responder sus dudas o si cuentan con buenas habilidades de comunicación, en tanto que otros solo otorgarían el más alto puntaje si el profesor clarifica sus expectativas. Y hubo también estudiantes que solo otorgarían el más alto puntaje si ellos aprendieran mucho del curso y si el docente presentara retos para aprender. Algunas de las características listadas por diferentes grupos de estudiantes como importantes al momento de asignar el puntaje más alto incluyen: que el maestro sea divertido, amable, agradable, flexible, paciente, respetuoso, bueno al calificar las tareas, considerado, realista, preocupado por el contenido, coherente, organizado, solidario y creativo. Entre las conductas enumeradas por otro grupo de estudiantes se encuentran: califica a tiempo, presta atención a las preguntas de los alumnos y responde a ellas. Asimismo, no cubre contenidos más allá del plan de estudios, va más allá con tal de ayudar a los estudiantes, usa actividades de aprendizaje crítico, y no habla de investigación en clase. Algunos estudiantes también dijeron que solo otorgan la

82 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

puntuación más alta si creen que el curso es valioso o si el instructor presentan múltiples perspectivas en el curso. También hubo estudiantes que dijeron que nunca habían otorgado este puntaje y que se sentían incómodos con aplicar los puntajes más altos; incluso algunos afirmaron que por lo general ellos no otorgan el más alto puntaje, ya que sólo se lo darían a una persona extraordinaria en su docencia. Cuando califican la efectividad global de su profesor, ¿lo comparan con un ideal o con otros profesores que han tenido? Ciento trece estudiantes (57%) respondieron que sí comparan a sus profesores con un ideal. Ochenta y cuatro (43%) indicaron que no lo hacen. Asimismo, ciento trece indicaron (67%) que comparan a sus profesores con sus pares al momento de asignar los puntajes de la evaluación, y sesenta y cinco (33%) respondieron que no. Dos estudiantes no respondieron. Los alumnos que comparan a sus instructores con otros afirmaron que es casi imposible no hacerlo. Los estudiantes que no hacen comparaciones dijeron que no era justo dado que los instructores tienen diferentes estilos y trabajan en condiciones diversas. Un tercer grupo declaró que aunque tienden a comparar a sus instructores al comienzo de los cursos, con el tiempo se acostumbran tanto a sus instructores que al final ya no los comparan. Las formas de evaluación incluyen una serie de ítems que describen ciertos aspectos de la docencia, por ejemplo: contacto visual, justicia, claridad, honestidad, realmente

83

conoce el contenido, etc. ¿Cuán importantes son estos aspectos en comparación con los dos ítems globales que aparecen en la forma de evaluación? Cuando se les preguntó si los ítems incluidos en la evaluación que describen ciertos aspectos de la enseñanza eran tan importantes como los ítems que piden evaluar la docencia de forma global, 147 estudiantes (75%) indicaron que ambos son importantes. Treinta y dos (16%) respondieron que creen que los ítems que describen diferentes aspectos de la enseñanza son más importantes que los dos ítems globales incluidos en los cuestionarios. Dieciocho (9%) respondieron que los ítems específicos son menos importantes que los ítems globales. Dos estudiantes no respondieron. ¿Qué elementos o aspectos de la docencia son los importantes cuando describen la buena docencia? Cuando se le preguntó a los estudiantes acerca de cuáles son los elementos o aspectos de la enseñanza que eran importantes para ellos presentaron una extensa lista de aspectos que incluyen características del docente y sus comportamientos. Los tres elementos que fueron nombrados por la mayoría fueron: ser conocedor del contenido, ser claro y justo al calificar. Otros elementos identificados son: que sea amable, paciente, capaz de responder a las preguntas de los estudiantes, pasión por la enseñanza, y sensibilidad a las necesidades de los estudiantes. Por otra parte, también valoran que el profesor sea alguien confiable, con buena letra, buena voz, capaz de relacionarse con los estudiantes, agradable y

84 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

bien preparado. Los estudiantes también dijeron que reconocen al instructor que los alienta, que utiliza técnicas de aprendizaje activo y múltiples métodos de enseñanza. Asimismo, otros estudiantes dijeron que lo más importante para ellos era tener un instructor de mente abierta e inspirador, con buenas habilidades de comunicación, que los desafía a aprender más. A su vez, otros consideran muy importante que el profesor sonría y que sea tranquilo, expresivo, interesante, afectuoso, sensible a las necesidades de los estudiantes, considerado, y con un buen sentido del humor. ¿Son los aspectos específicos incluidos en el cuestionario de evaluación, más importantes para algunos de los estudiantes? ¿Hay alguno o algunos aspectos más importantes que podrían influir los resultados de la evaluación aun cuando los otros criterios de la buena docencia fueran notables? Los estudiantes consideran que algunos aspectos específicos del instrumento de evaluación son más importantes que otros, y en algunos casos un solo aspecto o un conjunto de ellos puede influir en el puntaje que otorgan en la evaluación docente aun cuando el desempeño del profesor haya sido excepcional. Sin embargo, los estudiantes difieren acerca de los elementos esenciales que pueden afectar la forma en que evalúan a sus profesores. Los aspectos más importantes fueron que el docente califique de forma justa y su habilidad para hablar inglés correctamente. Algunos estudiantes también manifestaron que para ellos era muy importante tener instructores entusiastas,

85

atentos, bien preparados, siempre disponibles, y que respondan a sus preguntas. Otros reconocen la importancia de que el instructor no sea grosero o arrogante, sino dinámico, con buena capacidad para exponer, honesto, claro, agradable y con un buen sentido del humor. También hubo estudiantes que destacaron la personalidad del instructor, su voluntad de enseñar, y la relevancia cultural de la instrucción. Para usted, ¿cuáles criterios son esenciales? De nuevo, la mayor parte de los estudiantes seleccionó tres criterios de la buena docencia: ser justo al calificar, claridad y habilidad de comunicarse efectivamente en inglés. Otros elementos esenciales fueron tener buenas habilidades en las presentaciones, ser honesto, bien preparado, agradable y comprometido con la enseñanza. Además, ser un expositor coherente, tener buena escritura y personalidad amistosa, así como preocupación por el contenido del curso, material de enseñanza relevante, mantener contacto visual, y proveer reconocimiento a los estudiantes por su trabajo. Otros criterios esenciales identificados por los estudiantes fueron ser confiable y tener presentaciones lógicas. En una primera parte del estudio, algunos identificaron “ser justo al calificar” como un componente importante de la buena docencia, ¿comparte esta percepción? Los estudiantes indicaron que comparten esa percepción y que ser justo al calificar es un aspecto muy importante. De hecho, un estudiante dijo que en su opinión “los profesores que no son justos deberían recibir cero puntos en sus eva-

86 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

luaciones docentes”. También indicaron que un profesor es injusto al calificar si no es preciso, si no explica los criterios de calificación o si tiene favoritos. Asimismo, los profesores serían injustos si tuvieran sesgos en contra de ciertos estudiantes debido a su género o raza, o con aquellos que no comparten sus puntos de vista, y si no tienen en cuenta el nivel del curso en el diseño de los procedimientos de evaluación y la asignación de calificaciones. Cuando piensan en calificar de forma justa, ¿qué quieren decir? ¿Qué significa esto? a) ¿Su congruencia? El instructor indica cómo va a calificar el curso al principio y lo cumple: no cambia los criterios preestablecidos de calificación. b) ¿Es el nivel de dificultad? ¿El instructor califica al mismo nivel que enseñó el curso? No más difícil que en otros cursos similares. c) ¿En consistencia con la cantidad de tarea o trabajo que requiere de los estudiantes? Ciento treinta y siete estudiantes (71%), seleccionó la primera opción, lo cual indica que para ellos evaluar de forma justa significa ser congruente con los criterios o procedimientos de evaluación preestablecidos al principio del curso. Treinta y ocho (20%) respondieron que no tiene que ver la congruencia con ser justo, y diecinueve (10%) dijeron que no tienen opinión al respecto. Cinco estudiantes declinaron responder esta pregunta. 135 (6%) seleccionaron la opción (b), lo cual significa que ellos creen que ser justo al evaluar requiere que el ins-

87

tructor califique al mismo nivel de dificultad que enseñó el curso. 45 estudiantes (23%) respondieron que no definen ser justo al evaluar de esta forma, y 15 (7.7%) afirmaron no tener opinión al respecto. Cuatro no respondieron. 158 estudiantes seleccionaron la opción (c), lo cual significa que definen ser justo al evaluar como consistencia con la cantidad de carga académica. 35 (18%) indicaron que no definen ser justo al evaluar como consistencia con la carga académica del curso. Seis estudiantes no respondieron. Comentarios sobre “ser justo al evaluar” Cuando se les pidió a los estudiantes que comentaran sobre el ser justo al calificar, dijeron que ser justo al calificar era muy importante, y unos cuantos reconocieron que no se preocupan mucho por sus calificaciones cuando evalúan a sus profesores, pero la gran mayoría afirmó que es muy importante para ellos que el maestro sea justo al calificar. Otros plantearon que nunca habían sido calificados injustamente, mientras que otros dijeron que varios profesores los habían evaluado injustamente. Un estudiante que tiende a recibir altas calificaciones agregó que aunque ha sido evaluado de forma injusta, no podría quejarse porque es uno de esos estudiantes que recibe calificaciones preferenciales. Otros dieron ejemplos de situaciones en las que se sintieron calificados de forma injusta. Uno de ellos precisó: “en una ocasión, mi profesor me comentó que iba a obtener la más alta calificación en un curso, pero luego no fue así”. Otro dijo que en un curso había asistentes de enseñanza y que ellos eran quienes calificaban otorgando bajas calificaciones solo por ser malos con los estudiantes.

88 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

¿Podrían proveer un ejemplo específico de calificar de forma injusta? Los estudiantes proporcionaron ejemplos adicionales para ilustrar lo que sería injusto. Algunos indicaron que relacionar la asistencia a clase con la participación en ellas es injusto porque penaliza a los que perdieron clases. Otro grupo dijo que sería injusto penalizar o premiar a los estudiantes en sus calificaciones dependiendo de si están de acuerdo o no con las opiniones o puntos de vista del profesor. Más aún, la injusticia al calificar tendría lugar en los siguientes casos: • Si el instructor no clarifica los criterios de evaluación. • Si cambia los procedimientos de calificación y agrega nuevos requerimientos a alguna tarea sin notificar a sus estudiantes sobre el cambio y penaliza a quienes no incluyeron este nuevo requerimiento. • Si evalúa a los estudiantes en algo que no se cubrió en clases. • Si tiene un sesgo en contra de cierto tipo de estudiantes, si otorga altas calificaciones basado en calificaciones que el alumno recibió antes, o en cuánto le agradan sus estudiantes. • Si es inconsistente en la forma en que califica diferentes tareas y estudiantes. • Cuando una prueba es tan larga que los estudiantes no pueden concluirla dentro del tiempo de la clase. • Cuando estudiar y esforzarse no da como resultado una calificación alta. • Cuando el profesor solo otorga cierto número pre-

89

determinado de calificaciones muy altas y altas. • Si el profesor determina la calificación del estudiante comparándolo con sus compañeros. • Cuando el profesor usa rangos de calificación en lugar de puntajes precisos. • Cuando al usar la curva hay estudiantes que salen muy bien y todos los demás salen mal. • Si el instructor no da las razones para disminuir la calificación de una tarea. • Tener material ininteligible en la prueba. • Cuando ningún estudiante obtuvo la más alta calificación en el curso. • Si el 50% de la clase deserta y el otro 50% obtiene las calificaciones más bajas o reprueba. • Si las calificaciones se basan solo en unas pocas pruebas o ensayos. • Usar pruebas de ensayo. • No usar la curva para calificar a los estudiantes. • En los cursos de matemáticas, calificar solo los resultados del problema pero ignorar los procesos utilizados para resolverlo. ¿Debe un profesor ser culturalmente sensible? Cuando se les hizo esta pregunta, 119 estudiantes (61%) indicaron que creen que esto es importante, en tanto que 36 estudiantes (18.5%) respondieron que no, y 40 (20.5%) indicaron que no tienen una opinión al respecto. Cuatro estudiantes no respondieron esta pregunta. ¿Debería el instructor diseñar un curso basándose en la clase de estudiantes que se inscriben al mismo?

90 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

39 estudiantes (22%) respondieron que sí creen que esta es una responsabilidad del instructor, en tanto que 97 (55%) indicaron que no, y 39 (22%) afirmaron que no tienen una opinión al respecto. 24 alumnos no respondieron. Comentarios sobre “sensibilidad cultural” Se les pidió a los estudiantes que comentaran sus respuestas y que explicaran con más profundidad sus creencias sobre la sensibilidad cultural. La mayor parte dijo que sus maestros deberían ser respetuosos y evitar comentarios ofensivos acerca de la cultura de otros, pero que no deberían acomodar su docencia a las diferentes culturas. Algunos afirmaron que la sensibilidad cultural es apropiada en algunos cursos, pero no en todos, y que esto depende del tipo de contenido del curso. Quienes apoyan la importancia de la sensibilidad cultural dijeron que es necesario que el docente se acomode a la cultura de sus estudiantes, los trate con el mismo nivel de inteligencia, desafíe estereotipos y anime la tolerancia entre ellos. Un estudiante agregó que un buen docente debería cubrir tantas culturas como estudiantes inscritos en el curso halla, y usar materiales relevantes culturalmente en clases. Otro enfatizó que la sensibilidad cultural importa, y que los profesores no deberían diseñar pruebas que no sean sensibles culturalmente, y que deberían admitir si desconocen algo de la cultura de sus estudiantes y aprenderlo. Otros afirmaron que sus profesores deberían ser comprensibles culturalmente y considerar todos los aspectos de una cuestión crítica para todos los grupos y no solo para unos cuantos. Asimismo, un estudiante minoritario

91

dijo que aunque él valora la consideración del profesor hacia su cultura, le gustaría que sus profesores evitaran tratar con condescendencia o estereotipar a estudiantes de herencia cultural diversa, como él. También hubo estudiantes en desacuerdo con la importancia dada a la diversidad cultural. Por ejemplo, uno afirmó que la sensibilidad cultural resulta en discriminación. Debido a que los cursos se diseñan de acuerdo con las necesidades de unos estudiantes, el profesor discrimina en contra de otros. Un estudiante afirmó que el profesor no puede complacer a todos y agregó que: “Siempre y cuando no hay racismo flagrante, entonces yo no veo nada de malo en no ser sensible a la cultura”. Dijo que estaría de acuerdo con ser culturalmente sensible si esto se relaciona con lo que se enseña en clase. Un estudiante afirmó que “la educación no debe ser sacrificada en nombre de la sensibilidad cultural”, y otro dijo que no cree que exista la necesidad de prestar atención a la sensibilidad cultural, y agregó: “Yo creo que la gente de otra cultura tiende a ser demasiado sensible, quiero decir, si un profesor es degradante abiertamente a una cultura o una minoría en particular, entonces está TOTALMENTE fuera de lugar. No pertenece al aula (ni, en mi humilde opinión, A NINGÚN LUGAR). Sin embargo, es poco realista esperar que un profesor discuta una obra de arte o la literatura de la época de la Guerra Civil sin tocar el tema de la esclavitud. Hay un punto en el que la “sensibilidad cultural solo se convierte en algo ridículo”. Otro agregó que: “la gente debe dejar de ofenderse tan fácilmente”, y uno más dijo que nunca había oído que hubiera un problema con respecto a la sensibilidad cultural:

92 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

“Soy blanco y nunca he tenido problemas. Vengo de una escuela secundaria de estudiantes blancos y tengo solo unos cuantos amigos de diferentes etnias. Nunca he escuchado a ninguno de ellos quejarse de algo como sensibilidad cultural”. Un estudiante agregó: Definitivamente estoy sesgado como persona de raza blanca que viene de un suburbio predominantemente de gente de raza blanca. No sé lo que se siente ser discriminado. Aunque la mayor parte de los estudiantes que hicieron comentarios acerca de la sensibilidad cultural se refirieron a estudiantes de cultura diferente, uno indicó que “si la sensibilidad cultural involucra días de descanso culturales, entonces el estudiante tiene la responsabilidad de notificar al profesor de esas necesidades”. Agregó que no sabe lo que significa sensibilidad cultural. Otro precisó que sería difícil para los profesores ser sensibles culturalmente cuando están enseñando a 500 estudiantes en el aula. ¿Considera que es importante para los profesores conectar la instrucción en el aula con experiencias de vida fuera de ésta? Cuando se les hizo esta pregunta, 97 estudiantes (50%) respondieron que lo consideran muy importante. 77 (40%) respondieron que le dan poca importancia. 18 (9%) indicaron que no creen que sea importante, y seis estudiantes declinaron responder. En la primera parte de este estudio, algunos estudiantes indicaron que es importante –en algunos cursos– tener a

93

un instructor del mismo género, raza o etnicidad, ¿es importante para ti también? ¿Podría esto influenciar la evaluación que haces de tus docentes? ¿En qué forma? Cuando se les preguntó si era importante tener un instructor del mismo sexo, raza u origen étnico, la mayoría de los encuestados dijo que no era importante ni influiría en su evaluación de la calidad docente. Esta percepción fue compartida por estudiantes minoritarios y no minoritarios. Algunos, sin embargo, agregaron que aunque ellos no tienen problema con tener profesores de diferente raza o género, esto podría influir en los puntajes que otorgan a sus maestros en la evaluación docente. Un estudiante norteamericano agregó: “No creo que tenga una preferencia, pero ciertamente la raza, el género y la etnia deben (casi siempre de forma inconsciente) influir en mi evaluación docente”. Otros estudiantes agregaron que aunque no evalúan directamente a sus profesores debido a su género, raza o etnia, sienten que es más fácil relacionarse con un profesor con el que comparten las mismas características. Algunos dijeron que aunque podrían sentirse más cercanos a instructores como ellos, no se sentirían cómodos con tener a un profesor de otra raza impartiendo un curso sobre otra cultura. Como afirmó un estudiante: “Sería confuso tener a un profesor caucásico enseñando un curso de historia afroamericana. De la misma forma, sería confuso tener a un afroamericano impartiendo cursos de lenguaje y culturas de Asia Oriental”. Un estudiante norteamericano dijo que valoraba “tener profesores con diversa herencia cultural y étnica porque

94 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

eran demasiados hombres blancos a quienes debía escuchar sin cuestionar su objetividad y la validez de sus afirmaciones”. Otro indicó que más que el género, raza o etnia, era importante qué tan atractivo fuera el instructor, y aunque este comentario podría indicar que no tomó la pregunta con seriedad, afirmó: “la única cosa que podría influir en mí es lo que mi amigo llama la teoría del tarro feo. Si encuentro que el profesor es repulsivo a la vista, yo aprendo menos en la clase. Si el profesor es atractivo o animado, tiendo a prestar más atención”. Aún más, unos estudiantes declararon que más importante que tener un instructor del mismo sexo, raza u origen étnico, es que el instructor hable bien el idioma. Por ejemplo, un estudiante dijo: “mientras hablen el idioma del curso como su lengua materna, no me importa si son simios”. Otro agregó: “la etnia sería un problema si yo no pudiese entender lo que el instructor está diciendo debido al acento”. En cualquier caso, si los estudiantes no entienden al instructor debido a su acento o por la falta de habilidades de comunicación, esto influiría en sus percepciones acerca de la buena docencia, y consecuentemente en el puntaje que otorguen al profesor. Ejemplos: “Esto no es algo que queremos admitir, pero el género, la raza y la etnia pueden jugar un papel significativo en la evaluación docente. Para mí es importante que el inglés sea claro y correctamente usado, y me gustaría que mi instructor se conecte conmigo de alguna manera”. “La única importancia que esto (raza, género y etnia) tiene es si el instructor puede ser entendido. Si el instructor es de diferente origen étnico, y creció en otro país, y no es fácil de entender, entonces no sería un buen docente”.

95

Algunos estudiantes mencionaron que les gustaría que el campus tuviera más profesores de diversa herencia cultural y étnica. Uno afirmó: “quisiera tener más variedad que el estándar hombre blanco. No soy una minoría, pero me gustaría tener profesores de diferentes etnias y razas para aprender de diferentes puntos de vista”. Algunos estudiantes también dijeron que si el instructor es respetuoso y genuino, no sentirían la necesidad de tener un instructor de su mismo sexo, raza u origen étnico. Por ejemplo, un estudiante hispano dijo que aunque no había suficientes instructores hispanos en el campus, si el maestro es sensible a la cultura de los estudiantes, él se llevaría fácilmente bien con ellos. También hubo un estudiante que declaró que no creía que el género, la raza y el origen étnico fueran un problema porque “él no creía en el racismo”. En la primera parte del estudio, un grupo de estudiantes indicó que los profesores no deben consentir o ser indulgentes con algunos grupos, no deben inflar las calificaciones, y deben cumplir con altos estándares (conocimientos y comportamiento). ¿Está de acuerdo con esta percepción? En relación con esta pregunta, 113 estudiantes (59%) respondieron que están de acuerdo con mantener altos estándares y que la evaluación no debe consentir a algunos grupos de estudiantes. Por su parte, 26 (13,5%) respondieron que no están de acuerdo con el énfasis en altos estándares, y 54 (28%) indicaron no tener una opinión al respecto. Seis se negaron a responder.

96 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Comentarios sobre los estándares Al comentar acerca de mantener altos estándares en la docencia, la mayoría de los estudiantes afirmó que apoyaba la idea de que todos los estudiantes deben ser tratados por igual y que los instructores deben establecer estándares y enseñarles de forma efectiva a todos. Uno añadió que los estándares eran importantes y que “sería un error bajar el nivel de la educación”. La mayoría también espera que sus instructores sean profesionales tanto en la enseñanza como al evaluar su aprendizaje. Sin embargo, apoyaron la idea de que aunque los estándares deben ser altos, tienen que ser realistas, y los instructores deben dedicar tiempo a ayudar a los estudiantes que requieren tiempo extra. También mencionaron que no tener estándares altos resulta en favoritismo y que esto “no era propicio para una experiencia positiva de aprendizaje para cualquier de los involucrados”. Algunos agregaron que los altos estándares deberían ser obligatorios y dijeron que no había ninguna razón para que algunos grupos recibieran tratamiento especial. Como se demuestra en la declaración de uno de ellos: “todos somos estudiantes inteligentes que asisten a una escuela de gran prestigio y debemos ser considerados con el mismo estándar”. Hubo, sin embargo, algunos estudiantes que apoyaban la idea de que había casos en los que los instructores podrían ser más flexibles en relación con los estándares; como ejemplo, la siguiente declaración: “Si los estudiantes ponen mucho esfuerzo en una clase y no son capaces de comprender el material, el instructor podría dar calificación más alta con base en la cantidad de esfuerzo que el estudiante dedicó a la clase”.

97

Otro estudiante agregó que los instructores necesitaban “enseñar hacia lo alto y evaluar para el promedio” como el mejor enfoque”. Y uno más sugirió que “los profesores deberían tener un número de calificaciones más altas, y sin usar la curva”. ¿Toman la evaluación seriamente? Cuando se les hizo esta pregunta, 134 estudiantes (69%) indicaron que sí; 52 (27%) respondieron que no, y 8 afirmaron no tener opinión en este sentido. Cinco estudiantes no respondieron. ¿Cómo puede mejorar el sistema de evaluación de la docencia del campus? Algunos dijeron que creen que el proceso de evaluación estaba bien, pero la mayoría consideró que el sistema necesita mejorar. Entre las sugerencias de mejora están las siguiente: a. Tener más de una evaluación a lo largo del semestre. b. Plantear preguntas más específicas. c. Tomar las evaluaciones en serio y que los alumnos sepan que sus opiniones son importantes. Hacerlos conscientes de que la evaluación no será ignorada, esto propiciaría mayor seriedad. d. Incluir una nota que llame la atención sobre dedicar todo el tiempo necesario a responder la evaluación. e. Evitar aplicar los cuestionarios al final del curso. f. Despedir a los malos maestros.

98 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

g. Eliminar los cuestionarios de evaluación. h. Que responder sea un acto voluntario. i. Compartir los resultados de la evaluación en línea para que los estudiantes vean cómo evaluaron sus compañeros al instructor y al curso. j. Contratar a alguien que se siente en el aula y vea qué tipo de preguntas deben hacerse en la evaluación que se relacionan con esa clase en particular. Evitar usar preguntas de evaluación inapropiadas o importantes para un curso específico. Adaptar las preguntas del cuestionario de evaluación a la clase y al profesor. k. Si un instructor recibe evaluaciones abrumadoramente bajas, que sea investigado por la universidad. l. Tener formas de evaluación más cortas. m. Dejar de “llenar círculos” (en la hoja de respuesta), esto hace que los estudiantes no se interesen por la evaluación. n. Imprimir los resultados de forma que los estudiantes los puedan leer. o. Descontinuar la definitividad del profesorado. p. Mejorar el cuestionario para que sea una mejor forma de medir cuánto les agrada determinado profesor. q. Contar con preguntas de respuesta más corta o tal vez diferentes preguntas para cada curso. r. Exigir que se aplique la evaluación de la docencia a todos los instructores. Algunos estudiantes dieron ejemplos para ilustrar sus razones al argumentar que las evaluaciones docentes no son tomadas en serio. Uno de ellos dijo: “nunca conseguimos

99

gente a la que le importe; algunas personas nunca se preocuparán por él si no van a ganar algo”. Otro estudiante comentó: “Creo que la evaluación debe ser tomada más en serio. La maestra adjunta que tuve en mi curso de economía era horrible y todos en nuestra clase le dimos las evaluaciones más bajas por su docencia. Ella fue la peor maestra que he tenido. Incluso fui a verla para recibir ayuda adicional, pero nunca explicó bien ni parecía querer ayudar. Independientemente de nuestras malas evaluaciones por su docencia, ella vuelve a ser adjunta de otro profesor en un curso diferente en el que estoy inscrito en este semestre. Muchos de mis amigos quieren escribir al departamento y preguntar si no se hace nada con base en estas formas de evaluación, entonces ¿por qué perdemos nuestro tiempo llenándolas?” Los estudiantes también señalaron la necesidad de mejorar los cuestionarios y adaptarlos a las características del instructor y del curso. Uno de ellos dijo que todas las preguntas (estaban) equivocadas y que tenían que ser adecuados al curso y maestro de forma individual. También hubo un estudiante que dio un ejemplo de cómo y cuándo se escriben comentarios en el formato de evaluación: “Cuando tengo un maestro promedio, por lo general no tomo la evaluación en serio, pero si tengo un profesor excelente o muy malo, entonces hago comentarios”. Conclusiones Esta investigación proveyó evidencia de las complejidades de la evaluación de la docencia en el contexto de una universidad pública norteamericana. En particular, sobre el

100 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

significado del constructo “buena docencia” para los estudiantes y el proceso que siguen al evaluar a sus profesores. El estudio aborda una importante laguna en la literatura de la evaluación del profesorado en educación superior al examinar cuestiones críticas relacionadas con la validez de contenido y la validez sustantiva de la evaluación. Los resultados de la encuesta electrónica muestran que los estudiantes prestan atención a diferentes características y conductas instruccionales cuando definen la buena docencia, pero en general ven la buena docencia centrada en el maestro más que en el estudiante. Este punto de vista contrasta y es opuesto al punto de vista de los administradores del campus que promueven un tipo de docencia basada en la investigación, lo cual también se aprecia en el análisis de diferentes documentos de política y en entrevistas con las autoridades del campus. La forma en que los estudiantes asignan los puntajes en la evaluación docente es muy variada. Algunos dan bajos puntajes a profesores que carecen de habilidades pedagógicas, faltos de motivación, injustos, que otorgan preferencias a algunos estudiantes, insensibles a las necesidades de sus alumnos, entre otras características. Hubo también estudiantes que otorgarían el puntaje más bajo si creen que el curso no vale la pena o si el profesor habla el inglés con acento diferente al del medio oeste norteamericano. Igualmente, los alumnos otorgan los puntajes intermedios de forma variable. Algunos lo otorgan a profesores que aunque son buenos, carecen de alguna característica que ellos valoran, tal como ser afectuoso y comprometido hacia la docencia. Otro grupo de estudiantes otorga un puntaje intermedio a profesores que presentan tanto fortalezas

101

como debilidades, mientras que otros estudiantes otorgan este puntaje cuando no pueden hacer un juicio acerca de la calidad de la docencia. Los estudiantes también difieren en la forma en que asignan los puntajes más altos en los cuestionarios de evaluación. Algunas conductas, tales como cubrir el contenido más allá de lo que establece el programa del curso, es percibido como algo muy valioso o como algo muy negativo, dependiendo de los estudiantes, y puede afectar la decisión de otorgar al maestro la puntuación más alta. Hubo también quienes dijeron que nunca otorgarían puntajes extremos, y otros que se sienten muy incómodos con otorgar puntajes intermedios. Los estudiantes usan más de un proceso cuando evalúan la efectividad global de sus profesores. Algunos comparan a su profesor con un ideal, mientras que otros lo comparan con sus pares. Hay también estudiantes que otorgan una evaluación al profesor basándose en su experiencia global en el curso. La mayor parte de los alumnos afirmaron que valoran que los cuestionarios de evaluación les permitan evaluar al profesor de forma global y también que evalúen ciertos aspectos específicos de la docencia. Sin embargo, difieren en la selección de los aspectos que son importantes y esenciales cuando describen la buena docencia. Aunque una gran mayoría identificó ser justo al calificar, tener claridad y habilidad para comunicarse efectivamente en inglés como los criterios esenciales de la buena docencia, hubo muchos estudiantes que seleccionaron otras características y conductas. Los estudiantes, como un todo, sí identificaron “el ser justo en la evaluación” como el más importante compo-

102 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

nente de la buena docencia que puede influir su decisión al asignar un puntaje en la evaluación docente. La buena docencia se definió de diferentes formas, desde la consistencia de la carga de trabajo del curso en relación con otros similares, la consistencia con los procedimientos de calificación previamente determinados, o el nivel de dificultad del curso. No recibir una calificación prometida, no recibir la más alta calificación en un curso, fueron también seleccionadas como otras formas de ser injusto al calificar. La gran mayoría indicó que sus profesores deberían ser sensibles culturalmente e indicaron que esto implica ser respetuoso de los estudiantes y sus culturas. Sin embargo, no consideran que sea responsabilidad del profesor adaptar su docencia a los diferentes estudiantes inscritos en el curso. Los estudiantes estuvieron divididos, aunque en su mayoría de acuerdo, en que es importante que los profesores conecten su docencia con experiencias de la vida real fuera del aula. Los alumnos no creen que sea importante tener un profesor de su propia raza o etnia, aunque algunos afirmaron que esto les haría más fácil relacionarse con sus instructores. Algunos alumnos expresaron interés por incrementar la diversidad entre los profesores del campus, y unos cuantos dijeron que aun cuando no tienen en mente la raza, género o etnia del profesor, estos factores sí influye en la evaluación que hacen de ellos. La mayor parte de los alumnos apoya la idea de que la universidad debe mantener altos estándares y evitar consentir a algunos estudiantes. La gran mayoría dijo que no toma la evaluación seriamente, e hizo sugerencias para mejorar el sistema de evaluación.

103

Aunque los alumnos tuvieron diferencias en sus respuestas, estas diferencias permanecieron dentro de los subgrupos de estudiantes que respondieron la encuesta. No se encontraron diferencias significativas entre las respuestas de los estudiantes a la encuesta en relación con su año de estudios, raza o género. Los resultados indican que los estudiantes sí valoran la docencia y que valoran que sus maestros se preocupen por ser buenos maestros. Hubo evidencia en los comentarios de los estudiantes y de entrevistas con profesores de que algunos alumnos pueden estar prestando atención más a otros aspectos que a la docencia cuando evalúan a sus profesores, tales como el hablar inglés con un acento diferente del medio oeste norteamericano. Se encontró que muchas características y conductas identificadas por los estudiantes al definir la buena docencia eran respaldadas por las oficinas de apoyo instruccional en el campus, con excepción de “ser justo al calificar” y la influencia de otras variables, como la sensibilidad cultural en la docencia. Otros hallazgos del estudio macro indican que aunque la universidad proporciona capacitación docente a los profesores e incluye el tema de sensibilidad cultural, éste se enfoca en sugerir a los profesores no hacer comentarios de tipo cultural y ser respetuosos de todos sus estudiantes. Pero no incluye nada sobre examinar la sensibilidad de los estudiantes hacia otros, ni cómo la diversidad de los estudiantes se manifiesta e influye en la docencia y el proceso de aprendizaje. Los resultados globales del estudio indican que los estudiantes definen “buena docencia” combinando variables del curso y del profesor.” Estos resultados son similares a

104 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

los de Shu-Wan Chiu (2000) y otros investigadores (tales como Aleamoni y Graham, 1974; Feldman, 1978; Kulik y McKeachie, 1975; Marsh, 1984, 1987 Wigington, Tollefson y Rodriguez, 1989), quienes encontraron evidencia de que los profesores que imparten cursos optativos reciben más altas evaluaciones que los que imparten asignaturas obligatorias. También se encontró evidencia que respalda los resultados de Cuban (1999), quien identificó conflictos de rol y propósito en las universidades orientadas a la investigación bajo presiones de rendición de cuentas. Asimismo, fueron consistentes con el trabajo de García Garduño (2014), en relación con algunas características identificadas por los estudiantes como efectivas por parte de los profesores, tales como una buena interacción y motivación hacia la docencia. Sería conveniente realizar investigaciones semejantes con alumnos de otras disciplinas y otro tipo de universidades. Asimismo, es importante que futuros estudios examinen cómo los docentes pueden abordar la diversidad en el aula y las implicaciones para su enseñanza, especialmente las relativas a relaciones entre los estudiantes de distintas razas y culturas, y cómo los profesores pueden responder a las demandas de los estudiantes de diversa herencia cultural y étnica con una docencia que rete estereotipos y evite sobreprotegerlos. También es importante estudiar las presiones que la universidad pone en los docentes para mejorar sus puntajes en la evaluación docente. Es necesario examinar algunas consecuencias no deseables que podrían surgir, tales como que el énfasis en obtener altos puntajes lleve a los maestros a manipular los resultados.

105

Las cuestiones de género, raza y etnicidad en relación con la forma en que esto influye en la evaluación merecen más estudio, y deben ser tomadas en serio por la universidad. Cuestiones sobre la nacionalidad de los profesores también son importantes si ésta influye negativamente. La mayor parte de los alumnos reconoció cierta incomodidad ante un profesor que no puede ser bien entendido porque habla inglés como segunda lengua. De hecho, algunos dijeron que este es uno de los criterios más importantes para asignar puntajes en la evaluación docente. En respuesta a esta preocupación por parte de los estudiantes, la universidad ha creado un programa de capacitación para profesores y estudiantes extranjeros. Sin embargo, es importante asegurarse de que las quejas acerca de un profesor se deban a la falta de dominio del idioma y no a sesgos en contra de ciertos docentes. Un dilema que podría tener lugar se daría en aquellos cursos en que los estudiantes tienen dificultad de aprender. Ellos podrían querer un nativo del lenguaje en lugar de un profesor que hable inglés con acento. Al respecto se argumenta que es importante que los estudiantes sean expuestos a la diversidad étnica y cultural, pero a la vez, tener un profesor con fuerte acento puede hacer más difícil el contenido que de por sí resulta complicado aprender. El reto para la universidad es decidir cuáles serían estos casos sin incurrir en discriminación, ya que ésta resultaría en violación de los derechos humanos. Esta investigación es importante porque permitió identificar cuestiones relacionadas con la validez de la evaluación de la docencia. Los investigadore tradicionalmente han enfatizado la confiabilidad de las evaluaciones docentes basadas en las opiniones de los estudiantes, pero como

106 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

los resultados indican, el exceso de confianza en la consistencia no toma en cuenta aspectos especiales de validez de la evaluación. La consistencia no asegura calidad en el proceso de evaluación. La consistencia no asegura buenas interpretaciones ni evita malas consecuencias. Las consecuencias correctas de un sistema de evaluación docente se sostienen en su validez. Una evaluación válida de la docencia en el campus representa las complejidades de la enseñanza, incluyendo una variedad de percepciones evaluativas de lo que es buena docencia en su contexto. Usar procesos estandarizados para evaluar la docencia tiene ventajas administrativas (por ejemplo, su simplicidad), pero la estandarización puede resultar en mala representación del constructo evaluado. Si los resultados de la evaluación son mal representados esto acarrearía serias consecuencias. Un enfoque holístico de investigación involucrando el uso de diferentes métodos y fuentes de recolección de datos, incluyendo observación participante, entrevistas profundas, grupos de enfoque y análisis documental, entre otros, puede contribuir a entender las cuestiones críticas de la evaluación y obtener la información contextual vital para apoyar la alta calidad de la docencia en la universidad.

107

REFERENCIAS Abrami, P. C. (1989). How Should We Use Student Ratings to Evaluate Teaching? Research in Higher Education. 30, 2, 221-27. Abrami, P. C., D’ Apollonia, S., y Cohen, P. A. (1990). The Validity of Student Ratings of Instruction: What We Know and What We Don’t. Journal of Educational Psychology, 82, 219-231. Ackerman, D.; Gross, B, L. y Vigneron, F. (2009). Peer Observation Reports and Student Evaluations of Teaching: Who Are the Experts? Alberta Journal of Educational Research, 55 (1), 18-39. Aleamoni, L. M.; y Graham, M. H. (1974). The Relationship between CEQ Ratings and Instructor’s Rank, Class Size and Course Level. Journal of Educational Measurement; 11, 3, 189-202, F 74. Aleamoni, L. M. y Hexner, P. Z. (1981). A Review of the Research on Student Evaluation and a Report on the Effect of Different Sets of Instructions on Student Course and Instructor Evaluation. Instructional Science, 9, 1, 67-84. American Evaluation Association (1993). Guiding Principles for Evaluators. Disponible en: http://www.eval. org/EvaluationDocuments/aeaprin6.html Andrews, H. A. (1985). Evaluating for Excellence: Addressing the Need for Responsible and Effective Faculty Evaluation. Stillwater, OK: New Forums Press. Atkinson, R. C. y Tuzin, D. (1992). Equilibrium in the Research University. Change, 3, 21-31. Bailiff, J. y Khan, S. (1987). The University and the Rediscovery of Teaching: A System-Level Model, en: Kur-

109

fis, J. (Ed.) To Improve the Academy: Resources for Student, Faculty and Institutional Development (pp. 75-82). Stillwater, OK: New Forum Press. Ballantyne, C. (November, 1998). What Students Think: An Innovative Look at Student Evaluations of Teaching. Documento presentado en The Annual Meeting of the American Evaluation Association, Chicago. Barnes, L. B. y Barnes M. W. (1993). Academic Discipline and Generalizability of Student Evaluations of Instruction. Research in Higher Education, 34, 135-149. Bess, J. L. (1982). University Organizations: A Matrix Analysis of the Academic Professions. New York, NY: Human Sciences Press Inc. Biglan, A. (1973). The Characteristics of Subject Matter in Different Academic Areas. Journal of Applied Psychology, 57, 195-203. Bok, D. (1992). The Improvement of Teaching. New York, NY: American Council of Learned Societies. Bonitz, V. S. (2011). Student Evaluation of Teaching: Individual Differences and Bias Effects. Graduate Theses and Dissertations. Iowa State University. Boyer, E. L. (1987). College: The Undergraduate Experience in America. New York, NY: Harper y Row. Boysen, G. A.; Kelly, T. J.; Raesly, H. N.; Casner, R. W. The (Mis)interpretation of Teaching Evaluations by College Faculty and Administrators. Assessment y Evaluation in Higher Education, 39 (6), 641-656 2014. Braskamp, L. A., Brandenburg, D. C. y Ory, J. C. (1984). Evaluating Teaching Effectiveness. London: Sage Publications, Inc.

110 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Braskamp, L. A. y Ory, J. C. (1994). Assessing Faculty Work: Enhancing Individual and Institutional Performance. San Francisco, CA: Jossey Bass. Brodie, D. A. (1998). Do Students Report that Easy Professors are Excellent Teachers? The Canadian Journal of Higher Education, 23, 1, 1-20. Brodie, D.A. (1999). Has Publication Bias Inflated the Reported Correlation between Student Achievement and Ratings of Instructors? Documento presentado en The Annual Meeting of the American Educational Research Association, Montreal CA, April. Bukalski, P. J. y Zirpola, D. J. (1993). Guide for Non-tenured Faculty Members: Annual Evaluation, Promotion and Tenure (University Film and Video Association Monograph No. 6). Atlanta, GA: Georgia State University, Department of Communication. Cahn, S. (1987, October 14). Faculty Members should be Evaluated by their Peers, not by their Students. Chronicle of Higher Education, p. B2. Cambridge, B. L. (1996). The Paradigm Shifts: Examining the Quality of Teaching through Assessment of Student Learning. Innovative Higher Education, 20, 4, 287-297. Campbell, D. T. y Fiske, D. W. (1959). Convergent and Discriminant Validation by the Multitrait Matrix. Psychological Bulletin, 56, 81-105. Cashin, W. E. (1988). Student Ratings of Teaching: A Summary of the Research. IDEA paper No. 20. Manhattan, KS: Kansas State University, Center for Faculty Evaluation and Development. Cashin, W. E. (1990). Students do Rate Different Academic Fields Differently, en: M. Theall y J. Franklin

111

(Eds.), Students Ratings of Instruction: Issues for Improving Practice. New Directions for Teaching and Learning (pp. 113-121). San Francisco: Jossey-Bass. Cashin, W. E. (1995). Student Ratings of Teaching: The Research Revisited. IDEA Paper No. 32. Manhattan, KS: Kansas State University, Center for Faculty Evaluation and Development. Cashin, W. E., y Downey, R. G. (1992). Using Global Student Rating Items for Summative Evaluation. Journal of Educational Psychology, 84, 4 563-72. Cashin, W. E., y Perrin, B. (1978). Description of IDEA Standard Form Data Base. IDEA Technical Report No. 4. Manhattan, KS: Kansas State University, Center for Faculty Evaluation and Development. Cave, M., Hanney, S., Kogan, M. y Travett, G. (Eds.). (1988). The Use of Performance Indicators in Higher Education: A Critical Analysis of Developing Practice. London: Kingsley Publishers, Ltd. Centra, J. A. (1977). Student Ratings of Instruction and their Relationship to Student Learning. American Educational Research Journal; 14, 1, 17-24. Centra, J. A. (1979). Determining Faculty Effectiveness. San Francisco, CA: Jossey-Bass Inc. Centra, J. A. (1993). Reflective Faculty Evaluation: Enhancing Teaching and Determining Faculty Effectiveness. San Francisco, CA: Jossey-Bass Inc. Centra, J. A.; y Bonesteel, P. (1990). College Teaching: An Art or a Science?, en: M. Theall y Franklin, Student Ratings of Instruction: Issues for Improving Practice. New Directions for Teaching and Learning, 43. 7-15. Fall.

112 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Chait, R. P. y Ford, A. T. (1982). Beyond Traditional Tenure: A Guide to Sound Policies and Practices. San Francisco, CA: Jossey-Bass Ltd. Chen, Q y Yeager, J. L. (2011). Comparative Study of Faculty Evaluation of Teaching Practice between Chinese and U.S. Institutions of Higher Education. Frontiers of Education in China, 6, (2), 200-226. Chickering, A. W. y Gamson, Z. F. (1987). Seven Principles for Good Practice in Undergraduate Education. AAHE Bulletin, pp. 3-7 March. Chiu, S. (2000). Use of the Unbalanced Nested ANOVA to Examine the Factors Influencing Student Ratings of Instructional Quality. Disertación doctoral inédita. Champaign, IL: University of Illinois at UrbanaChampaign. Cisneros-Cohernour, E. J. (1998). Trade-offs: Using the Feedback of Student Ratings for Instructional Improvement. Champaign, IL: University of Illinois at Urbana-Champaign. Cisneros-Cohernour, E. J. (2001). The Evaluation of Teaching in Higher Education: Different Meanings, Tradeoffs and Equity Concerns. Disertación doctoral inédita. University of Illinois at Urbana-Champaign. USA. Cohen, P. A. (1981). Student Ratings of Instruction and Student Achievement: A Meta-analysis of Multisection Validity Studies. Review of Educational Research, 51, 281-309. Cohen, P. A. (1983). Comment on Selective Review of the Validity of Student Ratings of Teaching. Journal of Higher Education, 54, 448-458.

113

Cohen, P. A. (1986). An Updated and Expanded Metaanalysis of Multisection Student Rating Validity Studies. Documento presentado en The Annual Meeting of the American Educational Research Association. San Francisco, CA, April. Cohen, P. A. (1990). Bringing Research into Practice, en: New Directions for Teaching and Learning; Student Ratings of Instruction: Issues for Improving Practice, 43, 123-32. Costin, F., Greenough, y Menges, R. J. (1971). Student Ratings of College Teaching: Reliability, Validity and Usefulness. Review of Educational Research, 41, 5, 511-535. Crombach, L.J. (1989). Construct Validation after Thirty Years, en: R.L. Linn (Ed.), Intelligence: Measurement, Theory, and Public Policy (pp. 147-171). Chicago: University of Illinois Press. Crombach, L. J., y Glesser, G. C. (1965). Psychological and Personnel Decisions (2nd. Ed.). Urbana, IL: University of Illinois Press. Crooks, T. J., y Kane, M. T., (1981). The Generalizability of Student Ratings of Instructors: Item Specificity and Section Effects. Research in Higher Education, 15, 4, 305-13 1981. Cross, P. K. (1987). The Need for Classroom Research, en: J. Kurfiss (Ed), To Improve the Academy: Resources for Student, Faculty and Institutional Development (pp. 1-17). Stillwater, OK: New Forum Press. Cross, P. K. (1993). Improving the Quality of Instruction, en: A. Levine (Ed.), Higher Learning in America (pp. 287-305). Baltimore y London: The John Hopkins University Press.

114 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Cuban, L. (1999). How Scholars Trumped Teachers: Change Without Reform in University Curriculum, Teaching, and Research 1890-1990. New York, NY: Teachers College Press. Damron, J. C. (1996). Instructor Personality and the Politics of the Classroom. Manuscrito, Douglas College, New Westminster, British Columbia, Canada V3L 5B2 (Primera versión en junio de 1994: Issue of Faculty Matters (No. 5, Pages 9-12) y otra version en el número de septiembre de 1994 (The Newsletter of the Okanagan University College Faculty Association). Douglas College. Doyle, K. O., Jr. (1982). Evaluating Teaching. Lexington, Mass: Lexington Books. Dowell, D. A., y Neal, J. A. (1982). Selective Review of the Validity of Student Ratings of Teaching. Journal of Higher Education, 53, 1, 51-62. Dressel, P. L. (1970). Evaluation of the Environment, the Process, and the Results of Higher Education, en: A. S. Knowles (Ed.), Handbook of College and University Administration: Academic (pp. 53-80). New York, NY: McGraw Hill. Dunkin, M. J. (1986). Research on Teaching in Higher Education, en: Merlin C. Wittrock. (Ed.), Handbook of Research on Teaching. American Educational Research Association, New York: NY. Dwinell, P. L. y Higbee, J. L. (1993). Students’ Perceptions of the Value of Teaching Evaluations. Perceptual and Motor Skills, 76, 995-100. Dwyer, C. A. (1993). Teaching and Diversity: Meeting the Challenge for Innovative Teaching Assessment. Journal of Teacher Education, 44, 119-129.

115

Eble, K. E. (1972). Professors as Teachers. San Francisco, CA: Jossey-Bass, Inc. El Hassan, K. (1995). Students’ Ratings of Instruction: Generalizability of Findings. Studies in Educational Evaluation, 21, pp. 411-429. Embreston (Whitely), S. (1983). Construct Validity: Construct Representation versus Nomothetic Span. Psychological Bulletin, 93, 179-197. Erickson, F. (1986). Qualitative Methods in Research on Teaching, en: Merlin C. Wittrock. (Ed.). Handbook of research on teaching. American Educational Research Association, New York: NY. Falk, B., y Dow, K. L. (1971). The Assessment of University Teaching. London: Society for Research into Higher Education Ltd. Fayne, H. R. (1991). Practicing What We Preach: Key Issues in Faculty Evaluation. Documento presentado en The Annual Meeting of the American Association of Colleges for Teacher Education, Atlanta, GA. Feldman, K. A. (1976). The Superior College Teacher from the Student’s View. Research in Higher Education, 5, 243-288. Feldman, K. A. (1977). Consistency and Variability Among College Students in Rating their Teachers: A Review and Analysis. Research in Higher Education, 6, 223-274. Feldman, K. A. (1978). Course Characteristics and College Students’ Ratings of their Teachers: What We Know and What We don’t. Research in Higher Education, 9, 199-242. Feldman, K A. (1984). Class Size and College Students’

116 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Evaluations of Teachers and Courses: A Closer Look. Research in Higher Education, v21 n1 p45-116. Feldman, K. A. (1986). The Perceived Instructional Effectiveness of College Teachers as Related to their Personality and Attitudinal Characteristics. Research in Higher Education, 24, 139-170. Feldman, K. A. (1987). Research Productivity and Scholarly Accomplishment of College Teachers as Related to their Instructional Effectiveness: A Review and Exploration. Research in Higher Education; 26, (3), 227-298. Feldman, K. A. (1988). Effective College Teaching from the Students’ and Faculty’s View: Matched or Mismatched Priorities? Research in Higher Education, 28, 4, 291-344. Feldman, K. A. (1989). The Association between Student Ratings of Specific Instructional Dimensions and Student Achievement: Refining and Extending the Synthesis of Data from Multisection Validity Studies. Research in Higher Education, 30, 6, 583-645. Feldman, K. A. (1989). Instructional Effectiveness of College Teachers as Judged by Teachers Themselves, Current and Former Students, Colleagues, Administrators, and External (Neutral Observers). Research in Higher Education, 30, 137-172. Feldman, K. A. (1993). College Students’ Views of Male and Female College Teachers: Part II- Evidence from Students’ Evaluations of their Classroom Teachers. Research in Higher Education, 34, 151-211. Ferren, A., y Mussell, K. (1987). Strengthening Faculty Development Programs Through Evaluation, en: J. Kurfiss, To Improve the Academy: Resources for Stu-

117

dent, Faculty, and Institutional Development (p. 133143). Stillwater, OK: New Forum Press. Filkelstein, M. J. (1984). Peer Review: Documentary Evidence, en: Milman, J. (Ed.), Handbook of Teacher Education (pp. 73-79). London: Sage Publications. Frey, P. W. (1976). Validity of Student Instructional Ratings: Does Timing Matter? Journal of Higher Education, 42, 3, 327-336. Gage, N. L. y Needles, M. C. (1989). Process-product Research on Teaching: A Review of the Criticisms. The Elementary School Journal, 89, 253-300. García-Garduño, J. M. (2014). Los criterios que emplean los estudiantes universitarios para evaluar la in-eficacia docente de sus profesores. Perfiles Educativos, vol. XXXVI, núm. 143, IISUE-UNAM. Genova, W. J., Madoff, M. J., Chin, R. y Thomas, G. B. (1976). Mutual Benefit Evaluation of Faculty and Administrators in Higher Education. Newton, MA: Ballinguer Publishing Co. Gillmore, G. Kane, M. T., y Naccarato, R. W. (1978). The Generalizability of Student Ratings of Instruction: Estimation of the Teacher and Course Components. Journal of Educational Measurement, 15, 1, 1-13. Goodwin, L. D. y Stevens, E. A. (1993). The Influence of Gender on University Faculty Members’ Perceptions of “Good” Teaching. Journal of Higher Education, 64, 166-185. Greene, J. C., Caracelli, V. J. y Graham, W. E. (1989). Toward a Conceptual Framework for Mixed-Method Evaluation Designs. Educational Evaluation and Policy Analysis, 11(3), 255-274.

118 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Greenwald, A. G. (1996). Validity and Usefulness of Student Ratings of Instruction. American Psychologist, 52, 11, 1182-1186. Greenwald y Gillmore, (1996). No Pain, no Gain?: The Importance of Measuring Course Workload in Student Ratings of Instruction, University of Washington, Manuscript submitted for publication. Guba. E., y Lincoln, Y. (1998). Competing Paradigms in Qualitative Research, en: N. Denzin y Y. S. Lincoln (Eds.). The Landscape of Qualitative Research: Theories and Issues. Sage Publications, Thousand Oaks: CA. Haskell, (1997). Academic Freedom, Tenure, and Students Evaluation of Faculty: Galloping Polls in the 21st Century. Educational Policy Analysis Archives (On line), 5, 6, February. Recuperado de: http://olam. ed.asu.edu/epaa/v5n6.html Hattie, John, y Marsh, H. W. (1996). The Relationship between Research and Teaching: A Meta-analysis. Review of Educational Research; 66, (4), 507-542. Hawley, R. C. (1977). Faculty Evaluation: Some Common Pitfalls. Independent School Journal, 5, 39-40. Hogan, T. (1973). Similarity of Student Ratings across Instructors, Courses, and Time. Research in Higher Education; 1, 2, 149-154. Howard, G. S., Conway, C. G., y Maxwell, S. E. (1985). Construct Validity of Measures of College Teaching Effectiveness. Journal of Educational Psychology, 77, 187-196. Hunter, J. E., Schmidt, F. L., y Jackson, C. B. (1982). Advanced meta-analysis: Quantitative Methods of Cumu-

119

lating Research Findings Across Studies. San Francisco: Sage. Hunter, M. C. (1982). Mastery Teaching/Madeline Hunter. Thousand Oaks, CA: Corwin Press Jacobsen, R. H. (1989). The Impact of Faculty Incentive Grants on Teaching Effectiveness. Documento presentado en The Meeting of the American Educational Research Association, San Francisco, CA. Kinney, D. P. y Smith, S. P. (1992). Age and Teaching Performance. Journal of Higher Education, 63, 282-302. Knapper, C. K., Geis, G. L., Pascal, Ch. E. y Shore, B. M. (1977). If Teaching is Important...: The Evaluation of Instruction in Higher Education. Canada: Clark, Irwin y Company Limited. Kogan, L. R.; Schoenfeld-Tacher, R. y Hellyer, P. W. (2010). Student Evaluations of Teaching: Perceptions of Faculty Based on Gender, Position, and Rank. Teaching in Higher Education, 15 n6 p623-636. Kozub, R. M. (2008). Student Evaluations of Faculty: Concerns and Possible Solutions. Journal of College Teaching y Learning, 5, (11), 35-40. Kulik, J. A. y Kulik, C.C. (1974). Student Ratings of Instruction. Teaching Psychology, 1, 51-57. Kulik, J. A. y McKeachie, W. J. (1975) “The Evaluation of Teachers in Higher Education”, en: F. N. Kerlinger (ed.), Review of Research in Education. Itasca, IL: Peacock. Kyvik, S.; y Smeby, J. C. (1994). Teaching and Research. The Relationship between the Supervision of Graduate Students and Faculty Research Performance. Higher Education, 28, (2), 227-239.

120 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Lane, S., Parke, C.S., y Stone, C.A. (1998). A Framework for Evaluating the Consequences of Assessment Programs, en: Educational Measurement: Issues and Practice, 17(2), 24-28. Lennon, R. T. (1956). Assumptions Underlying the Use of Content Validity. Educational and Psychological Measurement, 16, 294-304. Licata, Christine M. (1986). Post-tenure Faculty Evaluation: Treat or Opportunity? Washington, DC: ASHE-ERIC. Loevinger, J. (1957). Objective Tests as Instruments of Psychological Theory (Monografía), Psychological Reports, 3, 635-694. Longman, K. A. (1978). Faculty Development in a Period of Retrenchment. Tesis doctoral inédita. University of Michigan, MI. Lumpkin, A. y Multon, K. D. (2013). Perceptions of Good Teaching. The Educational Forum. 288-299. Taylor y Francis. Mabry, L. (1999). Portfolios Plus: A Critical Guide to Alternative Assessment. Thousand Oaks, CA: Corwin Press, Inc. Magusson, K. (2000). Personal Interview. Midwestern University. USA. Mann, M. P. (1987). Developmental Models of Faculty Careers: A Critique of Research and Theory, en: J. Kurfiss, To Improve the Academy: Resources for Student, Faculty and Institutional Development (p.1932). Stillwater, OK: New Forum Press. Marlin, J. W. J. (1987). Student Perception of End-ofCourse Evaluations. Journal of Higher Education, 58(6), 704-716.

121

Marsh, H. W. (1982). SEEQ: A Reliable, Valid, and Useful Instrument for Collecting Students’ Evaluations of University Teaching, British Journal of Educational Psychology, 52, 77, 95. Marsh, H. W. (1984). Students’ Evaluations of Teaching: Dimensionality, Reliability, Validity, Potential Biases and Utility. Journal of Educational Psychology, 76, 707-754. Marsh, H. W. (1987). Student’s Evaluations of University Teaching: Research Findings, Methodological Issues, and Directions for Future Research. International Journal of Educational Research, 11, 253-388. Marsh, H. W. y Bailey, M. (1993). Multidimensional Students’ Evaluations of Teaching Effectiveness. Journal of Higher Education, 64, 1-18. Marsh, Herbert W. y Overall, J. U. (1981). The Relative Influence of Course Level, Course Type and Instructor on Students’ Evaluations of College Teaching. American Educational Research Journal; v18 n1 p10312. Marsh, H. W., Overall, J. U., y Kesler, S. P. (1979). Validity of Student Evaluations of Instructional Effectiveness: A Comparison of Faculty Self-evaluations and Evaluations by their Students. Journal of Educational Psychology, 71, 149-160. McKeachie, W. J. (1971). Research on College Teaching: Memo to the Faculty. Ann Arbor Michigan, MI: Center for Research on Learning. McKeachie, W. J. (1990). Research on College Teaching: The Historical Background. Journal of Educational Psychology, 82, 189-200.

122 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

McKeachie, W. J. (1997). Student Ratings: The Validity of Use. American Psychologist, 52, 11, 1218-1225. McKeachie, W. J., Isaacson, W. J. y Millholand, J. E. (1964). Research on the Characteristics of Effective College Teaching (Cooperative Research Rep. No. O E 850). Ann Arbor, MI: The University of Michigan. McKeachie, W. J., y Lin, Y. G. (1979). A Note on Validity of Student Ratings of Teaching. Educational Research Quarterly, 4, 3, 45-47. Menges, R. J. (1991). Why Hasn’t Peer Evaluation of College Teaching Caught on? Documento presentado en The Meeting of the American Educational Research Association, Chicago, IL. Menges, R. J. (1987). Colleagues as Catalyst for Change in Teaching, en: J. Kurfiss, To Improve the Academy: Resources for Student, Faculty, and Institutional Development (p. 83-93). Stillwater, OK: New Forum Press. Menges, R. J. (1998). Shortcomings of Research on Evaluation and Improving Teaching in Higher Education. Documento presentado en The Annual Meeting of the American Educational Research Association, San Diego: CA, April. Messick, S. (1980). Test Validity and the Ethics of Assessment. American Psychologist, 35, 1012-1027. Messick, S. (1989). Validity en: R. L. Linn (Ed.), Educational Measurement (3rd ed.). New York: American Council on Education and Macmillan. Messick, S. (October, 1994). Alternative Modes of Assessment: Uniform Standards of Validity. Documento presentado en la Conference on Evaluating Alternatives to Traditional Testing for Selection, Bowling Green: OH.

123

Messick, S. (1995). Validity of Psychological Assessment: Validation of Inferences from Persons Responses and Performances as Scientific Inquiry into Score Meaning. American Psychologist, 50(9), 741-749. Messick, S. (1994). Alternative Modes of Assessment, Uniform Standards of Validity. Research Report. Educational Testing Service, Princeton, NJ. Miller, R. I. (1972). Evaluating Faculty Performance. San Francisco, CA: Jossey- Bass Inc. Miller, R. I. (1974). Developing Programs for Faculty Evaluation. San Francisco, CA: Jossey-Bass Inc. Miller, R. I. (1979). The Assessment of College Performance: A Handbook of Techniques and Measures for Institutional Self-evaluation. San Francisco, CA: Jossey-Bass, Inc. Miller, R. I. (1987). Evaluating Faculty for Promotion and Tenure. San Francisco: Jossey Bass Inc. Moffett, B. S. (1997). Development of a Peer Evaluation Model for Clinical Teaching Faculty. Documento presentado at the Annual Meeting of the American Educational Research Association, Chicago: IL, March. Morehead, J. W. y Shedd, P. J. (1996). Student Interviews: A Vital Role in the Scholarship of Teaching. Innovative Higher Education, 20, 4, 261-269. Moses, I. (1988). Academic Staff Evaluation and Development. Queensland, Australia: University of Queensland Press. Moss, P.A. (1992). Shifting Conceptions of Validity in Educational Measurement: Implications for Performance Assessment. Review of Educational Research, 62, 229-258. Moss, P.A. (1996). Enlarging the Dialogue in Educational Measurement: Voices from Interpretive Research

124 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Traditions. Educational Researcher, 25(1), 20-28. Moss, P.A. (1998). The Consequences in Validity Theory. Educational Measurement: Issues and Practice, 17(2), 6-13. Murray, H.G., Rushton, J.P., y Paunonen, S. V. (1900). Teacher Personality Traits and Student Instructional Ratings in Six Types of University Courses. Journal of Educational Psychology, 82(2), 250. Neal, J. E. (1988). Faculty Evaluation: Its Purposes and Effectiveness (Report No. ED-RI-88-062014). Washington, DC: ERIC Clearinghouse on Higher Education. (ERIC Document Reproduction Service No. ED 308 800) Newman, Y. y Newman, L. (1983). Characteristics of Academic Areas and Students’ Evaluation of Instruction. Research in Higher Education, 19, 3, 323-334. Nyquist, J. D. y Staton-Spicer, A. Q. (1987). Non-traditional Intervention Strategies for Improving the Teaching Effectiveness of Graduate Assistants, en: J. Kurfiss, To Improve the Academy: Resources for Student, Faculty, and Institutional Development (pp. 168183). Stillwater, OK: New Forum Press. Ory, J. (1998). Teaching Evaluation: Past, Present and Future. Documento presentado en The Annual Meeting of the American Educational Research Association, San Diego CA., April. Ory, J. C., Braskamp, L. A. y Pieper, D. (1980) The Congruency of Student Evaluative Information Collected by Three Methods. Journal of Educational Psychology, 72, 181-185. Ory, J. y Ryan, K. (2001). How do Student Ratings Mea-

125

sure up to a New Validity Framework? New Directions in Institutional Research, 109, Jossey-Bass Inc., Publishers, San Francisco: CA. Ory, J. y Wieties (1991). A Longitudinal Study of Faculty Selection of ICES Student Evaluation Items. Documento presentado en The annual meeting of the American Educational Research Association, Chicago, April. O’Toole, J., Van Alstyne, W. W. y Chait, R. (1979). Three Views: Tenure. New Rochelle, NY: Change Magazine Press. Overall, J. U. y Marsh (1979). Students’ Evaluations of Instruction: A Longitudinal Study of their Stability. Journal of Educational Psychology, 72, 321-325. Patton, M. Q. (1980). Qualitative Evaluation Methods. Beverly Hills, Sage Publications. Player, M. A., Shoben, E. W., y Liebowitz, R. L. (1995). Employment Discrimination Law: Cases and Materials, St. Paul: MN: West Publishing Co. Powell, S. (1987). Faculty Development Needs as a Function of Status in the Academic Guild, en: J. Kurfiss, To Improve the Academy: Resources for Student, Faculty, and Institutional Development (pp. 33-40). Stillwater, OK: New Forum Press. Reckase, M.D. (1998). Consequential Validity from the Test Developer’s Perspective. Educational Measurement: Issues and Practice, 17(2), 13-16. Rosenshine, B. (1987). Explicit Teaching, en: D.C. Berliner, y B. Rosenshine (Eds.), Talk to Teachers: A Festschrift for N. L. Gage (pp. 75-92), New York: Random House. Roush, D. C. (1983). Strategies for Effective University Teaching. Materials for Teaching-Methodology Workshops

126 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

of the Fullbright Exchange Program. (Recuperado de The Latin American Scholarship Program for American Universities, 25 Mt. Auburn Street, Cambridge, MA 02138-6095). Rueda, M., Luna, E. García Cabrero, B. y Loredo, J. (2010). La evaluación de la docencia en las universidades públicas mexicanas: un diagnóstico para su comprensión y mejora, en: Revista Iberoamericana de Evaluación Educativa, 3 (1e). Recuperado de http://www.rinace. net/riee/numeros/vol3-num1_e/art6.html Ryan, K. y Johnson, T. (1998). Democratizing Evaluation: Meanngs and Methods from Practice. Documento presentado en The Annual Meeting of the American Evaluation Association, Chicago, IL, November. Scriven, M. (1991). Evaluation Thesaurus. 4th, Sage Publications, Newburry Park: CA. Scriven, M. (1993). The Validity of Student Ratings: In Teacher Evaluation. Evaluation y Development Group. Scriven, M. (1994). A Unified Theory Approach to Teacher Evaluation. Studies in Educational Evaluation, 21, 111-129. Seldin, M. (1997). The Teaching Portfolio: A Practical Guide to Improved Performance and Promotion/Tenure Decisions. (2nd. Ed). Bolton, MA: Anker Publishing. Seldin, P. (1993). How Colleges Evaluate Professors 1983 versus 1993. AAHE Bulletin, 6-8, 12. Seldin, P. (1984). Changing Practices in Faculty Evaluation. San Francisco: CA, Jossey-Bass. Shapiro, B. J. (1983). Probability and Certainty in Seventeenth-Century England: A Study of the Relationships

127

between Natural Science, Religion, History, Law and Literature. Princeton, NJ.: Princeton University Press. Shepard, L. Evaluating Test Validity. Review of Educational Research, 19, 405-450. Shingles, R. D. (1977). Faculty Ratings: Procedures for Interpreting Student Evaluations. American Educational Research Journal, 14, 4, 459-70. Shulman, L. S. (1986). Paradigms and research programs in the study of teaching: A contemporary perspective, en: M. C. Wittrock. (Ed.). Handbook of research on teaching. American Educational Research Association, New York: NY. Stake, R. E. (1995). The Art of Case Study Research. Sage Publications, Thousand Oaks: CA. Stake, R. E. (1996). Validity. CIRCE Publications. University of Illinois at Urbana-Champaign. http://www. ed.uiuc.edu/CIRCE/Publications/Validity Stake, R. E. (1999). Representing Quality in Evaluation. Documento presentado en The Meeting of the American Educational Research Association. Montreal, Canada, April. Stake, R. E. y Cisneros-Cohernour, E. J. (2000). Situational Evaluation of Teaching on Campus. New Directions for Teaching and Learning. Jossey-Bass Inc., Publishers, San Francisco: CA. Statham, A., Richardson, L. y Cook, J. A. (1991). Gender and University Teaching: A Negotiated Difference. Albany, NY: State University of New York Press. Tagamory, H. T. y Bishop, L. A. (1995). Student Evaluations of Teaching: Flaws in the Instruments, Thought y Action, 11, 63-78.

128 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Theall, M. (1997). On Drawing Reasonable Conclusions about Student Ratings of Instruction: A Reply to Haskell and to Stake. Education Policy Analysis Archives. 5, http://olam.ed.asu.edu/epaa/v5n8c2.html Turner, J. L. y Boice, R. (1987). Starting at the Beginning: The Concerns and Needs of New Faculty, en: J. Kurfiss, To Improve the Academy: Resources for Student, Faculty and Institutional Development (p. 41-55). Stillwater, OK: New Forum Press. Washton, N. S. (1988). Developing a Faculty Checklist for Self-evaluation for Teaching Effectiveness. Documento presentado en The Meeting of the Professional and Organizational Development Network in Higher Education, Keystone, CO. Wergin, J. F., Smith, A. y Rolle, G.E. (1980, April). An Empirical Analysis of Faculty Evaluation Strategies: Implications for Organizational Change. Documento presentado en The Meeting of the American Educational Research Association, Boston, MA. Whitman, N. y Weiss, E. (1982). Faculty Evaluation: The Use of Explicit Criteria for Promotion, Retention and Tenure (Higher Education Report No. 2). Washington, DC: AAHE-ERIC. Whooley, J. E. (1990). Tenured Faculty Practices that Do/ Could Enhance the Teaching Effectiveness of Non-tenured Faculty. Documento presentado en The Annual Conference of the National Council of States on Inservice Education, Orlando, FL. Wicks, S. (1992). Peer Review and Quality Control in Higher Education. British Journal of Educational Studies, 40, 57-69. Wigington, H.; Tollefson, N., y Rodriguez, E. (1989). Stu-

129

dents’ Ratings of Instructors Revisited: Interactions Among Class and Instructor Variables. Research in Higher Education, 30(3), 331-44. Wilson, R. C. (1990). Commentary: The Evaluation of a Faculty Developer. Journal of Educational Psychology, 82, 272-274. Wilson, R. (2001). It’s 10 a.m. Do you Know Where your Professors are? Faculty Members at Boston U. Fume Over Plan to Require them to be in their Offices at least 4 Days a Week. The Chronicle of Higher Education, section: The Faculty, p. A10 - A12, February 2. Yen, W.M. (1998). Investigating the Consequential Aspects of Validity: Who is Responsible and What Should they do? Educational Measurement: Issues and Practice, 17(2), 5-6. Youmons, R. J. y Lee, B. D. (2007). Fudging the Numbers: Distributing Chocolate Influences Student Evaluations of an Undergraduate Course”, Teaching of Psychology. 34, (4), 245-247.

130 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

Acerca de la autora Edith J. Cisneros-Cohernour es Doctora en Ciencias (Ph.D.) en las especialidades de Administración, Educación Superior y Evaluación por la Universidad de Illinois en UrbanaChampaign. También tiene una Licenciatura en Derecho, una Especialización en Docencia, y una Maestría en Educación Superior en las especialidades de Planeación y Tecnología Educativas por la Universidad Autónoma de Yucatán. Desde 1984 se ha desempeñado como profesora en las facultades de Derecho y Educación de la Universidad Autónoma de Yucatán en los niveles de licenciatura y posgrado; ha participado en diversos comités académicos, y realizado investigación educativa en sus áreas de especialidad. Entre 1994 y 2001 también trabajó en docencia, investigación y evaluación educativas para el College of Education, la National Transition Alliance for Youth with Disabilities y el Center for Instructional Research and Curriculum Evaluation de la University of Illinois at Urbana-Champaign. Actualmente es la Coordinadora de Investigación de la Facultad de Educación de la UADY y del Doctorado Investigación Educativa para el Desarrollo del Currículo y de las Organizaciones Escolares, por parte de la UADY. Las investigaciones de Cisneros-Cohernour se centran en el área de mejoramiento de la calidad de educación en las organizaciones educativas, especialmente en las áreas de desarrollo profesional y organizacional y evaluación educativa. Sus intereses primordiales se enfocan en la evaluación y el desarrollo profesional de profesores, investigadores y administradores, el aprendizaje organizacional, la evaluación de programas y los aspectos éticos en evaluación e investigación. Asimismo, tiene un fuerte interés en la me-

131

todología de la investigación cualitativa, la teoría de evaluación de programas, y el estudio de la enseñanza efectiva para estudiantes de diversa herencia étnica y cultural. Además de la Beca Fulbright (1993-1996), CisnerosCohernour fue seleccionada como Bagley Scholar por la University of Illinois at Urbana-Champaign (1995-1996; 1996-1997) del University Council of Educational Administrators (2001), y de la Asociación Americana de Investigación Educativa (2001). Asimismo, ha recibido becas de investigación de LASPAU -- Academic Programs for the Americas, afiliado a Harvard University (1996), de la Tinker Foundation y del Center of Latin American and Caribbean Studies at the University of Illinois (1997). Ha recibido también Becas al Desempeño del Personal Académico desde 1992 a la presente fecha. La Dra. Cisneros es miembro del Sistema Nacional de Investigadores (SNI-II. Entre sus principales publicaciones se encuentran: Situational Evaluation of Teaching (2000), co-authored with Robert E. Stake; The Quality of Teaching in Higher Education (2004) con Robert E. Stake; Validity and Evaluations of Teaching in Higher Education Institutions under Positivistic Paradigm (2005), Academic Freedom, Tenure, and Student Evaluations of Faculty: Galloping Polls in the 21st Century: A response to Haskell and Critics. (2005); La evaluación de la docencia en educación superior: de evaluaciones basadas en opiniones de estudiantes a modelos por competencias. Reflexiones sobre el caso mexicano con Robert Stake (2010), Los sistemas de estímulos académicos y la evaluación de la docencia: experiencia de dos universidades con Roger M. Patrón (2014) y Validez sustantiva de las evaluaciones basadas en opiniones de estudiantes (2014).

132 |

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD

VALIDEZ Y SIGNIFICADOS DE LA BUENA DOCENCIA EN LA UNIVERSIDAD se terminó de imprimir en junio de 2015 Tiraje: 100 ejemplares

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.