Fortalezas y debilidades de las pruebas estandarizadas como mecanismos inclusivos de admisión a la educación superior

Share Embed


Descripción

¿Qué es una prueba estandarizada?
Una evaluación con al menos un aspecto - su contenido o administración – que es el mismo para todos quienes la rinden
¿Cuál es la principal ventaja de las pruebas estandarizadas?
¡Que es estandarizada!
alumnos que se aburren en la educación media, pero que estudian lo que les interesa por su cuenta
alumnos desadaptados a la cultura de la escuela secundaria, pero que pueden adaptarse bien a la cultura universitaria
alumnos de alta capacidad perjudicados por haber asistido a escuelas de mala calidad
Las pruebas de aptitud para el acceso a la universidad
Las pruebas de aptitud, bien construidas, pueden identificar:
Pruebas no-cognitivas - Historia
( miden actitudes, preferencias, comportamientos y circunstancias de vida )
En realidad, más una encuesta que una prueba.

Utilizado por las organizaciones empresariales para predecir el "ajuste" entre un solicitante de empleo y la cultura de la organización
Pruebas no-cognitivas

Se desarrollan a través de cuestionarios, entrevistas personales.
El contenido es personal,
no requiere de estudio

Involucra más sentimientos que conocimientos

Aborda comportamientos y circunstancias de vida.
Pruebas no-cognitivas en general
Distintos tipos: pruebas de integridad, exploración de carrera, búsqueda de pareja, evaluación de fortalezas y debilidades para ambientes particulares (ej. universidades, empleo en ciertas carreras, programas militares)

Validado por validez predictiva, tasas de éxito en actividades futuras.

Muy fácilmente falseables - "fingir" puede ser fácil; postulantes pueden simular ser honestos y trabajadores, incluso si no lo son.
Las pruebas no-cognitiva para el acceso a la universidad
Muchos factores no cognitivos son aplicables para predecir el éxito universitario: por ejemplo, la perseverancia, la confianza, la ambición, la curiosidad, la estabilidad familiar, la estabilidad laboral.

Pruebas no cognitivas se validan a través de la correlación con los resultados futuros, tales como la permanencia en la universidad

Al ser fácilmente falsificables, las pruebas no cognitivas se administran normalmente después de la admisión a la universidad: sus resultados son usados para brindar apoyo estudiantil y no con fines de selección
Más información suele ser mejor

Si la universidad fuera igual que la enseñanza media, las notas de la enseñanza media y una prueba de contenidos bastarían para fines de admisión
Pero la universidad no sólo es más desafiante académicamente que la enseñanza media, también es muy diferente en otros aspectos...
… tiene una más amplia variedad de estudiantes y profesores

… está más lejos de casa, requiere mayor tiempo de desplazamiento

… tiene profesores que además de enseñar hacen investigación

… tiene menos estructura, lo que requiere de más organización por parte de los alumnos

… tiene menos supervisión, requiere de más iniciativa de los estudiantes

… demanda un menor número de horas de clase, pero requiere de más horas de estudio personal

… el (la) estudiante elige lo que estudia (estudio focalizado), entre otros.
¿Cómo es diferente la universidad?
Las pruebas de aptitud para el acceso a la universidad – Historia
Década de 1930
El presidente de la U. de Harvard,
J. Conant …

Quería una nueva prueba de admisión para identificar alumnos de las clase socio-económica baja con potencial para tener éxito en Harvard : "diamantes en bruto"

Alentó al desarrollo de la primera Scholastic Aptitude Test (SAT)
Las pruebas de aptitud para el acceso a la universidad
¿Como son validadas?
Validez predictiva: correlación con actividad futura
(ej. rendimiento universitario).

Poco énfasis en contenidos:
- Contenido utilizado es básico, amplio, comúnmente conocido por todos
- Prueba mide lo que los estudiantes son capaces de hacer con los contenidos

No puede ser fácilmente entrenado:
- Dominio del contenido es de conocimiento común: demasiado amplio como para ser foco de estudio
Pruebas de aptitud, en general
Objetivo: predecir cuánto puede ser aprendido

Desarrolladas: mediante el análisis de las habilidades necesarias para llevar a cabo ciertas tareas, ampliamente utilizado en la industria

Empleadas para identificar estudiantes talentosos o alumnos con necesidades especiales

También se llaman pruebas de razonamiento

Los pruebas de inteligencia son un tipo de pruebas de aptitud y utilizan la escala desarrollada originalmente por Binet y Simon
¿Cuál es la principal desventaja de las pruebas estandarizadas?
¡Que es estandarizada!
Hay tres tipos de pruebas estandarizadas utilizadas en el contexto del ingreso a la universidad
Contenidos
Aptitud
No cognitiva
Pruebas de contenidos - Historia
J.M. Rice
– analizó sistemáticamente la estructura y efectos de las pruebas

E.L. Thorndike
– desarrolló escalas de puntuación

Al comienzo, eran versiones más extensas de pruebas escolares

~ 1900 – pruebas "científicas" de rendimiento
(Alemania y EE.UU.)
Pruebas de contenido en general
Objetivo: medir el dominio de los contenidos o habilidades

Desarrolladas: sobre la base del currículum (alineación curricular)


Mayoría de las pruebas en el aula (desarrolladas por docentes) son de contenido




Pruebas de contenido para el acceso a la universidad
¿Cómo se validan?

Por su alineación con el currículo de la escuela secundaria

Correlación con otras medidas, como las notas de educación media y ranking

Asume que todos tienen la misma oportunidad de aprender contenidos equidad

Son, en alguna medida, entrenables - dominio de contenido se conoce de antemano
Pruebas de Aptitud
- Historia
Niños en edad preescolar con discapacidad mental

Imposible evaluarlos a través de pruebas de contenido
Buscó desarrollar pruebas de capacidades mentales libres de contenido : asociación, atención, memoria, habilidades motoras, razonamiento
A. Binet y T. Simon

1890s (Francia)
Pruebas de Aptitud - Historia
1917

Adaptadas por el Ejército de Estados Unidos para seleccionar y asignar soldados en la Primera Guerra Mundial

Estados Unidos entró en la guerra tarde, Paris estaba bajo amenaza, y necesitaba movilizar tropas muy rápidamente


Para fines de admisión hay que maximizar la información disponible con el fin de mejorar el calce entre el alumno y la institución
Tres medidas son
importantes:

1. Validez predictiva
2. Diferencias entre grupos
3. Cobertura de contenidos
Validez predictiva
Mide si las puntuaciones en una prueba de admisión se correlacionan con los resultados en la universidad
(por ejemplo, buenas calificaciones en los cursos, graduación oportuna)

Mide la cantidad de información única que provee una prueba de admisión, más allá de la información disponible a partir de otras medidas.
Validez predictiva incremental
Los valores de validez predictiva
van desde -1,0 a +1,0
-1,0 representa la más alta correlación negativa posible

0 representa ausencia total de correlación

+1.0 representa la mayor correlación positiva posible


La correlación se puede representar gráficamente
con un diagrama de dispersión
SOURCE: OECD (2011a), Education at a Glance 2011: OECD Indicators, OECD, Paris
34
Cobertura de Contenidos
(valores entre 0% y 100%)
La cobertura completa del plan de estudios de la educación media es más importante en asignaturas como las matemáticas o la música donde los conocimientos son acumulativos. Importa mucho menos en las asignaturas que se inician en el ámbito universitario, como la arquitectura, la medicina o la educación.


35
Cobertura de Contenidos

Cuestión de la equidad
No es justo esperar que los estudiantes dominen contenidos a los cuales no han estado expuestos ... o comparar estudiantes que han estado expuestos al contenido con otros que no lo han estado
¿Cuánto del contenido de una prueba se ha cubierto en la enseñanza media?
La oportunidad de aprender es un requisito de equidad, particularmente en países en que el retorno de la inversión en educación superior es alto
Los retornos a la inversión en la educación superior en Chile es, proporcionalmente, el más alto entre los 35 países de la OCDE.

Los beneficios para la sociedad de más graduados universitarios es alto – p.ej. en un pueblo rural tener un médico por primera vez.

Los beneficios para los graduados universitarios como individuos es aún mayor: reciben salarios mucho más altos que los menos educados.
Retorno de la inversión la educación superior
SOURCE: Education at a Glance 2014: OECD Indicators, OECD, Paris
Es mayor en Chile que en otros 35 países de la OCDE.

Dos posibles soluciones:

Matricular a más estudiantes

Aumentar la eficiencia de la búsqueda y calce de estudiantes e instituciones de educación superior, lo que aumenta la eficiencia del proceso de enseñanza- aprendizaje, y aumenta la retención.

¿Cómo? ¡Maximizando la validez predictiva!
La necesidad de más graduados de la educación superior
Media de puntuación de PSU Matemática por tipo de escuela secundaria, 2001-2010
12/18/15
Diferencias entre subgrupos
Las diferencias en las puntuaciones entre los subgrupos de población (por ejemplo, género, etnia y tipo de escuela) deben responder sólo a diferencias en aquello que la prueba debe medir y no a factores ajenos (sesgos sistemáticos) debidos a la pertenencia a un grupo específico
Correlación positiva:
De la población de parejas casadas: la edad de la mujer y la edad del marido
coeficiente de correlación,

r = + 0,97
+ 1,0
Más ejemplos de diagramas de dispersión y coeficiente de correlación:
+ 0,85
- 0,50
+ 0,15
Validez Predictiva
de accesso a la universidad
Mide cuán bien los puntajes en las pruebas de admisión predicen mejores resultados en la universidad (por ejemplo, notas graduación)
Una prueba con baja validez predictiva provee poca información
Validez predictiva: SAT y PSU
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013;
SAT data from College Board.
Validez predictiva: SAT y PSU
(Carrera: Administración)
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013;
SAT data from College Board.
Validez predictiva: SAT y PSU
(Carrera: Arquitectura)
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013;
SAT data from College Board.
Validez predictiva: SAT y PSU
(Carrera: Educación)
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013
16 de diciembre de 2015
Pontificia Universidad Católica de Chile,
Santiago

Programa Talento y Inclusión
Richard P. Phelps
Fortalezas y debilidades de las pruebas estandarizadas como mecanismos inclusivos de admisión
a la educación superior
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
12/18/15

#
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
12/18/15

#
Non-cognitive tests

Administered using: questionnaires, personal interviews

Content is personal, not learned
More about feelings than knowledge.
Assesses behaviors and life circumstances.

15
Third type of test: Non-cognitive tests - History

Measure attitudes, preferences, behaviors, and life circumstances at home and work environments

Really, more a survey than a test. Frequently used by business organizations to predict the "fit" between a job applicant and the culture of the organization
14
Aptitude tests in the context of university entry

Well constructed aptitude tests can identify, for example:
bright students who were bored in secondary school but studied what interested them on their own
students not well adapted to high school culture, but may adapt well to university culture
students of high ability held back by poor quality schools

[ picture of diamond in the rrough ]
13
Aptitude tests for university entry - History

1930s – Harvard University president J. Conant
Disliked content tests that penalized students from lower SES who had less access to quality education
Wanted new admission test to identify students from lower socio-economic classes with potential to succeed at Harvard – "diamonds in the rough"
Encouraged the development of the first Scholastic Aptitude Test (SAT), adaptation of the U.S. Army test
[ picture of James Conant on cover of most popular news magazine of the era – no moustache ]
12
Aptitude tests in the context of university entry

How validated: predictive validity, correlation with future activity (e.g., university grades)
Fairly content independent which means it places little emphasis on content knowledge
… content used is basic, broad, commonly known by all
… test measures what student does with the content provided
Not easily coachable
…content domain is common knowledge, too broad a domain for focused study
11
Aptitude tests in general use

Purpose: to predict how much can be learned
Developed by: first analyzing in detail the skills needed to succeed in a job; widely used in industry
Also used to identify talented students or students with special needs
Aptitude tests are also called reasoning or readiness tests
Intelligence tests are a type of aptitude test, still using the scale originally developed by Binet and Simon

10
Aptitude tests - History

1917 – Adapted by U.S. Army to select, assign soldiers in First World War

United States entered the war late, Paris was under threat, and needed to mobilize very quickly

[picture is a recruitment poster for the war]
9
Non-cognitive tests in general use

Different Types of non-cognitive tests: integrity tests, career exploration, matchmaking, assessment of strengths and weaknesses for particular environments (e.g., education programs, employment in certain careers, military programs.)

How are they validated? Predictive validity, success rates in future activities.

Very coachable - "faking" can be easy; job applicants pretend to be honest and hard-working even if they are neither.
16
Non-cognitive tests in the context of university entry

Many non-cognitive factors are applicable to predicting university success: e.g., perseverance, confidence, ambition, curiosity, family stability, job stability.
Non-cognitive test validated by correlation with future outcomes, such as staying in school.

Due to fakery problem, non-cognitive tests are normally administered after admission to university and used to help student services office advisors advise students. They are not usually used to make selection decisions.
17
More information is usually better

If university were just like secondary school, perhaps high-school grades and a retrospective content test would suffice for admission purposes.

But, university is not just more challenging academically, it is very different from secondary school in other respects, too. For example:
18
More scatterplot and correlation coefficient examples

Upper left – perfect correlation – two factors completely define each other
Upper right – a negative relationship – when one factor increases, the other decreases – 0.50 mid way between perfect correlation and no correlation

Lower left – another strong positive relationship
Lower right – very weak positive relationship, almost zero
24
An example of a scatterplot showing a strong positive relationship:

Data come from a population of married couples: plots wife's age against husband's age

correlation coefficient, r = +0.97


23
Predictive validity values range from -1.0 to +1.0

-1.0 represents the highest possible negative correlation
0 represents no correlation at all
+1.0 represents the highest possible positive correlation

correlation is graphically represented with a scatterplot
22
Predictive validity

Measures how well scores on an admission test correlates with desirable outcomes at university (e.g., good grades in courses, timely graduation)

Incremental predictive validity

Measures how much unique information an admission test provides, beyond what is available from other measures.
21
Click to edit Master title style
Click to edit Master subtitle style
12/18/15

#
Typically, for example, university…
Is larger, with a wider variety of students and teachers
Is farther from home, may require long commute
Has teachers who do research as well as teach
Has less structure, requiring more student organization and self-discipline
Has less oversight, requiring more student initiative
Has fewer hours in class, but more hours of studying
Has content chosen by student and more focused, among others
…and you can probably think of other ways university is different than high school
19
Second type of test: Aptitude tests – History

1890s – A. Binet & T. Simon (France)
Pre-school children with mental disabilities
- achievement test not possible
- developed content-free test of mental abilities
(association, attention, memory, motor skills, reasoning) [picture of Monsieur Binet – larger moustache, stylish glasses]
8
Achievement tests in the context of university entry

How validated: through alignment with secondary school curriculum
Correlated with other measures, such as high school grades and rank
Fairness assumes that all students have had the same opportunity to learn content
Coachable – somewhat, content domain is known in advance
7
Achievement tests in general use

Purpose: to measure mastery of content and skills
Developed using: using the curriculum as the basis for test development. A key issue is alignment of the content of the test with the content of the curriculum
Almost all teacher-made classroom tests are achievement tests [picture of another man with a nice moustache]
6
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
12/18/15

#
12/18/15

#
Click to edit Master title style
12/18/15

#
Click to edit Master title style
Click to edit Master text styles
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
12/18/15

#
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
12/18/15

#
Click to edit Master title style
Click to edit Master text styles
12/18/15

#
Click to edit Master title style

Click to edit Master text styles
12/18/15

#
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
12/18/15

#
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
12/18/15

#
First type of test: Achievement Tests - History

In the beginning, achievement tests were simply larger versions of classroom tests
~ 1900 – modern "scientific" achievement tests developed in Germany & USA
J.M. Rice - systematically analyzed test structures & effects of testing
E.L. Thorndike - developed scoring scales
Both were from the United States, but studied in Germany. [picture of Edward Thorndike –nice moustache]
5
Three types of standardized tests used in the context of university entry

Achievement
Aptitude
Non-cognitive

4
What is the key disadvantage of standardized testing?

It is standardized. While tests can be standardized, test-takers cannot be, and everyone's situation is different.
3
Q. What is a standardized test?
A. An assessment with at least one aspect – in its content or administration – is the same across groups.

Q. What is the key advantage of standardized testing?
A. It is standardized. Non-standardized measures, such as teacher grades, are more volatile, unreliable, and subjective.
2
I will speak in English, but most slides are in Spanish.

Strengths and weaknesses of standardized tests as inclusive mechanisms for admission to higher education.
1
Click to edit Master title style
12/18/15

#
Predictive validity in the context of university entry

…measures how well higher scores on admission test match positive outcomes at university (e.g., grades, persistence, completion)
A test with low predictive validity provides a little information.

25
If more information is better, we should maximize the information available about a student at university entry, in order to make the best match between the student and the institution

Three measures are important to consider:
1. Predictive validity
2. Differences between groups
3. Content coverage
20
This chart comes from the most recent OECD annual education statistics publication. It is not yet available in Spanish.

In this chart, the vertical axis shows the proportion of each country's adult population with higher education.
The horizontal axis shows the average difference in income for adults with higher education compared to those with upper secondary education.

Chile is in the lower right. Relatively low in its higher education proportion, but the relative earnings premium of a higher education degree is the highest in the world. This suggests a shortage of higher education graduates in Chile.
37
This chart comes from the most recent OECD statistics annual.

High performing education systems combine equity with quality. The vertical axis represents each country's average PISA reading score. The horizontal axis represents socio-economic variation. Countries with the highest socio-economic variation are on the left; Countries with the least socio-economic variation are on the right. One can see a correlation – lower socio-economic variation is associated with higher scores. Chile can be found in the lower left quadrant—with higher socio-economic variation and lower scores.
33
Differences between subgroups

Differences in scores between population subgroups (e.g., gender, ethnicity, type of school) should respond only to the differences measured by the test construct and not to systematic biases due to subgroup membership.

30
This chart shows the earnings premium in a column chart. Chile is on the extreme right. Not only is the higher education earnings premium the highest in the world, the earnings premium of the highest degrees—masters, PhD, or equivalent—is twice that of a bachelor's degree. For Chile, it is, literally, off the chart.
38
Predictive validities: SAT and PSU in Architecture

28
Return on higher education investment

The returns to investment in higher education in Chile are proportionally the highest among 35 OECD countries.

Social benefits from more university graduates is high – consider rural village getting a medical doctor for the first time.

The benefits to individual graduates are even higher; they receive much higher salaries than the less-educated.

36
Content coverage - values between 0% and 100%

Thorough coverage of the secondary school curriculum matters more in highly accretive subjects, such as mathematics or music. It matters much less in subjects that start at the university level, such as architecture, medicine, or education.


34
Predictive validities: SAT and PSU in Education

29
Predictive validities: SAT and PSU in Administration
27
Average PSU Mathematics score by type of secondary school, 2001 to 2010

The green bars represent the average scores of private paid scientific-humanities students in the math test;
The yellow bars represent the municipal school scientific-humanities students and the red represent the technical-professional students.
Notice:
private school student scores have increased over time while municipal school student score have not; and
the scores of municipal scientific-humanities students have risen while those of technical-professional have fallen
12/18/15
32
The need for more graduates of higher education -- It is higher in Chile than in 35 other OECD countries.

Two possible solutions:
Enroll more students and hope they graduate.
Increase the efficiency of matching student to higher education institution, which increases the efficiency of the teaching-learning process, and raises retention.

How? Maximize predictive validity!

39
Predictive validities: SAT and PSU …from Pearson's 2013 evaluation of the PSU

In Language, Mathematics, Writing (only SAT), Social Science (only PSU)


26
Socio-economic background and PISA scores

PISA is the international test given by the OECD to 15-year olds; In this chart, the vertical axis represents PISA scores and the horizontal axis represents socio-economic status.
The average scores of Chile's students are shown for municipal, subsidized private, and paid private schools.
The municipal students score is at the lower left near the fitted line; the subsidized private score is one quarter of the distance up the line; the paid private score is found in the upper right, near the top of the line and above the OECD average PISA score and above average socio-economic
31
Content coverage - values between 0% and 100%

How much of the content of a test has been covered in secondary school?

It is not fair to expect students to have mastered content to which they have not been exposed ... or compare students who have been exposed to the content with others who have not.

Opportunity to learn is required for fairness. It is also needed for social efficiency in societies where the return on the investment in education is high, like in Chile
35

12/18/15

Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level

#








Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.