Está en la página 1de 8

Informe especializado para el Ministerio

de Economa y Finanzas
I.

MARCO GENERAL
La evaluacin nacional al egreso utiliz un modelo complejo. El anlisis a
realizar se basa en los indicadores generados de las escalas de evaluacin
implementada. Como se mencion estas escalas son construidas a partir de
lo que se denomina modelo de evaluacin de formas rotadas con bloques
incompletos. Esto quiere decir que no todos los bloques que se utilizan
para la evaluacin ocupan las diferentes posiciones dentro de los
cuadernillos de evaluacin, ya que en el anlisis del piloto se determin la
longitud de la prueba. Por lo tanto se puede recurrir a un modelo de
bloques incompletos sin esperar efectos en la evaluacin.
Los anlisis y reportes presentados son realizados con ayuda del software
estadstico especializado para la Medicin de Rasch Winsteps 1. Este
software se utiliz en conjunto con el software estadstico R 2 para todos los
anlisis y resultados presentados como producto de la consultora.
Ms adelante se presenta un conjunto de tablas, con informacin sobre los
evaluados y los tems para cada una de las reas. En estas tablas nos
centraremos en los indicadores de calidad especficos para el modelo de
medicin de Rasch. Algunos de los indicadores como se describe en las
mismas tablas no aplican debido al tipo de data que se utiliza para el
anlisis, se trata desde el punto de vista estadstico incompleta pero
suficiente, ya que todos los evaluados no enfrentaron la totalidad de los
tems de las escalas.
Los indicadores a revisar son el ndice de confiabilidad (reliability), tanto
para los evaluados como para la escala utilizada, y el ndice de separacin
(separation). Los valores que se espera son que el ndice de confiabilidad
supere el 0.7 y que el ndice de separacin sean mayor a 1.5, lo que quiere
decir que en todas las mediciones realizadas se podran replicar y obtener
valores similares, adems de la posibilidad de distinguir a los estudiantes
de alto desempeo de los de bajo desempeo

1
2

Sitio del software Winsteps: http://www.winsteps.com/index.htm


Sito del sotware R: http://www.r-project.org/

II.

ANALISIS DE LA CALIDAD DE LAS ESCALAS DE MEDICIN


DISEADAS
1. Comprensin de Textos - Indicadores de Validez de Rasch
Esta escala tiene indicadores dentro del rango de lo esperado para la
medicin de los estudiantes. Como se observa el indicador de confiabilidad
es de 0.75 y una separacin de 1.73. En las tablas se observa el indicador
anlogo al Alfa de Cronbach con un valor de 0.44, pero por la naturaleza de
la evaluacin y debido a que los evaluados no enfrentan el total de
preguntas este es muy impreciso, el software lo marca como una
aproximacin ya que es afectado por la data omitida.
INPUT: 404 PERSONS, 76 ITEMS MEASURED: 404 PERSONS, 73 ITEMS, 2 CATS
-------------------------------------------------------------------------------SUMMARY OF 403 MEASURED (NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
19.9
31.0
.83
.45
1.00
.0
.97
.0 |
| S.D.
4.9
.0
.91
.06
.19
.9
.44
.9 |
| MAX.
30.0
31.0
4.03
1.03
1.91
4.0
4.63
3.5 |
| MIN.
6.0
31.0
-2.09
.40
.46
-3.3
.29
-2.5 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.47 ADJ.SD
.78 SEPARATION 1.65 PERSON RELIABILITY .73 |
|MODEL RMSE
.46 ADJ.SD
.79 SEPARATION 1.73 PERSON RELIABILITY .75 |
| S.E. OF PERSON MEAN = .05
|
+-----------------------------------------------------------------------------+
MINIMUM EXTREME SCORE:
1 PERSONS
VALID RESPONSES: 42.5%
SUMMARY OF 404 MEASURED (EXTREME AND NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
19.9
31.0
.82
.46
|
| S.D.
4.9
.0
.96
.09
|
| MAX.
30.0
31.0
4.03
1.84
|
| MIN.
.0
31.0
-5.04
.40
|
|-----------------------------------------------------------------------------|
| REAL RMSE
.48 ADJ.SD
.83 SEPARATION 1.72 PERSON RELIABILITY .75 |
|MODEL RMSE
.47 ADJ.SD
.84 SEPARATION 1.80 PERSON RELIABILITY .76 |
| S.E. OF PERSON MEAN = .05
|
+-----------------------------------------------------------------------------+
PERSON RAW SCORE-TO-MEASURE CORRELATION = .98 (approximate due to missing data)
CRONBACH ALPHA (KR-20) PERSON RAW SCORE RELIABILITY = .44 (approximate due to missing
data)

Los indicadores para los tems si son muy altos, confiabilidad 0.97 y
separacin 5.52, por lo que se puede entender como ptimo el
3

funcionamiento de la escala y justificar la definicin de niveles a partir de la


distribucin de las dificultades de los tems.

SUMMARY OF 73 MEASURED (NON-EXTREME) ITEMS


+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
110.0
171.1
.00
.21
1.00
.1
.97
.1 |
| S.D.
49.9
48.2
1.22
.07
.09
1.2
.20
1.4 |
| MAX.
198.0
207.0
2.59
.51
1.24
3.1
1.38
3.3 |
| MIN.
28.0
96.0
-2.67
.15
.84
-2.9
.46
-2.5 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.22 ADJ.SD
1.20 SEPARATION 5.44 ITEM
RELIABILITY .97 |
|MODEL RMSE
.22 ADJ.SD
1.20 SEPARATION 5.52 ITEM
RELIABILITY .97 |
| S.E. OF ITEM MEAN = .14
|
+-----------------------------------------------------------------------------+
DELETED:
3 ITEMS
UMEAN=.000 USCALE=1.000
ITEM RAW SCORE-TO-MEASURE CORRELATION = -.72 (approximate due to missing data)

2. Alfabetizacin Matemtica
Esta escala tiene los mejores indicadores para la medicin de los
estudiantes. Como se observa el indicador de confiabilidad es de 0.76 y una
separacin de 1.79. Si no tomamos los valores extremos estos aumentan a
confiabilidad es de 0.77 y una separacin de 1.85.
INPUT: 401 PERSONS, 79 ITEMS MEASURED: 401 PERSONS, 73 ITEMS, 2 CATS
-------------------------------------------------------------------------------SUMMARY OF 397 MEASURED (NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
10.1
21.8
-.19
.52
1.00
.0
1.02
.0 |
| S.D.
4.3
.8
1.07
.08
.19
.9
.41
.9 |
| MAX.
22.0
23.0
3.38
1.09
2.06
2.8
4.06
3.0 |
| MIN.
1.0
21.0
-3.70
.45
.54
-2.5
.42
-2.4 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.54 ADJ.SD
.92 SEPARATION 1.69 PERSON RELIABILITY .74 |
|MODEL RMSE
.52 ADJ.SD
.93 SEPARATION 1.79 PERSON RELIABILITY .76 |
| S.E. OF PERSON MEAN = .05
|
+-----------------------------------------------------------------------------+
MINIMUM EXTREME SCORE:
4 PERSONS
VALID RESPONSES: 29.9%

SUMMARY OF 401 MEASURED (EXTREME AND NON-EXTREME) PERSONS


+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
10.0
21.8
-.23
.53
|
| S.D.
4.4
.8
1.16
.16
|
| MAX.
22.0
23.0
3.38
1.88
|
| MIN.
.0
21.0
-5.38
.45
|
|-----------------------------------------------------------------------------|
| REAL RMSE
.57 ADJ.SD
1.01 SEPARATION 1.76 PERSON RELIABILITY .76 |
|MODEL RMSE
.55 ADJ.SD
1.02 SEPARATION 1.85 PERSON RELIABILITY .77 |
| S.E. OF PERSON MEAN = .06
|
+-----------------------------------------------------------------------------+
PERSON RAW SCORE-TO-MEASURE CORRELATION = .96 (approximate due to missing data)
CRONBACH ALPHA (KR-20) PERSON RAW SCORE RELIABILITY = .16 (approximate due to missing
data)

Al igual que en caso anterior los indicadores para los tems son muy altos,
confiabilidad 0.94 y separacin 4.06, pero no tanto como los del rea de
comunicacin.
SUMMARY OF 73 MEASURED (NON-EXTREME) ITEMS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
55.2
118.5
.00
.23
1.00
-.1
1.03
.2 |
| S.D.
30.6
41.8
.99
.05
.13
1.4
.27
1.5 |
| MAX.
148.0
236.0
2.09
.41
1.33
4.2
1.83
4.4 |
| MIN.
10.0
77.0
-3.14
.14
.74
-2.9
.46
-2.3 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.24 ADJ.SD
.96 SEPARATION 3.95 ITEM
RELIABILITY .94 |
|MODEL RMSE
.24 ADJ.SD
.96 SEPARATION 4.06 ITEM
RELIABILITY .94 |
| S.E. OF ITEM MEAN = .12
|
+-----------------------------------------------------------------------------+
DELETED:
6 ITEMS
UMEAN=.000 USCALE=1.000
ITEM RAW SCORE-TO-MEASURE CORRELATION = -.72 (approximate due to missing data)

3. Desarrollo del Estudiante


La naturaleza de esta rea y la complejidad de la evaluacin llevan a que
los indicadores se encuentran debajo del esperado. No son deficientes pero
se pueden entender como regulares. El indicador de confiabilidad es del
0.67 y el de separacin es de 1.41. Los anlisis pedaggicos elaborados a
partir de la evaluacin ayudaran a entender este resultado con miras a
mejorar futuras evaluaciones.
INPUT: 403 PERSONS, 85 ITEMS MEASURED: 403 PERSONS, 82 ITEMS, 2 CATS
-------------------------------------------------------------------------------SUMMARY OF 403 MEASURED PERSONS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
16.9
30.7
.29
.43
1.00
.0
.99
.0 |
| S.D.
4.2
1.5
.74
.03
.18
1.0
.31
.9 |
| MAX.
28.0
33.0
2.32
.58
1.69
2.8
3.15
3.1 |
| MIN.
5.0
29.0
-2.04
.40
.62
-2.4
.43
-2.1 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.44 ADJ.SD
.59 SEPARATION 1.34 PERSON RELIABILITY .64 |
|MODEL RMSE
.43 ADJ.SD
.60 SEPARATION 1.41 PERSON RELIABILITY .67 |
| S.E. OF PERSON MEAN = .04
|
+-----------------------------------------------------------------------------+
VALID RESPONSES: 37.5%
PERSON RAW SCORE-TO-MEASURE CORRELATION = .98 (approximate due to missing data)
CRONBACH ALPHA (KR-20) PERSON RAW SCORE RELIABILITY = .07 (approximate due to missing
data)

Siguiendo con la tendencia los indicadores para los tems son muy altos,
confiabilidad 0.97 y separacin 5.36. La escala elaborada es slida y puede
entender el desempeo de los estudiantes en el rea.
SUMMARY OF 82 MEASURED ITEMS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
82.9
151.1
.00
.21
1.00
.1
.99
.0 |
| S.D.
43.5
50.5
1.16
.05
.07
1.0
.13
1.1 |
| MAX.
189.0
206.0
2.10
.40
1.18
3.6
1.29
3.2 |
| MIN.
16.0
96.0
-2.72
.15
.82
-2.6
.62
-2.4 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.21 ADJ.SD
1.14 SEPARATION 5.29 ITEM
RELIABILITY .97 |
|MODEL RMSE
.21 ADJ.SD
1.14 SEPARATION 5.36 ITEM
RELIABILITY .97 |
| S.E. OF ITEM MEAN = .13
|
+-----------------------------------------------------------------------------+
DELETED:
3 ITEMS
UMEAN=.000 USCALE=1.000
ITEM RAW SCORE-TO-MEASURE CORRELATION = -.73 (approximate due to missing data)

4. Enfoque pedaggico
Al igual que en el rea anterior esta es un rea compleja por la posible
diversidad de estragaras docentes para su enseanza, conjuntamente con
la complejidad de la evaluacin lleva a que los indicadores se encuentran
debajo del esperado. El indicador de confiabilidad es del 0.61 y el de
separacin es de 1.26. El rea presenta los indicadores ms bajos en este
sentido.
INPUT: 403 PERSONS, 75 ITEMS MEASURED: 403 PERSONS, 73 ITEMS, 2 CATS
3.57.2
-------------------------------------------------------------------------------SUMMARY OF 401 MEASURED (NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
15.8
27.0
.45
.46
1.00
.0
1.00
.0 |
| S.D.
3.6
.7
.74
.04
.19
1.0
.38
.9 |
| MAX.
25.0
28.0
3.09
.80
1.65
2.7
3.46
3.3 |
| MIN.
7.0
26.0
-1.62
.42
.54
-2.8
.39
-2.6 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.48 ADJ.SD
.57 SEPARATION 1.18 PERSON RELIABILITY .58 |
|MODEL RMSE
.46 ADJ.SD
.58 SEPARATION 1.26 PERSON RELIABILITY .61 |
| S.E. OF PERSON MEAN = .04
|
+-----------------------------------------------------------------------------+
MINIMUM EXTREME SCORE:
2 PERSONS
VALID RESPONSES: 37.0%
SUMMARY OF 403 MEASURED (EXTREME AND NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
15.8
27.0
.42
.47
|
| S.D.
3.8
.7
.84
.11
|
| MAX.
25.0
28.0
3.09
1.85
|
| MIN.
.0
26.0
-5.11
.42
|
|-----------------------------------------------------------------------------|
| REAL RMSE
.49 ADJ.SD
.67 SEPARATION 1.36 PERSON RELIABILITY .65 |
|MODEL RMSE
.48 ADJ.SD
.69 SEPARATION 1.43 PERSON RELIABILITY .67 |
| S.E. OF PERSON MEAN = .04
|
+-----------------------------------------------------------------------------+
PERSON RAW SCORE-TO-MEASURE CORRELATION = .95 (approximate due to missing data)
CRONBACH ALPHA (KR-20) PERSON RAW SCORE RELIABILITY = .00 (approximate due to missing
data)

Los indicadores para los tems tambin son muy altos, confiabilidad 0.97 y
separacin 5.36. La escala elaborada es slida y puede entender el
desempeo de los estudiantes en el rea.

SUMMARY OF 73 MEASURED (NON-EXTREME) ITEMS


+-----------------------------------------------------------------------------+
|
RAW
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
87.0
148.2
.00
.22
1.00
.0
1.00
.1 |
| S.D.
45.5
50.2
1.23
.07
.06
.9
.12
.9 |
| MAX.
191.0
205.0
3.04
.52
1.17
2.2
1.31
2.1 |
| MIN.
9.0
96.0
-3.04
.15
.86
-2.5
.72
-2.3 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.23 ADJ.SD
1.21 SEPARATION 5.31 ITEM
RELIABILITY .97 |
|MODEL RMSE
.23 ADJ.SD
1.21 SEPARATION 5.36 ITEM
RELIABILITY .97 |
| S.E. OF ITEM MEAN = .15
|
+-----------------------------------------------------------------------------+
DELETED:
2 ITEMS
UMEAN=.000 USCALE=1.000
ITEM RAW SCORE-TO-MEASURE CORRELATION = -.71 (approximate due to missing data)

III.

CONCLUSIN
En conclusin dos de las reas de evaluacin presentan indicadores dentro
de lo esperado en cuanto a la medicin de los estudiantes. Dos de ellas
deberan mejorarse para la medicin de los estudiantes, una forma
sugerida es introduciendo ms tems en la formas de aplicacin, es decir
que las pruebas de los evaluados sean ms largas.
Con respecto a las escalas, han funcionado correctamente, los tems que
finalmente las constituyeron son estables y describen el aprendizaje y el
desempeo de los estudiantes de manera adecuada.
Este primer esfuerzo por realizar evaluaciones estandarizadas siguiendo
mtodos de medicin rigurosos y modernos se puede considerar aceptable
y que es un buen inicio de un Sistema Nacional de Evaluacin de
Estudiantes de Institutos Pedaggicos Pblicos.

_________________________________
Alberto Manuel Torreblanca Villavicencio
DNI: 257070196
8

También podría gustarte