Está en la página 1de 6

BÚSQUEDA DE LA RELACIÓN ENTRE ÁREAS ICFES EN MATEMÁTICAS, FÍSICA, LENGUAJE Y

RENDIMIENTO EN MATEMÁTICAS I Y MATEMÁTICAS II A TRAVÉS DEL ANÁLISIS DE COMPONENTES


PRINCIPALES

RESUMEN PATRICIA CARVAJAL OLAYA


En este artículo se explora la relación existente entre los puntajes del ICFES [1] Estadística
en matemáticas, física y lenguaje obtenido por un grupo de candidatos a ingresar Magíster en Investigación Operativa
los programas de Ingeniería de la Universidad Tecnológica de Pereira,-UTP, con y Estadística
el rendimiento del mismo grupo (ya como estudiantes de la UTP) en los cursos Coordinadora de Unidad
de matemáticas I y II. Universidad Tecnológica de Pereira
El estudio fue realizado utilizando la técnica estadística multivariada conocida pacarva@utp.edu.co
como “Componentes Principales”. Se tomó información de la base de datos de
la Oficina de Registro y Control de la UTP. Para el análisis se utilizó el software ALVARO ANTONIO TREJOS
estadístico SPSS (Statistical Package for Social Sciences, versión 11.5). CARPINTERO
Estadístico,
Con la técnica utilizada se concluye que el resultado obtenido en las pruebas del Magíster en Investigación Operativa
ICFES (en matemáticas, física y lenguaje) por el grupo estudiado es y Estadística
independiente del resultado obtenido por el mismo grupo (ya como estudiantes Profesor Auxiliar
de la UTP) en los cursos de matemáticas I y II. Universidad Tecnológica de Pereira.
Este resultado sugiere, que los resultados de la pruebas del ICFES, no deberían alvarot@utp.edu.co
ser el único referente para ordenar (“rankear”) los candidatos a ingresar a los
programas de ingeniería de la UTP. JOSE SOTO MEJIA
PALABRAS CLAVES: Componentes Principales. Estadística Multiviariada Físico,
PhD
ABSTRACT Profesor Titular
Universidad Tecnológica de Pereira
In this article, we explore the mathematical relation between the grades jomejia@utp.edu.co
obtained in the ICFES[1] proof in mathematics, physics and language by a
group of candidates to enter to an engineering Program in the Technological
University of Pereira-UTP with the results obtained by the same group (already Grupo de investigación: “Estudio y
as UTP students) in Mathematics I and II courses. aplicación de herramientas
The analysis is carried out through the application of the multivariate statistical estadísticas modernas en la solución
technique known as Analysis of Principal Components. The data was obtained de problemas del entorno”.
from the UTP-Register and Control Office. In the data analysis was used the
SPSS Statistical Package, version 11.5.

Finally, as a result of the Principal Components Analysis, it is concluded that


the ICFES grades obtained by the studied group are independent of the results
obtained by the same group (already as UTP students) in the Mathematics I
and II courses. This result suggests that the ICFES test should not be the only
reference to rank the candidates to enter an engineering program in the UTP.

KEYWORDS: Principal Components Analysis, Multivariate Statistical Analysis

INTRODUCCIÓN ingenierías se pondera con 20% cada una de las


siguientes áreas: física, matemática y lenguaje. Se espera
Uno de los requisitos para ingresar a los programas que estudiantes admitidos con altos puntajes en las áreas
académicos de la Universidad Tecnológica de Pereira mencionadas tengan un rendimiento similar en sus cursos
(UTP) es la suma de las ponderaciones realizada sobre de matemáticas en la universidad, especialmente en el de
las puntuaciones que los aspirantes traen en las pruebas matemáticas I, por ser la asignatura que primero ven
de ICFES1 , según el reglamento estudiantil 2, para las cuando ingresan a la universidad y que debe estar muy
relacionada con los conocimientos que los estudiantes
1
ICFES: Instituto Colombiano de fomento para la Educación Superior, traen del bachillerato y que precisamente fueron
es quien se encarga de efectuar los Exámenes de Estado para el ingreso evaluados en las pruebas ICFES.
a la Educación Superior.
2
Reglamento estudiantil creado por Acuerdo del Consejo Superior de
diciembre de 2003.
Aun así, los estudiantes que ingresan a los programas de incorrelacionadas, facilitando así la interpretación de
ingeniería presentan un rendimiento muy disperso en las los datos.
asignaturas de matemáticas I y II que no corresponde a lo
que se esperaba según los resultados que traen del Así, si se dispone de los valores de p-variables en n
ICFES. elementos de una población, dispuestos en una matriz X
de dimensión nxp, donde las columnas son las variables
Así, en este trabajo, apoyados en la técnica estadística y las filas los elementos, representar puntos p dimensiona
multivariada (1,2,3) conocida como “Análisis de
Componentes Principales”, pretendemos establecer la 2.5
relación entre los puntajes en las áreas del ICFES en
matemáticas, física y lenguaje con el rendimiento en las 2
notas en matemáticas I y matemáticas II, en la UTP. * *
1 * * * *
Este trabajo descrito en este artículo, apoyado en el * * * * *
Análisis de Componentes Principales, esta enmarcado 0 x1
dentro de una investigación de mayor cobertura que *
estamos adelantando y que explora la conveniencia y -1 r1 z1
aplicación de varias técnicas estadísticas multivariadas
(Análisis Discriminante, Análisis de Correlación -2
Canónica y Análisis Cluster) en el análisis del
desempeño, en las asignaturas que son núcleo -2.5
fundamental de cada programa académico, de los -2.5 -2 -1 0 1 2 2.5
estudiantes que ingresan a los programas académicos de
la UTP con base en los resultados de las pruebas del Figura 1. Recta que minimiza distancias ortogonales de los
ICFES. puntos a ella.

les con la mínima pérdida de información en un espacio


2. COMPONENTES PRINCIPALES [2] de dimensión uno es equivalente a sustituir las p
variables originales por una nueva variable, z 1, que
Un problema clave en el análisis de datos multivariados resuma óptimamente la información. Esto supone que la
es la reducción de la dimensión de los mismos: si es nueva variable debe tener globalmente máxima
posible describir con precisión los valores de p variables correlación con las originales o, en otros términos, debe
por un pequeño subconjunto r<p de ellas, se habrá permitir prever las variables originales con la máxima
reducido la dimensión del problema a costa de una precisión. Esto no será posible si la variable nueva toma
pequeña perdida de información. un valor semejante en todos los elementos. En la figura 1,
se observa que la variable escalar obtenida al proyectar
El análisis de componentes principales tiene este los puntos sobre la recta Z1, sirve para prever bien el
objetivo: dadas n observaciones de p variables, se analiza conjunto de datos. La recta indicada en la figura 1, no es
si es posible representar adecuadamente esta información la línea de regresión de ninguna de las variables con
con un número menor de nuevas variables construidas respecto a la otra, que se obtiene minimizando las
estas, como combinaciones lineales de las originales. Por distancias verticales u horizontales, sino que al minimizar
ejemplo, si se tiene un grupo de variables altamente las distancias ortogonales o de proyección se encuentra
dependientes es frecuente que con un número pequeño de entre ambas rectas de regresión.
nuevas variables (menos del 20% de las originales)
expliquen la mayor parte (más del 80%) de la Este enfoque puede ser extendido para obtener el mejor
variabilidad original. subespacio resumen de los datos de dimensión 2. Para
ello se calcula el plano que mejor aproxima los puntos. El
La utilidad del análisis de componentes principales es problema se reduce a encontrar una nueva dirección
doble porque: definida por un vector unitario, a2, que sin pérdida de
generalidad, puede tomarse ortogonal a a 1, y que
a) Permite representar óptimamente en un espacio de verifique la condición de que la proyección de un punto
dimensión pequeña, observaciones de un espacio sobre este eje maximice las distancias entre los puntos
general p-dimensional. En este sentido componentes proyectados. Estadísticamente esto equivale a encontrar
principales es el primer paso para identificar posibles una segunda variable z2, incorrelacionada con la anterior,
variables escondidas o no observadas, que están z1 y que tenga varianza máxima. En general la
generando la variabilidad de los datos. componente zr(r<p) tendrá varianza máxima entre todas
b) Permite transformar las variables originales, (en las combinaciones lineales de las p variables X
general correlacionadas), en nuevas variables
originales, con la condición de estar incorrelacionada con 2.2. Cálculo del segundo componente
las z1, … , z r-1 previamente obtenidas
Se obtendrá el mejor plano de proyección (mejor
A continuación se describe la forma de hallar las subespacio resumen de los datos de dimensión 2) de las
componentes principales en un conjunto de variables: variables X originales. El cálculo se realiza estableciendo
como función objetivo que la suma de las varianzas de
2.1. Cálculo del primer componente z1=Xa1 y z2=Xa1 sea máxima, donde a1 y a2 son los
vectores que definen el plano. La función objetivo será:
El primer componente será la combinación lineal de las
variables originales Xi que tengan varianza máxima. Los   a1 Sa1  a 2 Sa 2  1 (a1 a1  1)   2 (a 2 a 2  1)
valores de este primer componente en n individuos se
(7)
representarán por un vector z1, dado por:
Esta función objetivo incorpora las restricciones de que
Z1= Xa1 (1)
las direcciones deben tener módulo unitario (a'iai)=1,
i=1,2. Para maximizar derivamos e igualamos a cero,
Si las variables originales tienen media cero también z 1
así:
tendrá media 0. Su varianza será:

Var ( z1 ) 
1 1
z1 z1  a1 X Xa1  a1 Sa1
 2 Sa1  21 a1  0 (8)
n n a1
(2)

 2Sa 2  2 2 a 2  0
Donde S es la matriz de varianzas y covarianzas de las a 2
observaciones. La varianza se puede aumentar sin límite
(9)
aumentando el módulo del vector a1. Para que la
maximización de (2) tenga solución se debe colocar una
La solución de este sistema es:
restricción al módulo del vector a 1, y sin perdida de
generalidad, se asume que a'1a1=1. Esta restricción se
introduce mediante el multiplicador de Lagrange:
Sa1  1 a1 (10)
Sa 2   2 a 2 (11)
M  a1 Sa1   (a1 a1  1) Las expresiones (10) y (11 indican que a1 y a2 deben ser
(3) vectores propios de S. Tomando los vectores propios de
norma uno y sustituyendo en (7), se obtiene que, en el
Maximizando esta expresión de la forma habitual máximo, la función objetivo es:
derivando respecto a los componentes de a1 e igualando a   1   2 (12)
cero. Entonces:
M Es claro que λ1 y λ2 deben ser los dos autovalores (valores
 2 Sa1  2a1  0 propios) mayores de la matriz S y a1 y a2 sus
a1
correspondientes autovectores (vectores propios). Y z1 y
(4) z2, las nuevas variables, llamadas componentes
Cuya solución es: Sa1  a1 (5) principales, las cuales están incorrelacionadas puesto que
a'1a2=0.
Que implica que a1 es un vector propio de la matriz S, y λ
su correspondiente valor propio. Para determinar que 3. APLICACIÓN DE LA TÉCNICA DE
valor propio de S es la solución de la ecuación (5) COMPONENTES PRINCIPALES
tendremos en cuenta que, multiplicando por a1 la
izquierda de esta ecuación, obtenemos: A continuación se presentan los resultados obtenidos del
procesamiento con el software SPSS al aplicar la técnica
a1 Sa1  a1 a1   de Componentes Principales para buscar la relación
entre los puntajes en las áreas del ICFES en matemáticas,
(6)
física y lenguaje con el rendimiento de los estudiantes en
las notas en matemáticas I y matemáticas II.
Se concluye, por (2), que λ es la varianza de z1. Como, z1,
Primero, en la tabla 1 se muestran las estadísticas
es la cantidad que se quiere maximizar, λ será el mayor
descriptivos para las variables que tienen registradas en
valor propio de la matriz S. Su vector asociado, a 1, define
la base de datos las puntuaciones ICFES por área (435).
los coeficientes de cada variable en el primer componente
principal.
Tabla 1. Estadísticos descriptivos de las variables
Desviació N del MATEMATICASII
Media n típica análisis
ICF_Matematic 46,8690 5,39362 435
ICF_Fisica 51,5172 6,63370 435 En la Tabla 3 se encuentran las comunalidades que son
ICF_Lenguaje 53,1793 4,82314 435 los porcentajes de variabilidad de cada variable que está
NOTA EN siendo explicada por las dos componentes. La
3,0037 ,73900 435
MATEMATICAS I
NOTA EN
variabilidad del ICFES en matemáticas ( ICF_Matematic) está
3,1269 ,70749 435 siendo explicada en un 77.2% por las componentes
MATEMATICASII
Como se ve en la Tabla 1, el área ICFES_Matematica es extraídas en el procedimiento.
la de mayor valor promedio promedio. La tabla 4 presenta los porcentajes individuales y
En la Tabla 2, se observa que la correlación más alta se acumulados de la varianza total explicada por cada
da entre las notas en matemáticas I y matemáticas II componente, para la solución rotada y no rotada.
(0.495).
Tabla 4. Varianza total explicada
Sumas de las Suma de las
Tabla 2. Matriz de correlaciones(a) Comp saturaciones al saturaciones al
IC onent Autovalores cuadrado de la cuadrado de la
F_ NOTA e iniciales extracción rotación
M EN % % %
ate ICF_ NOTA EN MATEM de % de % de
ma ICF_ Leng MATEMATIC ATICASI la acum la acum la %
tic Fisica uaje AS I I To vari ulad Tot vari ulad Tot vari acum
Co ICF_Matemat tal anza o al anza o al anza ulado
rre ic 1, 1 1,
lac 00 ,220 ,114 ,120 ,045 36,5 36,5 1,8 36,5 36,5 1,5 31,5 31,51
82
ió 0 50 50 27 50 50 76 18 8
7
n 2 1,
ICF_Fisica , 20,7 57,2 1,0 20,7 57,2 1,2 25,7 57,29
03
22 1,000 ,096 ,305 ,221 42 92 37 42 92 89 74 2
7
0 3 ,
ICF_Lenguaj , 18,6 75,9
93
e 11 ,096 1,000 ,129 ,159 31 23
2
4 4 ,
NOTA EN , 14,2 90,1
71
MATEMATI 12 ,305 ,129 1,000 ,495 35 58
2
CAS I 0 5 ,
NOTA EN , 9,84 100,
49
MATEMATI 04 ,221 ,159 ,495 1,000 2 000
2
CASII 5
Si ICF_Matemat
g. ic El porcentaje de variación total explicado por los
(U
nil ,000 ,008 ,006 ,176 componentes en conjunto es de 57.29%, si se incluye un
ate tercer componente la variación total explicada es del
ral
) 75.9%, pero se entraría a evaluar hasta que punto se
ICF_Fisica , llega a generar casi una componente por variable.
00 ,022 ,000 ,000
0
ICF_Lenguaj ,
e 00 ,022 ,004 ,000 Gráfico de sedimentación
8
NOTA EN , 2,0
MATEMATI 00 ,000 ,004 ,000
CAS I 6
Autovalor

NOTA EN , 1,5
MATEMATI 17 ,000 ,000 ,000
CASII 6
1,0

El determinante de la matriz es 0.618 está relativamente


0,5
cerca a 0 e indica algún tipo de correlación entre las
variables, Sin identificar por el momento cuales son las 1 2 3 4 5
variables que se relacionan entre si. Número de componente

Tabla 3. Comunalidades
Inicial Extracción Figura 2. Gráfico de sedimentación para los componentes
ICF_Matematic 1,000 ,772
ICF_Fisica 1,000 ,464 La figura 2, muestra los autovalores asociados a las
ICF_Lenguaje 1,000 ,203
componentes y se observa prácticamente un solo
NOTA EN MATEMATICAS componente (el primer componente principal) con valor
1,000 ,700
I propio mayor a 1 y el segundo componente presenta un
NOTA EN 1,000 ,725 valor propio cercano a 1, el resto de valores propios son
muy pequeños al compararlos con los dos primeros. El análisis de componentes principales entrega como
resultado las variables originales resumidas en dos
Tabla 5. Matriz de componentes(a) factores (el primero es FACTOR ICFES
Componente MATEMÁTICAS-FISICA-LENGUAJE, el segundo
FACTOR RENDIMIENTO EN MATEMÁTICAS),
1 2
ICF_Matematic
además, confirma que entre las puntuaciones ICFES y el
,373 ,795
ICF_Fisica rendimiento en matemáticas I y II no existe relación para
,628 ,265
este conjunto de datos.
ICF_Lenguaje ,387 ,231
NOTA EN MATEMATICAS I ,782 -,297 En la figura 3 se representa la relación entre las variables
NOTA EN MATEMATICASII ,730 -,439 en estudio y las componentes extraídas. Puede observarse
como las variables están más cerca de aquella
En la tabla 5 se observa que las variables ICFES en componente sobre la que cargan más alto.
física (ICF_Fisica), nota en matemáticas I y nota en
matemáticas II cargan alto en el primer factor; la variable
ICFES en matemáticas carga alto en el segundo factor y Gráfico de componentes en espacio rotado
por último, la variable ICFES en lenguaje realmente no
carga alto en ninguno de los dos factores, más bien, se 1,0

encuentra su carga ligeramente superior en el primer icf_mate

factor.
icf_fisi
Así, para mejorar la definición de las cargas en cada 0,5
icf_leng
factor utilizamos el procedimiento de rotación ortogonal.

Componente 2
matemi
matemii
0,0
Tabla 6. Matriz de componentes rotados(a)
Componente
-0,5
1 2
ICF_Matematic -,141 ,867
ICF_Fisica ,369 ,573 -1,0

ICF_Lenguaje ,189 ,409 -1,0 -0,5 0,0 0,5 1,0

NOTA EN MATEMATICAS I Componente 1


,814 ,196
NOTA EN MATEMATICASII ,850 ,050
Figura 3. Gráfico de componentes en espacio rotado FACTOR
ICFES MATEMÁTICAS-FISICA-LENGUAJE, el segundo
En la tabla 6 luego de aplicar el procedimiento de FACTOR RENDIMIENTO EN MATEMÁTICAS.
rotación VARIMAX 3se observa la definición de cargas
de las variables sobre una determinada componente, La matriz de puntuaciones factoriales, de la tabla 7,
facilitando la interpretación de las mismas. permite construir las siguientes funciones o
combinaciones lineales de las variables originales:
Con la rotación se logra que las variables puntajes en
áreas del ICFES definan su carga en mayor proporción Tabla 7. Matriz
de coeficientes para el cálculo de
sobre el primer factor (componente 2) y las notas en
matemáticas I y matemáticas II cargan alto sólo en el las puntuaciones en las componentes
segundo factor (componente 1). Por lo anterior se decide Componente
bautizar a los factores o componentes de la siguiente 1 2
manera: el primero es FACTOR ICFES ICF_Matematic -,264 ,749
MATEMÁTICAS-FISICA-LENGUAJE, el segundo ICF_Fisica ,140 ,405
FACTOR RENDIMIENTO EN MATEMÁTICAS. ICF_Lenguaje ,049 ,304
NOTA EN MATEMATICAS I ,515 ,005
Es importante recordar que las variables que cargan alto
NOTA EN MATEMATICASII ,568 -,124
en un factor están altamente correlacionadas entre sí y a
su vez tienen poca correlación con las variables que
carguen alto en otro factor, por la ortogonalidad presente FACTOR ICFES MATEMÁTICAS- FISICA-
entre los componentes. LENGUAJE = -ICF_matemátic * 0.264 + ICF_Física
*0.140 + ICF_lenguaje*.049 + Nota en matemáticas I
*0.515 + Nota en matemáticas II * 0.568
3
Método de rotación ortogonal que minimiza el número de variables
que tienen saturaciones altas en cada componente, simplificando la
FACTOR RENDIMIENTO MATEMATICAS I-II =
interpretación de componentes. ICF_matemátic * 0.749 + ICF_Física * 0.405+
ICF_lenguaje * 0.304 + Nota en matemáticas I * 0.005 - componente II, que decidimos bautizar como “Factor
Nota en matemáticas II *0.124 Rendimiento en matemáticas UTP”.

Las puntuaciones factoriales se grafican en el plano, (ver Dada la poca relación entre el puntaje ICFES tanto por
Figura 3) puesto que cada punto corresponde a uno de los áreas, como total, con el rendimiento en matemáticas I y
estudiantes. II, el ingreso de aspirantes a las facultades de ingeniería
de la Universidad Tecnológica de Pereira, no debería
En la figura 3, es fácil identificar el estudiante con mejor depender exclusivamente de los puntajes en ICFES,
desempeño en el ICFES de Matemáticas, Física y como se hace actualmente. Esta afirmación se sustenta en
Lenguaje, pero que está por debajo de la media en su las conclusiones resultantes de esta investigación. De
rendimiento en Matemáticas en la UTP. seguir con este criterio, se genera como hipótesis que
talvez se está negando la posibilidad de ingreso a las
facultades de Ingeniería de la a UTP, de algunos
postulantes con bajos puntajes en el ICFES (con la
ponderación actual) y que bien podrían tener un buen
rendimiento en matemáticas I y II, ya que como se
demuestra en el trabajo descrito en este artículo existe
Estudiante que tiene el Estudiante que tiene el
mejor rendimiento en mayor puntaje ICFES absoluta independencia entre el “Factor ICFES-
Matemáticas y está en Matemáticas, Física CIENCIAS” y el factor “Factor Rendimiento en
por debajo de la media y Lenguaje, pero está matemáticas UTP”.
en su puntaje ICFES por debajo de la media
La anterior conclusión nos obliga a que en próximos
de Matemáticas, en su rendimiento en
Ciencias y lenguaje. Matemáticas en la trabajos debamos investigar si en otros programas
UTP académicos de la UTP, como por ejemplo Medicina,
exista alguna relación entre el puntaje ICFES (obtenido
según la ponderación propia dada a las áreas del ICFES
en la facultad de Medicina) y las asignaturas que allí se
FACTOR MATEM-FISICA-LENGUAJE ICFES

3 ,000 00
 
Media
consideran núcleo central del programa.







En general, la aplicación de las técnicas estadísticas
2 ,000 00

 




 




 










multivariadas para medir la relación entre las pruebas de
1 ,000 00

  
   
  



   



 


ICFES y el rendimiento de los estudiantes de la UTP,

debe extenderse a todos los otros programas de la UTP y


          
          
   
     
          

                
0 ,000 00 

           
             
   
         

 

Media

= 0,00000

con relación a las asignaturas que constituyan la base
   
central del respectivo programa académico. De esta
        
    
           
        
-1,0 0000              
       

manera se podría determinar, la conveniencia o no, de


      
   
  
      
 
exigir las pruebas de ICFES como único criterio de


-2,0 0000 

ingreso a cualquier programa de la UTP. Además de lo



-2,00000 0 ,000 00 2,0 0000 4,0 0000


anterior, debe también investigarse el efecto que otras
FACTOR RENDIM IENTO EN M ATEM ATICAS
variables, como por ejemplo, la metodología de la
enseñanza, la forma de evaluación y discrepancias
Figura 3. Gráfico de dispersión de para los factores
relacionales con los docentes, puedan tener sobre el
rendimiento académico en las asignaturas que forman el
4. CONCLUSIONES Y RECOMENDACIONES núcleo central de cada programa académico en la UTP.

Con la técnica de componentes principales se demuestra


que existe absoluta independencia entre el rendimiento BIBLIOGRAFIA
en matemáticas I y II de los estudiantes de ingenierías de
la UTP y los resultados que obtienen en las pruebas del [1] PEREZ, Cesar, Técnicas Estadísticas con SPSS.
ICFES en las áreas de ciencias, física y matemáticas. Esta Prentice Hall. 2001. Pag. 483-488.
afirmación es sustentada por el hecho de encontrar que:
el conjunto de variables fue clasificado en dos [2] PEÑA, Daniel, Análisis de Datos Multivariantes. Mc
componentes ortogonales, independientes entre sí. Las Graw Hill. 2002. Pág 137
variables puntajes en áreas del ICFES (ciencias, física y
matemáticas) se agruparon en un componente que [3] DÍAZ Monroy, Luis Guillermo, Estadística
decidimos bautizar como “Factor ICFES-CIENCIAS” y Multivariada: Inferencia y métodos. Mc Graw Hill. 2002.
las notas en matemáticas I y II quedaron agrupadas en el Pág.199-202

También podría gustarte