Está en la página 1de 14

Guía 3 Metodología Avanzada

Guía de Ejercicios de Análisis Bivariados Lineales

I. Los estudios de sociología de la educación han sido contundentes en demostrar que


existe una relación entre el capital cultura de los padres de los estudiantes (medido
clásicamente a través del nivel educativo), capital económico y el rendimiento
académico. En este contexto, se quiere indagar por la relación entre el nivel
educativo de la madre (Q33), los ingresos familiares (Ingresos Familiares) y el
rendimiento académico de las y los estudiantes, medido a través del puntaje PSU
(Q7_1) y promedio de notas (Promedio Notas).

Considerando el objetivo anterior, desarrolle los siguientes análisis e interprete los


resultados:

1. Seleccionar solo estudiantes que asisten a universidades. (Q8_C=1)


R: 527 Estudiantes

2. Revisar la calidad de las variables a incluir en el análisis

- Variable (Q33_a) Nivel educativo madre – Nominal. Ordinal – categórica


- Variable Q35_a prom. Q35_b (Ingresos familiares) - V. Escalar
- Variable (Q7_1) Puntaje PSU – V. Escalar
- Variable (PROMEDIO NOTAS) – V. Escalar

Para revisar la calidad de los datos en las variables vamos a revisar primero si hay datos
perdidos que influyan en el análisis y si los datos de las variables a estudiar siguen una
distribución normal o no.
Tabla 1: Estadísticos

Q33 A - 33 A. Por favor, Ingresos _Familiares Q7 - 1. PROMEDIO


indica el nivel educativo de Puntaje PSU NOTAS
tu Mamá

Válidos 527 524 518 527


N
Perdidos 0 3 9 0
Asimetría -,410 1,896 ,347 ,440
Error ti p. de asimetría ,106 ,107 ,107 ,106
Curtosis -,468 3,970 ,092 ,010
Error típ. de curtosis ,212 ,213 ,214 ,212
Rango 6 2300000,00 475,00 3,20

Análisis Bivariados 2
Guía 3 Metodología Avanzada

De los 527 estudiantes que asisten a una Universidad, 3 de ellos no indicaron información
sobre ingresos familiares y 9 no indican su puntaje PSU, estos datos perdidos son
reconocidos por el sistema sin embargo su ausencia no influirá significativamente en el
resultado de los análisis.

Dentro de esta lectura rápida podríamos también interpretar los datos arrojados por la
tabla de estadísticos y tipificar el valor del índice de curtosis dividiendo su curtosis por su
error típico. Por ej. En el caso del nivel educativo de la mamá su curtosis/error tip. = 3.86 ya
que la curtosis es más del doble de su error tip. El índice es demasiado grande para ser
normal, lo que nos da una idea de su distribución. En el caso de los ingresos familiares
tenemos un valor de 17.71 lo que es demasiado alto, indicando no solo que no son normales
si no que están muy concentrados en uno de sus lados. Tanto en el puntaje PSU como en el
promedio de notas obtenemos valores mayores a dos por lo que podemos deducir que su
distribución tampoco es normal, estos valores son 3,24 y 4,15 respectivamente. Esto lo
vamos a verificar más adelante mediante la aplicación de una prueba de normalidad.

3. Compruebe los supuestos para las variables que se van a correlacionar.

 Variables continuas:

En el caso de las variables que vamos a analizar los Ingresos familiares, puntajes PSU y
Promedio de Notas cumplen con el supuesto de tratarse de Variables continuas, todas ellas
escalares. No así del nivel educativo de la madre que es una variable más bien categórica
(Nominal) que podemos ordenar de menor a mayor (Ordinal).

 Linealidad:

Antes de generar los gráficos de dispersión de datos vamos a establecer entre que variables
existe correlación (Revisar ejercicio 6) y comprobaremos este supuesto solo en ellos:

1.1 La variable Q33_a guarda correlación con la variable Ingresos Familiares


1.2 La variable Q33_a está correlacionada a Q7_1
1.3 La variable Q33_a está correlacionada a Promedio de notas
2.1 La variable Ingresos Familiares está correlacionada a la variable Q7_1
2.2 La Variable Ingresos Familiares está correlacionada a la variable Promedio de Notas
3.1 La variable Puntajes PSU está correlacionada con la variable Promedio de Notas

Análisis Bivariados 2
Guía 3 Metodología Avanzada

a) Variable Q33_a – Ingresos Familiares

R: No existe correlación lineal


entre ambas variables.

b) Variable Q33_a – Puntaje PSU

R: No existe correlación lineal


entre ambas variables.

c) Variable Q33_a – Promedio de Notas

R: No existe correlación lineal


entre ambas variables.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

d) Ingresos Familiares – Puntaje PSU

R: No existe correlación lineal


entre ambas variables.

e) Ingreso Familiar – Promedio de Notas

R: No existe correlación lineal


entre ambas variables.

f) Puntaje PSU – Promedio de Notas

R: Existe correlación lineal


entre ambas variables.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

 Outliers

La Variable Q33_ a “Nivel educativo de la madre”, por su naturaleza no presenta outliers ya


que no existe jerarquía entre los datos y se distribuyen heterogéneamente desde los
extremos en su categoría de respuestas, el más bajo “sin estudios” con 40 respuestas a el
más alto “estudios de postgrado” con 38.

Respecto a los ingresos familiares se identificaron 18 valores atípicos ninguno bajo la


mínima, pero si sobre el límite superior del rango intercuartil, es decir (18) estudiantes
declararon ingresos familiares sobre $1.750.000. Estos datos atípicos no se deben a un error
en la muestra o la formulación si no que se atribuye a la brecha de ingresos real.

En las variables Q7_1 “Puntaje PSU” se identifican mediante la lectura de un gráfico de caja
(6) datos atípicos (2) de ellos con puntajes muy bajos, es decir bajo el límite inferior del
rango intercuartil, dos puntajes menores o iguales a 400 puntos. Por el contrario (4)
estudiantes tuvieron puntajes muy altos, sobre el límite superior del rango intercuartil con
los puntajes 776, 780, 817 y 850 respectivamente.

En la variable PROMEDIO DE NOTAS se encuentran (10) casos atípicos, uno de ellos con
promedio inferior a 4 y los otros (9) sobre el límite superior del rango intercuartil con
promedios de notas superior a 6 con notas 6,4 - 6,5 – 6,8 y 7. Representando estos solo el
0,9% del total de estudiantes.

 Distribución normal – Revisar ejercicio 4

4. Presente e interprete los resultados de la prueba de normalidad.

Para verificar nuestra deducción de una distribución no normal vamos a aplicar una prueba
de normalidad, que, en este caso, tratándose de más de 350 estudiantes en la muestra será
el estadístico Kolmogorov-Smirnov (K-S).
Tabla 2: Pruebas de normalidad

Kolmogorov-Smirnov Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

Q33 A - 33 A. Por favor, ,187 515 ,000 ,905 515 ,000


indica el nivel educativo de
tu Mamá
Ingresos_Familiares ,176 515 ,000 ,806 515 ,000
Q7 - 1. Puntaje PSU ,074 515 ,000 ,985 515 ,000
PROMEDIO NOTAS ,113 515 ,000 ,976 515 ,000

a. Corrección de la significación de Lilliefors

Análisis Bivariados 2
Guía 3 Metodología Avanzada

Se realizaron pruebas de normalidad para examinar la distribución de las variables "Q33_a",


"Ingresos_familiares", "Q7_1" y "PROMEDIO DE NOTAS". Los resultados de las pruebas
indicaron que ninguna de las variables se distribuye normalmente, con p-valores menores
a 0,05 (p: 0,000) en todas las variables. Debido a la falta de normalidad en las distribuciones,
se optará por utilizar pruebas no paramétricas para analizar las relaciones entre estas
variables. Como se trata de una muestra de más de más de 350 sujetos la metodología
recomienda complementar la prueba K-S con la revisión de los gráficos Q-Q.

Revisión de gráficos Q-Q

Pese a que las pruebas de K-S no indicaron que no existe D.N revisando los gráficos Q-Q de
los puntajes PSU podríamos decir que, salvo los datos atípicos, si hay una distribución
relativamente normal. No así con el resto de variables.

Estas distribuciones con niveles altos de curtosis y asimetrías, con concentración de datos
en grupos o intervalos específicos son explicados por la propia naturaleza de las variables.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

5. Explique qué estadístico va a utilizar para calcular la relación y porqué.

Dado que Pearson asume que todas las variables seguirán una distribución normal y en
este caso dos o más variables no cumplen con este supuesto, así como tampoco se
cumple con los supuestos de linealidad y hay presencia de datos atípicos se considera
que el estadístico más adecuado a utilizar en este caso es el Rho de Spearman.

6. Aplique un análisis de correlación entre las variables de interés.

Tabla 3: Correlaciones

Q33 A - 33 A. Ingresos_ Q7 - 1. Puntaje PROMEDIO


Rho de Spearman Por favor, indica Familiares PSU NOTAS
el nivel educativo
de tu Mamá

Coeficiente de correlación 1,000 ,590** ,160** ,159**


Q33 A - 33 A. Por favor, indica
Sig. (bilateral) . ,000 ,000 ,000
el nivel educativo de tu Mamá
N 527 524 518 527

Coeficiente de correlación ,590** 1,000 ,097* ,104*

Ingresos_Familiares Sig. (bilateral) ,000 . ,028 ,017

N 524 524 515 524

Coeficiente de correlación ,160** ,097* 1,000 ,992**

Q7 - 1. Puntaje PSU Sig. (bilateral) ,000 ,028 . ,000

N 518 515 518 518

Coeficiente de correlación ,159** ,104* ,992** 1,000

PROMEDIO NOTAS Sig. (bilateral) ,000 ,017 ,000 .

N 527 524 518 527


*. La correlación es significativa al nivel 0,05 (bilateral).
**. La correlación es significativa al nivel 0,01 (bilateral). **

7. Presente e interprete los resultados.

Basándonos en el criterio de Sierra-Bravo, observamos que existe una relación “Sustancial”


entre el nivel educativo de la mamá (Q33_a) y los ingresos familiares (x: 0,590; p:0,00) y que
esta relación es estadísticamente significativa.

De la misma forma, pero con correlaciones bajas, pero significativas, se aprecia una relación
entre el nivel educativo de la madre y los indicadores académicos del estudiante, es decir
el puntaje PSU (Q7_1) y promedio de notas (x: 0,160; p:0,00) y (x: 0,159; p:0,00)
respectivamente.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

Estos indicadores, en el caso de los ingresos familiares, están probablemente relacionados


al tipo de ocupaciones domésticas o laborales a las que la madre puede acceder, que son
condicionadas por su cualificación escolar y académica y que por tanto se traducen en
diferencias sustanciales en el ingreso percibido por dichas labores o actividades. En este
caso podríamos hablar de una relación recíproca en la que si el nivel educativo es alto el
ingreso familiar sube. En el caso de los indicadores académicos del estudiante la relación es
menos clara, sin embargo, los p-valores nos indican una relación significativa entre ambas
variables, podría estar explicado por aspectos como la motivación, hábitos de estudio
aprendidos en la infancia, ayuda en las actividades escolares en el hogar o bien estar
explicada en conjunto a otras variables, de todas formas, es un dato importante a
considerar.

También podemos interpretar que los niveles de ingresos familiar guardan una relación
débil (Despreciable a criterio de Sierra Bravo) con los resultados y rendimiento académico
del estudiante (puntaje PSU y promedio de notas) de coeficiente y significancia: (x: 0,097;
p: 0,028) y (x: 0,104; p: 0,017) en ese mismo orden. Sin embargo, presentan un valor p
menor que el nivel de significancia estándar de 0,05, por lo que dicha correlación es
significativa. Esto nos indicaría que si bien no es determinante el nivel de ingresos en los
resultados académicos sí podrían influir aquellos casos particulares donde existe relación el
tipo de establecimiento en el que estudia (particular o no), por tanto, nivel de calidad en la
educación temprana, capital cultural adquirido y otros. Sería este el caso de un estudiante
que con buen nivel de ingresos familiares se pueda permitir una educación particular,
mantenga un buen promedio de notas y obtenga un puntaje PSU alto.

La última correlación es según Coltón Excelente ya que casi llega al valor 1. (x: 0,992; p:0,00)
Esto se sustenta básicamente en que ambas variables miden el mismo indicador, es decir
tanto el puntaje PSU como Promedio de Notas miden rendimiento académico por lo que es
altamente probable que un estudiante que tenga un alto promedio de notas obtenga un
alto puntaje PSU.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

II. Adicionalmente, a lo anterior, las investigaciones también han demostrado que el


rendimiento académico de los estudiantes estaría relacionado con el capital cultural
objetivado e interiorizado de los estudiantes. En coherencia, se quiere indagar por
la relación entre las actividades culturales que realizan los estudiantes (Q19),
objetos culturales que poseen (Q18) y su rendimiento académico medido a través
del puntaje PSU (Q7_1) y promedio de notas (Promedio Notas).

Considerando el objetivo anterior, desarrolle los siguientes análisis e interprete los


resultados:

1. Seleccionar solo estudiantes que asisten a universidades. (Q8_c=1)

R: 527 Estudiantes.

2. Revisar la calidad de las variables a incluir en el análisis

- Variable (Q19) Actividades culturales realizadas por los estudiantes


- Variable (Q18) Objetos culturales que poseen
- Variable (Q7_1) Rendimiento académico – Escalar
- Variable (PROMEDIO NOTAS) – Rendimiento académico – Escalar

En primer lugar, tanto las variables Q19 como Q18 están segmentadas por tipo de objeto o
actividades culturales, por lo que deberemos crear una nueva variable que promedie los
conjuntos mencionados. Estas nuevas variables serán “Objetos_culturales” y
“Actividades_culturales”.

Tabla 4: Estadísticos

Objetos_culturales Actividades Q7 - 1. Puntaje PSU PROMEDIO


_culturales NOTAS

Válidos 508 527 518 527


N
Perdidos 19 0 9 0
Error típ. de asimetría ,108 ,106 ,107 ,106
Error típ. de curtosis ,216 ,212 ,214 ,212
Rango ,00 3,23 475,00 3,20
Asimetría ,439 ,347 ,440
Curtosis -,265 ,092 ,010

Análisis Bivariados 2
Guía 3 Metodología Avanzada

El sistema nos arroja un total de 28 datos perdidos de los cuales 9 corresponden a la variable
Q7_1 y 19 a la variable recién creada Objetos culturales.

Para ver pruebas de normalidad revisar ejercicio II.4

3. Compruebe los supuestos para las variables que se van a correlacionar.

 Variables continuas:

En el caso de las variables que vamos a analizar los Ingresos familiares, puntajes PSU y
Promedio de Notas cumplen con el supuesto de tratarse de Variables continuas, todas ellas
escalares. No así con los objetos, que son categóricos o nominales. La frecuencia con la que
se realiza las actividades están numeradas del 1 al 5, asignando valores categóricos que si
bien se pueden ordenar no representan un orden jerárquico y solo se puede medir de forma
discreta, es decir tomando número enteros.

 Linealidad

Antes de generar los gráficos de dispersión de datos vamos a establecer entre que variables
existe correlación (Revisar ejercicio II.6) y comprobaremos este supuesto solo en ellos:

Entre las variables relacionadas solamente el puntaje PSU y el promedio de notas presentan
una correlación bivariada Lineal.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

 Outliers

La Variable “Objetos_culturales” por su naturaleza no tiene valores atípicos, lo datos se


distribuyen entre aquellos que tienen un objeto como mínimo y los que tienen 7 como
máximo.

En la Variable “Actividades culturales” mediante la visualización de un gráfico de caja


podemos encontrar dos datos atípicos que corresponden a dos sujetos que en promedio
consumen más en la categoría número 5, algunas veces en la semana. Es decir, realizan más
actividades y con mayor frecuencia que el resto.

En las variables Q7_1 “Puntaje PSU” se identifican mediante la lectura de un gráfico de caja
(6) datos atípicos (2) de ellos con puntajes muy bajos, es decir bajo el límite inferior del
rango intercuartil, dos puntajes menores o iguales a 400 puntos. Por el contrario (4)
estudiantes tuvieron puntajes muy altos, sobre el límite superior del rango intercuartil con
los puntajes 776, 780, 817 y 850 respectivamente. **

En la variable PROMEDIO DE NOTAS se encuentran (10) casos atípicos, uno de ellos con
promedio inferior a 4 y los otros (9) sobre el límite superior del rango intercuartil con
promedios de notas superior a 6 con notas 6,4 - 6,5 – 6,8 y 7. Representando estos solo el
0,9% del total de estudiantes. Para mejorar la precisión de nuestros análisis vamos a aplicar
una selección de caso para trabajar solo con los promedios bajo 6, reduciendo los datos
atípicos. **

**Revisar ejercicio I.3.Outliers

 Distribución normal - Para ver pruebas de normalidad revisar ejercicio II.4

4. Presente e interprete los resultados de la prueba de normalidad.

Tabla 5: Pruebas de normalidad

Kolmogorov-Smirnov Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

Q7 - 1. Puntaje PSU ,041 477 ,052 ,989 477 ,001

a. Corrección de la significación de Lilliefors

Según la prueba de Kolmogorov-Smirnov la variable “Puntajes de PSU” es


estadísticamente significativa (x: 0,041; p:0,52), dado que el valor de p es mayor a
0,05 por tanto no rechazamos H0. Indica que existe una distribución normal.

Análisis Bivariados 2
Guía 3 Metodología Avanzada

Tabla 6: Pruebas de normalidad

Kolmogorov-Smirnov Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

Actividades_culturales ,075 469 ,000 ,983 469 ,000


Objetos_culturales ,160 469 ,000 ,937 469 ,000
PROMEDIO NOTAS ,082 469 ,000 ,984 469 ,000

a. Corrección de la significación de Lilliefors

Se realizaron pruebas de normalidad para examinar la distribución de las variables


"Actividades culturales", "Objetos culturales” y "PROMEDIO DE NOTAS". Los resultados de
las pruebas indicaron que ninguna de las variables se distribuye normalmente, las tres
variables contienen un p-valore menores a 0,05 (p: 0,000). Como se trata de una muestra
de más de más de 350 sujetos la metodología recomienda complementar la prueba K-S con
la revisión de los gráficos Q-Q.

Revisión de gráficos Q-Q

Análisis Bivariados 2
Guía 3 Metodología Avanzada

El valor p de la prueba K-S en el caso de los puntajes PSU nos indicaba una distribución
normal y nuestro gráfico Q-Q lo confirma. En el caso de las otras tres variables cuya
significancia era de 0,00 y que por tanto rechazaban H0 y no asumían normalidad. Los
gráficos Q-Q de todos ellos indica una concentración de los datos en la tendencia por lo que
se confirma que SI hay distribución normal.

5. Explique qué estadístico va a utilizar para calcular la relación y porqué.

Ya que nuestros gráficos Q-Q han complementado las pruebas de normalidad que
indicaban un nivel de significancia menor al 0,05 y hemos rectificado la información (si
tienen distribución normal) lo conveniente es hacer uso de una prueba paramétrica para
la correlación entre variables escalares deberemos utilizar Pearson.

6. Aplique un análisis de correlación entre las variables de interés.


Tabla 7: Correlaciones

Q7 - 1. Puntaje PROMEDIO Objetos culturales Actividades culturales


PSU NOTAS

Correlación de Pearson 1 ,987** ,105* ,030

Q7 - 1. Puntaje PSU Sig. (bilateral) ,000 ,022 ,511

N 477 477 477 477


Correlación de Pearson ,987** 1 ,105* ,033
PROMEDIO NOTAS Sig. (bilateral) ,000 ,021 ,472
N 477 486 486 486
Correlación de Pearson ,105* ,105* 1 ,459**
Objetos culturales Sig. (bilateral) ,022 ,021 ,000
N 477 486 486 486
Correlación de Pearson ,030 ,033 ,459** 1

Actividades culturales Sig. (bilateral) ,511 ,472 ,000


N 477 486 486 486

**. La correlación es significativa al nivel 0,01 (bilateral).


*. La correlación es significante al nivel 0,05 (bilateral).

7. Presente e interprete los resultados.

Como dejamos establecido en la primera parte de esta guía según Coltón, observamos que
existe una relación “Excelente” entre el puntaje PSU (Q7_1) y el promedio de notas
(x: 0,987; p:0,00) y que esta relación es estadísticamente significativa. Ya que ambas
variables miden el mismo indicador es altamente probable que un estudiante que tenga un
alto promedio de notas tenga buenos hábitos de estudio y esté preparado para la
evaluación de selección universitaria y por tanto obtenga un alto puntaje PSU. Por lo mismo

Análisis Bivariados 2
Guía 3 Metodología Avanzada

se trata de una correlación lineal, como podemos observar en sus gráficos de dispersión, en
la que el aumento de una de las variables condiciona el aumento de la otra y viceversa.

De la misma forma, con correlaciones bajas, se aprecia una relación significativa entre los
objetos culturales y los indicadores académicos del estudiante; el puntaje PSU (x: 0,105; p:
0,022) y promedio de notas (x: 0,105; p: 0,021). Esta relación entre indicadores académicos
y el uso de objetos culturales puede estar explicado teóricamente por ideas como la del
capital cultural objetivado de Bourdieu. Pero más allá de eso podríamos interpretarlo de
varias maneras. Es posible que los estudiantes que utilizan más objetos culturales tengan
un mayor interés en el aprendizaje y en su formación académica en general, lo que se podría
reflejar en un mejor rendimiento académico. Además, el uso de objetos culturales podría
proporcionar a los estudiantes nuevas formas de aprender y comprender los conceptos. O
al contrario que aquellos estudiantes que tengan bajo rendimiento académico utilicen los
objetos culturales como refugio, formas de distracción, etc. Sin embargo, como podemos
observar en los gráficos de dispersión (Grafico n.XX) a pesar que efectivamente si existe una
asociación estadísticamente significativa estas variables no se mueven de forma conjunta,
es decir no genera una linealidad y por lo tanto no podemos afirmar que “a mayor puntaje
PSU o promedio de Notas mayor objetos culturales” o que “a mayor objetos culturales
mayor rendimiento académico”. En cualquier casi es relevante y debemos considerar la
presencia de otros factores como la motivación, nivel socioeconómico, nivel cultural,
ambiente escolar, etc.

Finalmente, de la misma forma que la correlación de puntaje PSU y promedio de notas


miden un mismo indicador la variable objeto cultural se relaciona con las actividades
culturales en una dinámica similar. Según Cohen nuestro valor de correlación observado (x:
0,459; p: 0,000). Es “Grande” y según Sierra Bravo es “Moderada” casi “Sustancial” en
ambos casos se trata de una correlación relativamente fuerte e importante de considerar.
Tenemos un valor p estadísticamente significativo (menor a 0,05). Se podría hipotetizar que
a medida que aumenta el número de "objetos culturales" que una persona tiene en su
hogar, es más probable que también aumente la frecuencia con la que asiste a "actividades
culturales". Esto se podría deber a que las personas que valoran y disfrutan de los "objetos
culturales" también tienen un mayor interés en la cultura en general y por lo tanto, son más
propensas a participar en actividades culturales. Esta relación sin embargo es observada
mediante la revisión de gráficos de dispersión de datos como que pareciera seguir
levemente una tendencia pero no es una tendencia estrictamente lineal, lo que indica que
estas variables no se mueven solamente en conjunto y pueden ser explicadas considerando
terceras variables relacionadas.

Análisis Bivariados 2

También podría gustarte