Está en la página 1de 9

Tema 4: Inferencia con dos variables

cuantitativas
Introducción
Dos variables cuantitativas pueden obtenerse de diferentes maneras. La más habitual
consiste en tomar dos medidas a los mismos sujetos, bien midiendo dos variables distintas
(altura y peso, calificaciones en lengua y en matemáticas, etc.), bien midiendo la misma
variable en dos momentos distintos (el nivel de ansiedad antes y después de un examen, el
peso antes y después de participar en un programa de adelgazamiento, etc.). También se
tienen dos variables cuantitativas cuando, en lugar de utilizar los mismos sujetos, se utilizan
pares de sujetos que comparten alguna característica que pueda resultar relevante para el
análisis. Por ejemplo, en un estudio sobre satisfacción conyugal se puede medir el grado de
satisfacción en los dos miembros de cada pareja.

Tanto si se utilizan los mismos sujetos como si se utilizan sujetos emparejados, lo que
caracteriza a este tipo de datos es que no son independientes entre sí; y no lo son porque,
tanto en el caso de dos puntuaciones pertenecientes al mismo sujeto como en el de
puntuaciones pertenecientes a dos sujetos emparejados, el conocimiento de una de las
puntuaciones del par permite saber algo de la otra puntuación del mismo par: los buenos
estudiantes tienden a obtener puntuaciones altas tanto en lengua como en matemáticas.

A los diseños que permiten recoger este tipo de información (dos puntuaciones a los mismos
sujetos o a dos sujetos emparejados; y lo mismo vale decir de tres o más puntuaciones,
aunque aquí nos estemos limitando a dos) se les llama diseños con los mismos sujetos o
diseños intrasujeto (en el caso de sujetos emparejados –o tríos, o cuartetos, etc.– también se
habla de diseños de bloques aleatorios con un sujeto por nivel y bloque). En el contexto del
análisis de datos se habla, queriendo significar exactamente lo mismo, de muestras
relacionadas o medidas repetidas. A continuación, se muestran ejemplos de datos:

¿COMPARAR O RELACIONAR?
Al trabajar con dos variables cuantitativas el interés del análisis puede orientarse hacia dos
objetivos bien diferentes: compararlas o relacionarlas. Cuando hay variables categóricas por
medio, la relación entre variables se estudia comparando grupos: si hay diferencias entre los
grupos, hay relación entre las variables; y a la inversa. Por ejemplo, si la proporción de
fumadores difiere de la proporción de fumadoras, entonces la variable sexo está relacionada
con la variable tabaquismo.

Con dos variables cuantitativas comparar y relacionar son cosas diferentes. Cuando
comparamos estamos estudiando si difieren las medidas de tendencia central (nos fijamos en
un único punto de la distribución: media, mediana, etc.). Cuando relacionamos dos variables
cuantitativas nos interesa saber si las puntuaciones de una variable covarían de forma parecida
con las de otra variable (nos fijamos en todas las puntuaciones).

Un aspecto importante a tener en cuenta es que la comparación únicamente tiene sentido


entre variables que se encuentran en la misma métrica. Las calificaciones obtenidas en lengua
pueden compararse con las obtenidas en matemáticas (se están comparando puntuaciones
que se encuentran en una métrica que va de 0 a 10 puntos), pero no tiene ningún sentido
comparar el nivel educativo (medido en años de formación académica) con el salario anual
(medido en euros). Por el contrario, siempre es posible relacionar dos variables
independientemente de la métrica en la que se encuentren. Relacionar la altura medida en
cm con el peso medido en kg significa averiguar si los sujetos que más puntúan en altura son
también los que más puntúan en peso.

PRUEBA T DE STUDENT PARA MUESTRAS


RELACIONADAS
La prueba T para muestras relacionadas sirve para contrastar la
hipótesis de igualdad entre dos medias cuando éstas se calculan a
partir de observaciones que no son independientes entre sí. No
debemos perder de vista que estamos trabajando con dos variables
cuantitativas y que el objetivo del análisis es compararlas. Por tanto, la
prueba T para muestras relacionadas sirve para analizar, entre otras
cosas, los datos provenientes de diseños pre-post o antes-después.
Puesto que vamos a comparar tenemos dos variables cuantitativas Y1
e Y2 medidas en la misma métrica. Si restamos

ambas puntuaciones tenemos una variable D que es la diferencia entre cada par de
puntuaciones del sujeto. En el caso de diseños antes-después o pre-post, las puntuaciones D
reflejan el cambio (pérdida o ganancia) entre los dos momentos

Para estudiar el contraste sobre dos medias relacionadas vamos a poner un ejemplo de un
contraste unilateral derecho (el ejemplo de la depresión antes y después), bilateral (CI para
gemelo primogénito y el segundo) y unilateral izquierdo (intervención de la capacidad espacial
antes y después de un tratamiento).

1. Hipótesis

a. Contraste bilateral: ,

b. Contraste unilateral derecho: ,


c. Contraste unilateral izquierdo: ,

2. Supuestos: muestra aleatoria de n sujetos medida dos veces (o muestra aleatoria de


sujetos emparejados) donde Y1 e Y2 se distribuyen normalmente (conforme aumenta n
el supuesto de normalidad pierde importancia).

3. Estadística de contraste: donde SD es la desviación típica de la variable


diferencias.
4. Distribución muestral: ¿Cuál es la función de probabilidad que sigue el estadístico del
contraste? La distribución t de Student con n – 1 grados de libertad.
5. Zona crítica:
a. Teniendo un α especificado, si el contraste es bilateral, la zona crítica queda
determinada por T ≤
tn – 1; α/2 y por T ≥ tn – 1; 1 – α/2

b. Si el contraste es unilateral derecho, la zona crítica queda


determinada T ≥ tn – 1; 1 – α

c. Si el contraste es unilateral izquierdo, la zona crítica queda


determinada T ≤ tn – 1; α

6. Regla de decisión: se rechaza H0 si T cae en la zona crítica; en caso contrario se


mantiene.
7. Nivel crítico:
a. En un contraste unilateral derecho p es la probabilidad que queda a la
derecha de nuestro estadístico T. Si por ejemplo T = 2,32, p será, P(T ≥ 2,32).
b. En un contraste unilateral izquierdo p es la probabilidad que queda a la
izquierda de nuestro estadístico T. Si por ejemplo T = –1,26, p será, P(T ≤ –
1,26).
c. En un contraste bilateral p es 2 veces la probabilidad de obtener un
estadístico como el que hemos obtenido en valor absoluto o mayor. Si por
ejemplo, T = –1,13, p = 2[P(T ≥|–1,13|]

8.Intervalo de confianza: IC para la diferencia de medias = donde


, es decir, la diferencia media entre las dos medias.

Importante: No te van a pedir hacer cálculos de esto, sino que solo se vería con SPSS.

RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS


Al principio de este capítulo hemos señalado que el análisis de dos variables cuantitativas
puede orientarse hacia dos objetivos bien diferentes: compararlas o relacionarlas. Hasta ahora
nos hemos limitado a compararlas mediante la prueba T de Student. A partir de aquí nos
centraremos en cómo relacionarlas. Suele decirse que cuanto mayor es el nivel educativo,
mayor es el nivel de renta; que los sujetos más frustrados son también más agresivos; que las
dietas alimenticias ricas en grasas suelen ir acompañadas de niveles altos de colesterol en
sangre, etc. En todos estos ejemplos se está hablando de relación entre dos variables
cuantitativas. Con dos variables cuantitativas es posible hablar de varios tipos de relación:
lineal, cuadrática, etc. Para entender esto, quizá la estrategia más apropiada sea comenzar
representando gráficamente ambas variables mediante un diagrama de dispersión.

Un diagrama de dispersión es la forma más directa e intuitiva de formarse una primera


impresión sobre el tipo de relación existente entre dos variables cuantitativas medidas en los
mismos sujetos. El diagrama tiene forma de una nube de puntos dispuesta sobre el plano
definido por dos ejes cartesianos: en el eje de abscisas (horizontal) se coloca una de las
variables (X), en el eje de ordenadas (vertical) se coloca la otra variable (Y), y cada par de
puntuaciones (Xi, Yi), es decir, cada sujeto, se representa con un punto.

La forma de la nube de puntos informa sobre el tipo de relación existente. Los diagramas de la
Figura 11.3 muestran diferentes tipos de relación. El diagrama a muestra una nube de puntos
concentrada en torno a una línea recta ascendente. Es un ejemplo típico de relación lineal.
También hay relación lineal cuando se da la pauta de variación que muestra el diagrama b: los
puntos siguen agrupados en torno a una línea recta ascendente, aunque de forma menos
evidente que en el primer diagrama. Y también hay relación lineal cuando, como en el
diagrama c, los puntos se agrupan en torno a una línea recta descendente. El diagrama d es un
ejemplo de ausencia de relación: los puntos están dispersos por todo el diagrama sin mostrar
ninguna pauta de variación reconocible. e se observa una pauta de variación claramente no
lineal: los puntos están agrupados en torno a una curva que comienza ascendiendo y termina
descendiendo; a esta pauta de variación conjunta se le llama cuadrática. Y también en el
diagrama f se da una pauta no lineal: los puntos están agrupados en torno a una línea que
comienza ascendiendo, a continuación desciende y termina volviendo a ascender; a esta pauta
de variación se le llama cúbica. Aunque puede resultar interesante estudiar cualquier tipo de
relación, la lineal es, sin duda, la más estudiada en estadística (quizá porque es la más fácil de
interpretar y la que con mayor frecuencia encontramos en el mundo real) y la que va a
acaparar nuestra atención aquí.

Los diagramas de dispersión de la Figura 11.4 reproducen algunos de los diagramas de la


Figura 11.3, pero con información adicional: incluyen líneas que parten del centro de cada
variable (para separar las puntuaciones bajas y altas) y círculos para resaltar los cuadrantes en
los que se da la mayor concentración de casos. En el diagrama a, las puntuaciones bajas en X
tienden a ir acompañadas de puntuaciones bajas en Y, y las puntuaciones altas en X tienden a
ir acompañadas de puntuaciones altas en Y (cuadrantes “altas-altas” y “bajas-bajas”); cuando
se da esta pauta de variación decimos que existe relación lineal positiva o directa (esto es lo
que ocurre, por ejemplo, con la altura y el peso, o la inteligencia y el rendimiento). En el
diagrama b, las puntuaciones bajas en X tienden a ir acompañadas de puntuaciones altas en Y,
y las puntuaciones altas en X tienden a ir acompañadas de puntuaciones bajas en Y
(cuadrantes “bajas-altas” y “altas-bajas”); cuando se da esta pauta de variación decimos que
existe relación lineal negativa o inversa (esto es lo que ocurre, por ejemplo, con la fatiga y el
rendimiento, o con la velocidad de ejecución de una tarea y el número de errores). Cuando no
existe relación lineal, bien porque no existe ningún tipo de relación, como en el diagrama c
(altura e inteligencia, por ejemplo), bien porque la relación subyacente no es de tipo lineal,
como en el diagrama d (ansiedad y rendimiento, por ejemplo), tanto las puntuaciones bajas en
X como las altas aparecen acompañadas, indistintamente, de puntuaciones bajas y altas en Y.
Parece claro, por tanto, que un diagrama de dispersión puede ayudar a formarse una idea
bastante acertada sobre el tipo de relación existente entre dos variables cuantitativas. Sin
embargo, debe tenerse en cuenta que, cuando se estudia la relación entre dos variables, el
interés del análisis no está únicamente en determinar si existe o no relación lineal, sino en
conseguir cuantificar el grado o intensidad de la relación. Estas consideraciones sugieren que,
para poder cuantificar el grado o intensidad de una relación lineal, es necesario disponer de
algún índice numérico capaz de informar de la intensidad de la relación con mayor precisión de
lo que permite hacerlo la simple inspección de un diagrama de dispersión. Estos índices
numéricos existen y suelen denominarse coeficientes de correlación. Y el más conocido y
utilizado de ellos es el coeficiente de correlación de Pearson. Sus propiedades son:

- Mide el grado de relación lineal.

- Toma un valor positivo cuando existe relación lineal positiva y negativo


cuando existe relación lineal negativa.

- Su valor oscila entre -1 y 1. Un valor de -1 informa de una relación lineal


inversa perfecta y un valor de 1 relación directa perfecta. Un valor de 0
informa de ausencia de relación lineal

- Su valor no se altera ante transformaciones lineales (sumando o multiplicando las


variables X e Y)

- En ciencias sociales, un criterio más o menos aceptado (Cohen, 1988) es


decir que una correlación, rXY de 0,10 es pequeña, de 0,30 moderada y de
0,50 grande.

- Se calcula:

CONTRASTE DE HIPÓTESIS SOBRE EL PARÁMETRO ρ XY

Aplicado a unos datos concretos, el coeficiente de correlación de Pearson es un estadístico, es


decir, un valor muestral. Y ya sabemos que un valor muestral, sea éste una diferencia o una
correlación, puede ser distinto de cero sin que esto signifique que el correspondiente
parámetro poblacional también sea distinto de cero. Al comparar dos medias muestrales
procedentes de la misma población o de dos poblaciones idénticas, hemos visto que una
diferencia muestral podría estar reflejando simplemente las variaciones propias del azar
muestral. Con un coeficiente de correlación pasa exactamente lo mismo: el hecho de que un
coeficiente de correlación sea distinto de cero no constituye, en sí mismo, evidencia suficiente
para afirmar que existe relación lineal en la población. Por tanto, tras cuantificar una relación,
la pregunta que hay que hacerse es si el valor muestral obtenido refleja o no un grado de
relación lineal mayor del que cabría esperar por puro azar entre dos variables realmente
independientes en la población. Para responder a esta pregunta lo que suele hacerse es poner
a prueba la hipótesis nula de independencia lineal (H0: XY = 0), pues el rechazo de esta
hipótesis permitirá concluir que las variables X e Y no son linealmente independientes y, por
tanto, que entre ellas existe algún grado de relación lineal.

1. Hipótesis:

H 0 :  XY  0 H1 :  XY  0
a. Contraste bilateral: ;

b. Contraste unilateral derecho:

c. Contraste unilateral izquierdo:

2. Supuestos: muestra aleatoria de n pares XY independientes que tienen distribución


normal tanto en X como en Y (conforme aumenta n pierde importancia la distribución
normal).
3. Estadístico del contraste
rXY n  2
T
2
1  rXY

4. Distribución muestral: T se distrinuye según el modelo t de Student con n-2 grados de


libertad.
5. Zona crítica: Teniendo un α especificado, si el contraste es bilateral, la zona crítica
queda determinada por T ≤ tn – 2; α/2 y por T ≥ tn – 2; 1 – α/2

6.

Decisión: Si T cae en la zona crítica rechazamos H0; en caso contrario mantenemos. Cuando
rechazamos H0 podemos afirmar que X e Y están linealmente relacionadas en la
población (se suele decir que hay una relación lineal estadísticamente significativa).
Cuando mantenemos H0 solo podemos decir que no hay evidencia de que X e Y estén
relacionadas linealmente.

7. Nivel crítico:
a. En un contraste unilateral derecho p es la probabilidad que queda a la
derecha de nuestro estadístico T. Si por ejemplo T = 2,32, p será, P(T ≥ 2,32).

b. En un contraste unilateral izquierdo p es la probabilidad que queda a la


izquierda de nuestro estadístico T. Si por ejemplo T = –0,85, p será, P(T ≤ –
0,85).

c. En un contraste bilateral p es 2 veces la probabilidad de obtener un


estadístico como el que hemos obtenido en valor absoluto o mayor. Si por
ejemplo, T = –1,02, p = 2[P(T ≥ |–1,02|].

Algunos comentarios sobre la correlación son:

1. Primero conviene ver si dos variables cuantitativas correlacionan


significativamente o no.

2. Segundo, la magnitud de la correlación depende del contexto (no hay


recetas para decidir cuándo es alto un coeficiente de correlación y cuándo es
bajo, dependerá de la situación concreta), si bien Cohen establece puntos de
corte habituales en ciencias sociales.

3. La correlación debe acompañarse de su respectivo diagrama de dispersión.


Un coeficiente de correlación de 0,80 puede tener pautas muy distintas y eso
lo desvela el gráfico de dispersión.

4. Es sensible a casos extremos.

5. También es sensible a la variabilidad de los datos.

6. Una correlación no implica que haya causalidad. Por ejemplo, existe una alta
correlación lineal entre el número de televisores per cápita y la esperanza de
vida media en cada país. ¿Significa eso que aumentando el número de
televisores en los hogares se conseguirá aumentar la esperanza de vida? Hay
muchas relaciones espurias.

EJEMPLOS DE CÓMO INFORMAR


Prueba T para muestras relacionadas: en un centro escolar público de la Comunidad de Madrid
se seleccionaron 14 estudiantes de cuarto de primaria con problemas visoespaciales. Todos
ellos acudieron a un programa de entrenamiento de las destrezas visoespaciales durante seis
semanas. Se les evaluó la aptitud visoespacial antes (M=9,24, DT=1,98) y después (M=11,97,
DT=1,98) del programa con el test de Raven (versión infantil) obteniéndose una mejora
significativa entre ambos momentos: T(11) = -3,074, p = 0,0044, d = 1,379. La diferencia fue
sustantiva y relevante en términos prácticos y estadísticos.
Correlación de Pearson: en un grupo de 68 estudiantes universitarios se evaluó la ansiedad
estado antes de un examen y una semana después. El objetivo era averiguar la relación que
hay entre la ansiedad estado en una situación estresante (antes del examen) y en una
situación no aversiva. El grado de relación se examinó con el coeficiente de correlación de
Pearson, rXY = 0,305, T(66) = 2,602, p = 0,011. La relación fue positiva y significativa, aunque de
magnitud moderada, por lo que hay cierta tendencia a que la ansiedad estado de los sujetos
en una situación ansiógena y no aversiva se relacionen de forma positiva.

Relación cuadrática: relación entre ansiedad y rendimiento (arousal)

Relación cúbica: no suele haber en psicología.

También podría gustarte