Está en la página 1de 43

Clase 2: Inferencia

estadística y prueba x2.


Dr. Cristóbal Hernández C. PhD.
Escuela de Psicología.
Universidad Adolfo Ibáñez.
Estandarización:
¿Quién está más lejos relativamente de su promedio?

Media = 170 Media = 35


SD = 10 SD = 5
Persona que Persona que
mide: 160 cm. tiene: 42.5 años.
Estandarización:

Para persona de 160 cm.


… …
La persona está -1 desviación estándar por debajo de la media.
Para persona de 42.5 años.
… …
La persona está 1.5 desviaciones estándar por encima de la media.

¿Cuál está más lejos entonces?


Ahora hagamos eso con todos los valores…
Distribución normal estándar:
1 SD (10 cm)
1.5 SD (4.5
años)

1 SD (10 cm) 1.5 SD (4.5 años)


Distribución normal estándar:
• Es el resultado de tomar los valores de datos que provengan de una distribución normal,
restarles su promedio (sin elevarlo al cuadrado) y luego dividirlos por su desviación estándar.

• Como se les divide por una constante (que es la desviación estándar) toman como escala:
número de desviaciones estándar de la media.
• Tiene media 0 (ya que los valores son distancias de la media y se anulan) y una desviación
estándar de 1.
• Esto nos permite hacer que esta sea una buena distribución para comparar valores que vienen
en escalas muy distintas. Comparamos magnitudes transformándolas en una misma escala.
• Dado que tiene propiedades conocidas (como la regla del 68%, 95% y 99,7%), si nuestros datos
siguen esta distribución podemos hacer inferencia estadística.
Regla del 68%, 95% y 99,7%.
Nos da una medida de cuan probable es algo por azar. Por lo mismo,
podemos conocer los valores improbables bajo este supuesto.
Ejemplo tiempo de respuesta visual:

Media: 235 ms.


SD: 13.02

Es altamente improbable Población:


encontrar un caso así por Personas que no
azar en la población de hacen ejercicio
personas que no hacen regularmente
ejercicio
regularmente. 185 (z = -3.84)
Inferencia estadística:
• Se trata de sacar conclusiones de lo que sucede en la población a partir de una
muestra.

• Una muestra es una aproximación imperfecta de lo que sucede en la población.


• Parámetro: Valor fijo de la población (e.g.: promedio poblacional de todas las personas de
respuesta visual es µ = 240 ms).
• Estimador: Forma de cálculo para aproximar un valor que aproxime el parámetro (en este
caso la fórmula para calcular el promedio).
• Estimado: El promedio calculado (e.g.: promedio = 235).
• Del curso anterior: Con una muestra aleatoria intentamos aproximar el promedio.
• Ley de números grandes: Al ir creciendo la muestra, el promedio muestral se aproxima al
promedio poblacional.
Prueba de hipótesis
estadísticas:
Prueba de hipótesis estadísticas:
• Es parte de la inferencia estadística, pero busca probar ciertas
aseveraciones sobre parámetros poblacionales.
• Se utiliza usualmente para responder preguntas de investigación
sobre asociación o diferencias.

• Vamos al ejemplo de una pregunta de investigación:


Pregunta de investigación:

¿Existe algún tipo de asociación entre el tipo de terapia


que eligen los pacientes, y el problema de salud
mental por el que consultan?
Proceso de la prueba de hipótesis:
1. Replantear el problema en función de hipótesis de investigación e
hipótesis nula de las poblaciones.
2. Seleccionar la prueba adecuada según el tipo de datos y calcular su
valor.
3. Determinar las características de la distribución comparativa.
4. Determinar el punto de corte en la distribución comparativa a partir del
cual se rechaza la hipótesis nula.
5. Determinar la probabilidad de nuestro valor muestral en la distribución
comparativa.
6. Comparar el valor con el punto de corte y decidir.
1. Replantear pregunta en términos de
hipótesis:
• Hipótesis nula (H0): Es la hipótesis que se busca rechazar.
Usualmente nos habla de que no hay asociación o diferencias.
• Hipótesis alternativa (H1): Es la hipótesis del estudio, usualmente
dice que sí hay asociación o diferencias.

• Vamos a buscar siempre contrastar la hipótesis nula.


• Viene del falsacionismo de Karl Popper.
1. Replantear pregunta en términos de
hipótesis:
¿Existe algún tipo de asociación entre el tipo de terapia
que eligen los pacientes, y el problema de salud
mental por el que consultan?

• H0: El tipo de psicoterapia que eligen los pacientes es independiente


del problema de salud mental por el que consultan.
• H1: Existe una asociación estadísticamente significativa entre el tipo
de psicoterapia que eligen los pacientes y el problema de salud
mental por el que consultan.
2. Seleccionar la prueba adecuada
según el tipo de variables.
• Tipo de variable es…

Ambas son categóricas

• Para resolver este problema existe la prueba chi-cuadrado de


independencia.
Prueba de hipótesis
estadísticas: Chi-Cuadrado
de independencia.
2. X2 de independencia (nos
saltaremos de bondad de ajuste).
• Es una prueba estadística que se utiliza para comparar las proporciones de
variables nominales en una tabla de contingencias.
• Se comparan:

Proporciones observadas v/s. Proporciones esperadas (H0: independencia)

• Las proporciones son distribuciones de frecuencias (nos dicen qué tan


probable es la ocurrencia de algo).
• La prueba x2 entonces es una prueba de comparación de dos o más
distribuciones de frecuencias.
2. Cálculo de la prueba chi cuadrado:
Idea general.
• Implica calcular las discrepancias entre las frecuencias observadas y
las freuencias esperadas, y luego evaluar si esas discrepancias son
mayores de lo que se esperaría por casualidad (en el mundo de la
hipótesis nula).

Tipo de Observado Observado Esperado Esperado Diferencia Diferencia


tratamiento (Ansiedad) (Depresión) (Ansiedad) (Depresión) (Ansiedad) (Depresión)

Cognitivo 20 80 50 50 -30 (900) 30 (900)


conductual

Psicodinámico 80 20 50 50 30 (900) -30 (900)


2. Cálculo de los valores esperados:

𝐸=(𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑓𝑖𝑙𝑎


𝑇𝑜𝑡𝑎𝑙 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑐𝑜𝑚𝑝𝑙𝑒𝑡𝑎 )
𝑥 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎
Aplicamos esa proporción al
Calculamos la proporción
total de la columna para
que representa la fila del
calcular el valor esperado. Esperado Esperado
total (Ansiedad) (Depresión)

50 50
Tipo de Observado Observado
tratamiento (Ansiedad) (Depresión)
50 50
Cognitivo 20 80
conductual 100
Total = 200
Psicodinámico 80 20 100

100 100
2. Diferencias cuadráticas: Evitar que
se anulen.
• Si se fijan, algunas diferencias son negativas, y esto podría hacer que
se cancelen entre sí. Para volverlas positivas todas se saca su
diferencia cuadrática. Que no es otra cosa que:

Tipo de Observado Observado Esperado Esperado Diferencia Diferencia


tratamiento (Ansiedad) (Depresión) (Ansiedad) (Depresión) (Ansiedad) (Depresión)

Cognitivo 20 80 50 50 -30 (900) 30 (900)


conductual

Psicodinámico 80 20 50 50 30 (900) -30 (900)


2. Ponderar por valores esperados:
Hacer la prueba justa.
• Ahora: Pasa que no es lo mismo una diferencia de 2 ocurrencias
cuando esperamos que sean 1000 (sería un 0.2%), que si esperamos
que sean 10 (sería un 20%). Para hacer la comparación justa
ponderamos por el valor esperado.
El ejemplo es simple
porque es el mismo
número.

Diferencia Diferencia Diferencia Diferencia


(Ansiedad) (Depresión) Ponderada Ponderada
(Ansiedad) (Depresión)
𝟗𝟎𝟎
-30 (900) 30 (900) = = 18 18 18
𝟓𝟎
30 (900) -30 (900) 18 18
2. Cálculo del estadístico chi-cuadrado: El
valor que vamos a usar para hacer inferencia.
• Ahora nos queda contar con un número que represente en general el
nivel de discrepancia entre las frecuencias observadas y las
frecuencias esperadas (o las dos distribuciones).
• Este estadístico se llama “chi-cuadrado” y se calcula así:
Esto no es otra cosa que lo que
2
2 (𝐹𝑟𝑒𝑞𝑂𝑏𝑠 − 𝐹𝑟𝑒𝑞𝐸𝑥𝑝 ) ya calculamos. Lo único que nos
𝜒 =∑ falta es sumarlo todo, por eso
𝐹𝑟𝑒𝑞𝐸𝑥𝑝 está ahí el operador “sumatoria”
.
Diferencia Diferencia
Ponderada Ponderada
(Ansiedad) (Depresión)

18 18
= 18 + 18 + 18 + 18 = 72
18 18
3. Determinar las características de la
distribución comparativa.
• Tenemos un número, pero no sabemos si ese número efectivamente
es mayor a lo que esperaríamos por casualidad (o lo que es esperable
según la distribución).
• Para esto vamos a utilizar una distribución que se llama “chi-
cuadrado”.
• La distribuciín chi-cuadrado, es lo que ocurre si tomas datos de una
distribución normal estándar, los llevas al cuadrado, y los sumas (por
eso es ).

+ + + +
3. Distribución Chi-Cuadrado:
• Distribución asimétrica positiva (con cola hacia la derecha siempre).
• Esto se debe a que es la suma de valores cuadráticos (por ende siempre
positivos).
• Cuenta con un parámetro central: K grados de libertad.

Mientras más valores sume, más


probables se vuelven los valores
más altos. K es el número de
valores independientes a sumar.
3. ¿Qué son los grados de libertad?
• En este caso, el número de piezas de información que puede variar
libremente sin pasar a llevar ninguna limitación. En el caso de las
tablas de contingencias las piezas de información son las categorías, y
la limitación es el número total de casos.
• Ejemplo: Existen 100 mascotas.
Tipo Conteo Tipo Conteo En este ejemplo, el 70
mascota mascota pasa a llevar la
Una vez que conozco
dos categorías, la limitación de tener
Perro 30 tercera puede tomar Perro 30 100 casos, es un valor
solo un valor (no imposible. Por lo
puede variar mismo, no pueden
Gato 40 Gato 40 haber 3 categorías
libremente).
que varíen libremente,
Tortuga ? Tortuga 70
30 solo 2.
3. Nota aparte:
• En una distribución chi-cuadrado, en general los grados de libertad es el
número de variables normales independientes (al cuadrado) que están
siendo sumadas.
• En el caso de la prueba chi-cuadrado que estamos viendo, se asume que las
diferencias entre lo observado y lo esperado siguen una distribución normal,
y por ende son ese tipo de variables.
• En el ejemplo anterior, el número de tortugas era dependiente del número
de gatos y perros (dado que solo puede tomar un valor si los otros están
fijos).
• Por lo mismo, se pueden considerar como el número de diferencias
independientes sumadas.
3. Cálculo de los grados de libertad
para la prueba chi-cuadrado:
• Es bastante simple:

• Es la cantidad de categorías que son libres para variar. La


multiplicación es para generar una combinación de categorías.
Tipo de Observado Observado
tratamiento (Ansiedad) (Depresión)

Cognitivo 20 80
Tipo de tratamiento = 2 𝐷𝐹 = ( 2 − 1 ) 𝑥 (2 −
categorías.
conductual Tipo de problema = 2 categorías.
𝐷𝐹 = ( 1 ) 𝑥
Psicodinámico 80 20
𝐷𝐹 =
3. Nota aparte: Grados de libertad x2.
• Si se fijan una tabla de 2x2 nos da solo un grado de libertad. Esto es
dado lo siguiente:
• Si conozco los totales por filas y columnas (o los calculo), puedo conocer los
valores esperados, y con ello puedo calcular las diferencias.
¡al conocer un
valor, el resto
Tipo de Observado Observado
tratamiento (Ansiedad) (Depresión) queda fijado! Por
eso no son “libres”.

Cognitivo 20 (50) 80 (50)


conductual 100

Psicodinámico 80 (50) 20 (50) 100

100 100
3. ¿Para qué hicimos todo esto?
• Recuerden que la inferencia estadística se trata de saber cuán
probable es que nuestro resultado sea por casualidad, si es que viene
de una distribución en la que la hipótesis nula es verdad (no hay
efecto o relación).
• En nuestro ejemplo, el mundo en el que la hipótesis nula es verdad
sigue una distribución chi-cuadrado con 1 grado de libertad.
• Eso quiere decir que vamos a comparar nuestro valor (que
recuerden, representa las desviaciones de lo esperado), con lo que
pasaría si es que el tipo de psicoterapia fuera independiente del tipo
de problema.
4. Definir el valor de probabilidad para
rechazar la hipótesis nula.
• En ciencia, usualmente el valor para rechazar la hipótesis nula (o valor
crítico, o α) está fijado a un 5% (o 0.05).
• Este valor significa que casos con una probabilidad de 0.05 o menos,
serían considerados como improbables si la hipótesis nula fuera
verdad.
• En nuestro caso, serían diferencias improbables en un universo
donde el tipo de problema es independiente de la psicoterapia.
• Recuerden que este es el mundo de la hipótesis nula.
• Vamos a ir viendo que a veces α puede ser aún más pequeño.
5. Determinemos el valor de probabilidad en la
distribución comparativa ¡Vamos a R!
• Antiguamente se usaban tablas para calcular si un valor es
estadísticamente significativo o no.
• Hoy en día se puede calcular la probabilidad de observar un valor
igual o más alto que el calculado (nuestro valor x2) dado que la
hipótesis nula es verdadera, a través del computador.
• Esto es lo mismo que el p–value.
5.

p = 0.00000000000000022
5.
En realidad con un grado
de libertad se ve asi, la
otra es con tres.

Nuestro valor está por allá…


p = 0.00000000000000022
6. Comparar con el punto de corte y
decidir.
• Dado nuestro valor crítico de ⍺ = 0.05, tras realizar una prueba Chi-
Cuadrado (χ2(1) = 72, p < .0001) rechazamos la hipótesis nula de que
el tipo de psicoterapia que eligen los y las pacientes es independiente
del problema de salud mental por el que consultan.
• Esto quiere decir que encontrar diferencias entre los valores
observados y los esperados de esta magnitud es altamente
improbable en el caso de que fueran independientes (el mundo de la
hipótesis nula).
6. Comparar con el punto de corte y
decidir.
• Lo anterior aporta evidencia a pensar de que
existe una asociación entre el tipo de
psicoterapia que buscan los y las pacientes y el
tipo de problema que presentan, más allá de lo
esperable por azar en caso de que fueran
independientes. Tipo de Observado Observado
tratamiento (Ansiedad) (Depresión)
Quienes presentan más ansiedad tienden a preferir las
psicoterapias psicodinámicas, mientras quienes Cognitivo 20 80
presentan más depresión tienden a preferir las conductual
psicoterapias cognitivo-conductuales.
Psicodinámico 80 20
Reporte en APA (En texto):

(χ2(1) = 72, p < .0001)

Estadístico
Valor del Valor de
utilizado
Grados de estadístico probabilidad
libertad
Resumen del cálculo de chi cuadrado:
Resumido en la fórmula.
• Extraemos las frecuencias observadas de cada categoría o celda.
• Determinamos las frecuencias esperadas para cada categoría.

• Calculamos la diferencia cuadrática de las frecuencias observadas v/s


esperadas por cada celda.
• Elevamos al cuadrado las diferencias.
• Dividimos las diferencias cuadráticas por la frecuencia esperada.
• Sumamos los resultados del paso anterior.
2
(𝐹𝑟𝑒𝑞𝑂𝑏𝑠 − 𝐹𝑟𝑒𝑞𝐸𝑥𝑝 )
𝜒 2=∑
𝐹𝑟𝑒𝑞𝐸𝑥𝑝
Resumen de la inferencia con Chi-
Cuadrado:
• Una vez calculado el estimado chi-cuadrado:
• Seleccionamos la distribución chi-cuadrado que utilizaremos para comparar (la de la
hipótesis nula). Para esto debemos calcular los grados de libertad.

• Determinamos el punto de corte crítico para definir que es estadísticamente


significativa (e.g.: ⍺ = 0.05; ⍺ = 0.01; ⍺ = 0.001).
• Calculamos la probabilidad de nuestro valor chi-cuadrado muestral calculado (en
nuestro ejemplo era 72) en la distribución de comparación.
• Si es menor a nuestro punto de corte crítico, entonces rechazamos la hipótesis nula.
• Dado que asumimos que sería muy improbable que este valor viniera de una distribución en el
que las categorías son independientes. Por ende, asumimos que son dependientes.
Supuestos de la prueba chi-cuadrado:
• No tiene supuestos de normalidad como otras pruebas, por lo que es
bastante flexible en su utilización.
• Sí, las observaciones deben ser independientes (distintos sujetos por
casilla).
• Además, los datos deben ser nominales y las categorías mutuamente
excluyentes.
Tamaño de efecto en chi-cuadrado:
• En generar se calcula con V de Cramer:

Donde:
• = estadístico chi-cuadrado.
• n = número total de la muestra.
• Min(c-1,r-1) = el mínimo entre los grados de libertad de las columnas o las filas.
• Va de 0 a 1, siendo 0 independencia total, y 1 asociación total.
• 0.1 = pequeño.
• 0.3 = mediano.
• 0.5 = grande.
Resumen de la clase:
• La prueba ”chi-cuadrado” se utiliza para comparar proporciones y ver
si estas son dependientes de sus categorías o no.
• Compara los valores observados con los esperados si es que fueran
independientes.
• Si es que se rechaza la hipótesis nula, se asume que no son
independientes y por ende están asociados.
Cómo se calcula en R y qué significa:
• En R es bastante simple de calcular:
• a) Creamos una tabla de contingencia.
• b) Sobre la table usamos la función chisq.test(tabla).
• c) Interpretamos: Si el valor p es menor a 0.05 (o nuestro umbral crítico)
rechazamos la hipótesis nula. Esto quiere decir que asumimos que el tipo de
problema con el tipo de tratamiento están relacionados.

Tipo de Observado Observado


tratamiento (Ansiedad) (Depresión)

Cognitivo 20 80
conductual

Psicodinámico 80 20
Próxima clase:
• Haremos una prueba x2 con datos reales.
• Veremos cómo se comparan promedios a través de una preba t.
• Para eso conoceremos la prueba t 

También podría gustarte