Sesión 15 Pruebas de Hipótesis Bivariadas Variables Categóricas 6.10.20 PDF

Pruebas de hipótesis bivariadas:
dos variables categóricas

Análisis de Datos Políticos
Sesión 15
6 de octubre, 2020
Profesora Catherine Reyes-Housholder
Conceptos de la Sesión 14:
Tomando decisiones y cometiendo errores
• Nivel de confianza vs. nivel de significancia
• Los niveles de confianza son 90%, 95%, o 99%.
• 1 - el nivel de confianza = el nivel de significancia, indicado por la letra
griega de alpha: 𝝰.
• Tipos de errores en tomar decisiones: Tipo I y II
• Región de rechazo
Tomando decisiones
• En la sesión 14, hicimos una prueba de hipótesis con respecto a la
igualdad de género en la presidencia latinoamericana.
• Calculamos a partir de la tabla de probabilidades cumulativas de la
distribución normal (tabla A de A&F) un valor-p de menos de 0.01.
Por ende, observamos mucha evidencia en contra la hipótesis nula.
• En base a esta evidencia resumida en el valor-p, tomamos la decisión
de rechazar la hipótesis nula.
• Cuando tomamos decisiones en base a la evidencia resumida en un
valor-p, SIEMPRE existe la posibilidad de equivocarnos.
Afortunadamente, podemos cuantificar esta posibilidad de
equivocarnos.
Tomando decisiones y cometiendo errores
• Siempre existe la posibilidad de equivocarnos, es decir, rechazar la
hipótesis nula cuando es la correcta o no rechazar la hipótesis nula
cuando es incorrecta.
• Entonces, existen solamente 2 posibilidades de errores al momento
de tomar una decisión en base a un valor-p o un valor de
probabilidades.
• Cuando, H0 es la verdad, y rechazamos H0 , hemos cometido un error
de Tipo I.
• Cuando, H0 es falsa, y no logramos rechazar H0 , hemos cometido un
error de Tipo II.
Tipos de errores
Cuando, H0 es la verdad, y rechazamos H0 , cometimos un error de Tipo I.
Cuando, H0 es falsa, y no logramos rechazar H0 , cometimos un error de Tipo II.
Tipos de errores
• La probabilidad de cometer un error de Tipo I es el nivel de significancia, indicado
por la letra griega de alpha: 𝝰.
• Por ejemplo para hacer una prueba con un nivel de significancia de 𝝰 = 0.05, es
decir 5%, hay que solamente rechazar la hipótesis nula si el valor-p es menos que
0.05.
• Si el nivel de significancia es 0.05, hay una probabilidad de 0.05 de cometer un
error tipo I, en donde rechazas la hipótesis nula, siendo esta hipótesis la
verdadera.
• Si el nivel de significancia es 0.10, hay una probabilidad de 0.10 de cometer un
error tipo I, en donde rechazas la hipótesis nula, siendo esta hipótesis la
verdadera.
• En la ciencia política, tal como en otras disciplinas, se debería establecer el nivel
de confianza de la prueba de significancia antes de hacer la prueba en vez de
después, considerando la relevancia y posibilidades de cometer errores Tipo I o
Tipo II.
Región de rechazo
• La región de rechazo son
los valores del estadístico
de prueba en donde se
puede rechazar la
hipótesis nula.
• La región de rechazo
depende de 𝝰.
Lecturas para la Sesión 15
• A&F Capítulo 10.1-10.2
Conceptos
• Métodos bivariados
• Intervalos de confianza para comparar proporciones y medias
• Errores estándares para comparar proporciones y medias
Repaso y extensiones
• Variable X vs. variable Y (pero no se puede inferir causalidad sin
aleatorización en la variable X).
• Muestras independientes
• Tablas de contingencia
Puntos Centrales
• Muchas veces queremos comparar dos grupos para saber si son
“realmente” diferentes, es decir, estadísticamente diferentes.
• Se requiere herramientas para hacer pruebas de hipótesis bivariadas.
• El tipo de prueba de hipótesis bivariada depende de la naturaleza de
los datos: ¿Son variables categóricas? ¿Cuantitativas? ¿Una variable
categórica y otra cuantitativa?
• Estas pruebas de hipótesis normalmente NO permiten la
identificación causal, pero podrían ser un paso preliminar hacia ese
objetivo.
Análisis bivariada
• Hay varios nombres para variables independientes/explicativas /
predictores
• Hay varios nombres para variables dependientes/respuestas.
• El tipo de prueba de hipótesis bivariada depende de qué tipo de
variables estamos analizando: categórica vs. cuantitativa.
• Con la regresión lineal, nuestras variables dependientes serán
cuantitativas.
Análisis bivariada
Análisis bivariada
BUENA NOTICIA:
La lógica de las pruebas de hipótesis para hipótesis bivariada es LA MISMA que
vimos en las sesiones anteriores.
1. Supuestos
2. Hipótesis
3. Estadísticos de prueba (las fórmulas serán diferentes, de acuerdo con qué
tipo de prueba se hace / qué tipo de variables están usando)
4. Valor-p
5. Conclusiones
En este ejemplo, vamos a crear un intervalo de confianza y vamos a calcular un
estadístico de prueba.
Comparando proporciones: Experimento de votación
Ejemplo inventado para fines pedagógicos, inspirado de los experimentos
de campo de Gerber y Green.
Con los diseños experimentales, hay un grupo tratado y un grupo de
control. Un mecanismo aleatorio establece cuáles individuos entrarán a
cuál grupo.
Información sobre la ideología y experiencia de lxs candidatxs: grupo
tratado (el tratamiento es información sobre).
Información sobre el tiempo: grupo de control (el placebo para este grupo
es información que dice que va a hacer sol mañana)
Con diseños experimentales como este, no se requiere nada recurrir a
otras herramientas estadísticas para inferir causalidad. Solamente hay que
hacer una prueba de hipótesis bivariada.
Variables X y Y categóricas:
Comparando proporciones
• Si es que sabemos que la asignación de la
variable X fue aleatorizada, podemos analisar
esto como un experimento.
• 𝑝̂! se refiere a la proporción de la variable 𝑝!! − 𝑝!"
dependiente que recibió un valor de la variable
X
• 𝑝̂ " se refiere a la proporción de la variable
dependiente que recibió otro valor de la
variable X
• Con los datos presentados en una tabla de
contingencia, podemos calcular un intervalo de
confianza de 99%.
Prueba de hipótesis bivariada:
Experimento de votación
Primer paso
Crear una tabla de contingencia para analisar datos cuyas variables X y Y son
categóricas.
La unidad de análisis: individuxs / ciudadanxs
Una cantidad muy grande de observaciones
Siempre hay 2 hipótesis.
¿Cuáles podrían ser las hipótesis?
H0:
Ha:
Hipótesis:
H0:No hay una diferencia entre los grupos.
Ha: Hay una diferencia entre los grupos.
H0: 𝑝1= 𝑝2
Ha: 𝑝! ≠ 𝑝"
PAUSA MUSICAL
https://open.spotify.com/playlist/6ASzrKjIwpPyW87kW7knyr
?si=8gvJDy1UTW-0Ac3RKEFVlw
“Infinite” Sugerencia de Simei
¡Volvamos en 10 minutos!
La fórmula para calcular un intervalo de confianza puede ajustarse ser
para niveles de 90%, 95%, o 99%.
Como tenemos muchas observaciones, deberíamos usar alpha
𝝰 = 0.01.
𝑝!! − 𝑝!" ± 𝑧 𝑠𝑒
𝑝̂! = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛ú𝑚𝑒𝑟𝑜 1
𝑝̂" = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛ú𝑚𝑒𝑟𝑜 2
𝑧 = 1.96 𝑠𝑖 𝑢𝑠𝑎𝑚𝑜𝑠 𝑛𝑖𝑣𝑒𝑙𝑒𝑠 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 95%
𝑠𝑒 = 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟
Para usar esta fórmula, tendremos que calcular los errores estándares a
partir de los datos de la tabla de contingencia que hemos construido.
𝑝!! − 𝑝!" ± 𝑧 𝑠𝑒
?̂!
𝑝̂! 1 − 𝑝 ?̂"
𝑝̂" 1 − 𝑝
𝑠𝑒# = +
𝑛! 𝑛"

𝑛! = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 1
𝑛" = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 1
• Podemos calcular los errores estándares “a mano” o con una

calculadora.
• Grupo 1: grupo tratado con la información sobre lxs candidatxs
• Grupo 2: grupo de control con la información sobre el tiempo
𝑝̂! − 𝑝̂ " ± 𝑧 𝑠𝑒
𝑝̂! − 𝑝̂ " ± 𝑧 𝑠𝑒
39,700/53,408) − (34,700/47,888) ± 2.58 𝑠𝑒
𝑝̂! − 𝑝̂ " ± 𝑧 𝑠𝑒
39,700/53,408) − (34,700/47,888) ± 2.58 𝑠𝑒
( 0.7433) − (0.7246) ± 2.58 𝑠𝑒
𝑝̂! − 𝑝̂ " ± 𝑧 𝑠𝑒
39,700/53,408) − (34,700/47,888) ± 2.58 𝑠𝑒
0.7433) − (0.7246) ± 2.58 𝑠𝑒

0.0187 ± 2.58 𝑠𝑒
Parece chica la diferencia…a ver si la diferencia logra significancia
estadística….hay que calcular el error estándar.
)̂C
𝑝̂C 1 − 𝑝 )̂D
𝑝̂D 1 − 𝑝
𝑠𝑒B = +
𝑛C 𝑛D

𝑛! = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 1
𝑛" = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 1
*̂#
𝑝̂# 1 − 𝑝 *̂$
𝑝̂ $ 1 − 𝑝
𝑠𝑒" = +
𝑛# 𝑛$
0.7433 1 − 0.7433 0.7246 1 − 0.7246

𝑠𝑒" = +
53,408 47,888
*̂#
𝑝̂# 1 − 𝑝 *̂$
𝑝̂ $ 1 − 𝑝
𝑠𝑒" = +
𝑛# 𝑛$
0.7433 1 − 0.7433 0.7246 1 − 0.7246

𝑠𝑒" = +
53,408 47,888
0.7433 0.2567 0.7246 0.2754

𝑠𝑒" = +
53,408 47,888
*̂#
𝑝̂# 1 − 𝑝 *̂$
𝑝̂ $ 1 − 𝑝
𝑠𝑒" = +
𝑛# 𝑛$
0.7433 1 − 0.7433 0.7246 1 − 0.7246

𝑠𝑒" = +
53,408 47,888
0.7433 0.2567 0.7246 0.2754

𝑠𝑒" = +
53,408 47,888
0.1908 0.20
𝑠𝑒" = +
53,408 47,888
0.1908 0.20
𝑠𝑒" = +
53,408 47,888
𝑠𝑒" = 0.00000357 + 0.00000418
𝑠𝑒" = 0.00000775
𝑠𝑒" = 0.00278
Comparar proporciones: Experimento de
votación
Aquí están los valores
que tenemos:
𝑝!! − 𝑝!" ± 𝑧 𝑠𝑒
𝑝̂C = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛ú𝑚𝑒𝑟𝑜 1
𝑠𝑒# = 0.0028
𝑝̂D = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛ú𝑚𝑒𝑟𝑜 2
𝑝̂! = 0.7246 𝑧 = 2.58 𝑠𝑖 𝝰 = 0.01
𝑝̂ " = 0.7433 𝑠𝑒 = 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟
𝑛! = 47,888
𝑛" = 53,408
votación
• Intervalo de confianza de 99% [0.01798, 0.019416]
¿Cómo interpretar este intervalo de confianza?
Queremos saber si la información tiene un efecto en la probabilidad de votar.
Información => probabilidad de votar
1. Averigua primero si 0 cae dentro del intervalo. Si es así, es plausible que
los grupos son iguales, y entonces la información no tiene ningún efecto
causal. Es decir, no podemos diferenciar la probabilidad de votar de las
personas que recibieron la información sobre el tiempo con la probabilidad
de votar de las personas que recibieron la información sobre lxs candidatxs.
votación
• Intervalo de confianza de 99% [0.01798, 0.019416]
¿Cómo interpretar este intervalo de confianza?
2. Si todos los valores del intervalo de confianza son positivos, podrías inferir
que el efecto de la variable independiente sobre la variable dependiente es
mayor de cero, o que la probabilidad de votar del grupo 1 es mayor que la
probabilidad de votar del grupo 2. Este intervalo muestra cuánto mayor sería
esa probabilidad.
Al contrario, si todos los valores son negativos, podrías inferir que la
probabilidad de votar del grupo 1 es menor que la probabilidad de votar del
grupo 2. En este caso, la variable independiente tendría un efecto negativo.
Si todos los valores en el intervalo de confianza están cerca a cero (pero no
0), sugiere que el efecto existe, pero es bastante pequeño en cuánto a su
magnitud.
votación
Intervalo de confianza de 99% [0.01798, 0.019416]
Significa que estamos muy seguros (99%) que la proporción población
de votar es entre 0.01798 y 0.019416 más alto para el grupo tratado
que para el grupo no tratado.
Gracias al hecho de que la variable independiente fue aleatorizada,
podemos inferir causalidad: sí, la información sobre lxs candidatxs
aumentó la probabilidad de votar.
la información sobre lxs candidatxs => la probabilidad de votar.
Conclusiones
• Prueba de hipótesis bivariadas suelen ser más relevantes para lxs
cientistas políticxs que pruebas de hipótesis univariadas.
• La lógica para estas pruebas de hipótesis de LA MISMA.
• Las fórmulas van a cambiar de acuerdo con qué tipo de variables
están usando.
• Podemos construir intervalos de confianza y también calcular
estadísticos de prueba y valores-p para tomar decisiones.
Próxima Sesión 16: Pruebas de hipótesis
bivariadas
• Vamos a terminar este ejemplo del efecto causal de información
sobre la probabilidad de votar el jueves 8 de octubre.
• Pruebas de hipótesis bivariadas:
• Una variable categórica y una cuantitativa
• Introducir y practicar pruebas de hipótesis bivariadas con diferencias
de medias.
Ejemplo 1: sexo de los presidentes y aprobación presidencial.
Ejemplo 2: tipo de gobierno parlamentario y duración de gobierno.

Sesión 15 Pruebas de Hipótesis Bivariadas Variables Categóricas 6.10.20 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión 15 Pruebas de Hipótesis Bivariadas Variables Categóricas 6.10.20 PDF

Cargado por

Copyright:

Formatos disponibles

Pruebas de hipótesis bivariadas:

dos variables categóricas

𝑝̂! = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛ú𝑚𝑒𝑟𝑜 1

• Podemos calcular los errores estándares “a mano” o con una

39,700/53,408) − (34,700/47,888) ± 2.58 𝑠𝑒

0.7433) − (0.7246) ± 2.58 𝑠𝑒

𝑝̂! = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛ú𝑚𝑒𝑟𝑜 1

0.7433 1 − 0.7433 0.7246 1 − 0.7246

0.7433 1 − 0.7433 0.7246 1 − 0.7246

0.7433 0.2567 0.7246 0.2754

0.7433 1 − 0.7433 0.7246 1 − 0.7246

0.7433 0.2567 0.7246 0.2754

También podría gustarte