Está en la página 1de 42

Pruebas de

independencia
Comprobar si dos variables son independientes entre si
Descripción general

Muchas veces
Realizamos una tabla
estamos midiendo en
en la cual cruzamos
una muestra dos
las dos variables y
variables(
realizamos un
preferiblemente
contraste de hipótesis
cualitativa)
Características y ventajas

Se quiere determinar si existe una relación entre dos


características diferentes de la población

Donde cada característica se encuentra


subdividida en un cierto numero de categorías

Cada una de las relaciones existentes se describen


en una tabla la cual se llama tabla de
contingencia r * c (r filas y c columnas)

Se plantea una prueba de hipótesis en la cual se


busca si son independientes o no existe evidencia
que lo sea
Tabla de contingencia

A 𝑨ഥ
B 𝑛(𝐴 ∩ 𝐵) 𝑛(𝐴ҧ ∩ 𝐵) n(B)

𝑩 ത
𝑛(𝐴 ∩ 𝐵) 𝑛(𝐴ҧ ∩ 𝐵)
ത ത
𝑛(𝐵)
n(A) 𝑛(𝐴)ҧ n

Frecuencias
marginales
Contraste de hipótesis

 Ho: A y B son independientes


 H1: A y B no son independiente
 Los grados de libertad de la chi cuadrada es (r-1)(c-1).
También tenemos valores positivos por lo tanto el area de
rechazo esta en la cola derecho de la distribución
Consideraciones

 Tenemos que dos variables A y B son independientes si


𝑝 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵)
o Cuando probamos independencia lo que nos gustaría saber si
hay relación o no entre las variables. Un ejemplo podría ser el
nivel económico de una persona y su afiliación política. El
estrato social y el nivel de educación.
Ejemplo

A1 A2

B1 8 6 14
 Observe la siguiente tabla
de contingencia y muestre
si A y B son independientes B2 12 9 21

20 15 35
Continuación

 Tenemos que las dos


 𝑃 𝐴 ∩ 𝐵 = 8/35
variables son dependientes
12
 𝑃 𝐴 = 35 es decir no hay asociación
entre las variables.
 𝑃 𝐵 = 15/35
 Pero Como es obvio en este
20 14
 𝑃 𝐴 𝑃 𝐵 = 35 35 = 35
8 caso no lo podemos hacer
de forma manual
Limites para la prueba de
independencia
 Cuando en la table de contingencia encontramos algunas
celdas frecuencias muy pequeñas esto es menores que 5,
entonces la siguiente prueba no es confiable ( La mayoría de
la literatura asegura que no sean mas del 20% de las Casillas).
Hay alternativas como la de Fisher
 Si las muestras son muy grande, la prueba dará resultados
significativos, pero no podemos descuidar la interpretación de
esos resultados, porque tal vez que no exista asociación entre
las variables no son importantes para el estudio planteado
 A veces al no ser independiente es mal interpretado y
enseguida se mira como una asociación pero esto no es
cierto, existen formas de hallar ese grado de asociación entre
variables
Homogeneidad

 Prueba de Homogeneidad de varias muestras cualitativas,


consiste en comprobar si varias muestras de una carácter
cualitativo proceden de la misma población. En esencia lo
que se quiere mostrar es que para las k categorías de una
variable A, La categorías de B tienen la misma proporción
Las hipotesis de
independencia y
homogeneidad son

 Ho: No hay asociacion entre las variables A Y B( Equivales a


decir que A y B son independentientes)
 H1:Si hay relacion entre las variables Ay B
________________________________________________________________
 Ho: Las proporciones de cada valor de la variable B son
iguales en cada columna de la variable A
 H1: Al menos una de las proporciones para cada valor de la
variable B no son iguales en cada columna de la variable A
Ejemplo de homogeneidad

male female

violent 117 66

property 150 160

drug 109 168

public-order 204 106


250

200

150

male
female
100

50

0
violent property drug public-order
 Variable de interés: crimen ( 4 categorías)
 Poblacion: hombres ymujeres
 Ho: La proporción de las categorías es la misma para
hombres y mujeres
male female marginal/fila porcentaje

violent 117 66

property 150 160

drug 109 168

public-order 204 106

marginal/columna

porcentaje
Bajo os datos observados

male female marginal/fila porcentaje

violent 117 66 183 18.3

property 150 160 310 31

drug 109 168 277 27.7

public-order 124 106 230 23

marginal/columna 500 500 1000 100

porcentaje 0.5 0.5


Frecuencias esperadas

male female marginal/fila porcentaje


violent 91.5 91.5 183 18.3
property 155 155 310 31
drug 138.5 138.5 277 27.7
public-order 115 115 230 23

marginal/columna 500 500 1000 100


porcentaje 0.5 0.5
Calculo de chi-cuadrado

male female marginal/fila

violent 7.10655738 7.10655738 14.2131148

property 0.16129032 0.16129032 0.32258065

drug 6.2833935 6.2833935 12.566787

public-order 0.70434783 0.70434783 1.40869565

marginal/columna 14.255589 14.255589 28.5111781


El estadístico calculado

 Ambas hipótesis se prueban usando una prueba chi-cuadado

𝑐 𝑟
𝑂𝑖𝑗 − 𝐸𝑖𝑗 2
χ2 = ෍ ෍
𝐸𝑖𝑗
𝑖=1 𝑖=1

Donde O señala las frecuencias observada en la filai y columna j,


y E representa la frecuencia esperada en la misma celda.
La frecuencia esperada es la que se da bajo la hipotesis nula.
(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑙 𝑟𝑒𝑛𝑔𝑙𝑜𝑛)
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 =
𝑔𝑟𝑎𝑛 𝑡𝑜𝑡𝑎𝑙
Ejemplo (Tomado de
Walpole)

 Se selecciono una muestra aleatoria de 1000 votantes y los


totales de los renglones y las columnas de la tabla de
contingencia se determinaron al azar. Supóngase, por
ejemplo, que previamente se decide seleccionar a 200
demócratas, 150 republicanos y a 150 independientes de los
votantes Carolina del Norte y se les clasifica respecto a la ley
del aborto según estén a favor en contra o no hayan
decidido. Las respuestas se incluyen en la siguiente tabla
Ejemplo de independencia

Cancer\fuma si no
si 0.3 0.3 0.6
no 0.2 0.2 0.4
0.5 0.5
Ley de Demócrata Republicano Independiente Total
aborto

A favor 82 70 62 214
En contra 93 62 67 222
Sin decision 25 18 21 64
Total 200 150 150 500
(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑙 𝑟𝑒𝑛𝑔𝑙𝑜𝑛)
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 =
𝑔𝑟𝑎𝑛 𝑡𝑜𝑡𝑎𝑙
Ley de Demócrata Republicano Independiente Total
aborto

A favor 82(85.6) 70(64.2) 62(64.2) 214


En contra 93(88.8) 62(66.6) 67(66.6) 222
Sin decision 25(88.8) 18(19.2) 21(19.2) 64
Total 200 150 150 500
Contraste de hipótesis

 Pruebe que las opiniones en relación a la ley del aborto


propuesta son las mismas dentro de cada afiliación política.
Utilice nivel de significancia de 0.05
 Ho: La proporción a favor o en contra o sin decisión al aborto
es la misma sin importar su afiliación política
 H1: La proporción sobre opinión ( o no decisión) al aborto no
es la misma para cada afiliación política
Contraste de hipótesis

 La región critica es a la derecho de 9.488 con 2*2=4 grados de


libertad
 Hacemos la diferencia de cada valor observado y esperado
al cuadrado ( ver Excel) nos queda que el valor calculado es
1.53 a la izquierda, por lo tanto no hay evidencia con un nivel
de significante de 0.05 para rechazar la hipótesis nula.
Entonces no tenemos evidencia que la proporción de
demócratas, republicanos e independiente sea distinta
acerca del aborto.
Contraste de hipótesis

 De hecho podríamos plantear la hipótesis de independencia,


con la cual quedaría
 Ho: No hay relación entre la afiliación a los partidos políticos y
opiniones sobre el aborto
 H1: Si hay relación entre ambas variables.
Deberíamos entonces que no hay relación entre ambas variables
Ejemplo en R-commander

estadísticos

Tablas de
contingencia

• Colocamos la
Introducir los
cantidad de
datos
filas y columnas
Resultados

 .Table # Counts Nos da los datos tabulados


 .Test <- chisq.test(.Table, correct=FALSE) #Hace la prueba chi-
cuadrada
 .Test #Da los resultados de la prueba chi
 .Test$expected # Expected Counts # la frecuencia esperada
 round(.Test$residuals^2, 2) # Chi-square Components #
Pedimos los componentes del Chi-cuadrado
Ejemplo

 Tenemos los resultados de estudiantes de nuevo ingreso a la


universidad, queremos observar si se relaciona o no el tipo de
escuela de la cual proviene (publica o privada) y el resultado
en el examen de matemática
 Los resultados que se obtuvieron en la muestra se describen a
continuación
Datos

est escuela aprobo est escuela aprobo

1 privada si 11 publica si

2 privada no 12 privada no

3 publica no 13 publica no

4 privada si 14 privada si

5 publica si 15 privada si

6 publica no 16 publica no

7 publica si 17 privada no

8 privada si 18 publica si

9 publica si 19 publica no

10 privada si 20 privada si
Ejercicio

 Realizar un contraste de hipótesis donde concluya si hay


asociación o no entre el tipo de escuela y el aprobó o no el
primer examen de matemáticas
 Realizar un contraste de hipótesis donde concluya o no que la
proporción del primer examen de matemáticas depende del
tipo de escuela sea publicao privada
Mis respuestas……

 Frequency table:
V2
V1 no si
privada 3 7
publica 5 5
Pearson's Chi-squared test

data: .Table
X-squared = 0.83333, df = 1, p-value = 0.3613
Conclusión

 Según los datos no hay evidencia para rechazar la hipótesis


nula, por lo tanto podemos concluir que no hay asociación
entre el tipo de escuela de donde proviene el estudiante y el
resultado del examen de matemáticas
 El contraste de homogeneidad no hay evidencia para
rechazar la nula, así se concluye que la proporción de
estudiantes que aprueban la primara prueba de matemáticas
es la misma para estudiantes de escuela y escuela privada
Corrección de Yates
por continuidad

Cuando se convierte una variable continua a una variable discreta


Correccion por Yatez

 Los contrastes de independencia basados en la distribución


chi-cuadrado aproximan una distribución discreta (la del
estadístico del contraste que es función de la multinomial) por
una continua (la distribución chi-cuadrado). Esto da lugar a un
error considerable cuando el tamaño muestral no es
demasiado grande. Los métodos que disminuyen este error se
llaman correcciones por continuidad. Para mejorar esta
aproximación en el caso de tamaños muéstrales pequeños,
Yates (1934) propuso un método que se llama corrección por
continuidad de Yates para el estadístico X2 en una tabla 2 × 2.
Esta corrección consiste en restar 1/2 a las desviaciones
positivas y sumar 1/2 a las desviaciones negativas. Por lo tanto,
el estadístico corregido
Corrección de Yates por
continuidad

σ( 𝑂𝐼 −𝐸𝐼 −0.5)2
 χ2 =
𝐸𝐼

 La Corrección en general, se utiliza cuando los


grados de libertad es 1
 Con muestras grandes chi-corregida es similar a la
chi sin corrección
 Cuando la muestra es pequeña y la frecuencia
esperada esta entre 5 y 10. Se deben comparar los
valores si coinciden no hay problema…sino
coinciden hay que usar otros tipo de prueba
Corrección de Yates en R

 Solo debemos escribir el siguiente comando para realizar la


corrección de yates
 .Test <- chisq.test(.Table, correct=T)
 Cuando esta correct=FALSE es que no estamos haciendo la
corrección
Ejemplo

 Dos grupos A y B consiste cada uno de 100 personas


enfermas. Se da un suero al grupo A, pero no al grupo
B(control) ; los grupos son tratados de manera idéntica. Se
encuentra que en los grupos A y B de 75 y 65 personas,
respectivamente, se recuperan de la enfermedad. Pruebe de
que el suero ayuda a curar la enfermedad con los niveles de
significancia a) 0.01 b) 0.05 c) 0.10 (Ho,Ho,H1)
Realizando prueba de
homogeneidad

Curados No curados total


Grupo A 75 25 100
Grupo B 65 35 100
Total 140 60 200
Frecuencias esperada bajo
Ho

Curados No curados total


Grupo A 100
Grupo B 100
Total 140 60 200

(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑙 𝑟𝑒𝑛𝑔𝑙𝑜𝑛)


𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 =
𝑔𝑟𝑎𝑛 𝑡𝑜𝑡𝑎𝑙
Curados No curados total
Grupo A 70 30 100
Grupo B 70 30 100
Total 140 60 200
Que es la prueba exacta de
Fisher

 Se usa cuando se esta probando independencia. Una de las


ventajas que tiene esta prueba es que exacta sin importar la
frecuencia y la cantidad de celdas en la tabla de
contingencia, siempre nos dara el valor exacto.
 Normalmente se utiliza cuando las frecuencias de la tabla de
contingencia son menores que 5, pero no hay ninguna
limitación en usarla cuando lo anteriormente expresado no se
cumple
 Cuando los datos tienen un alto grado de dependencia, el
test de chi cuadrado no será valido.

También podría gustarte