Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B,
admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las
frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de
contingencia. Los datos se disponen de la forma
Para ver el gráfico seleccione la opción "Descargar" del menú superior
siendo nij el número de individuos que presentan simultáneamente la i-ésima modalidad
del carácter A y la j-ésima del B.
La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma
independiente en los individuos de la población de la cual se extrae la muestra; siendo la
alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba
requiere el cálculo del estadístico
Para ver el gráfico seleccione la opción "Descargar" del menú superior
donde:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
y
Para ver el gráfico seleccione la opción "Descargar" del menú superior
son las frecuencias absolutas marginales y
Para ver el gráfico seleccione la opción "Descargar" del menú superior
el tamaño muestral total.
El estadístico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se
realiza con un nivel de significación del 5%.
Ejemplo de Aplicación
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó
una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
Deportista 38 9 47
No deportista 31 22 53
69 31 100
A B Total
X a b a+b
Y c d c+d
Total a + c b + d n
Ejemplo de Aplicación
En un estudio para determinar si existe relación entre el sexo y el propósito de elegir una
carrera técnica se entrevistaron a 120 aspirantes a la universidad. Los resultados se observan
en la siguiente tabla de contingencia:
Masculino 40 30 70
Femenino 10 40 50
Total 50 50 120
Nº niños Nº niños
Comunidad
sin caries con caries
A 38 87 125
B 8 117 125
C 30 95 125
D 44 81 125
E 64 61 125
F 32 93 125
L = (38 – 36)2/36 + (8 – 36)2/36 + (30 – 36)2/36 + (44 – 36)2/36 + (64 – 36)2/36 + (32 –
36)2/36 + (87 – 89)2/89 (117 – 89)2/89 + (95 – 89)2/89 + (81 – 89)2/89 + (61 – 89)2/89 +
(93 – 89)2/89
L = 0,1111 + 21,7778 + 1,0000 + 1,7778 + 21,7778 + 0,4444 + 0,0449 + 8,8089 + 0,4045 +
0,7191 + 8,8089 + 0,1797
L = 65,85
Se quiere saber si la incidencia de caries infantil es igual en las seis poblaciones.
La propia tabla hace pensar que la incidencia de la enfermedad no es igual en todas las
poblaciones; basta observar los datos correspondientes a las comunidades B y E. El contraste
arroja un valor del estadístico L de 65,85, lo que lleva a rechazar la hipótesis de homogeneidad
y aceptar que el diferente contenido de fluor en el suministro del agua puede ser la causa de la
disparidad en el número de niños con caries. El Lt esperado según la tabla de
las distribución Chi Cuadrado es 11,0705 que es menor 65,85.
ANÁLISIS DE LA VARIANZA
Del mismo modo que el contraste χ2 generalizaba el contraste de dos proporciones, es
necesario definir un nuevo contraste de hipótesis que sea aplicable en aquellas situaciones en
las que el número de medias se quieren comparar sea superior a dos. Es por ello por lo que
el Análisis de la Varianza, ANOVA surge como una generalización del contraste para dos
medias de la t de Student, cuando el número de muestras a contrastar es mayor que dos.
Por ejemplo, supóngase que se tienen 3 muestras de diferentes tamaños que se suponen que
provienen de tres poblaciones normales con la misma varianza:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Si se quiere realizar el contraste
Es decir que la muestras provienen de poblaciones independientes unas de las otras, se podría
plantear como primer método el fijar una cantidad αpróxima a cero y realizar los contrastes
siguientes con α como nivel de significación:
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
De modo que se aceptaría H1 y se rechazaría H0 sólo si alguna de las hipótesis
alternativas H1', H1'' ó H1''' es aceptada y rechazada su correspondiente hipótesis nula. El error
de tipo I para este contraste es:
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
Por ello el nivel de significación obtenido para este contraste sobre la igualdad de medias de
tres muestras no es como hubiésemos esperado obtener inicialmente, sino. (1 – (1 – α)3) Por
ejemplo, si se toma un nivel de significación α = 0,1 para cada uno de los contrastes de igualdad
de dos medias, se obtendría que el nivel de significación (error de tipo I) para el contraste de
las tres medias es de 1 - 0,93 = 0,27, lo que es una cantidad muy alta para lo que se acostumbra
usar.
En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias
muestras mediante una multitud de contrastes de igualdad de medias de dos muestras.
Una técnica que permite realizar el contraste de modo conveniente es la que expone en
este trabajo y que se denomina Análisis de la Varianza.
ANOVA con un factor
Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que
la variable analizada va a depender de un sólo factor de tal manera que las causas de su
variabilidad son englobadas en una componente aleatoria que se denomina error experimental:
Para ver la fórmula seleccione la opción "Descargar" del menú superior
Considérese una variable sobre la que actúa un factor que puede presentarse bajo un
determinado número de niveles, t. Por ejemplo se puede considerar un fármaco que se
administra a t = 3 grupos de personas y se les realiza cierta medición del efecto causado:
Resultado de la medición
Gripe (nivel 1) 5 3 2 5 4 3 n1 = 6
Apendicitis (nivel
8 9 6 7 8 9 10 8 10 n2 = 8
2)
Sanos (nivel 3) 2 3 2 1 2 3 2 n3 = 6
En este caso los factores que influyen en las observaciones son tres: el que la persona padezca
la gripe, apendicitis, o que esté sana.
De modo general se pueden representar las t muestras (o niveles) del siguiente modo:
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
Donde por supuesto, los tamaños de cada muestra ni, no tienen por que ser iguales. En este
caso se dice que se trata del modelo no equilibrado.
Observación
De ahora en adelante se asume que las siguientes condiciones son verificadas por
las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Además, dentro de cada nivel las
observaciones son independientes entre sí.
En el modelo de un factor se supone que las observaciones del nivel i, xij, provienen de
una variable Xij de forma que todas tienen la misma varianza; Hipótesis de
Homocedasticidad:
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
o lo que es lo mismo,
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
De este modo μi es el valor esperado para las observaciones del nivel i, y los errores eij
son variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de
dispersión para todas las observaciones.
Otro modo de escribir lo mismo consiste en introducir una cantidad μ que sea el valor esperado
para una persona cualquiera de la poblaciσn (sin tener en cuenta los diferentes niveles), y
considerar los efectos αi introducidos por los niveles, de modo que
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
Especificación del modelo
Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
y con la siguiente interpretación:
μ es una constante común a todos los niveles;
αi es el efecto producido por el i-ésimo nivel. Al sumarlos todos deben compensarse los efectos
negativos con los positivos para que la media común a todos los niveles sea realmente μ. Esto
implica en particular que los efectos, αi, de los niveles no son independientes;
eij es la parte de la variable Xij no explicada por μ ni αi, y que se distribuye del mismo modo
(aunque independientemente) para cada observación, según la ley Gaussiana:
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
Ésta es la condición de homocedasticidad, y es fundamental en el análisis de la varianza.
Obsérvese que ahora se puede escribir el contraste de que los diferentes niveles no tienen
influencia sobre la observación de la variable como
Para ver las fórmulas seleccione la opción "Descargar" del menú superior
o bien
Para ver las fórmulas seleccione la opción "Descargar" del menú superior