Está en la página 1de 13

Universidad Nacional Experimental Politécnica

“Antonio José de Sucre”


Vice-rectorado “Luis Caballero Mejías”
Núcleo Guarenas
Ingeniería Industrial
Asignatura: Inferencia Estadística II
Profesor. Ángel García

TABLAS DE CONTINGENCIA

Alumno:
Camacho M. Styven J.
Exp. 201310108
Hernández V. Gabriel A.
Exp. 201310186

Guarenas, Julio de 2015


INTRODUCCION
El interés en el análisis de tablas de contingencia reside en resumir la información
contenida en la tabla midiendo la asociación entre las dos variables que forman la tabla y
nunca la relación entre las categorías de las variables. Vamos a obtener uno o varios
números que resumen el contenido informativo recogida en cada una de las celdas que se
derivan del cruce de las variables. Por último, y una vez determinado el grado de
asociación entre las dos variables, nos resta valorar si ésta es estadísticamente
significativa, o lo que es lo mismo, si la asociación o relación arrojada por el estadístico
elegido es atribuible a un error de muestro (dicha relación no es genuina de la población
que estudiamos), no pudiendo generalizar los resultado obtenidos.
Como explicaremos más adelante, cuando tenemos más de dos muestras y comparamos
las medias de dos en dos suben las probabilidades de error al rechazar la hipótesis de no
diferencia porque queda suficientemente explicada por factores aleatorios (que también
se denomina error muestral).
TABLAS DE CONTINGENCIA

La tabla 7-2 en la que las frecuencias observadas ocupan una sola fila, es una tabla de
clasificación simple. Puesto que el número de columnas es 𝐾, también se llama tabla
1 𝑥 𝐾. Extendiendo estas ideas se llega a las tablas de clasificación doble o tablas ℎ 𝑥 𝑘,
en las que las frecuencias observadas ocupan ℎ filas y 𝑘 columnas, Tales tablas se llaman
a menudo tablas de contingencia.

Correspondiéndose con cada frecuencia observada en una tabla de contingencia ℎ 𝑥 𝑘,


hay una frecuencia teoríca o esperada que se calcula bajo alguna hipótesis y según las
reglas de probabilidad. Estas frecuencias que ocupan las casillas de una tabla de
contingencia se llaman frecuencias elementales. La frecuencia total de cada fila o
columna es la llamada frecuencia marginal.
Para Estudiar el acuerdo entre las frecuencias observadas y esperadas, se calcula el
estadístico:

(𝑋𝑗 − 𝑛𝑝𝑗 )2
𝑋2 = ∑
𝑛𝑝𝑗
𝑗

Donde la suma se extiende a todas las casillas de la tabla de contingencia, solo símbolos
𝑋, 𝑦 𝑛𝑝𝑗 representan respectivamente las frecuencias observadas y esperadas en la
casilla 𝑗. Esta suma que es análoga a (21), contiene ℎ𝑘 términos. La suma de todas las
frecuencias observadas se denota por 𝑛 y es igual a la suma de todas las frecuencias
esperadas.

El número de grados de libertad de 𝑣 de esta distribución chi-cuadrado está dado por ℎ >
1, 𝑘 > 1 por:

o 𝑣 = (ℎ − 1)(𝑘 − 1) si las frecuencias esperadas pueden calcularse sin tener que


estimar parámetros poblacionales con los estadísticos muéstrales.
o 𝑣 = (ℎ − 1)(𝑘 − 1) − 𝑚 si las frecuencias observadas pueden solamente
calcularse estimando 𝑚 parámetros poblacionales con los estadísticos muéstrales.
Los ensayos de significación para tablas ℎ 𝑥 𝑘 son análogos a los de las tablas 1 𝑥 𝑘. Las
frecuencias esperadas son halladas bajo una determinada hipótesis 𝐻𝑜 . Una hipótesis
normalmente supuesta es la que las dos clasificaciones son independientes entre sí.
Las tablas de contingencia pueden extenderse a un número mayor de dimensiones. Así
por ejemplo, se pueden tener tablas ℎ 𝑥 𝑘 𝑥 1 donde estén presentes 3 clasificaciones.

EJEMPLO
En 200 tiradas de una moneda, han salido 115 caras y 85 cruces. Contrastar la
hipótesis de que la moneda es buena, con nivel de significación (a) 0.05 y (b) 0.01

Solución
Las frecuencias observadas de caras y cruces son 01 = 115 𝑦 02 = 85, y las frecuencias
esperadas (si la moneda es buena) son 𝑒1 = 100 𝑦 𝑒2 = 100, respectivamente, Entonces:
(01 − 𝑒1 )2 (02 − 𝑒2 )2 (115 − 100)2 (85 − 100)2
𝑋2 = + = + = 4.50
𝑒1 𝑒2 100 100
Concluimos que los resultados observados son probablemente significativos y que la
moneda es probablemente falsa.

ANALISIS DE VARIANZA (ANOVA DE UN FACTOR)


El análisis de la varianza de un factor (ANOVA) es una metodología para analizar la
variación entre muestras y la variación al interior de las mismas mediante la determinación
de varianzas. Es llamado de una vía porque analiza un variable independiente o factor
ejemplo: velocidad. Como tal, es un método estadístico útil para comparar dos o más
medias poblacionales. El Anova de un criterio nos permite poner a prueba hipótesis tales
como:

H 0  1   2   3  ....   k

H1 : Al menos dos medias poblacionales son diferentes.

Esencialmente, el diseño para Anova Una Vía, consistirá en obtener muestras aleatorias e
independientes de Y, asociado a cada uno de los distintos niveles de la variable
𝑋(𝑋1 , 𝑋2 , … , 𝑋𝑗 ).

El Anova es un método muy flexible que permite construir modelos estadísticos para el
análisis de los datos experimentales cuyo valor ha sido constatado en muy diversas
circunstancias. Básicamente es un procedimiento que permite dividir la varianza de la
variable dependiente en dos o más componentes, cada uno de los cuales puede ser
atribuido a una fuente (variable o factor) identificable.
EJEMPLO:
Se tienen 14 empleados seleccionados al azar que se someten a 3 diferentes cursos de
entrenamiento: Programa 1, Programa 2 y Programa 3.

Como los empleados se seleccionan aleatoriamente para cada programa el diseño se


denomina diseño completamente aleatorizado Se observa el aprovechamiento de los
empleados en los programas:

TRATAMIENTOS

I c=1 c=2 c=3 J

Programa 1 Programa 2 Programa 3

r=1 85 80 82

r=2 72 84 80

r=3 83 81 85

r=4 80 78 90

r=5 ** 82 88

Medias 80.00 81.00 85.00

Media de medias o media total = 82.14

ANÁLISIS DE VARIANZA (ANOVA DE DOS FACTORES)


En este caso las fórmulas son parecidas a la del Anova de una vía pero ahora agregando
el cálculo por renglones adicional al de columnas donde se incluye la variable de bloqueo.
Se trata de bloquear un factor externo que probablemente tenga efecto en la respuesta
pero que no hay interés en probar su influencia, sólo se bloquea para minimizar la
variabilidad de este factor externo, evitando que contamine la prueba de igualdad entre
los tratamientos.
Las hipótesis son:
Ho: No hay diferencia en las medias del factor de columna
Ha: Al menos una media del factor de columna es diferente
Ho: No hay diferencia en las medias de la variable de renglón
Ha: Al menos una media de la variable de renglón es diferente

EJEMPLO

Suponiendo que se quiere investigar si la producción de tres diferentes máquinas es igual,


tomando en cuenta la experiencia de los operadores a un nivel de significancia del 5%.

Experienc Máquinas
ia de
operacion Máqui Máqui Máqui Promed
es en na 1 na 2 na 3 io
años

1 27 21 25 24.333

2 31 33 35 33

3 42 39 39 40

4 38 41 37 38.667

5 45 46 45 45.33

Promedio 36.6 36 63.2 36.267


s

TABLA ANOVA
SS GL CM Fc Falfa

SCTR= 0.933333 2 CMTR= 0.466667 Ftr = 0.09 4.46

Fbl =
SCBL= 764.9333 4 CMBL= 191.2333 37.25 3.84

SCE = 41.06667 8 CME= 5.133333

SCT = 806.9333 14 CMT= 57.6381

DISTRIBUCION 𝑋 2
Una medida de la discrepancia existente entre las frecuencias observadas y esperadas
viene proporcionada por el estadístico 𝑋 2 dado por:

𝑘 2
2
(01 − 𝑒1 )2 (02 − 𝑒2 )2 (0𝑘 − 𝑒𝑘 )2 (0𝑗 − 𝑒𝑗 )
𝑋 = + + ⋯+ = ∑
𝑒1 𝑒2 𝑒𝑘 𝑒𝑗
𝑗=1

Donde sí la frecuencia total es 𝑁1

∑ 𝑜𝑗 = ∑ 𝑒𝑗 = 𝑁

Una expresión equivalente a la formula (1)

𝑜𝑗2
𝑋2 = ∑ −𝑁
𝑒𝑗

Si 𝑋 2 = 0, las frecuencias observadas y teóricas coinciden completamente; mientras que


si 𝑋 2 > 0, no coinciden exactamente. A valores más grandes de 𝑋 2 , mayor discrepancia
entre las frecuencias observadas y esperadas.
La distribución muestral de 𝑋 2 se aproxima muy bien por la distracción Chi-cuadrado
1 1 2 1 2
(𝑣−2)
𝑌 = 𝑌𝑜 (𝑋 2 )2 𝑒 2 𝑥 = 𝑌𝑜 𝑋 𝑣−2 𝑒 −2 𝑥
Si las frecuencias esperadas son al menos iguales a 5, y mejora para valores más
grandes.
1. 𝑣 = 𝑘 − 1 si las frecuencias esperadas se pueden calcular sin tener que estimar
los parámetros de la población a partir de estadísticos muéstrales. Nótese que
hemos restado 1 de 𝑘 a causa de la ligadura (2), que establece que si conocemos
𝑘 − 1 de las frecuencias esperadas, la restante puede determinarse ya.
2. 𝑣 = 𝑘 − 1 − 𝑚 si las frecuencias esperadas se pueden calcular solo estimado 𝑚
parámetros de la población a partir de estadísticos de la muestra.

DISTRIBUCION CHI CUADRADO


La distribución de Pearson, llamada Chi cuadrado o Ji cuadrado, es una distribución de
probabilidad continua con un parámetro 𝑘 que representa los grados de libertad de la
variable.

Las pruebas chi-cuadrado son un grupo de contrastes de hipótesis que sirven para
comprobar afirmaciones acerca de las funciones de probabilidad (o densidad) de una o
dos variables aleatorias.

Estas pruebas no pertenecen propiamente a la estadística paramétrica pues no


establecen suposiciones restrictivas en cuanto al tipo de variables que admiten, ni en lo
que refiere a su distribución de probabilidad ni en los valores y/o el conocimiento de sus
parámetros.

Se aplican en dos situaciones básicas:

a) Cuando queremos comprobar si una variable, cuya descripción parece adecuada,


tiene una determinada función de probabilidad. La prueba correspondiente se
llama chi-cuadrado de ajuste.

b) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son


independientes estadísticamente. En este caso la prueba que aplicaremos ser la
chi-cuadrado de independencia o chi-cuadrado de contingencia.

PRUEBA DE FISHER

La prueba f se utiliza principalmente para probar la igualdad entre dos varianzas


poblacionales que provienen de poblaciones que tiene una distribución normal, también
se ha desarrollado un procedimiento basado en esta prueba para investigar la igualdad
entre tres o más medias poblacionales, procedimiento que comúnmente se denomina
(ANOVA)

El estadístico de prueba para la prueba F es la razón de los estimadores insesgados de


dos varianzas poblacionales

DETERMINACIÓN DE LOS GRADOS DE LIBERTAD


Los grados de libertad para el numerador y el denominador de la razón F se basan en los
cálculos necesarios para derivar cada estimación de la variancia de la población.
La estimación intermediarte de variancia (numerador) comprende la división de la suma
de las diferencias elevadas al cuadrado entre el número de medias (muestras) menos
uno, o bien, k - 1. Así, k - 1 es el número de grados de libertad para el numerador.
En forma semejante, el calcular cada variancia muestral, la suma de las diferencias
elevadas al cuadrado entre el valor medio de la muestra y cada valor de la misma se
divide entre el número de observaciones de la muestra menos uno, o bien, n - 1. Por
tanto, el promedio de las variancias muéstrales se determina dividiendo la suma de las
variancias de la muestra entre el número de muestras, o k. Los grados de libertad para el
denominador son entonces, k(n -l).

EJEMPLO
Calculando las medias aritméticas se obtiene:

Se llena la siguiente tabla para calcular las varianzas muéstrales:

Remplazando los datos en la fórmula de la varianza se obtienen las varianzas de las 4


muestras.
Calculando la estimación interna de varianza se obtiene:

Para calcular la estimación intermediante de varianza primero se calcular la varianza de


las medias aritméticas

Se llena la siguiente tabla:

Se remplaza los datos de la tabla para calcular varianza de las medias aritméticas
Calculando la estimación intermediante de varianza se obtiene:
CONCLUSION

Respecto al primer punto, no hace falta entrar en más detalle sobre la precisión de
medida de cualquier variable. Al no existir una precisión perfecta, o al poder haberse
incluido errores de otro tipo al contabilizar un fenómeno, siempre es necesario recurrir a
los instrumentos de la estadística de probabilidad para poder realizar análisis con cierta
garantía. Respecto al segundo punto, quizá el más interesante por específico en esta
técnica, el análisis de tablas de contingencia observará cuando efectivamente se dan
coincidencias asociativas entre los pares de combinaciones posibles en una tabla más
allá de aquellos que podrían haberse dado “por mera casualidad” o, dicho de otro modo,
en condiciones de independencia estadística entre ambas variables.
El análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la
media de un grupo de puntuaciones es distinta de la media de otro grupo de
puntuaciones.
BIBLIOGRAFIA
 Serie de Compendios Schaum, Teoría y Problemas de Probabilidad y
Estadística, Murray R. Spiegel.
 Schaum, Estadística (Segunda Edición), Murray R. Spiegel.
 http://pendientedemigracion.ucm.es/info/genetica/Estadistica/estadistica_ba
sica%202.htm
 http://www.monografias.com/trabajos91/prueba-hipotesis-f-fisher-
empleando-excel-y-winstats/prueba-hipotesis-f-fisher-empleando-excel-y-
winstats.shtml