Está en la página 1de 45

Semana 3

3. Tablas de Contingencia

Prof. Alejandro Saito Roncal

Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias

1. Introducción

El estudio de Variables Cualitativas
Considere ¿el tipo de profesión afecta al tipo de alimentación de las personas?
¿Cómo analizar la dependencia de estas variables?

Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias

1. Introducción

El Análisis de Variables Cualitativas

 La dependencia entre variables cuantitativas tiende a ejecutarse
comparando entre las medias y desviaciones estándar.
 Entre variables cualitativas, no se puede obtener estadísticos como la
media y la desviación estándar, por ello la dependencia entre variables
tiende a hacerse utilizando tablas de doble entrada o tablas de
contingencia.
 Las tablas de contingencia agrupan frecuencias para dos categorías
comunes de cada unidad de análisis.
 Luego se pueden obtener frecuencias relativas para cada intersección.

Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias

1. Introducción

El Análisis entre Otras Variables

Variable Variable Analizar con tablas de
Afecta a contingencia y coeficiente
Cualitativa Cualitativa
Ji-cuadrado de Pearson.

Analizar con medidas de
Variable Variable resumen (media y
Afecta a
Cualitativa Cuantitativa varianza) para cada
tratamiento.

Analizar con coeficientes
Variable Variable de correlación y ajuste de
Afecta a
Cuantitativa Cuantitativa datos a regresión simple o
múltiple.

Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias

 A partir de las frecuencias absolutas se pueden calcular frecuencias relativas en relación al subtotal de fila o columna. j: cualquier categoría en columnas. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . 2.  La variable independiente se coloca usualmente en las filas y la dependiente en la columna.  Considera el cálculo o numeración de frecuencias en las que coincidan dos categorías de dos variables de forma simultánea. k : número de categorías de la variable A (independiente) p : número de categorías de la variable B (dependiente) nij : frecuencia absoluta para la categoría i en fila y j en columna. Simbología: i : cualquier categoría en filas. se utilizan para evaluar la relación entre dos variables cualitativas. Tablas de Contingencia Características de Tablas de Contingencia  Consideradas como tablas de frecuencia cruzadas o tablas de doble entrada.

2. Tablas de Contingencia Forma de la Tabla de Contingencia Categorías B1 B2 … Bj … Bp Subtotal A1 n11 n12 … n1j … n1p n1* A2 n21 n22 … n2j … n2p n2* ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ Ai ni1 ni2 … nij … nip ni* ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ Ak nk1 nk2 … nkj … nkp nk* Subtotal n*1 n*2 … n*j … n*p n 𝑘 𝑝 𝑛∗𝑗 = 𝑛𝑖𝑗 𝑛𝑖∗ = 𝑛𝑖𝑗 𝑖=1 𝑗=1 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

etc.  Se puede evaluar también el efecto de una variable cuantitativa sobre otra cualitativa. pero requeriría agrupar la variable cuantitativa previamente en intervalos de clase. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Tablas de Contingencia Propósito de las Tablas de Contingencia  Sirven para evaluar la relación existente entre dos variables cualitativas.  Si todas las subpoblaciones tienen frecuencias relativas en filas similares a los de las demás subpoblaciones. Se puede analizar si una variable ejerce efecto sobre otra.  También sirven para dividir a la población total en diferentes subpoblaciones más homogéneas (por edad. origen. 2.) y describir el comportamiento de cada subpoblación respecto a una variable dependiente. nivel económico. se concluye que no hay relación entre las variables.

Tablas de Contingencia Ejemplo 1 Considere una encuesta donde se consulta a 18personas donde 9 son hombres y 9 son mujeres y se les consulta sobre sus preferencias de compras (como actividad lúdica) agrupadas en tres categorías: 1) comida. Transformar los datos a una tabla de contingencia y expresar los datos en forma de frecuencias. Evaluar si existe relación aparente entre el género de las personas y la preferencia de compra. 2) tecnología y 3) aspecto personal. 2. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Personal 5 personas de la muestra son de género 16 Femenino A. Personal Masculino y prefieren la compra de Tecnología. Personal Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Personal 5 Femenino Comida 6 Masculino Tecnología Preferencia de Compras 7 Masculino Comida 8 Femenino A. 2. 17 Masculino Tecnología 18 Femenino A. Personal Género Comida Tecnología A. Personal Subtotal 9 Femenino Tecnología Masculino 3 5 1 9 10 Femenino A. Personal 11 Masculino Tecnología Femenino 1 2 6 9 12 Femenino Tecnología Sub total 4 7 7 18 13 Masculino Tecnología 14 Femenino A. Tablas de Contingencia Nº Encuesta Género Preferencia 1 Masculino Comida Transformando a 2 Masculino Tecnología Frecuencias 3 Masculino Comida 4 Femenino A. Personal 15 Masculino A.

15 y 25% de sustitución de harina de trigo por lúcuma. Tablas de Contingencia Ejemplo 2 Se analizó el efecto del porcentaje de sustitución de harina de lúcuma en pan de labranza. 2. y (4) sabor intenso. Estos panes se entregó a 50 panelistas los cuales calificaron la percepción del sabor de lúcuma en cada pan en 4 niveles: (1) sabor imperceptible. (3) sabor perceptible. Se elaboró 3 tipos de pan con diferente porcentaje de sustitución: 5. (2) sabor poco perceptible. Interpretar la tabla de frecuencia cruzada mostrada a continuación. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Percepción del sabor de lúcuma Sustitución Subtotal Imperceptible Poco Perceptible Perceptible Intenso 5% 36 10 3 1 50 15% 15 27 7 1 50 25% 2 5 24 19 50 Subtotal 53 42 34 21 150 15 personas de la muestra calificaron 24 personas de la muestra calificaron el pan con 15% de sustitución con el pan con 25% de sustitución con sabor imperceptible. Perfiles en Fila y Columna 10 personas de la muestra calificaron Ejemplo 2 el pan con 5% de sustitución con sabor poco perceptible. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . 3. sabor perceptible.

nio : subtotal de la fila i pj/i : porcentaje de la categoría j perteneciente a la fila i. 3. Perfiles en Fila y Columna Porcentajes en Fila Al igual que en tablas de frecuencia simple se pueden calcular frecuencias relativas con cada frecuencia absoluta. El porcentaje en fila o "frecuencia relativa en la misma fila" se define como: 𝑛𝑖𝑗 𝑝𝑗/𝑖 = 𝑛𝑖∗ Donde: nij : frecuencia absoluta para la categoría i en fila y j en columna. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Perfiles en Fila y Columna Porcentajes en Columna Al igual que en los porcentajes en fila se puede calcular los porcentajes en columna "frecuencia relativa en la misma columna". 3. 𝑛𝑖𝑗 𝑝𝑖/𝑗 = 𝑛∗𝑗 Donde: nij : frecuencia absoluta para la categoría i en fila y j en columna. noj : subtotal de la columna j pi/j : porcentaje de la categoría i perteneciente a la columna j. y ambos sirven para analizar de forma más objetiva la relación entre dos variables cualitativas. Es más fácil de interpretar el porcentaje en fila.

3. ¿Se puede concluir que existe relación entre el porcentaje de sustitución de harina de lúcuma y la percepción del sabor de lúcuma en estos productos? Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Perfiles en Fila y Columna Ejemplo 3 De los datos mostrados en el ejemplo 2 calcular los porcentajes en fila y columna e interpretarlos.

0 14.0 54. sabor poco perceptible. Percepción del sabor de lúcuma Sustitución Subtotal Imperceptible Poco Perceptible Perceptible Intenso 5% 36 10 3 1 50 %Fila 72.0 2.0 38.0 15% 15 27 7 1 50 %Fila 30.0 48. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . 3.0 6.0 2.0 Subtotal 155 116 54 25 350 El 72% de panes con 5% de El 54% de panes con 15% de sustitución tuvieron una sustitución tuvieron una calificaron de calificaron de sabor imperceptible.0 25% 2 5 24 19 50 %Fila 4. Perfiles en Fila y Columna El 38% de panes con 25% de sustitución tuvieron una Ejemplo 2 calificaron de sabor intenso.0 10.0 20.

8 25% 2 5 24 19 50 %Columna 3.3 20.9 23.3 64. sustitución.5% de panes calificados de sabor intenso son del 25% de sustitución de Ejemplo 2 harina.8 11. Perfiles en Fila y Columna El 90.9% de panes calificados de sabor El 64.8 15% 15 27 7 1 50 %Columna 28.9 70.3% de panes calificados de sabor imperceptible fueron del 5% de poco perceptible fueron del 15% de sustitución. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .8 8. 3.8 4.6 4.5 Subtotal 53 42 34 21 150 El 67. Percepción del sabor de lúcuma Sustitución Subtotal Imperceptible Poco Perceptible Perceptible Intenso 5% 36 10 3 1 50 %Columna 67.6 90.

• Si al menos un gráfico de barras tiene una frecuencia relativa muy diferente decimos que sí hay relación entre las variables. • Si todos los gráficos de barras son similares entonces se dice que no hay relación entre las variables. donde en el eje horizontal se encuentren las categorías de la variable presuntamente independiente. 3.  Para evaluar la relación entre las dos variables se compara el gráfico de barras de cada subpoblación. Perfiles en Fila y Columna Sugerencias para la Construcción de Tablas  Las tablas de contingencia sirven para evaluar la relación entre dos variables preferentemente cualitativas.  Se sugiere crear gráficos de barras para las frecuencias relativas en filas. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Se muestran en todos los casos los porcentajes en fila y sus histogramas respectivos. superior y pos grado. redes sociales. así como el p-valor de la prueba Ji-cuadrada de Pearson. internet y llamadas. 4. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Interpretar las tablas y la existencia de relación entre las dos variables indicadas. Interpretación de Tablas Ejemplo 4 Las siguientes tablas de contingencia muestran la relación entre las variables:  Situación académica de un estudiante: categorizadas como de nivel secundario.  Principal uso que hace de su celular: categorizados como juegos.

0 8. p-valor = 0.5 19.0 100 Superior 15 185 52 22 274 5.0 100 Pos Grado 8 12 13 210 243 3.0000) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 39 41 138 9 227 17. 4.2 18.9 5. Interpretación de Tablas Caso 1 (X2 Pearson.3 86.8 4.1 60.3 4.4 100 Subtotal 62 238 203 241 944 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .5 67.

4. Interpretación de Tablas Caso 1 250 200 150 100 50 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

4 100 Pos Grado 52 41 42 25 160 32.5 30. 4.6 31. Interpretación de Tablas Caso 2 (X2 Pearson.6 26. p-valor = 0.5075) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 44 38 51 28 161 27.7 17.4 100 Superior 49 51 47 19 166 29.3 23.7 28.6 100 Subtotal 145 130 140 72 687 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .3 11.3 15.5 25.

Interpretación de Tablas Caso 2 60 50 40 30 20 10 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . 4.

0000) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 19 141 11 25 196 9. Interpretación de Tablas Caso 3 (X2 Pearson.6 12.9 5.9 100 Pos Grado 56 41 39 23 159 35.4 12.3 26. 4. p-valor = 0.8 24.4 31.5 100 Subtotal 123 233 93 69 718 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .2 25.5 14.8 100 Superior 48 51 43 21 163 29.7 71.

4. Interpretación de Tablas Caso 3 160 140 120 100 80 60 40 20 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

p-valor = 0.5 43.4 40.5 7.4 38. Interpretación de Tablas Caso 4 (X2 Pearson.3 41.0 9. 4.8 100 Subtotal 82 126 124 75 607 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .0000) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 59 52 11 8 130 45.7 100 Pos Grado 8 12 58 56 134 6.0 43.5 6.0 8.2 100 Superior 15 62 55 11 143 10.

4. Interpretación de Tablas Caso 4 70 60 50 40 30 20 10 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

5 9.2 8. p-valor = 0.0 17.0000) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 62 13 75 8 158 39.9 62. Interpretación de Tablas Caso 5 (X2 Pearson. 4.5 5.4 8.2 47.2 40.1 100 Superior 15 85 24 13 137 10.5 100 Pos Grado 8 12 59 68 147 5.1 46.3 100 Subtotal 85 110 158 89 642 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Interpretación de Tablas Caso 5 90 80 70 60 50 40 30 20 10 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . 4.

0 10.0 100 Subtotal 37 210 128 53 628 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .6 12.0 30.1 30.0 100 Pos Grado 9 69 39 13 130 6.9 53.1 47.6 29. p-valor = 0.8911) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 13 63 41 17 134 9. 4.3 14.7 100 Superior 15 78 48 23 164 9.7 47. Interpretación de Tablas Caso 6 (X2 Pearson.

4. Interpretación de Tablas Caso 6 90 80 70 60 50 40 30 20 10 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

0000) Uso del celular Situación Académica Redes Juegos Internet Llamadas Subtotal Sociales Secundaria 68 58 49 5 180 37.2 27.4 17.7 100 Pos Grado 9 25 18 89 141 6.8 32.5 5.8 63. p-valor = 0.2 40.2 2.6 49. Interpretación de Tablas Caso 7 (X2 Pearson.7 12.1 100 Subtotal 85 161 162 105 713 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .8 100 Superior 8 78 95 11 192 4. 4.

4. Interpretación de Tablas Caso 7 100 90 80 70 60 50 40 30 20 10 0 Secundaria Superior Pos Grado Juegos Redes Sociales Internet Llamadas Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Coeficiente de Pearson Interpretación del Coeficiente de Correlación de Pearson Prueba X2 (Chi.Cuadrada para calcular una probabilidad o p-valor .Cuadrada) de Pearson  Es una prueba no paramétrica utilizada para evaluar la interdependencia entre variables cuando sus frecuencias están expresadas en tablas de contingencia.05 H0 (hipótesis alternativa): sí hay relación entre las variables Es válida si el p-valor < 0.05 Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .  La prueba utiliza una distribución denominada Ji. 5. en base a la cual se evalúa la validez entre dos ideas o hipótesis: H0 (hipótesis nula): no hay relación entre las variables Es válida si el p-valor > 0.

Interpretación de Tablas Ejemplo 5 De la base de datos “Datos consumo de encuesta de pan” evaluar el efecto de la variable “nivel económico” sobre “el lugar de compra” en la muestra de encuestados en base a una tabla de contingencia. Evaluar si hay evidencia suficiente para asegurar que el nivel económico afecta al lugar donde las personas compran el pan. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Utilizar el programa STATISTICA para este fin. 4.

.

Dar clic en “Specify tables (select variables)” y en List 1 colocamos la variable independiente y en List 2 la variable dependiente. Dar OK .

Dar clic en “Summary: Review Summary Tables” para ver la tabla de Contingencia. pero sólo ver las frecuencias. .

 35 personas de toda la muestra compran el pan en una bodega. Interpretación:  25 personas de la muestra son de la categoría “de 1000 a 2500 soles” y marcaron como lugar de compra la “panadería”.  64 personas de toda la muestra pertenecen a la categoría “menos de 1000 soles”.  19 personas de la muestra pertenecen a la categoría “de 2500 a 3500 soles” y marcaron como lugar de compra el “supermercado”. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

.Para ver los porcentajes en filas vamos a las opciones de cálculo y en la pestaña options marcamos “Percentages of row counts” y “Pearson & ML Chi Square”.

Luego regresamos a la pestaña Advanced y damos clic en el botón “Detailed two-way tables” y de paso en “categorized histograms” para ver los gráficos de barras. .

 El 47.17 % de personas de la muestra del nivel económico “de 1000 a 2500” compran el pan en una panadería.44 % de personas de la muestra del nivel económico “menos de 1000” compran el pan en una bodega. Interpretación:  El 48. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .  El 41.30% de personas de la muestra del nivel económico “De 2500 a 3500” compran el pan en el supermercado.

000. Interpretación:  En el índice ML-Chi Square.05 significa que sí hay una dependencia entre las variables “nivel económico” y “lugar de compra”. el 2do compra en panaderías y el 3ro compra en supermercados: a diferente nivel económico la población compra el pan en un lugar diferente.  Esto puede confirmarse en la tabla cuando se ve que la mayor parte del 1er nivel económico compra en bodegas. Es más podríamos decir que el nivel económico afecta al lugar de compra de los panes en la población.  Como este valor es menor de 0. aparece un p-valor de 0. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

hay un lugar diferente donde la mayor cantidad de personas compra el pan: hay dependiencia. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias . Categorized Histogram: Nivel Económico x Lugar de Compra 35 30 25 20 15 10 5 0 Otro Otro Bodega Bodega Panadería Panadería Venta en casa Venta en casa Supermercado Supermercado Nivel Económico: Menos de1000 Nivel Económico: De 1000 a 2500 35 30 No of obs 25 20 15 10 5 0 Otro Otro Bodega Bodega Panadería Panadería Venta en casa Venta en casa Supermercado Supermercado Nivel Económico: De 2500 a 3500 Nivel Económico: Más de 4500 Lugar de Compra De estos histogramas se observa que en diferentes niveles económicos.

Interaction Plot: Nivel Económico x Lugar de Compra 40 Nivel Económico Menos de1000 35 Nivel Económico De 1000 a 2500 Nivel Económico De 2500 a 3500 30 Nivel Económico Más de 4500 25 20 15 Frequencies 10 5 0 -5 Venta en casa Bodega Panadería Supermercado Otro Lugar de Compra Este gráfico presenta picos máximos en cada nivel económico: a diferentes niveles económicos hay diferentes picos de frecuencia para los lugares de compra. Estadística General – Ciclo IV 2017 Ingeniería de Industrias Alimentarias .

Estadística General – Ciclo 2016 II Ingeniería de Industrias Alimentarias . Semana 3 Actividad Elabora el instrumento para la recopilación de información de una población.