Está en la página 1de 21

8.

ANLISIS DE DATOS CATEGRICOS


Dr. Edgar Acua http://math.uprm.edu/~edgar

Departmento de Matematicas Universidad de Puerto Rico- Mayaguez

Introduccin
El objetivo es analizar datos categricos, los cuales representan atributos o categoras. Primero se discuten la relacin entre las variables que definen las filas y las columnas de tablas de clasificacion cruzada y luego se estudian medidas que dan una idea del grado de asociacin entre las dos variables categricas. Finalmente se estudia la prueba de bondad de ajuste que permite ver si un conjunto de datos sigue una distribucin conocida agrupando previamente los datos en categoras.

Minitab 14

Edgar Acua Universidad de Puerto Rico

Pruebas de Independencia y Homogeneidad


Los datos se organizan en una tabla de doble entrada, llamada Tabla de contingencia, cuya forma general es la siguiente:
VAR B1 A1 VAR A A2 A3 O11 O21 O31 B2 O12 O22 O32 B3 O13 O23 O33 B Bc O1c O2c O3c Total R1 R2 R3

Ar
Total
Minitab 14

Or1
C1

Or2
C2

Or3
C3

Orc
Cc

Rr
n
3

Edgar Acua Universidad de Puerto Rico

Pruebas de Independencia y Homogeneidad


Oij es el nmero de sujetos que tienen las caractersticas Ai y Bj a la vez. Ri (i = 1,,r) es la suma de la i-sima fila de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Bi. Cj (j = 1,,c) es la suma de la j-sima columna de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Ai. n representa el total de observaciones tomadas. Existir o no relacin entre las variables A y B?, es decir si A y B son o no independientes. A y B sern independientes si cada entrada de la tabla es igual al producto de los totales marginales dividido entre el nmero de datos. Esto es si cumple, RC

Oij

n
4

Minitab 14

Edgar Acua Universidad de Puerto Rico

Ejemplo
A: El estudiante graduando consigue trabajo, B: Sexo del graduando. Uno puede estar interesado en comparar la proporcin de mujeres graduandas que consiguen trabajo con la proporcin de mujeres graduandas que no consiguen trabajo. Consideremos ahora la tabla:
A1 A2 Total

B1 B2 Total

10 5 15

6 16 22

16 21 37

Notar que los valores de la segunda fila estn en sentido contrario a los de la primera fila. O sea hay un efecto en la variable A al cambiar los valores de B, en consecuencia aqu s hay relacin entre las variables. Es bien obvio, tambin que la frmula de independencia no se cumple para ninguna de las entradas. Por otro lado las proporciones de los valores de la variable B no son los mismos en cada columna. Por ejemplo para B1 las proporciones son 10/15 versus 6/22.
Minitab 14 Edgar Acua Universidad de Puerto Rico 5

Pruebas de Independencia y Homogeneidad


Cuando consideramos que los valores de nuestra tabla han sido extrados de una poblacin, entonces nos interesara probar las siguientes dos hiptesis:
La prueba de Independencia, que se efecta para probar si hay asociacin entre las variables categricas A y B, y La prueba de Homogeneidad, que es una generalizacin de la prueba de igualdad de dos proporciones. En este caso se trata de probar si para cada nivel de la variable B, la proporcin con respecto a cada nivel de la variable A es la misma.
Minitab 14 Edgar Acua Universidad de Puerto Rico 6

Pruebas de Independencia y Homogeneidad


Las hiptesis de independencia son: Ho: No hay asociacin entre las variables A y B (hay independencia) Ha: S hay relacin entre las variables A y B Las hiptesis de Homogeneidad son: Ho: Las proporciones de cada valor de la variable A son iguales en cada columna. Ha: Al menos una de las proporciones para cada valor de la variable A no son iguales en cada columna.

Ambas hiptesis se prueban usando una prueba de Ji-Cuadrado:

Minitab 14

Edgar Acua Universidad de Puerto Rico

Pruebas de Independencia y Homogeneidad


Ambas hiptesis se prueban usando una prueba de Ji-Cuadrado:

2 i 1 i 1 c r

(Oij Eij ) 2 Eij

donde Oij es la frecuencia observada de la celda que est en la fila i, Ri C j E columna j, ij es la frecuencia esperada de la celda (i, j). n La frecuencia esperada es aquella que debe ocurrir para que la hiptesis nula sea aceptada. La prueba estadstica se distribuye como una Ji-Cuadrado con (r-1)(c-1) grados de libertad. La hiptesis Nula se rechaza si , donde es el nivel de significancia o equivalentemente si el p-value es menor que 0.05.
2 2 cal 1

Minitab 14

Edgar Acua Universidad de Puerto Rico

Tablas de Contingencia en MINITAB


Se usa la opcin Tables del men STAT, sta a su vez tiene un submen que contiene las opciones Cross Tabulation y Chi Square. La opcin Cross Tabulacion se usa en dos situaciones. La primera de ellas es cuando los datos estn dados en dos columnas, o sea como si hubiesen sido las contestaciones a dos preguntas de un cuestionario.

Minitab 14

Edgar Acua Universidad de Puerto Rico

Tablas de Contingencia en MINITAB


La segunda situacin donde Cross Tabulation es usada para hacer el anlisis de Ji-cuadrado, es cuando los datos ya estn resumidos en tablas con filas y Columnas. En este caso, para que MINITAB pueda hacer el anlisis se deben entrar los datos en 3 columnas. En una columna deben ir las frecuencias observadas en cada celda de la tabla y en las otras dos columnas deben ir los valores de las variables en filas y columnas que permitan identificar a qu celda le corresponde la frecuencia absoluta entrada.
Minitab 14 Edgar Acua Universidad de Puerto Rico 10

Notar que la opcin Chi-square analysis aparece seleccionada. Como se ha elegido la opcin above and expected count, la tabla de salida mostrar las frecuencias absolutas y las frecuencias esperadas de cada celda, en la ventanita de frecuencies are in: se asigna la columna conteo. Existe una ltima posibilidad de hacer el anlisis de la tabla de contingencia usando la opcin Chi-Square Test. En este caso se supone que las columnas de la tabla son entradas columna por columna en el worksheet de MINITAB.

Minitab 14

Edgar Acua Universidad de Puerto Rico

11

Ejemplo
Datos
SI Hombres Mujeres 10 15 NO 20 31 Abst 30 44

Resultados
Chi-Square Test Expected counts are printed below observed counts si no abst Total 1 10 20 30 60 10.00 20.40 29.60 2 15 15.00 31 30.60 44 44.40 90

Total

25

51

74

150

Chi-Sq = 0.000 + 0.008 + 0.005 + 0.000 + 0.005 + 0.004 = 0.022 DF = 2, P-Value = 0.989

Minitab 14

Edgar Acua Universidad de Puerto Rico

12

Medidas de Asociacin
Asumiendo que se rechaza la hiptesis Nula. Ho: No hay relacin entre las variables de la tabla, entonces el prximo paso es determinar el grado de asociacin de las dos variables categricas, para ello se usan las llamadas medidas de asociacin como: El Coeficiente de Contingencia: El Coeficiente de Cramer:

Minitab 14

Edgar Acua Universidad de Puerto Rico

13

El Coeficiente de Contingencia:
2 Se define por C n 2

donde 2 es el valor calculado de la prueba de Ji-Cuadrado y n es el nmero de datos. El valor de C vara entre 0 y 1. C = 0, significa que no hay asociacin entre las variables. C > .30, indica una buena asociacin entre las variables. Sin embargo hay que tomar en consideracin tambin el tamao de la tabla. Desventajas El coeficiente de contigencia no alcanza el valor de uno an cuando las dos variables sean totalmente dependientes. Su valor tiende a aumentar a medida que el tamao de la tabla aumenta.
Minitab 14 Edgar Acua Universidad de Puerto Rico 14

Ejemplo
Calcular el coeficiente de Cramer para la siguiente tabla, donde se trata de relacionar las variables: sobrevivir a un ataque cardaco y tener mascota (pet).
Tabulated Statistics Rows: status Columns: pet?

muere
vive All

no 11 5.93 28 33.07 39 39.00

si 3 8.07

All 14 14.00

50 78 44.93 78.00 53 53.00 92 92.00

Chi-Square = 8.851, DF = 1, P-Value = 0.003 En este caso r =2 y c =2, luego t es el menor de r-1=1 y c-1=1, asi t=1

Cramer's V-square 0.0962075 De donde: V = 0.310173

Interpretacin: Se concluye que existe buena asociacin entre tener mascota y sobrevivir a un ataque cardaco.
Edgar Acua Universidad de Puerto Rico 15

Minitab 14

El Coeficiente de Cramer
Se calcula por V
2
nt

donde t es el menor de los nmeros r-1 y c-1, aqu r representa el nmero de filas y c el nmero de columnas. V= 0 entonces, no hay asociacin entre las variables. V >.30 indica un cierto grado de asociacin entre las variables. El coeficiente de Cramer si alcanza un mximo de 1.

En el ejemplo anterior el coeficiente de Cramer es .1965, lo que reafirma que no existe buena asociacin entre las variables.

Minitab 14

Edgar Acua Universidad de Puerto Rico

16

Ejemplo
Calcular el coeficiente de Cramer para la siguiente tabla, donde se trata de relacionar las variables: sobrevivir a un ataque cardaco y tener mascota (pet).
Tabulated Statistics Rows: status Columns: pet?

muere
vive All

no 11 5.93 28 33.07 39 39.00

si 3 8.07

All 14 14.00

50 78 44.93 78.00 53 53.00 92 92.00

Data Display V 0.310172

Chi-Square = 8.851, DF = 1, P-Value = 0.003 En este caso r =2 y c =2, luego t es el menor de r-1=1 y c-1=1, asi t=1

Interpretacin: Se concluye que existe buena asociacin entre tener mascota y sobrevivir a un ataque cardaco.
17

Minitab 14

Edgar Acua Universidad de Puerto Rico

Prueba de Bondad de Ajuste


Otra aplicacin de la prueba de Ji-Cuadrado, es la prueba de Bondad de Ajuste. Aqu se trata de probar si los datos de una muestra tomada siguen una cierta distribucin predeterminada. Los n datos tomados deben estar divididos en categoras
Categora 1 2 3 K

Frecuencia observada

Obs1

Obs2

Obs3

Obsk

Se asume que las probabilidades pi, de caer en la categora i deben ser conocidas. La hiptesis nula es Ho: p1 = p10, p2 = p20 = = pk = pk0, es decir los datos siguen la distribucin deseada, y la hiptesis alterna es Ha: al menos una de las pi es distinta de la probabilidad dada pi0.

Minitab 14

Edgar Acua Universidad de Puerto Rico

18

Prueba de Bondad de Ajuste


Se asume que las probabilidades pi, de caer en la categora i deben ser conocidas. Ho: p1 = p10, p2 = p20 = = pk = pk0, es decir los datos siguen la distribucin deseada, y Ha: al menos una de las pi es distinta de la probabilidad dada pi0.
2 ( Obs np ) i io La prueba estadstica es: npio i 1 k

donde pio representa la proporcin deseada en la i-sima categora, Obsi la frecuencia observada en la categora i y n es el tamao de la muestra. La prueba estadstica se distribuye como una Ji-Cuadrado con k-1 grados de libertad donde, k es el nmero de categoras. Si el valor de la prueba estadstica es mayor que se rechaza la hiptesis nula.
Minitab 14 Edgar Acua Universidad de Puerto Rico 19

Ejemplo
Los siguientes datos representan los nacimientos por mes en PR durante 1993. Probar si hay igual probabilidad de nacimiento en cualquier mes del ao. Usar un nivel de significacin del 5%. 5435 4830 5229 4932 5052 5072 5198 5712 6126 5972 5748 5936 Solucin: Ho: Hay igual probabilidad de nacer en cualquier mes del ao ( p1 = p2 = = p12 = 1/12 = .083). Ha: no hay igual probabilidad de nacer en cualquier mes del ao. La ventana Session es como sigue:
MTB > let c3=sum(Obs)*p MTB > let c4=(Obs-c3)**2/c3 MTB > let k5=sum(c4) Esta es la prueba de Ji-Cuadrado para Bondad de ajuste MTB > print k5 Data Display K5 402.384
El valor de con 11 grados de libertad es 19.6751, se encuentra usando la opcin Probability distribution del men Calc. Interpretacin: Comparando el valor de la prueba estadstica con una Ji-Cuadrado con 11 grados de libertad y nivel de significacin del 5 por ciento que es 19.6751 se concluye que se rechaza la hiptesis nula, es decir no hay igual probabilidad de nacimiento para los meses.

Minitab 14

Edgar Acua Universidad de Puerto Rico

20

Ejemplo
Segn el ltimo censo se sabe que la distribucin porcentual del estado marital de las personas adultas en los Estados Unidos es como sigue De acuerdo al censo de 1990, en Puerto Rico se tiene la siguiente distribucin de personas adultas por estado marital: Se desea establecer si la distribucin del estado marital en Puerto Rico, es igual a la de los Estados Unidos. Usar un nivel de significacin del 5%.
Estados Unidos Soltero 30 Casado 40 Viudo 12 Divorciado 18

Puerto Rico Soltero Casado 811,291 1279,628

Viudo 198,553

Divorciado 189,346

Solucin: Ho: Los datos tomados en Puerto Rico siguen la misma distribucin de la de Estados Unidos, y Ha: Los datos no siguen la misma distribucin.
MTB > Let 'np' = sum(obs)*p MTB > Let '(Obs-np)^2/np' = (obs-np)**2/np MTB > Let k5 = sum('(Obs-np)^2/np') Esta es la prueba de Ji-Cuadrado MTB > print k5 Data Display K5 270598

Interpretacin: Claramente la prueba estadstica es mayor que una Ji-Cuadrado con 3 grados de libertad al nivel de significacin del 5 por ciento. Luego se rechaza la hiptesis nula y se concluye que la distribucin del estado marital en Puerto Rico es distinta a la de Estados Unidos. Edgar Acua Universidad de Puerto Rico 21

Minitab 14

También podría gustarte